PROSAGA码农传奇-机器人-Google：在robots.txt中禁用某些查询字符串

Google：在robots.txt中禁用某些查询字符串

作者: 無口君
发布时间: 2024-12-10 11:36:31 (1月前)
转自：

<div class =“post-text”itemprop =“text”>
  
    Google支持robots.txt中的通配符。 robots.txt中的以下指令会阻止Googlebot抓取任何包含任何参数的网页：
  
   <pre>
 <code>
 Disallow: /*?

</code>
 </pre>
  
    这不会阻止许多其他蜘蛛抓取这些网址，因为通配符不是标准robots.txt的一部分。
  
  
    Google可能会花时间从搜索索引中删除您阻止的网址。额外的URL可能仍会被索引数月。您可以在网站管理员工具被阻止后使用“删除网址”功能来加快处理速度。但这是一个手动过程，您必须粘贴每个要删除的URL。
  
  
    在Googlbot找不到没有参数的网址版本的情况下，使用此robots.txt规则也可能会损害您网站的Google排名。如果您通常链接到带参数的版本，您可能不希望在robots.txt中阻止它们。最好使用下面的其他选项之一。
  
  <HR />
  
    更好的选择是使用
    <a href="http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html">
      rel规范元标记
    </A>
     在每个页面上。
  
  
    因此，您的示例网址在head部分中将包含以下内容：
  
   <pre>
 <code>
 <link rel="canonical" href="http://www.site.com/shop/maxi-dress">

</code>
 </pre>
  
    这告诉Googlebot不要索引页面的这么多变体，只是索引你选择的URL的“规范”版本。与使用robots.txt不同，Googlebot仍然可以抓取您的所有网页并为其分配价值，即使他们使用各种网址参数也是如此。
  
  <HR />
  
    另一种选择是登录
    <a href="https://www.google.com/webmasters/tools/">
      Google网站管理员工具
    </A>
     并使用“抓取”部分中的“网址参数”功能。
  
  
    在那里，单击“添加参数”。您可以将“product_type”设置为“不影响页面内容”，以便Google不会使用该参数对网页进行抓取和索引。
  
  
    <img src =“https://i.stack.imgur.com/CH6JU.png”alt =“在此处输入图片说明”/>
  
  
    对于您使用的不更改页面的每个参数执行相同操作。
  
</DIV>