4.如何使用抓取工具

Author: 影子 11 views

请求 Google 重新抓取您的网址

如果您最近向网站添加了新网页或对网站中的现有网页进行了更改,则可以使用下列任一方法请求 Google 将该网页重新编入索引。您无法请求将不受您管理的网址编入索引。

☆ 您是否使用了托管式内容管理平台(例如 Blogger 或 WordPress)?在大多数情况下,内容管理平台会自动将您的新内容提交给搜索引擎。请查看相应平台的支持文章。

常规指南

  • 抓取用时可能会从几天到几周不等。请耐心等待,并通过索引状态报告网址检查工具监控进度。
  • 本文所述的所有方法的响应用时大致相同。
  • 提交单个网址时有配额限制。
  • 多次请求重新抓取同一网址或站点地图并不会缩短其抓取用时。

请求抓取的方法

使用网址检查工具(若网址数量不多)

注意:您必须是 Search Console 资源的所有者或完整权限用户,才能在网址检查工具中请求将相应网址编入索引。

您可以使用网址检查工具请求抓取单个网址。请注意,如果您有大量网址,请改为提交站点地图

若要将网址提交至索引系统,请执行以下操作

  1. 遵循常规指南
  2. 使用网址检查工具检查网址
  3. 选择请求编入索引。该工具会对网址进行实时测试,检查网址是否存在任何明显的索引编制问题。如果不存在,此网页将加入索引编制队列。如果该工具发现网页存在问题,请尝试修正这些问题。

☆ 请求抓取并不能保证系统会立即将网页收录到搜索结果中,甚至不能保证系统会收录该网页。我们的系统会优先快速收录优质、实用的内容。

提交站点地图(一次提交多个网址)

站点地图是让 Google 发现您网站上网址的重要渠道。站点地图也可包含与备用语言版本、视频、图片或新闻网页相关的其他元数据。

验证 Googlebot

您可以验证访问您服务器的网页抓取工具是否确实是 Googlebot(或其他 Google 用户代理)。如果您担心自称是 Googlebot 的垃圾内容发布者或其他麻烦制造者在访问您的网站,则会发现该方法非常有用。Google 不会发布一个公开的 IP 地址列表供网站所有者添加到许可名单。这是因为这些 IP 地址范围可能会发生变化,从而给已对其进行硬编码的网站所有者带来麻烦。因此,您必须按照下述方法运行 DNS 查找。

验证抓取工具是否为 Googlebot

使用命令行工具

  1. 使用 host 命令对日志中访问服务器的 IP 地址运行 DNS 反向查找。
  2. 验证域名是 googlebot.com 还是 google.com
  3. 使用 host 命令对在第 1 步中检索到的域名运行 DNS 正向查找。验证该域名与日志中访问服务器的原始 IP 地址是否一致。

示例 1

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

示例 2

> host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

> host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

减慢 Googlebot 的抓取速度

Google 会通过先进的算法确定最佳的网站抓取速度。我们的目标是,每次访问您的网站时都尽可能多地抓取网页,但不会过多地占用服务器的带宽。在某些情况下,Google 抓取您的网站可能会给您的基础架构带来沉重负载,或在服务中断期间带来不必要的成本。为了避免这种情况,您可以决定减少 Googlebot 发出的请求数量。

警告:减慢 Googlebot 的抓取速度将会产生广泛的影响,请谨慎考虑。此举的影响包括:Googlebot 发现的新网页数量会减少,现有网页的刷新频率会降低(例如,价格和商品库存状况可能需要更长时间才能体现在 Google 搜索中),被移除的网页保留在索引中的时间可能会更长。

如果您决定减慢 Googlebot 的抓取速度,可以采用以下方法:

通过 Search Console 减慢抓取速度(推荐做法)

如需快速减慢抓取速度,您可以在 Search Console 中更改 Googlebot 抓取速度。对此设置所做的更改通常会在几天内得以体现。如需使用此设置,请先验证您的网站所有权。设置抓取速度时,请务必避免将速度值设得过低,导致无法满足您网站的需求。详细了解抓取预算对 Googlebot 而言有何意义

让 Google 自动减慢抓取速度

如果您急需让抓取速度在短时间(如几个小时或 1-2 天)内减慢,应该返回包含 500、503 或 429 HTTP 结果代码(而非所有内容)的信息性错误页面。在遇到大量包含 500、503 或 429 HTTP 结果代码的网址时(例如,如果您停用了您的网站),Googlebot 会减慢对您网站的抓取速度。这项更改会在 Googlebot 抓取返回这些错误的网址以及整个网站时体现出来。这些错误的数量减少后,抓取速度会自动重新开始提升。

警告:我们不建议您长时间(即超过 1-2 天)这么做。因为如果 Googlebot 一连数天在同一网址上发现上述状态代码,可能会将该网址从 Google 索引中移除。

Leave a Comment