3. Google 是如何理解网页的?

Author: 影子 11 views

Google之所以能理解网页,就是因为有元标记,Google 既支持网页级元标记也支持内嵌指令,可以根据这些指令和标记判断如何在 Google 搜索结果中显示您网站的网页。

网页级元标记是网站所有者向搜索引擎提供网站相关信息的绝佳方法。您可以使用元标记为各种类型的客户端提供信息,但每个系统只会处理它可以识别的元标记,而将其余元标记全部忽略。元标记应添加到 HTML 网页的 <head> 部分,通常如下所示:

Example Books – high-quality used books for children

Google 可识别以下元标记(该列表并不详尽):

需要注意的其他事项

  • 无论网页采用的是哪种代码,Google 都能读取 HTML 和 XHTML 样式的元标记。
  • 除了 google-site-verification 外,其他元标记的大小写通常无关紧要。
  • 此列表并未列出所有的元标记。如果其他元标记对您的网站很重要,您可以使用这些元标记,但 Google 会忽略它不知道的元标记。

内嵌指令

您可以在网页级元标记之外单独指定在摘要中排除 HTML 网页的某些部分。为此,您可以将 data-nosnippet HTML 属性添加到某个受支持的 HTML 标记中:

  • span
  • div
  • section

例如:

This text can be included in a snippet and this part would not be shown.

如何阻止搜索引擎编入索引?

若想阻止某个网页出现在 Google 搜索结果中,您可以在该网页的 HTML 代码中添加 noindex 元标记,或在 HTTP 响应中返回 noindex 标头。当 Googlebot 下次抓取该网页并发现该标记或标头时,就会完全阻止该网页出现在 Google 搜索结果中,不论是否有其他网站链接到该网页。

重要提示:为让 noindex 指令生效,网页不得被 robots.txt 文件屏蔽,并且必须能被抓取工具访问。如果该网页被 robots.txt 文件屏蔽或抓取工具无法访问该网页,那么抓取工具将永远无法看到 noindex 指令,因此该网页可能仍会显示在搜索结果中,例如,如果有其他网页链接到该网页的话。

如果您不具备对服务器的根访问权限,可借助非常实用的 noindex 控制对您网站中各个网页的访问权限。

实施 noindex

实施 noindex 的方法有两种:将其作为元标记实施,或作为 HTTP 响应标头实施。这两种方法的效果相同,从中选择更方便您网站采用的那一种方法即可。

<meta> 标记

若想阻止大部分搜索引擎网页抓取工具将您网站中的某个网页编入索引,请将以下元标记放入该网页的 <head> 部分中:

<meta name="robots" content="noindex">

若想仅阻止 Google 网页抓取工具将网页编入索引,请使用以下元标记:

<meta name="googlebot" content="noindex">

请注意,某些搜索引擎网页抓取工具对 noindex 指令可能会有不同的解读。因此,您的网页可能仍会出现在其他搜索引擎的结果中。

HTTP 响应标头

除了使用元标记,您还可在响应中返回一个值为 noindex 或 none 的 X-Robots-Tag 标头。下面是一个 HTTP 响应示例,它含有一个 X-Robots-Tag,用来指示抓取工具不要将某一网页编入索引:

HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)

Leave a Comment