5. sitemap及robots.txt 的作用

Author: 影子 14 views

sitemap的作用:帮助 Google 找到您的内容

要让网站显示在 Google 搜索结果中,首要步骤便是确保 Google 能够找到它。最好的办法是提交站点地图。站点地图是网站上的一种文件,可告知搜索引擎网站上新增了哪些网页或有哪些网页进行了更改。详细了解如何构建和提交站点地图

Google 还会通过其他网页上的链接找到您的网页。了解如何通过宣传您的网站来吸引用户发现您的网站。

Robots.txt的作用:告诉 Google 您不希望抓取哪些网页

对于非敏感信息,可以使用 robots.txt 阻止不必要的抓取

robots.txt 文件会告诉搜索引擎是否可以访问您网站的各个部分并抓取这些内容。此文件必须命名为 robots.txt,且必须位于网站的根目录下。被 robots.txt 阻止的网页也可能会被抓取,因此请使用更安全的方法保护敏感网页。

# brandonsbaseballcards.com/robots.txt # Tell Google not to crawl any URLs in the shopping cart or images in the icons folder, # because they won’t be useful in Google Search results. User-agent: googlebot Disallow: /checkout/ Disallow: /icons/

您可能不希望网站的某些页面被抓取,因为这些页面显示在搜索引擎的搜索结果中可能对用户无用。如果您希望阻止搜索引擎抓取您的网页,Google Search Console 可提供便捷的 robots.txt 生成器帮助您创建此文件。请注意,如果您的网站使用了子网域,并且您希望 Google 不要抓取特定子网域上的某些网页,那么您必须为该子网域单独创建一个 robots.txt 文件。若想详细了解 robots.txt,建议参阅使用 robots.txt 文件指南。

*应避免的做法:

  • 允许 Google 抓取内部搜索结果页。用户不喜欢点击搜索引擎结果后却又被转到您网站上的另一个搜索结果页。
  • 允许抓取因代理服务而创建的网址。

对于敏感信息,请使用更安全的方法

要阻止用户访问敏感或机密信息,robots.txt 并不是一个适当或有效的方式。它只会告知运行得体的抓取工具不要抓取相应网页,却不会阻止服务器将这些网页发送给请求它们的浏览器。其中一个原因是:如果互联网上的某处(例如引荐来源网址日志)恰好存在指向这些被禁止访问的网址的链接,那么搜索引擎仍然能够引用这些网址(仅显示网址,但不显示标题或摘要)。此外,未同意遵守《漫游器排除标准》的不合规搜索引擎或流氓搜索引擎可能会违反您的 robots.txt 文件中的指令。最后,用户可能会出于好奇查看 robots.txt 文件中的目录或子目录,并猜测您不想让人看见的内容的网址。

在这些情况下,如果您只是希望网页不显示在 Google 中,并不介意任何用户会通过链接访问该网页,则可使用 noindex 标记。为了确保绝对安全,请使用合适的授权方法(例如需要用户密码才能访问)或将网页从网站上彻底移除。

Leave a Comment