10 分钟阅读

给新手看的 Robots.txt 说明

了解 robots.txt 文件到底做什么、做不了什么，以及如何为小网站创建一个干净版本而不误伤重要页面。

发布于 2026-04-07更新于 2026-04-07By Badr.A

自然语音朗读目前仅适用于英文博客文章。

文章导览

Robots.txt 实际上做什么

Robots.txt 会向搜索引擎爬虫提供抓取指引。它告诉遵守规则的爬虫，网站哪些部分可以抓取，哪些部分不应请求。这对避免把爬取资源浪费在你不希望强调的路径上很有帮助。

但它并不能安全地隐藏私密内容。如果某些内容绝对不能公开访问，robots.txt 不是保护方式。它是爬虫指令文件，不是访问控制系统。

很多小网站根本不需要复杂的 robots.txt。问题通常出在有人从别的网站复制一大段模板，却并不理解每条规则的作用。

这样很容易误封重要页面、资源文件或目录。更简单的文件往往更安全，因为它反映的是你真实的网站结构，而不是一份通用清单。

大多数小网站只需要很少几条指令。如果你希望搜索引擎抓取主要内容，而且已经有 sitemap，这个文件本身可以非常短。

很多情况下，最有价值的一项内容就是 sitemap 地址。这能帮助发现页面，也让整个文件更实用，而不是装饰性的。

常见错误之一，是试图用 robots.txt 把内容从搜索结果里移除。另一个错误，是阻止 JavaScript、CSS 或帮助搜索引擎理解页面的关键资源。

第三个错误，是网站变更后还保留旧规则。网站结构一旦变化，爬虫文件也应该一并复查，否则旧规则可能会与当前结构冲突。

应该围绕你真实拥有的网站来写 robots.txt。先从最少需要的规则开始，只有在确实有理由时才扩展。如果需要一个干净起点，可以使用 robots.txt generator，再逐条确认每个指令都对应真实路径和真实用途。

对于小网站来说，清晰比复杂重要。一份短而正确的文件，比一份从别处复制来的长文件更好。

有用的答案

不可靠。它控制的是爬虫访问，而不是等同于 noindex 或真正的私密访问控制。

不一定，但很多网站拥有一个简单版本会更有帮助，尤其是你还想把爬虫指向 sitemap 的时候。

可以减少对纯后台路径的抓取，但这些区域仍然应该通过真正的安全措施保护，而不是依赖 robots.txt。