首页/Blog/给新手看的 Robots.txt 说明

10 分钟阅读

给新手看的 Robots.txt 说明

了解 robots.txt 文件到底做什么、做不了什么,以及如何为小网站创建一个干净版本而不误伤重要页面。

发布于 2026-04-07更新于 2026-04-07By Badr.A
展示爬虫规则和 robots.txt 布局的插图
自然语音朗读目前仅适用于英文博客文章。
文章导览

目录

无需滚动整篇文章,直接跳转到你想看的部分。

05
部分

Robots.txt 实际上做什么

Robots.txt 会向搜索引擎爬虫提供抓取指引。它告诉遵守规则的爬虫,网站哪些部分可以抓取,哪些部分不应请求。这对避免把爬取资源浪费在你不希望强调的路径上很有帮助。

但它并不能安全地隐藏私密内容。如果某些内容绝对不能公开访问,robots.txt 不是保护方式。它是爬虫指令文件,不是访问控制系统。

为什么新手常把 robots.txt 搞复杂

很多小网站根本不需要复杂的 robots.txt。问题通常出在有人从别的网站复制一大段模板,却并不理解每条规则的作用。

这样很容易误封重要页面、资源文件或目录。更简单的文件往往更安全,因为它反映的是你真实的网站结构,而不是一份通用清单。

小网站通常真正需要什么

大多数小网站只需要很少几条指令。如果你希望搜索引擎抓取主要内容,而且已经有 sitemap,这个文件本身可以非常短。

很多情况下,最有价值的一项内容就是 sitemap 地址。这能帮助发现页面,也让整个文件更实用,而不是装饰性的。

  • 允许访问正常公开页面。
  • 只在必要时屏蔽低价值或纯操作型路径。
  • 加入 sitemap 位置。
  • 让规则易于理解和维护。

会引发索引混乱的错误

常见错误之一,是试图用 robots.txt 把内容从搜索结果里移除。另一个错误,是阻止 JavaScript、CSS 或帮助搜索引擎理解页面的关键资源。

第三个错误,是网站变更后还保留旧规则。网站结构一旦变化,爬虫文件也应该一并复查,否则旧规则可能会与当前结构冲突。

更安全的创建方式

应该围绕你真实拥有的网站来写 robots.txt。先从最少需要的规则开始,只有在确实有理由时才扩展。如果需要一个干净起点,可以使用 robots.txt generator,再逐条确认每个指令都对应真实路径和真实用途。

对于小网站来说,清晰比复杂重要。一份短而正确的文件,比一份从别处复制来的长文件更好。

常见问题

有用的答案

Robots.txt 能把页面完全挡在 Google 之外吗?

不可靠。它控制的是爬虫访问,而不是等同于 noindex 或真正的私密访问控制。

所有网站都需要 robots.txt 吗?

不一定,但很多网站拥有一个简单版本会更有帮助,尤其是你还想把爬虫指向 sitemap 的时候。

我应该在 robots.txt 里屏蔽后台路径吗?

可以减少对纯后台路径的抓取,但这些区域仍然应该通过真正的安全措施保护,而不是依赖 robots.txt。