10分で読めます
初心者向け Robots.txt の基本
robots.txt ファイルが何をできて何はできないのか、そして大事なページを誤って塞がずに小規模サイト向けの整理された内容を作る方法を理解します。
目次
記事全体をスクロールせずに、読みたいセクションへすぐ移動できます。
robots.txt が実際にしていること
robots.txt ファイルは検索エンジンのボットに対してクロール方針を伝えます。準拠するクローラーに、サイトのどの部分を取得してよいか、または避けるべきかを示します。これにより、強調したくないページやパスにクロールが浪費されるのを防ぎやすくなります。
ただし、非公開コンテンツを安全に隠す仕組みではありません。本当に公開してはいけないものがあるなら、robots.txt は保護方法にはなりません。これはアクセス制御ではなく、クローラー向けの指示ファイルです。
初心者が複雑にしすぎやすい理由
多くの小規模サイトに複雑な robots.txt は必要ありません。問題は、各ルールの意味を理解しないまま、別サイトの大きなテンプレートを丸ごとコピーしたときに起きがちです。
その結果、重要なページやアセット、ディレクトリまで誤ってブロックしてしまうことがあります。より単純なファイルのほうが、一般論ではなく実際のサイト構造を反映しているぶん安全なことが多いです。
小規模サイトで通常必要なもの
大半の小規模サイトで必要なのは、ごく少数の指示だけです。主要コンテンツを検索エンジンにクロールしてほしくて、さらにサイトマップを用意しているなら、ファイルはかなり短く保てます。
多くの場合、最も有用なのはサイトマップの場所を示すことです。それだけで発見性が上がり、装飾的ではなく実務的なファイルになります。
- 通常の公開ページへのアクセスを許可する。
- 必要なときだけ、価値の低い運用系パスをブロックする。
- サイトマップの場所を入れる。
- ルールを理解しやすく保守しやすくする。
インデックスの混乱を招く失敗
よくある失敗の一つは、検索からコンテンツを消す目的で robots.txt を使おうとすることです。もう一つは、検索エンジンがページを正しく理解するために必要な JavaScript、CSS、重要アセットまでブロックしてしまうことです。
三つ目の失敗は、サイト変更後も古いルールを残してしまうことです。サイトが変わったなら、このクローラーファイルも見直す必要があります。そうしないと、古い指示が現在の構造と衝突します。
より安全に作る方法
実際に存在するサイト構造に合わせてファイルを書いてください。まずは必要最小限のルールから始め、明確な理由がある場合だけ増やします。きれいな出発点が必要なら robots.txt ジェネレーターを使い、各ディレクティブが現実のパスや目的に対応しているか確認します。
小規模サイトでは、複雑さよりも明快さが重要です。どこかからコピーした長いファイルより、短くて正しいファイルのほうが優れています。
よくある質問
役立つ回答robots.txt でページを完全に Google から外せますか?
確実ではありません。robots.txt はクローラーアクセスを制御するものですが、適切な noindex 処理や非公開アクセス制御とは別物です。
すべてのサイトに robots.txt は必要ですか?
必ずしも必要ではありませんが、多くのサイトではシンプルなものを置く価値があります。特にサイトマップの場所も案内したい場合に有効です。
管理画面のパスは robots.txt でブロックすべきですか?
運用系パスへのクロールを控えさせるのは合理的なことがありますが、そうした領域は依然として適切に保護されるべきで、robots.txt をセキュリティ手段として頼るべきではありません。