robots.txtとは?書き方から設定方法、意味について解説

公開日:2023-08-21 更新日:2023-11-16 by SEデザイン編集部

目次

現代のビジネスにおいて、オウンドメディアは企業の成長と成功に欠かせない要素であり、なかでも重要となる施策がSEO対策です。SEO対策とは、自社サイトのリード獲得や認知度向上を目的として検索結果の上位に表示させる施策ですが、重要な役割を果たす要素の一つに「robots.txt」というファイルがあります。

この記事では、robots.txtの概要やSEO上の効果、基本的な書式、設定方法などを詳しく解説します。robots.txtについて適切に理解し、自社の取り組みで役立てたいとお考えの方は、ぜひ参考にしてください。

robots.txtとは?

robots.txtとは、検索エンジンに特定ページをクロールさせないために設定するファイルです。たとえば、検索エンジンの上位表示を必要としないページなどに用いられます。

robots.txtによりクローラーの動きをコントロールし、優先度の高いページへクローラーを誘導できます。robots.txtを利用すれば、特定のページのクロールをブロックすることが可能であり、また、ディレクトリを指定すれば、その配下へのクロールをブロックできます。

Google検索セントラルの「robots.txt の概要」によると、「検索エンジンのクローラに対して、サイトのどのURLにアクセスしてよいかを伝えるもの」との記述があります。さらに「サイトでのリクエストのオーバーロードを避けるために使用され、Googleにウェブページが表示されないようにするためのメカニズムではありません」とも述べられています。

以上を踏まえると、robots.txtは効率よくサイトをクローリングさせるためのSEO機能といえるでしょう。

noindexとの違い

noindexというのは、検索エンジンに対しインデックス(情報をデータページに保存すること)をさせないよう指示する設定です。noindexは、HTMLコードにmetaタグを記述する形で記述します。

それぞれの違いについてまとめると、以下のとおりです。

 

robots.txt

noindex

設定箇所

サイトのルートディレクトリ

HTML内のmetaタグ

影響範囲

ページ全体またはディレクトリ

個々のページ

サイト上のクロール

制限されない

制限されない

検索エンジンの表示

表示される可能性がある

表示されない

使用ケース

サイトのクロールを効率化したい場合

閲覧者に表示させたくないコンテンツを持つ場合

つまり、noindexを設定すれば検索結果には表示されない一方、robots.txtはクロールをブロックする設定で、検索結果に表示される可能性があるということです。

robots.txtとnoindexはどう使い分ければいい?

robots.txtとnoindexは以下の観点で使い分けましょう。

  • 特定ページのクローラーの巡回を制御したい場合 → robots.txt
  • 特定ページのインデックスを拒否したい場合 → noindexタグ

noindexタグを使ってもクローラーの動きは制御できず、不要なクロールが行われることもあります。そのため、クローラーが見てほしくないページを制御し、効率よくクロールさせたい場合は、robots.txtを利用しましょう。

ただし、robots.txtはクローラーの動きを制御するファイルであり、ユーザーのアクセスをブロックする機能はありません。ユーザーから見せたくない非公開コンテンツは、検索エンジン上でnoindexタグを用いてコンテンツを除外する必要があります。

noindexについては、以下の記事で詳しく解説していますので、併せてご参照ください。

関連記事
noindexとは?SEO対策における正しい設定方法と注意点を解説

robots.txtのSEO上の効果

robots.txtを利用することで、クロールの必要がないと判断したコンテンツを制御し、重要なページへクローリングします。その結果、サイト内で評価を得たいコンテンツへのクロール頻度が上がり、SEO評価につながるでしょう。

内部リンクと被リンクが少なくリンク階層が深いページの場合、クローラーが効率的にサイト内を巡回するのが難しく、重要なページがクロールから外れる可能性があります。この場合、robots.txtの活用が有効です。

robots.txtの基本の書式

ここからは、robots.txtの基本的な書式を紹介します。具体的には、以下のとおりです。

  • User-Agent(必須)
  • Disallow(Allowとどちらか必要)
  • Allow(Disallowとどちらか必要)
  • Sitemap(任意)

次項より、個別にみていきましょう。

User-Agent(必須)

User-Agentはクローラーの識別子であり、特定のクローラー(例:Googlebot やBingbot など)に対して設定を指示するために用います

各クローラーは独自のUser-Agent名を持っており、この名前を指定することで、そのクローラーに対する特別なルールを設定できます。ただし「 *(半角アスタリスク)」と記述すれば、全てのクローラーに対して適用されます。

<記述例>

  • User-agent: Googlebot
  • User-agent: Googlebot *

Disallow(Allowとどちらか必要)

Disallow、これはクローラーにアクセス禁止を指示するコマンドです。Disallowには指定されたURL以下のページのクロールを防ぐ機能があります。

<記述例>

  • Disallow: /private/

Allow(Disallowとどちらか必要)

Allowはクローラーにアクセス許可を指示するコマンドです。Disallowで禁止された範囲内でも、特定のURL以下のページでクロールを許可する機能があります。

すでにDisallowでクロールの制限をかけてはいるが、それでも特定のページやディレクトリへのクロールを許可したい場合に用いられます。

<記述例>

  • Allow: /private/public_page.html

Sitemap(任意)

Sitemapはサイトマップの場所をクローラーに知らせるために用いられます。記述内容は、サイトマップのURLです。

これにより、サイトマップが見つかりにくい場合でも、クローラーがサイトマップを見つけられるようになります。

<記述例>

  • Sitemap: https://www.example.com/sitemap.xml

robots.txtの設定方法

ここからは、robots.txtの設定手順を解説します。

robots.txtの記述

robots.txtを記述するためには、robots.txtのファイルを作成する必要があります。Google検索セントラル「robots.txt の書き方、設定と送信」に記載された方法通りに行えば、問題なく作成可能です。

以下の例では、Googlebotのみに指定した制限を、全てのクローラーに適用する形で記述しています。

<記述例>

# Example 1: Googlebotのみ

User-agent: Googlebot
Disallow: /private/
Allow: /private/public/
# Example 2: 全てのクローラー

User-agent: *
Disallow: /restricted/
Sitemap: https://www.yourwebsite.com/sitemap.xml

robots.txtの確認

次に、記述したrobots.txtが正しいかどうかを確認します。
Google Search Consoleでは「robots.txtテスター」というツールが提供されています。

記述したテキストをテスターに貼り付け、テストを行いたいURLを入力し、【テスト】をクリックするだけで確認可能です。テスト送信後、「Disallow」で指定した部分が赤く表示されて「ブロック済み」となれば、正しく記述できていると判断できます。

記述ミスがあると、クローラーが重要なページをクロールできない可能性がありますので、ファイルをアップロードする前に必ずテストを行いましょう

robots.txtの設定

FTPソフトを使ってrobots.txtのファイルを自社サイトにアップロードすれば完了です。

この際、アップロードする場所はルートドメインを指定しましょう。robots.txtファイルは、ルートドメインにアップロードしなければ効果が発揮されないため、留意が必要です。

robots.txtを設定する際の注意点

robots.txtを活用するうえで、Webサイトへの影響や使い分け、動作などを理解する必要があります。

Google検索セントラルの「robots.txt ファイルの制限事項について」の内容も参照すると、robots.txtをサイト運用に役立てるうえでは、以下の3点を注意しましょう。

  • robots.txtで指定してもユーザーは閲覧できる
  • robots.txtの影響を受けないUser-Agentも存在する
  • robots.txtの設定内容が反映されるまでに1~2週間はかかる

まとめ

オウンドメディア運用において、robots.txtの適切な理解と活用は不可欠です。robots.txtを利用することで、クロールが必要ないコンテンツを制御し、クローラーを効率的に必要なページへ誘導することが可能となります。

一方で、robots.txtの設定にはいくつかの注意点があります。ユーザーのアクセス制限やインデックス済みのページの削除など、多くの人が誤解しているrobots.txtの機能について、正しい理解を持つことが重要です。

この記事を参考に、robots.txtの力を最大限に引き出し、自社サイトのパフォーマンスを最大化しましょう。


SEデザインでは、SEO記事制作やオウンドメディアの構築をはじめとしたコンテンツマーケティング支援を行っており、出版社を前身に持つ編集力・企画力が強みです。集客やリード育成にお悩みの方は、お気軽にお問い合わせください。

関連記事

コンテンツマーケティングで、
ビジネスの効果を最大化しませんか?

もっと詳しく知りたい方

ご質問・ご相談したい方