Robots Exclusion Standard

Robots Exclusion Standard(RES) または Robots Exclusion Protocol は、クローラやボットがウェブサイト全体ぜんたいまたはその一部いちぶを走査そうさすることを防ふせぐ規約きやくである。ロボット排除はいじょ規約きやく、robots.txt プロトコルとも呼よばれる。こういったボットは検索けんさくエンジンがウェブサイトの内容ないようを分類ぶんるいしアーカイブするために主おもに使つかったり、ウェブマスターがソースコードを校正こうせいするために使つかったりする。直接ちょくせつの関係かんけいはないが、逆ぎゃくにボットを案内あんないする目的もくてきのSitemapsと組くみ合あわせて使つかうこともできる。

歴史れきし

"robots.txt" は、1994年ねんごろWebCrawlerという検索けんさくエンジンで働はたらいていた Martijn Koster が考案こうあんしたとされている。1994年ねん6月がつに robots-request@nexor.co.uk というメーリングリストのメンバーが合意ごういして生うまれた^[1]。"robots.txt" はその翌年よくねんAltaVistaなどの検索けんさくエンジンが登場とうじょうすると共ともに一般いっぱん化かしていった。

2007年ねん11月30日にち、ACAP (Automated Content Access Protocol) v1.0 が Robots Exclusion Standard を補完ほかんするものとして登場とうじょうした^[2]。ただしGoogleなど主要しゅよう検索けんさくエンジンは、その採用さいようを表明ひょうめいしていない。

2019年ねん、GoogleがIETFでの標準ひょうじゅん化かを進すすめることを発表はっぴょうし^[3]、2022年ねん9月がつ、RFC 9309として提案ていあんされた^[4]。

概要がいよう

ウェブサイトの所有しょゆう者しゃがボットに対たいして指示しじしたい場合ばあい、そのウェブサイトの階層かいそうのルートに robots.txt というテキストファイルを置おく（例たとえば、www.example.com/robots.txt）。サイト側がわの指示しじに従したがう選択せんたくをしているボットは、まずこのファイルにアクセスし、その指示しじを読よみ込こんで、それに従したがってそのウェブサイトの他ほかのファイルの読よみ込こみを行おこなう。このファイルがない場合ばあい、ボットはそのサイトの所有しょゆう者しゃが特とくに何なにも指示しじしていないと判断はんだんする。

robots.txt はボットに対たいして特定とくていのファイルやディレクトリを検索けんさくしないよう指示しじする。これは例たとえば、検索けんさくエンジンからプライバシーに関かかわる情報じょうほうを守まもる場合ばあい、指定していしたファイルやディレクトリの内容ないようがサイトの分類ぶんるいをする際さいに誤解ごかいを与あたえる虞おそれがある場合ばあい、特定とくていのアプリケーションのみが読よみ込こむことを意図いとしたデータの場合ばあいなどがある。

下位かいドメインがあるウェブサイトでは、各かく下位かいドメインごとに robots.txt ファイルが必要ひつようである。example.com に robots.txt があっても、a.example.com になければ、example.com の robots.txt の内容ないようは a.example.com には適用てきようされない。

欠点けってん

このプロトコルは全まったく拘束こうそく力りょくがない。あくまでもボット側がわが協力きょうりょくすることが前提ぜんていであり、robots.txt で指定していしたからといってプライバシーが保たもたれることを保証ほしょうするものではない。robots.txt で見みられたくないファイルを指定していしたとしても、ウェブブラウザを使つかえば世界中せかいじゅうの誰だれでもそのファイルを閲覧えつらんできる。また、このプロトコルを無視むしするボットを運用うんようすることも可能かのうである。

なお、robots.txt に書かかれたパターンは単純たんじゅんにパス名めいの部分ぶぶんと一致いっちするかどうかで判断はんだんされるため、ディレクトリを指定していする場合ばあいは最後さいごに '/' を付つけておかないと同おなじ文字もじ列れつを含ふくむ任意にんいのファイルとマッチする可能かのう性せいがある。

例れい

ワイルドカード "*" を指定していした例れい。あらゆるボットが全ぜんファイルを走査そうさできる。

User-agent: *
Disallow:

あらゆるボットが全ぜんファイルを走査そうさできないようにした例れい。

User-agent: *
Disallow: /

あらゆるボットが4つのディレクトリ配下はいかを見みないよう指定していした例れい。

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

特定とくていのクローラが特定とくていのディレクトリ配下はいかに行いかないよう指定していした例れい。

User-agent: BadBot # replace the 'BadBot' with the actual user-agent of the bot
Disallow: /private/

あらゆるボットが特定とくていのファイルを見みないよう指定していした例れい。

User-agent: *
Disallow: /directory/file.html

この場合ばあい、そのディレクトリ配下はいかの他ほかのファイルはボットから隠蔽いんぺいされない。

"#" からその行末ゆくすえまではコメントとして扱あつかわれる。

# Comments appear after the "#" symbol at the start of a line, or after a directive
User-agent: * # match all bots
Disallow: / # keep them out

規格きかく外がいの拡張かくちょう

Crawl-delay ディレクティブ

いくつかの主要しゅようなクローラは Crawl-delay というパラメータをサポートしている。同どう一いちサーバに要求ようきゅうを繰くり返かえす場合ばあいに指定していされた時間じかんだけ待まつよう指示しじするものである^[5]^[6]^[7]。

User-agent: *
Crawl-delay: 10

Allow ディレクティブ

いくつかの主要しゅようなクローラは Allow ディレクティブをサポートしており、それに続つづく Disallow ディレクティブの逆ぎゃくの作用さようをする^[8]^[9]。これは、あるディレクトリ全体ぜんたいを隠蔽いんぺいしたいが、その中なかの一部いちぶファイルだけは隠蔽いんぺいしたくないという場合ばあいに使つかう。標準ひょうじゅん的てき実装じっそうでは常つねに先さきに書かいてあるディレクティブが優先ゆうせんされるが、Googleは Allow のパターンを全すべて先さきに評価ひょうかし、その後ご Disallow のパターンを評価ひょうかする。Bing は Allow も Disallow も最もっとも具体ぐたい的てきなものを優先ゆうせんする^[10]。

あらゆるボットで互換ごかんな動作どうさにするには、あるファイルへのアクセスを許ゆるす Allow ディレクティブを先さきに書かき、そのファイルを含ふくむディレクトリについての Disallow ディレクティブを後のちに書かく。以下いかに例れいを挙あげる。

Allow: /folder1/myfile.html
Disallow: /folder1/

この場合ばあい、/folder1/ というディレクトリの /folder1/myfile.html というファイル以外いがいは隠蔽いんぺいする。Googleに対たいしては順序じゅんじょは重要じゅうようではない。

Sitemap ディレクティブ

一部いちぶのクローラは Sitemap ディレクティブをサポートしており、1つの robots.txt の中なかで複数ふくすうのSitemapsを指定していできる^[11]。

Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Sitemap: https://www.google.com/hostednews/sitemap_index.xml

拡張かくちょう規格きかく

Extended Standard for Robot Exclusion と題だいしてRESの拡張かくちょう規格きかくが提案ていあんされている。追加ついかされたディレクティブとしては Visit-time や Request-rate がある。例たとえば次つぎのようになる。

User-agent: *
Disallow: /downloads/
Request-rate: 1/5         # maximum rate is one page every 5 seconds
Visit-time: 0600-0845     # only visit between 06:00 and 08:45 UTC (GMT)

脚注きゃくちゅう・出典しゅってん

[脚注きゃくちゅうの使つかい方かた]

^ A Standard for Robot Exclusion
^ Information ACAP
^ 山本やまもと竜也たつや (2019年ねん7月がつ2日にち). “Google、REP（ロボット排除はいじょ規約きやく）のWEB標準ひょうじゅん化かを推進すいしんへ”. Engadget 日本にっぽん版ばん. 2022年ねん2月がつ19日にち時点じてんのオリジナルよりアーカイブ。2020年ねん8月がつ4日にち閲覧えつらん。
^ Koster, Martijn (2022年ねん9月がつ9日にち). “RFC [https://datatracker.ietf.org/doc/html/rfc9309 9309: Robots Exclusion Protocol]” (英語えいご). IETF Datatracker. 2022年ねん12月8日にち閲覧えつらん。
^ “How can I reduce the number of requests you make on my web site?”. Yahoo! Slurp. 2007年ねん3月がつ31日にち閲覧えつらん。
^ “MSNBot が Web サイトをクロールする回数かいすうが多おおすぎる”. MSNBot および Web サイトのクロールに関かんする問題もんだいに対処たいしょする. 2010年ねん9月がつ23日にち閲覧えつらん。
^ “About Ask.com: Webmasters”. 2010年ねん9月がつ23日にち閲覧えつらん。
^ “Googleウェブマスターセントラル - robots.txt ファイルを使用しようしてページをブロックまたは削除さくじょする”. 2007年ねん11月20日にち閲覧えつらん。
^ “How do I prevent my site or certain subdirectories from being crawled? - Yahoo Search Help”. 2007年ねん11月20日にち閲覧えつらん。
^ “Robots Exclusion Protocol - joining together to provide better documentation”. 2009年ねん12月3日にち閲覧えつらん。
^ “Yahoo! Search Blog - Webmasters can now auto-discover with Sitemaps”. 2009年ねん3月がつ23日にち閲覧えつらん。

外部がいぶリンク

Robots Exclusion（英語えいご）
RFC 9309 Robots Exclusion Protocol
robots.txt の概要がいよう: Google Search Console ヘルプ
Manual:robots.txt/ja: MediaWikiのマニュアル内ないのrobots.txtに関かんするページ
List of Bad Bots - RESに従したがわないボットやクローラの一覧いちらん
About Robots.txt and Search Indexing Robots
^{[リンク切きれ]} Robots.txt is not a security measure
History of robots.txt - チャールズ・ストロスがrobots.txtの誕生たんじょうに関かかわったという内容ないようの日記にっき（元もとになったスラッシュドットでのコメントは[1]）（英語えいご）
具体ぐたい例れい ja.wikipedia.org の robots.txt

[1] A Standard for Robot Exclusion

[2] Information ACAP

[3] 山本やまもと竜也たつや (2019年ねん7月がつ2日にち). “Google、REP（ロボット排除はいじょ規約きやく）のWEB標準ひょうじゅん化かを推進すいしんへ”. Engadget 日本にっぽん版ばん. 2022年ねん2月がつ19日にち時点じてんのオリジナルよりアーカイブ。2020年ねん8月がつ4日にち閲覧えつらん。

[4] Koster, Martijn (2022年ねん9月がつ9日にち). “RFC [https://datatracker.ietf.org/doc/html/rfc9309 9309: Robots Exclusion Protocol]” (英語えいご). IETF Datatracker. 2022年ねん12月8日にち閲覧えつらん。

[5] “How can I reduce the number of requests you make on my web site?”. Yahoo! Slurp. 2007年ねん3月がつ31日にち閲覧えつらん。

[6] “MSNBot が Web サイトをクロールする回数かいすうが多おおすぎる”. MSNBot および Web サイトのクロールに関かんする問題もんだいに対処たいしょする. 2010年ねん9月がつ23日にち閲覧えつらん。

[7] “About Ask.com: Webmasters”. 2010年ねん9月がつ23日にち閲覧えつらん。

[8] “Googleウェブマスターセントラル - robots.txt ファイルを使用しようしてページをブロックまたは削除さくじょする”. 2007年ねん11月20日にち閲覧えつらん。

[9] “How do I prevent my site or certain subdirectories from being crawled? - Yahoo Search Help”. 2007年ねん11月20日にち閲覧えつらん。

[10] “Robots Exclusion Protocol - joining together to provide better documentation”. 2009年ねん12月3日にち閲覧えつらん。

[11] “Yahoo! Search Blog - Webmasters can now auto-discover with Sitemaps”. 2009年ねん3月がつ23日にち閲覧えつらん。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]