(Translated by https://www.hiragana.jp/)
Robots Exclusion Standard - Wikipedia コンテンツにスキップ

Robots Exclusion Standard

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

Robots Exclusion Standard(RES) または Robots Exclusion Protocol は、クローラボットウェブサイト全体ぜんたいまたはその一部いちぶ走査そうさすることをふせ規約きやくである。ロボット排除はいじょ規約きやくrobots.txt プロトコルともばれる。こういったボットは検索けんさくエンジンがウェブサイトの内容ないよう分類ぶんるいしアーカイブするためにおも使つかったり、ウェブマスターがソースコードを校正こうせいするために使つかったりする。直接ちょくせつ関係かんけいはないが、ぎゃくにボットを案内あんないする目的もくてきSitemapsわせて使つかうこともできる。

歴史れきし[編集へんしゅう]

"robots.txt" は、1994ねんごろWebCrawlerという検索けんさくエンジンではたらいていた Martijn Koster が考案こうあんしたとされている。1994ねん6がつに robots-request@nexor.co.uk というメーリングリストのメンバーが合意ごういしてまれた[1]。"robots.txt" はその翌年よくねんAltaVistaなどの検索けんさくエンジンが登場とうじょうするととも一般いっぱんしていった。

2007ねん11月30にち、ACAP (Automated Content Access Protocol) v1.0 が Robots Exclusion Standard を補完ほかんするものとして登場とうじょうした[2]。ただしGoogleなど主要しゅよう検索けんさくエンジンは、その採用さいよう表明ひょうめいしていない。

2019ねん、GoogleがIETFでの標準ひょうじゅんすすめることを発表はっぴょう[3]、2022ねん9がつRFC 9309として提案ていあんされた[4]

概要がいよう[編集へんしゅう]

ウェブサイトの所有しょゆうしゃがボットにたいして指示しじしたい場合ばあい、そのウェブサイトの階層かいそうのルートに robots.txt というテキストファイルをく(たとえば、www.example.com/robots.txt)。サイトがわ指示しじしたが選択せんたくをしているボットは、まずこのファイルにアクセスし、その指示しじんで、それにしたがってそのウェブサイトのほかのファイルのみをおこなう。このファイルがない場合ばあい、ボットはそのサイトの所有しょゆうしゃとくなに指示しじしていないと判断はんだんする。

robots.txt はボットにたいして特定とくていのファイルやディレクトリを検索けんさくしないよう指示しじする。これはたとえば、検索けんさくエンジンからプライバシーにかかわる情報じょうほうまも場合ばあい指定していしたファイルやディレクトリの内容ないようがサイトの分類ぶんるいをするさい誤解ごかいあたえるおそれがある場合ばあい特定とくていのアプリケーションのみがむことを意図いとしたデータの場合ばあいなどがある。

下位かいドメインがあるウェブサイトでは、かく下位かいドメインごとに robots.txt ファイルが必要ひつようである。example.com に robots.txt があっても、a.example.com になければ、example.com の robots.txt の内容ないようa.example.com には適用てきようされない。

欠点けってん[編集へんしゅう]

このプロトコルはまった拘束こうそくりょくがない。あくまでもボットがわ協力きょうりょくすることが前提ぜんていであり、robots.txt で指定していしたからといってプライバシーがたもたれることを保証ほしょうするものではない。robots.txt でられたくないファイルを指定していしたとしても、ウェブブラウザ使つかえば世界中せかいじゅうだれでもそのファイルを閲覧えつらんできる。また、このプロトコルを無視むしするボットを運用うんようすることも可能かのうである。

なお、robots.txt にかれたパターンは単純たんじゅんにパスめい部分ぶぶん一致いっちするかどうかで判断はんだんされるため、ディレクトリを指定していする場合ばあい最後さいごに '/' をけておかないとおな文字もじれつふく任意にんいのファイルとマッチする可能かのうせいがある。

れい[編集へんしゅう]

ワイルドカード "*" を指定していしたれい。あらゆるボットがぜんファイルを走査そうさできる。

User-agent: *
Disallow:

あらゆるボットがぜんファイルを走査そうさできないようにしたれい

User-agent: *
Disallow: /

あらゆるボットが4つのディレクトリ配下はいかないよう指定していしたれい

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

特定とくていのクローラが特定とくていのディレクトリ配下はいかかないよう指定していしたれい

User-agent: BadBot # replace the 'BadBot' with the actual user-agent of the bot
Disallow: /private/

あらゆるボットが特定とくていのファイルをないよう指定していしたれい

User-agent: *
Disallow: /directory/file.html

この場合ばあい、そのディレクトリ配下はいかほかのファイルはボットから隠蔽いんぺいされない。

"#" からその行末ゆくすえまではコメントとしてあつかわれる。

# Comments appear after the "#" symbol at the start of a line, or after a directive
User-agent: * # match all bots
Disallow: / # keep them out

規格きかくがい拡張かくちょう[編集へんしゅう]

Crawl-delay ディレクティブ[編集へんしゅう]

いくつかの主要しゅようなクローラは Crawl-delay というパラメータをサポートしている。どういちサーバに要求ようきゅうかえ場合ばあい指定していされた時間じかんだけつよう指示しじするものである[5][6][7]

User-agent: *
Crawl-delay: 10

Allow ディレクティブ[編集へんしゅう]

いくつかの主要しゅようなクローラは Allow ディレクティブをサポートしており、それにつづDisallow ディレクティブのぎゃく作用さようをする[8][9]。これは、あるディレクトリ全体ぜんたい隠蔽いんぺいしたいが、そのなか一部いちぶファイルだけは隠蔽いんぺいしたくないという場合ばあい使つかう。標準ひょうじゅんてき実装じっそうではつねさきいてあるディレクティブが優先ゆうせんされるが、Googleは Allow のパターンをすべさき評価ひょうかし、その Disallow のパターンを評価ひょうかする。Bing は AllowDisallowもっと具体ぐたいてきなものを優先ゆうせんする[10]

あらゆるボットで互換ごかん動作どうさにするには、あるファイルへのアクセスをゆるす Allow ディレクティブをさきき、そのファイルをふくむディレクトリについての Disallow ディレクティブをのちく。以下いかれいげる。

Allow: /folder1/myfile.html
Disallow: /folder1/

この場合ばあい、/folder1/ というディレクトリの /folder1/myfile.html というファイル以外いがい隠蔽いんぺいする。Googleにたいしては順序じゅんじょ重要じゅうようではない。

Sitemap ディレクティブ[編集へんしゅう]

一部いちぶのクローラは Sitemap ディレクティブをサポートしており、1つの robots.txt のなか複数ふくすうSitemaps指定していできる[11]

Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Sitemap: https://www.google.com/hostednews/sitemap_index.xml

拡張かくちょう規格きかく[編集へんしゅう]

Extended Standard for Robot ExclusionだいしてRESの拡張かくちょう規格きかく提案ていあんされている。追加ついかされたディレクティブとしては Visit-timeRequest-rate がある。たとえばつぎのようになる。

User-agent: *
Disallow: /downloads/
Request-rate: 1/5         # maximum rate is one page every 5 seconds
Visit-time: 0600-0845     # only visit between 06:00 and 08:45 UTC (GMT)

脚注きゃくちゅう出典しゅってん[編集へんしゅう]

  1. ^ A Standard for Robot Exclusion
  2. ^ Information ACAP
  3. ^ 山本やまもと竜也たつや (2019ねん7がつ2にち). “Google、REP(ロボット排除はいじょ規約きやく)のWEB標準ひょうじゅん推進すいしん”. Engadget 日本にっぽんばん. 2022ねん2がつ19にち時点じてんオリジナルよりアーカイブ。2020ねん8がつ4にち閲覧えつらん
  4. ^ Koster, Martijn (2022ねん9がつ9にち). “RFC [https://datatracker.ietf.org/doc/html/rfc9309 9309: Robots Exclusion Protocol]” (英語えいご). IETF Datatracker. 2022ねん12月8にち閲覧えつらん
  5. ^ How can I reduce the number of requests you make on my web site?”. Yahoo! Slurp. 2007ねん3がつ31にち閲覧えつらん
  6. ^ MSNBot が Web サイトをクロールする回数かいすうおおすぎる”. MSNBot および Web サイトのクロールにかんする問題もんだい対処たいしょする. 2010ねん9がつ23にち閲覧えつらん
  7. ^ About Ask.com: Webmasters”. 2010ねん9がつ23にち閲覧えつらん
  8. ^ Googleウェブマスターセントラル - robots.txt ファイルを使用しようしてページをブロックまたは削除さくじょする”. 2007ねん11月20にち閲覧えつらん
  9. ^ How do I prevent my site or certain subdirectories from being crawled? - Yahoo Search Help”. 2007ねん11月20にち閲覧えつらん
  10. ^ Robots Exclusion Protocol - joining together to provide better documentation”. 2009ねん12月3にち閲覧えつらん
  11. ^ Yahoo! Search Blog - Webmasters can now auto-discover with Sitemaps”. 2009ねん3がつ23にち閲覧えつらん

関連かんれん項目こうもく[編集へんしゅう]

外部がいぶリンク[編集へんしゅう]