Manual:robots.txt/ja

This page is a translated version of the page Manual:Robots.txt and the translation is 98% complete.

robots.txtファイルはRobots Exclusion Standardに含ふくまれ、Search engine optimization （検索けんさくエンジン最適さいてき化か）を補助ほじょします。インターネットボットにサイトのインデックス作成さくせい (index, crawl) の方法ほうほうを指示しじします。robots.txtファイルは必かならずドメインのwebルートに置おきます。

例れい

インデックス作成さくせいをすべて回避かいひ

ご利用りようのサイトで一切いっさいのボットにインデックス作成さくせいをさせないためには、以下いかのコードを使用しようします:

User-agent: *
Disallow: /

特定とくていのスパイダーのみブロックする場合ばあいは、アスタリスク（記号きごう「*」）にスパイダーのユーザーエージェント名めいを代入だいにゅうします。

ページ以外いがいのインデックス作成さくせいを防止ぼうし

MediaWikiが生成せいせいするページには実在じつざいの人間にんげんしか利用りようしないものが多おおくあります: 古ふるいリビジョンや差分さぶんファイルは記事きじ内ないのコンテンツを複製ふくせいしがちです。編集へんしゅうページとおおかたの特別とくべつページは動的どうてきに生成せいせいされる結果けっか、実在じつざいの人間にんげんの編集へんしゅう者しゃのみが使用しようでき、サーバには比較的ひかくてき、負荷ふかが高たかめです。指示しじがない限かぎり、スパイダーはそのようなページでも数すう千せん回かい索引さくいん付づけを試こころみ、ウェブサーバに高たかい負荷ふかをかけてしまいます。

短縮たんしゅくURLあり

もしウィキペディアに似にた形式けいしきの短縮たんしゅくURLを採用さいようしていると、記事きじではないページにスパイダーのインデックス作成さくせいを防止ぼうしするのは難むずかしくありません。記事きじは /wiki/Some_title 経由けいゆでアクセスし、その他たは /w/index.php?title=Some_title&someoption=blah 経由けいゆで利用りよう可能かのうだとした場合ばあい:

User-agent: *
Disallow: /w/

ただし、ご注意ちゅうい! 次つぎの行くだりを間違まちがえて追加ついかしてしまうと:

Disallow: /w

/wikiディレクトリへのアクセスをブロックしてしまい、検索けんさくエンジンに無視むしされてしまいます!

またこの解決かいけつ策さくだとCSSもJavaScriptあるいは画像がぞうファイルもブロックしてしまい、Google他たの検索けんさくエンジンがウィキ記事きじのプレビューをレンダリングできません。それを回避かいひするにはブロックの対象たいしょうを /w ディレクトリ全体ぜんたいではなく、index.php にのみ限定げんていします:

User-agent: *
Disallow: /w/index.php?

こうすると、/w/load.php 経由けいゆで CSS や JavaScript が検索けんさくされるため検索けんさく対象たいしょうからの脱落だつらくを回避かいひできます。また、 Wikimedia系けいのプロジェクトでも同おなじ結果けっかが出でます:

User-agent: *
Allow: /w/load.php?
Disallow: /w/

短縮たんしゅくURLなし

短縮たんしゅく URL を使用しようしない場合ばあい、ロボットの制約せいやく方法ほうほうは少すこし難むずかしくなります。CGI として PHP を走はしらせていて、 URL を短縮たんしゅくしていない場合ばあい、記事きじへのアクセスは /index.php?title=Some_title 経由けいゆで検索けんさくできます:

User-agent: *
Disallow: /index.php?diff=
Disallow: /index.php?oldid=
Disallow: /index.php?title=Help
Disallow: /index.php?title=Image
Disallow: /index.php?title=MediaWiki
Disallow: /index.php?title=Special:
Disallow: /index.php?title=Template
Disallow: /skins/

PHP を Apache モジュールとして走はしらせても URL を短縮たんしゅくしていないと、記事きじは /index.php/Some_title 経由けいゆで検索けんさくできます:

User-agent: *
Disallow: /index.php?
Disallow: /index.php/Help
Disallow: /index.php/MediaWiki
Disallow: /index.php/Special:
Disallow: /index.php/Template
Disallow: /skins/

名前なまえ空間くうかんの行末ゆくすえにコロン (:)がない場合ばあい、トークページが制限せいげんされます。

英語えいご以外いがいのウィキでは、上記じょうきの各行かくこうにそれぞれ翻訳ほんやくを添そえる必要ひつようがあるかもしれません。

外装がいそうに属ぞくする画像がぞうを表示ひょうじするには、/skins/ の制限せいげんを採用さいようしないという選択せんたくをします。 /skins/ ディレクトリにアクセスできないと、Google 等とうプレビュー画像がぞうを提供ていきょうする検索けんさくエンジンにおいては記事きじの画像がぞうが表示ひょうじされません。

他たの方法ほうほうとして

Disallow: /*&

このようにワイルドカード拡張かくちょうを適用てきようすると、Googlebot等とうのロボットがrobots.txt標準ひょうじゅんに受うけ入いれることから、ちょうど前出ぜんしゅつの /w/ 解決かいけつ策さく同様どうよう、ロボットに検出けんしゅつさせたくないもののほとんどを対象たいしょう外がいにします。ただしこの方法ほうほうでもCSS検索けんさくをブロックしてしまうことから同様どうようの制限せいげんを受うけ、検索けんさくエンジンがプレビュー画像がぞうを正ただしく表示ひょうじできなくなります。その回避かいひ策さくとして Allow: /load.php という1行ぎょうを追加ついかすることは可能かのうですが、この原稿げんこうの執筆しっぴつ時点じてんではテストが済すんでいません。

インターネットアーカイバに生なまのページを索引さくいん化かを許可きょか

インターネットアーカイブにraw pages加工かこうしていないページを索引さくいん付つけさせて、ページの生せいのウィキテキストを永遠えいえんに記録きろくしようと考かんがえることでしょう。この方法ほうほうだと、ウィキがアクセス不能ふのうに陥おちいった場合ばあいも別べつのウィキに簡単かんたんにコンテンツを載のせることができます。その場合ばあいの処理しょりは:

# Allow the Internet Archiver to index action=raw and thereby store the raw wikitext of pages
User-agent: ia_archiver
Allow: /*&action=raw

問題もんだい点てん

レートの管理かんり

ボットがスパイダーできる範囲はんいは、パスのみ指定していできます。平文へいぶんのページ領域りょういきのみ許可きょかするだけでも、1秒間びょうかんに2、3ページを読よみ込こむスパイダーが20万まんページを処理しょりしようとすると、大おおきな足あしかせになります。

ボットによってはカスタムの仕様しようがあります。例たとえばInktomiの場合ばあい、ヒット数すうの最小さいしょう遅延ちえん時間じかんを秒びょう単位たんいで指定していできる「Crawl-delay」行ぎょうに反応はんのうします（既定きていは15秒びょう。）

悪意あくいがあるボット

カスタム作成さくせいのボットの中なかには、あまり賢かしこくない処理しょりや、完全かんぜんに悪意あくいのあるものが含ふくまれ、robots.txtにまったく従したがわないものです（あるいはパスの制限せいげんに従したがってもスパイダーが非常ひじょうに速はやいせいでサイトが減速げんそくしてしまいます）。

There are a couple of alternatives to consider implementing in your web configuration:

It may be necessary to block specific user-agent strings or individual IPs of offenders.
A more general solution to stop such bots without requiring your repeated intervention is request throttling, that is, limiting the number of requests that a client can make within a certain amount of time.
代替だいたい策さくあるいは補完ほかん的てきな戦略せんりゃくとして、spider trapを配備はいびします。

スパイダリング vs 索引さくいん付づけ

robots.txtは（悪意あくいのある）ボットのURLのダウンロードを止とめても、索引さくいん付づけを阻止そしすることはできません。つまりそれらを指さし示しめす外部がいぶリンクが存在そんざいする限かぎり、Google等とうの検索けんさくエンジンの結果けっかに表示ひょうじされる可能かのう性せいがあります。（さらに悪わるいことに、ボットはページをダウンロードしないため、noindexメタタグを与あたえても効果こうかはありません。）単たんページのwikiページを検索けんさく結果けっかに表示ひょうじさせないためには、__NOINDEX__ マジックワードがより安全あんぜんな選択肢せんたくしになるかもしれません。

v t e ロボットの方針ほうしん
ファイル	robots.txt
属性ぞくせい	nofollow noindex
構成こうせい設定せってい	$wgArticleRobotPolicies $wgDefaultRobotPolicy $wgExemptFromUserRobotsControl $wgNamespaceRobotPolicies