(Translated by https://www.hiragana.jp/)
Manual:robots.txt/ja - MediaWiki Jump to content

Manual:robots.txt/ja

From mediawiki.org
This page is a translated version of the page Manual:Robots.txt and the translation is 98% complete.

robots.txtファイルはRobots Exclusion Standardふくまれ、Search engine optimization 検索けんさくエンジン最適さいてき)を補助ほじょします。インターネットボットにサイトのインデックス作成さくせい (index, crawl) の方法ほうほう指示しじします。robots.txtファイルはかならずドメインのwebルートにきます。

れい

インデックス作成さくせいをすべて回避かいひ

利用りようのサイトで一切いっさいのボットにインデックス作成さくせいをさせないためには、以下いかのコードを使用しようします:

User-agent: *
Disallow: /

特定とくていのスパイダーのみブロックする場合ばあいは、アスタリスク(記号きごう「*」)にスパイダーのユーザーエージェントめい代入だいにゅうします。

ページ以外いがいのインデックス作成さくせい防止ぼうし

MediaWikiが生成せいせいするページには実在じつざい人間にんげんしか利用りようしないものがおおくあります: ふるいリビジョンや差分さぶんファイルは記事きじないのコンテンツを複製ふくせいしがちです。 編集へんしゅうページとおおかたの特別とくべつページ動的どうてき生成せいせいされる結果けっか実在じつざい人間にんげん編集へんしゅうしゃのみが使用しようでき、サーバには比較的ひかくてき負荷ふかたかめです。 指示しじがないかぎり、スパイダーはそのようなページでもすうせんかい索引さくいんけをこころみ、ウェブサーバにたか負荷ふかをかけてしまいます。

短縮たんしゅくURLあり

もしウィキペディアに形式けいしき短縮たんしゅくURL採用さいようしていると、記事きじではないページにスパイダーのインデックス作成さくせい防止ぼうしするのはむずかしくありません。 記事きじ/wiki/Some_title 経由けいゆでアクセスし、その/w/index.php?title=Some_title&someoption=blah 経由けいゆ利用りよう可能かのうだとした場合ばあい:

User-agent: *
Disallow: /w/

ただし、ご注意ちゅうい! つぎくだり間違まちがえて追加ついかしてしまうと:

Disallow: /w

/wikiディレクトリへのアクセスをブロックしてしまい、検索けんさくエンジンに無視むしされてしまいます!

またこの解決かいけつさくだとCSSもJavaScriptあるいは画像がぞうファイルもブロックしてしまい、Google検索けんさくエンジンがウィキ記事きじのプレビューをレンダリングできません。 それを回避かいひするにはブロックの対象たいしょう/w ディレクトリ全体ぜんたいではなく、index.php にのみ限定げんていします:

User-agent: *
Disallow: /w/index.php?

こうすると、/w/load.php 経由けいゆで CSS や JavaScript が検索けんさくされるため検索けんさく対象たいしょうからの脱落だつらく回避かいひできます。 また、 Wikimediaけいのプロジェクトでもおな結果けっかます:

User-agent: *
Allow: /w/load.php?
Disallow: /w/

短縮たんしゅくURLなし

短縮たんしゅく URL使用しようしない場合ばあい、ロボットの制約せいやく方法ほうほうすこむずかしくなります。CGI として PHPはしらせていて、 URL を短縮たんしゅくしていない場合ばあい記事きじへのアクセスは /index.php?title=Some_title 経由けいゆ検索けんさくできます:

User-agent: *
Disallow: /index.php?diff=
Disallow: /index.php?oldid=
Disallow: /index.php?title=Help
Disallow: /index.php?title=Image
Disallow: /index.php?title=MediaWiki
Disallow: /index.php?title=Special:
Disallow: /index.php?title=Template
Disallow: /skins/

PHP を Apache モジュールとしてはしらせても URL を短縮たんしゅくしていないと、記事きじ/index.php/Some_title 経由けいゆ検索けんさくできます:

User-agent: *
Disallow: /index.php?
Disallow: /index.php/Help
Disallow: /index.php/MediaWiki
Disallow: /index.php/Special:
Disallow: /index.php/Template
Disallow: /skins/

名前なまえ空間くうかん行末ゆくすえコロン (:)がない場合ばあい、トークページが制限せいげんされます。

英語えいご以外いがいのウィキでは、上記じょうき各行かくこうにそれぞれ翻訳ほんやくえる必要ひつようがあるかもしれません。

外装がいそうぞくする画像がぞう表示ひょうじするには、/skins/制限せいげん採用さいようしないという選択せんたくをします。 /skins/ ディレクトリにアクセスできないと、Google とうプレビュー画像がぞう提供ていきょうする検索けんさくエンジンにおいては記事きじ画像がぞう表示ひょうじされません。

方法ほうほうとして

Disallow: /*&

このようにワイルドカード拡張かくちょう適用てきようすると、Googlebotとうのロボットがrobots.txt標準ひょうじゅんれることから、ちょうど前出ぜんしゅつの /w/ 解決かいけつさく同様どうよう、ロボットに検出けんしゅつさせたくないもののほとんどを対象たいしょうがいにします。 ただしこの方法ほうほうでもCSS検索けんさくをブロックしてしまうことから同様どうよう制限せいげんけ、検索けんさくエンジンがプレビュー画像がぞうただしく表示ひょうじできなくなります。 その回避かいひさくとして Allow: /load.php という1ぎょう追加ついかすることは可能かのうですが、この原稿げんこう執筆しっぴつ時点じてんではテストがんでいません。

インターネットアーカイバになまのページを索引さくいん許可きょか

インターネットアーカイブraw pages加工かこうしていないページを索引さくいんけさせて、ページのせいのウィキテキストを永遠えいえん記録きろくしようとかんがえることでしょう。この方法ほうほうだと、ウィキがアクセス不能ふのうおちいった場合ばあいべつのウィキに簡単かんたんにコンテンツをせることができます。その場合ばあい処理しょりは:

# Allow the Internet Archiver to index action=raw and thereby store the raw wikitext of pages
User-agent: ia_archiver
Allow: /*&action=raw

問題もんだいてん

レートの管理かんり

ボットがスパイダーできる範囲はんいは、パスのみ指定していできます。平文へいぶんのページ領域りょういきのみ許可きょかするだけでも、1秒間びょうかんに2、3ページをむスパイダーが20まんページを処理しょりしようとすると、おおきなあしかせになります。

ボットによってはカスタムの仕様しようがあります。たとえばInktomiの場合ばあい、ヒットすう最小さいしょう遅延ちえん時間じかんびょう単位たんい指定していできる「Crawl-delayぎょう反応はんのうします(既定きていは15びょう。)

悪意あくいがあるボット

カスタム作成さくせいのボットのなかには、あまりかしこくない処理しょりや、完全かんぜん悪意あくいのあるものがふくまれ、robots.txtにまったくしたがわないものです(あるいはパスの制限せいげんしたがってもスパイダーが非常ひじょうはやいせいでサイトが減速げんそくしてしまいます)。

There are a couple of alternatives to consider implementing in your web configuration:

  • It may be necessary to block specific user-agent strings or individual IPs of offenders.
  • A more general solution to stop such bots without requiring your repeated intervention is request throttling, that is, limiting the number of requests that a client can make within a certain amount of time.
  • 代替だいたいさくあるいは補完ほかんてき戦略せんりゃくとして、spider trap配備はいびします。

スパイダリング vs 索引さくいん

robots.txtは(悪意あくいのある)ボットのURLのダウンロードをめても、索引さくいんけを阻止そしすることはできません。 つまりそれらをしめ外部がいぶリンクが存在そんざいするかぎり、Googleとう検索けんさくエンジンの結果けっか表示ひょうじされる可能かのうせいがあります。 (さらにわるいことに、ボットはページをダウンロードしないため、noindexメタタグをあたえても効果こうかはありません。) たんページのwikiページを検索けんさく結果けっか表示ひょうじさせないためには、__NOINDEX__ マジックワードがより安全あんぜん選択肢せんたくしになるかもしれません。