Robots Exclusion Standard
Robots Exclusion Standard(RES) または Robots Exclusion Protocol は、クローラやボットがウェブサイト
歴史
"robots.txt" は、1994
2007
2019
概要
ウェブサイトのrobots.txt
というテキストファイルをwww.example.com/robots.txt
)。サイト
robots.txt はボットに
example.com
に robots.txt があっても、a.example.com
になければ、example.com
の robots.txt のa.example.com
には
欠点
このプロトコルは
なお、robots.txt に
例
ワイルドカード "*" を
User-agent: *
Disallow:
あらゆるボットが
User-agent: *
Disallow: /
あらゆるボットが4つのディレクトリ
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
User-agent: BadBot # replace the 'BadBot' with the actual user-agent of the bot
Disallow: /private/
あらゆるボットが
User-agent: *
Disallow: /directory/file.html
この
"#" からその
# Comments appear after the "#" symbol at the start of a line, or after a directive
User-agent: * # match all bots
Disallow: / # keep them out
規格 外 の拡張
Crawl-delay ディレクティブ
いくつかのCrawl-delay
というパラメータをサポートしている。
User-agent: *
Crawl-delay: 10
Allow ディレクティブ
いくつかのAllow
ディレクティブをサポートしており、それにDisallow
ディレクティブのAllow
も Disallow
も
あらゆるボットで
Allow: /folder1/myfile.html
Disallow: /folder1/
この
Sitemap ディレクティブ
Sitemap
ディレクティブをサポートしており、1つの robots.txt の
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Sitemap: https://www.google.com/hostednews/sitemap_index.xml
拡張 規格
Extended Standard for Robot Exclusion と
User-agent: *
Disallow: /downloads/
Request-rate: 1/5 # maximum rate is one page every 5 seconds
Visit-time: 0600-0845 # only visit between 06:00 and 08:45 UTC (GMT)
脚注 ・出典
- ^ A Standard for Robot Exclusion
- ^ Information ACAP
- ^
山本 竜也 (2019年 7月 2日 ). “Google、REP(ロボット排除 規約 )のWEB標準 化 を推進 へ”. Engadget日本 版 . 2022年 2月 19日 時点 のオリジナルよりアーカイブ。2020年 8月 4日 閲覧 。 - ^ Koster, Martijn (2022
年 9月 9日 ). “RFC [https://datatracker.ietf.org/doc/html/rfc9309 9309: Robots Exclusion Protocol]” (英語 ). IETF Datatracker. 2022年 12月8日 閲覧 。 - ^ “How can I reduce the number of requests you make on my web site?”. Yahoo! Slurp. 2007
年 3月 31日 閲覧 。 - ^ “MSNBot が Web サイトをクロールする
回数 が多 すぎる”. MSNBot および Web サイトのクロールに関 する問題 に対処 する. 2010年 9月 23日 閲覧 。 - ^ “About Ask.com: Webmasters”. 2010
年 9月 23日 閲覧 。 - ^ “Googleウェブマスターセントラル - robots.txt ファイルを
使用 してページをブロックまたは削除 する”. 2007年 11月20日 閲覧 。 - ^ “How do I prevent my site or certain subdirectories from being crawled? - Yahoo Search Help”. 2007
年 11月20日 閲覧 。 - ^ “Robots Exclusion Protocol - joining together to provide better documentation”. 2009
年 12月3日 閲覧 。 - ^ “Yahoo! Search Blog - Webmasters can now auto-discover with Sitemaps”. 2009
年 3月 23日 閲覧 。
関連 項目
外部 リンク
- Robots Exclusion(
英語 ) - RFC 9309 Robots Exclusion Protocol
- robots.txt の
概要 : Google Search Console ヘルプ - Manual:robots.txt/ja: MediaWikiのマニュアル
内 のrobots.txtに関 するページ - List of Bad Bots - RESに
従 わないボットやクローラの一覧 - About Robots.txt and Search Indexing Robots
- [リンク
切 れ] Robots.txt is not a security measure - History of robots.txt - チャールズ・ストロスがrobots.txtの
誕生 に関 わったという内容 の日記 (元 になったスラッシュドットでのコメントは[1])(英語 ) 具体 例 ja.wikipedia.org の robots.txt