(Translated by https://www.hiragana.jp/)
网站时光机 - 维基百科,自由的百科全书

网站时光つくえ

あみぎわもうからま檔案もうかそんもう
重定しげさだこうWayback Machine

网站时光つくえ英語えいごWayback Machineこれまん维网てきかず档案馆,よし于美こくぶくあま亚州きゅう金山かなやまてき營利えいり組織そしき互联网档あん创建,また为该组织さい重要じゅうようてきふく务之いち。它允许用户“かいいた过去”,查看过去てき网站てき样子。其创はじめじんぬの鲁斯とく·卡利Bruce GilliatえいBruce Gilliat开发りょう网站时光つくえむねざいどおり保存ほぞんやめ失效しっこう网页てきそん副本ふくほん,以“普及ふきゅう所有しょゆう识”(universal access to all knowledge)。2001ねん推出以来いらい,截至2024ねん1がつ3にち,网站时光つくえやめそん档超过 8600 亿个网页ちょう过 99 PB てきすうすえ[4][5]

网站时光つくえ
Wayback Machine
截图
2021ねん10がつてき网站时光つくえくび
网站类型
そん
成立せいりつ1996ねん5がつ10日とおか,​28ねんまえ​(1996-05-10
もちゆうしゃ互联网档あん
网址web.archive.org 編輯維基數據鏈接
ちゅうさつ
推出时间2001ねん10がつ24にち,​22ねんまえ​(2001-10-24[1][2]
现状かつ
へんほどげんJavaPython

历史

编辑

网站时光つくえよし互联网档あん馆的创始じんぬの魯斯とく·卡利Bruce GilliatえいBruce Gilliat于2001ねん公開こうかい推出,以解决网站在维护ある关闭时无ほう查看内容ないようてき问题[6],此外还能查看网页てき历史そん版本はんぽん,创始じんKahleGilliat希望きぼう以此のう为整个互联网“普及ふきゅう所有しょゆう识”(universal access to all knowledge)[7]

Wayback Machine这个名称めいしょうげん于动へんThe Rocky and Bullwinkle ShowえいThe Rocky and Bullwinkle ShowなかてきWABACつくええいWABAC machine”(发音为Way-back),这是いち时间旅行りょこう装置そうち[8][9]ざい动画へんてきかわはくすすむてき不可能ふかのうてき历史いち集中しゅうちゅうかくしょく使用しよう这一つくえらい见证、参与さんよ甚至あらため变历史上しじょうてき著名ちょめい事件じけん[10]

网站时光つくえ于1996ねん开始そん缓存网页,もく标是ざい五年后将服务公之于众[11]。从1996ねんいた2001ねん,这些しんいき保存ほぞんざい数字すうじ磁带じょう,Kahle偶尔まこと研究けんきゅうじん员和科学かがく使用しようすうすえ[12]。2001ねん,互联网档あん成立せいりつ周年しゅうねん时,加州かしゅう大学だいがくはく克利かつとし分校ぶんこう举行りょう网站时光つくえてき公布こうふ仪式[13]とう网站时光つくえ推出时,它已经存档了ちょう过100亿个页面[14]

如今,すうすえそん储在互联网档あん馆的大型おおがたLinux节点群集ぐんしゅうじょう[7]ゆう时会おもしん访问并存档网站的しん版本はんぽんまいり见下ぶんわざ术细节)[15]。如果网站まこと许网络时こうつくえ爬虫索引さくいん”网站并保存ほぞんすうすえ,则也以通过在搜索そうさくかまちちゅう输入网站てきURLしゅ动捕获网站[11]

わざ术细节

编辑

网络时光つくえやめ经开发了软件よう于“爬虫索引さくいん”并下载所有しょゆうおおやけ开访问的まん维网页面、Gopher层次结构、Usenet公告こうこくいたけい统和载软けん[16]。这些“爬虫”收集しゅうしゅうてきしんいき不能ふのう包括ほうかつ互联网上所有しょゆう可用かようてきしんいきいん为许多数たすうすえ受发ぬのしゃげんせいあるそん储在不可ふか访问てきかずすえなか。为了克服こくふく部分ぶぶん缓存网站てき不一致ふいっちせい,2005ねん,互联网档あん馆开发了Archive-It.org,使つかいとくつくえ构和内容ないよう创作しゃ以自すなお收集しゅうしゅう保存ほぞん数字すうじ内容ないよう,并创けん数字すうじ档案馆[17]

爬虫索引さくいんかく种来げん,其中一些是从第三方导入的,而另一些是由存档内部生成的[15]2010ねん以来いらい,“Worldwide Web Crawls”いちちょくざい运行,并捕获全だま网站[15][18]

かいあきら获的频率いん网站而异[15]。“Worldwide Web Crawls”ちゅうてき网站包含ほうがんざい“爬网れつひょう”(crawl list)ちゅう每次まいじ爬网都会とかいはた网站そんいち[15]。爬网可能かのう需要じゅようすうがつ甚至すうねん才能さいのう完成かんせい具体ぐたい决于其大しょう[15]れい如,"Wide Crawl Number 13"从2015ねん1がつ9にち开始,于2016ねん7がつ11にち完成かんせい[19]ただし,一次可能有多个爬网正在进行,并且一个站点可能包含在多个爬网列表中,いん此,对站てん进行爬网てき频率ゆう很大てき不同ふどう[15]

そん储容量的りょうてき增加ぞうか

编辑

ずい年来ねんらいわざ术的发展,网站时光つくえてきそん储容りょう不断ふだん增加ぞうか。2003ねん,仅经过两ねんてきおおやけ开访问,网站时光つくえ便びん每月まいつき12太字ふとじ节(TB)てき速度そくどぞう长。かずすえそん储在よし互联网档あん馆的工作こうさくじん员定せい设计てきPetaBoxえいPetaBoxつくえけい统上。だいいち个100太字ふとじ节(TB)てきつくえ于2004ねん6がつ全面ぜんめん投入とうにゅう使用しよう过很かい就发现,这些そん储空间远远不够[20][21]

互联网档あん馆在2009ねん其定せいてきそん储体けい结构迁移いたSun开放しき储存えいSun Open Storage,并在Sunけいてきぶくあま园区てきSun块化すうすえ中心ちゅうしんえいSun Modular Datacenterちゅうたくかんりょういち个新てきかずすえ中心ちゅうしん[22]。截至2009ねん (2009-Missing required parameter 1=month!),网站时光つくえ包含ほうがんだい约3はく节(PB)てきすうすえ,并以每月まいつき100太字ふとじ节(TB)てき速度そくどぞう[23]

2013ねん1がつ,该公司こうし宣布せんぷりょう2400亿个URLてき突破とっぱせい里程りてい[24]。2013ねん10がつ,该公司こうし宣布せんぷりょう保存ほぞん页面”(Save a Page)こうのう[25]まこと许任なん互联网用户存档URLてき内容ないよう。这成为了たくかん恶意进制ぶんけんてきふく务滥よう[26][27]

截至2014ねん12月 (2014-12),网站时光つくえそんゆう4350亿个网页,はたきん9はく节(PB)てきすうすえ,并且ごとしゅうぞう长约20太字ふとじ节(TB)[14][28][29]

すえ报道,截至2016ねん7がつ (2016-07),网站时光つくえそんゆう约15はく节(PB)てきすうすえ[30]

截至2018ねん9がつ (2018-09),网站时光つくえそんゆうちょう过25はく节(PB)てきすうすえ[31][32]

なり

编辑

2013ねん10がついたり2015ねん3がつ,该网站的ぜんたまAlexaはいめい从163[33]变为208[34]。2019ねん3がつ,该排めい为244[35].

网站时光つくえてきなり[36] [37]
とし やめそん档的页面すう(单位:亿)
2005
400
2008
850
2012
1,500
2013
3,730
2014
4,000
2015
4,520
2016
4,590
2017
2,790
2018
3,100
2019
3,450
2020
4,050
2021
5,140
2022
6,400
2024
8,660

网站排除はいじょかた

编辑

历年らい,网站时光つくえいちちょく尊重そんちょうつくえじん排除はいじょ标准(robots.txt)以决じょう一个网站是否会受爬网;あるもの如果やめ经爬网了,它的そん档是いや以公开查つう使用しようrobots.txt,网站所有しょゆうしゃ以选择退出たいしゅつ网站时光つくえ。如果站点阻止そしりょう网页そん档,则域ちゅう以前いぜんそん档的にんなん页面也将りつそく显示为不可用かよう。此外,互联网档あん表示ひょうじ,“ゆう时网站所有しょゆうしゃかい直接ちょくせつ联系わが们,要求ようきゅうわが停止ていし对网站进ぎょう爬网あるそん档。わが们会遵守じゅんしゅ这些请求。”[38][39]

2017ねん4がつ17にちゆう报道たたえ,一些网站已经倒闭,なり暂停てきいきえいDomain parking(Domain parking)。它们どおり使用しようrobots.txt自己じこ排除はいじょざい搜索そうさく引擎そと,这使とく时光つくえ无意ちゅう排除はいじょりょう這些网站[40]

网站时光つくえてき网站排除はいじょかた针(Website exclusion policy)部分ぶぶんもと于2002ねんぶくあま亚大がくはく克利かつとし分校ぶんこうしんいき管理かんりけい统学いん发布てき管理かんり删除请求维护档案かんせいせいてきけん议》(英語えいごRecommendations for Managing Removal Requests and Preserving Archival Integrity),此建议赋网站所有しょゆうしゃ阻止そし访问网站そん档的权利[41]。网站时光つくえ遵守じゅんしゅりょう这一政策せいさく,以避めんのぼる贵的诉讼[42]

网站排除はいじょかた针于2017ねん开始宽,とう时它停止ていし遵循robots.txt,并对美国びくに政府せいふ军方てき网站进行爬网显示网页。截至2017ねん4がつ,网站时光つくえさら广泛ゆるがせりゃくりょうrobots.txt,而不仅对于美こく政府せいふ网站[43][44][45][46]

用途ようと

编辑

2001ねん网站时光つくえこう开发ぬの以来いらい学者がくしゃ们一直在研究它的存储和收集数据的方式,以及其存档中实际包含ほうがんてき页面。截至2013ねん学者がくしゃ们已经在网站时光机上きじょうせんうつしりょうだい约350へん文章ぶんしょう,其中だい部分ぶぶんしんいきわざ图书馆学社会しゃかい科学かがく领域。社会しゃかい科学かがく学者がくしゃ使用しよう网站时光つくえ分析ぶんせきりょう从90年代ねんだい中期ちゅうきいたりこん网站てき发展对公司こうしてきなり长的かげ[14]

とう网站时光つくえそん档一个页めん时,它通常会じょうかい包含ほうがんだい多数たすうちょう链接,以使这些链接遭互联网てき稳定せい轻易やぶ坏时,のう够仍しか保持ほじかつ动状态。印度いんどてき研究けんきゅうじん研究けんきゅうりょう网站时光つくえ保存ほぞんざい线学术出版しゅっぱんぶつちゅうてきちょう链接てき能力のうりょくてき有效ゆうこうせい,发现它保存ほぞんりょうりゃく一半いっぱんてきちょう链接。[47]

ゆう记者使用しよう网站时光つくえ查看失效しっこうてき网站、过时てきしん闻报どう以及更改こうかいてき网站内容ないよう。其内容ないようやめよう追究ついきゅう政治せいじてき责任,揭穿そう论场あいじょうてき谎言[48]。2014ねん,乌克兰东分裂ぶんれつ地区ちく叛军顿涅いばらかつ人民じんみん领导じんほこ尔·斯特れつ尔科おっとてき社交しゃこう媒体ばいたいてきそん档页めん显示,吹嘘自己じこてき队击落了一架疑似乌克兰军用飞机,きさきらい才知さいちどう这架飞机实际じょう一架马航民航客机(马来西にし航空こうくう17ごうはんつくえ),これきさき删除りょう发布てき这篇文章ぶんしょう,并指责乌かつ兰军かた击落りょう这架飞机[48][49]。2017ねんざい社交しゃこう网站Redditてき讨论ちゅう有人ゆうじん表示ひょうじ访问过archive.org 并发现白宫网站删じょりょう所有しょゆうひさげ及气こう变化てき内容ないよう,对此,いちよう户评论道:“科学かがくゆう必要ひつようざい华盛顿举ぎょういちゆうこう”,此事なり为了科学かがくゆうこう(March for Science)举行てき原因げんいん[50][51][52]

存在そんざい局限きょくげん

编辑

2014ねん,从抓网站到它可以在网站时光机上きじょう查看存在そんざい6个月てきのべ迟时间[53]目前もくぜん,该延迟时间为3-10しょう[54]。网站时光つくえ提供ていきょう有限ゆうげんてき搜索そうさくこうのう,它的“站点搜索そうさく”(Site Search)こうのうまこと许用户根すえ描述站点てき词汇らい查找站点,而非网页本身ほんみてき词汇[55]

よし于网络爬ちゅうてききりせい,网站时光つくえ无法完全かんぜんそん互动しき网页れいFlash平台ひらだい使用しようJavaScript渐进しき网络应用ほどじょ编写てきひょう单,いん为这些功のう需要じゅようあずか宿主しゅくしゅ网站交互こうご。网站时光つくえてき网络爬虫很难ひっさげにんなん使用しようHTMLある其变がた编码てき内容ないよう,这通常会じょうかい导致ちょう链接损坏图像丢失。よし此,网络爬虫无法そん档不包含ほうがん指向しこう其他页面てき链接てき孤立こりつ页面”(Orphan page)[55][54]よし于其爬虫ほどじょ仅能すえ其预设的深度しんどげんせいつい踪有げん数量すうりょうてきちょう链接,いん此它无法そん档每个页めんちゅうてきまい个超链接[18]

法律ほうりつ证据

编辑

民事みんじ诉讼

编辑
Netbula LLC v. Chordiant Software Inc.
编辑

ざい2009ねんてき“Netbula, LLC v. Chordiant Software Inc.”一案いちあんちゅう被告ひこくChordiant提出ていしゅつ动议要求ようきゅうNetbulaきんよう其网站上てきrobots.txtぶんけんいん为该ぶんけん导致网站时光つくえおいさかのぼせい撤销りょう对Netbula网站さきぜん版本はんぽんてきそん档的访问权限,Chordiantしょうしん这些页面ちゅう存在そんざい有利ゆうり于诉讼的材料ざいりょう[56]

Netbulaはん对该动议,理由りゆう被告ひこく要求ようきゅう更改こうかいNetbulaてき网站,们应该直接ちょくせつ为这些页めん直接ちょくせつ传唤互联网档あん[57]しか而,互联网档あん馆的一名雇员发表了宣誓声明,支持しじChordiantてき动议,表示ひょうじざい对其运营造成ぞうせい大量たいりょう负担,费用扰”てきじょう况下,无法どおり过任なん其他方式ほうしき访问网页[56]

美国びくにぶくあま亚北联邦地区ちくほういん圣何ふさが分部わけべてき地方ちほう法官ほうかん霍华とく·劳埃とく(Howard Lloyd)驳回りょうNetbulaてき论点,并命令めいれい们暂时禁ようrobots.txt阻止そしほどじょ,以使Chordiant以检さく们想ようてきそん档页めん[56]

なみ兰电视台
编辑

ざい2004ねん10がつてきTelewizja Polska USA, Inc. v. Echostar Satellite”No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案いちあんちゅういちめい诉讼当事とうじじん试图使用しよう网站时光つくえてき档案さく有效ゆうこう证据てきらいげん,此举可能かのうぞく于首なみ兰电视台TVP PoloniaえいTVP Poloniaてききょう应商,EchoStarえいEchoStar运营Dish Networkざい审判ほどじょまえ,EchoStar表示ひょうじ,它打算ださん提供ていきょう网站时光つくえかいあきらさく为波兰电视台网站过去内容ないようてき证据。

まいり

编辑

外部がいぶ链接

编辑

镜像网站

编辑

实用ほどじょ

编辑

参考さんこう文献ぶんけん

编辑
  1. ^ WayBackMachine.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始げんし内容ないようそん档于2020-05-14). 
  2. ^ InternetArchive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始げんし内容ないようそん档于2020-05-12). 
  3. ^ archive.org Competitive Analysis, Marketing Mix and Traffic - Alexa. alexa.com. [2020-06-06]. (原始げんし内容ないようそん于2020-05-18). 
  4. ^ Internet Archive: Wayback Machine. web.archive.org. (原始げんし内容ないようそん档于2023-03-13).  The current number of archived pages can be seen at the archive's home page.
  5. ^ Kahle, Brewster. A Message from Internet Archive Founder, Brewster Kahle. Internet Archive. [10 January 2024]. 
  6. ^ Notess, Greg R. The Wayback Machine: The Web's Archive. Online. March–April 2002, 26: 59–61. 
  7. ^ 7.0 7.1 20,000 Hard Drives on a Mission | Internet Archive Blogs. blog.archive.org. [2018-10-15]. (原始げんし内容ないようそん档于2018-10-20) 美国びくにえい语). 
  8. ^ Green, Heather. A Library as Big as the World. BusinessWeek. 2002-02-28. (原始げんし内容ないようそん档于2011-12-20). 
  9. ^ Tong, Judy. Responsible Party – Brewster Kahle; A Library Of the Web, On the Web. New York Times. 2002-09-08 [2011-08-15]. (原始げんし内容ないようそん于2011-02-20). 
  10. ^ Can the Internet Be Archived?. The New Yorker. 2015-01-26 [2019-01-23]. (原始げんし内容ないようそん于2015-01-25). 
  11. ^ 11.0 11.1 Internet Archive: Wayback Machine. archive.org. [2018-10-15]. (原始げんし内容ないようそん档于2014-01-03) えい语). 
  12. ^ Cook, John. Web site takes you way back in Internet history. Seattle Post-Intelligencer. 2001-11-01 [2011-08-15]. (原始げんし内容ないようそん于2014-08-12). 
  13. ^ Wayback Goes Way Back on Web. Wired. 2001-10-28 [2017-10-16]. (原始げんし内容ないようそん于2017-10-16). 
  14. ^ 14.0 14.1 14.2 Arora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip. Using the wayback machine to mine websites in the social sciences: A methodological resource. Journal of the Association for Information Science and Technology. 2015-05-05, 67 (8): 1904–1915. ISSN 2330-1635. doi:10.1002/asi.23503 えい语). 
  15. ^ 15.0 15.1 15.2 15.3 15.4 15.5 15.6 Kalev Leetaru. The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web. Forbes. 2016-01-28 [2017-10-16]. (原始げんし内容ないようそん于2017-10-16). 
  16. ^ Kahle, Brewster. Archiving the Internet. Scientific American – March 1997 Issue. [2020-04-25]. (原始げんし内容ないようそん于2012-08-03) えい语). 
  17. ^ Kaplan, Jeff. Archive-It: Crawling the Web Together. Internet Archive Blogs. 2014-11-27 [2020-04-24]. (原始げんし内容ないようそん于2017-10-12) えい语). 
  18. ^ 18.0 18.1 Worldwide Web Crawls. Internet Archive. [2020-06-25]. (原始げんし内容ないようそん于2017-10-19). 
  19. ^ Wide Crawl Number 13. Internet Archive. [2020-06-07]. (原始げんし内容ないようそん于2017-10-19) えい语). 
  20. ^ Internet Archive: Petabox. archive.org. 2020-06-07 [2020-06-07]. (原始げんし内容ないようそん于2020-06-03) えい语). 
  21. ^ Kanellos, Michael. Big storage on the cheap. CNET News.com. 2005-07-29 [2020-06-07]. (原始げんし内容ないようそん档于2007-04-03). 
  22. ^ Internet Archive and Sun Microsystems Create Living History of the Internet [互联网档あん馆和Sunけい统创づくりりょう互联网的鲜活历史]. Sun Microsystems. 2009-03-25 [2020-06-07]. (原始げんし内容ないようそん档于2009-03-26) えい语). 
  23. ^ Mearian, Lucas. Internet Archive to unveil massive Wayback Machine data center [互联网档あん馆推だい规模网站时光つくえすうすえ中心ちゅうしん]. Computerworld.com. 2009-03-19 [2020-09-07]. (原始げんし内容ないようそん档于2009-03-23) えい语). 
  24. ^ Kahle, Brewster. Wayback Machine: Now with 240,000,000,000 URLs [网站时光つくえ:现有240,000,000,000个URL]. blog.archive.org. Internet Archive Blogs. 2013-01-09 [2020-06-07]. (原始げんし内容ないようそん于2014-04-14) えい语). 
  25. ^ Rossi, Alexis. Fixing Broken Links on the Internet. archive.org. San Francisco, CA, US: Collections Team, the Internet Archive. 2013-10-25 [2020-06-11]. (原始げんし内容ないようそん于2014-11-07). We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future. 
  26. ^ The VirusTotal Team. 207.241.226.190 IP address information. virustotal.com. Dublin 2, Ireland: VirusTotal. 2015-03-25 [2020-06-11]. (原始げんし内容ないようそん档于2014-07-14). 2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe 
  27. ^ Advisory provided by Google. Safe Browsing Diagnostic page for archive.org. google.com/safebrowsing. Mountain View, CA, US. 2015-03-25 [2020-06-11]. (原始げんし内容ないようそん于2015-04-06). 2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s). 
  28. ^ Internet Archive Frequently Asked Questions. [2020-06-11]. (原始げんし内容ないようそん于2009-02-21). 
  29. ^ Internet Archive Frequently Asked Questions. 2014-12-18 [2020-06-11]. (原始げんし内容ないようそん档于2014ねん12月18にち). 
  30. ^ Can the manipulation of big data change the way the world thinks? [みさお纵大すうすえのうあらため变世かいてきおもえ维方しき吗?]. The National. 2017-01-05 [2020-06-07]. (原始げんし内容ないようそん于2017-01-12) えい语). 
  31. ^ Crockett, Zachary. Inside Wayback Machine, the internet's time capsule. The Hustle. 2018-09-28 [2020-06-07]. (原始げんし内容ないようそん档于2018-10-02) えい语). 
  32. ^ Heffernan, Virginia. Things Break and Decay on the Internet—That's a Good Thing. WIRED. 2018-09-18 [2018-10-26]. (原始げんし内容ないようそん于2018-09-25) えい语). 
  33. ^ Archive.org Site Info. Alexa Internet. [2020-06-11]. (原始げんし内容ないようそん档于2013ねん10がつ28にち). 
  34. ^ Archive.org Site Overview. Alexa Internet. [2020-06-11]. (原始げんし内容ないようそん档于2015-04-09). 
  35. ^ Archive.org Traffic, Demographics and Competitors - Alexa. 2019-03-23 [2020-06-11]. (原始げんし内容ないようそん于2019-03-23). 
  36. ^ michelle. Wayback Machine Hits 400,000,000,000!. Internet Archive. 2014-05-09 [2020-06-11]. (原始げんし内容ないようそん于2014-08-26). 
  37. ^ Internet Archive Wayback Machine. 互联网档あん馆. [2020-06-01]. (原始げんし内容ないようそん档于2015-02-13). 
  38. ^ Some sites are not available because of Robots.txt or other exclusions. What does that mean?. 网站时光つくえ. [2020-06-13]. (原始げんし内容ないようそん档于2011-04-15) えい语). ......All of this information is contained in a file called robots.txt. While robots.txt has been adopted as the universal standard for robot exclusion, compliance with robots.txt is strictly voluntary...... Alexa, the company that crawls the web for the Internet Archive, does respect robots.txt instructions, and even does so retroactively. If a web site owner ever decides he/she prefers not to have a web crawler visiting his / her files and sets up robots.txt on the site, the Alexa crawlers will stop visiting those files and mark all files previously gathered as unavailable......sometimes a web site owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests. 
  39. ^ Cox, Joseph. The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers. 2018-05-22 [2020-06-13]. (原始げんし内容ないようそん档于2018ねん5がつ22にち). 
  40. ^ Robots.txt meant for search engines don't work well for web archives. Internet Archive. 2017-04-17 [2020-06-13]. (原始げんし内容ないようそん于2018-12-04) えい语). 
  41. ^ Recommendations for Managing Removal Requests And Preserving Archival Integrity. ぶくあま亚大がく. 2002-12-14 [2020-06-13]. (原始げんし内容ないようそん档于2017-09-18) えい语). 
  42. ^ Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy. 互联网档あん馆. 2014-07-07 [2020-06-13]. (原始げんし内容ないようそん于2017ねん10がつ10日とおかえい语). 
  43. ^ Mark Graham. Robots.txt meant for search engines don't work well for web archives [よう于搜索引さくいん擎的robots.txt适用于网络存档]. Internet Archive Blogs. 2017-04-17 [2020-06-18]. (原始げんし内容ないようそん于2017-04-17) えい语). 
  44. ^ Archivierung des Internets: Internet Archive ignoriert künftig robots.txt [互联网档あん馆:互联网存档馆はたゆるがせりゃくrobots.txtぶんけん]. heise online. [2020-06-18]. (原始げんし内容ないようそん于2017-04-27) とく语). 
  45. ^ Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren. Golem.de. [2020-06-18]. (原始げんし内容ないようそん于2017-06-19) とく语). 
  46. ^ Internet Archive will ignore robots.txt files to keep historical record accurate [互联网档あん馆将ゆるがせりゃくrobots.txtぶんけん保持ほじ历史ぶんけんてきじゅん确性]. Digital Trends. 2017-04-24 [2020-06-18]. (原始げんし内容ないようそん于2017-05-16) えい语). 
  47. ^ Sampath Kumar, B.T.; Prithviraj, K.R. Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs. Journal of Information Science. 2014-11-21, 41 (1): 71–81. ISSN 0165-5515. doi:10.1177/0165551514552752 えい语). 
  48. ^ 48.0 48.1 Nelson, Steven. Wayback Machine Won't Censor Archive for Taste, Director Says After Olympics Article Scrubbed. US News. 2016-08-17 [2020-06-20]. (原始げんし内容ないようそん于2017-01-06). The Wayback Machine's unique search function frequently is used as a tool for journalists to review now-dead websites or to comb through dated news reports. The archived content has been used to embarrass politicians and expose battlefield lies. 
  49. ^ Lepore, Jill. What the Web Said Yesterday. The New Yorker. 2015-01-19 [2020-06-20]. (原始げんし内容ないようそん于2015-01-25). 
  50. ^ The March for Science began with this person's 'throwaway line' on Reddit [为科学かがくゆうこうはじめ于此じんざいRedditじょう“一带而过的话”]. Washington Post. [2017-04-23]. (原始げんし内容ないようそん于2017-04-23) えい语). 
  51. ^ Are scientists going to march on Washington? [科学かがくよう华盛顿游ぎょう吗?]. The Washington Post. 2017-01-24 [2020-06-20]. (原始げんし内容ないようそん档于2017-01-31) えい语). 
  52. ^ Foley, Katherine Ellen. The global March for Science started with a single Reddit thread. Quartz. [2020-06-20]. (原始げんし内容ないようそん于2017-04-24) えい语). 
  53. ^ Internet Archive Frequently Asked Questions. 互联网档あん馆. 2014-04-02 [2020-06-25]. (原始げんし内容ないようそん档于2014-04-02). 
  54. ^ 54.0 54.1 Using The Wayback Machine. help.archive.org. 互联网档あん馆. [2020-06-25]. (原始げんし内容ないようそん于2020-07-06). 
  55. ^ 55.0 55.1 Bates, Mary Ellen. The Wayback Machine. Online. 2002, 26: 80 –どおり过EBSCOhost. 
  56. ^ 56.0 56.1 56.2 Lloyd, Howard. Order to Disable Robots.txt (PDF). American-Justice.org. 2009-10-15 [2020-06-26]. (原始げんし内容ないよう (PDF)そん档于2019-08-08). 
  57. ^ Cortes, Antonio L. Motion Opposing Removal of Robots.txt. American-Justice.org. 2009-09-29 [2020-06-26]. (原始げんし内容ないようそん档于2011-05-13).