网站时光机
网站时光
网站类型 | |
---|---|
1996 | |
互联网档 | |
网址 | web |
推出时间 | 2001 |
现状 | |
Java、Python |
历史
编辑网站时光
Wayback Machine这个
网站时光
如今,
技 术细节
编辑
网络时光
爬虫
存 储容量的 增加
编辑
互联网档
2013
截至2014
截至2018
成 长
编辑
2013
2005 | |
---|---|
2008 | |
2012 | |
2013 | |
2014 | |
2015 | |
2016 | |
2017 | |
2018 | |
2019 | |
2020 | |
2021 | |
2022 | |
2024 |
网站排除 方 针
编辑
历年
2017
网站时光
网站
用途
编辑
存在 局限
编辑
2014
法律 证据
编辑
民事 诉讼
编辑
Netbula LLC v. Chordiant Software Inc.
编辑Netbula
波 兰电视台
编辑
参 閲
编辑
外部 链接
编辑
官 方 网站- 互联网档
案 馆的使用 条 款,隐私政策 和 版 权政策 . archive.org. 2014-12-31 [2020年 6月 20日 ]. (原始 内容 存 档于2020年 6月 6日 ). 搜索 或 保存 网页的 基本 用 户操作 指南 . WikiHow.com. [2020-06-20]. (原始 内容 存 档于2020-03-15) (英 语、德 语、西 班 牙 语、法 语及意 大利 语).- Internet history is fragile. This archive is making sure it doesn't disappear [互联网历
史 是 脆弱 的 。这个档案正 在 确保它不会 消失 ]. San Francisco: PBS Newshour. [2020-06-20]. (原始 内容 存 档于2021-04-08).
镜像网站
编辑- 网站时光
机 的 官 方 镜像网站.新 亚历山大 图书馆. [2020-06-20]. (原始 内容 存 档于2012-11-28). 1996-2007年 (截至2019年 [update]).
实用程 序
编辑
- Wayback. SourceForge.net. [2020-06-20]. (
原始 内容 存 档于2011-09-16). - 从网站时
光 机 检索备份的 工具 . github.com. [2018-05-03]. (原始 内容 存 档于2021-05-03). - 网站时光
机 在 线下载器. [2018-03-20]. (原始 内容 存 档于2018-03-21) (英 语及波 兰语).
参考 文献
编辑
- ^ WayBackMachine.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (
原始 内容 存 档于2020-05-14). - ^ InternetArchive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (
原始 内容 存 档于2020-05-12). - ^ archive.org Competitive Analysis, Marketing Mix and Traffic - Alexa. alexa.com. [2020-06-06]. (
原始 内容 存 档于2020-05-18). - ^ Internet Archive: Wayback Machine. web.archive.org. (
原始 内容 存 档于2023-03-13). The current number of archived pages can be seen at the archive's home page. - ^ Kahle, Brewster. A Message from Internet Archive Founder, Brewster Kahle. Internet Archive. [10 January 2024].
- ^ Notess, Greg R. The Wayback Machine: The Web's Archive. Online. March–April 2002, 26: 59–61.
- ^ 7.0 7.1 20,000 Hard Drives on a Mission | Internet Archive Blogs. blog.archive.org. [2018-10-15]. (
原始 内容 存 档于2018-10-20) (美国 英 语). - ^ Green, Heather. A Library as Big as the World. BusinessWeek. 2002-02-28. (
原始 内容 存 档于2011-12-20). - ^ Tong, Judy. Responsible Party – Brewster Kahle; A Library Of the Web, On the Web. New York Times. 2002-09-08 [2011-08-15]. (
原始 内容 存 档于2011-02-20). - ^ Can the Internet Be Archived?. The New Yorker. 2015-01-26 [2019-01-23]. (
原始 内容 存 档于2015-01-25). - ^ 11.0 11.1 Internet Archive: Wayback Machine. archive.org. [2018-10-15]. (
原始 内容 存 档于2014-01-03) (英 语). - ^ Cook, John. Web site takes you way back in Internet history. Seattle Post-Intelligencer. 2001-11-01 [2011-08-15]. (
原始 内容 存 档于2014-08-12). - ^ Wayback Goes Way Back on Web. Wired. 2001-10-28 [2017-10-16]. (
原始 内容 存 档于2017-10-16). - ^ 14.0 14.1 14.2 Arora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip. Using the wayback machine to mine websites in the social sciences: A methodological resource. Journal of the Association for Information Science and Technology. 2015-05-05, 67 (8): 1904–1915. ISSN 2330-1635. doi:10.1002/asi.23503 (
英 语). - ^ 15.0 15.1 15.2 15.3 15.4 15.5 15.6 Kalev Leetaru. The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web. Forbes. 2016-01-28 [2017-10-16]. (
原始 内容 存 档于2017-10-16). - ^ Kahle, Brewster. Archiving the Internet. Scientific American – March 1997 Issue. [2020-04-25]. (
原始 内容 存 档于2012-08-03) (英 语). - ^ Kaplan, Jeff. Archive-It: Crawling the Web Together. Internet Archive Blogs. 2014-11-27 [2020-04-24]. (
原始 内容 存 档于2017-10-12) (英 语). - ^ 18.0 18.1 Worldwide Web Crawls. Internet Archive. [2020-06-25]. (
原始 内容 存 档于2017-10-19). - ^ Wide Crawl Number 13. Internet Archive. [2020-06-07]. (
原始 内容 存 档于2017-10-19) (英 语). - ^ Internet Archive: Petabox. archive.org. 2020-06-07 [2020-06-07]. (
原始 内容 存 档于2020-06-03) (英 语). - ^ Kanellos, Michael. Big storage on the cheap. CNET News.com. 2005-07-29 [2020-06-07]. (
原始 内容 存 档于2007-04-03). - ^ Internet Archive and Sun Microsystems Create Living History of the Internet [互联网档
案 馆和Sun系 统创造 了 互联网的鲜活历史]. Sun Microsystems. 2009-03-25 [2020-06-07]. (原始 内容 存 档于2009-03-26) (英 语). - ^ Mearian, Lucas. Internet Archive to unveil massive Wayback Machine data center [互联网档
案 馆推出 大 规模网站时光机 数 据 中心 ]. Computerworld.com. 2009-03-19 [2020-09-07]. (原始 内容 存 档于2009-03-23) (英 语). - ^ Kahle, Brewster. Wayback Machine: Now with 240,000,000,000 URLs [网站时光
机 :现有240,000,000,000个URL]. blog.archive.org. Internet Archive Blogs. 2013-01-09 [2020-06-07]. (原始 内容 存 档于2014-04-14) (英 语). - ^ Rossi, Alexis. Fixing Broken Links on the Internet. archive.org. San Francisco, CA, US: Collections Team, the Internet Archive. 2013-10-25 [2020-06-11]. (
原始 内容 存 档于2014-11-07).We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future.
- ^ The VirusTotal Team. 207.241.226.190 IP address information. virustotal.com. Dublin 2, Ireland: VirusTotal. 2015-03-25 [2020-06-11]. (
原始 内容 存 档于2014-07-14).2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe
- ^ Advisory provided by Google. Safe Browsing Diagnostic page for archive.org. google.com/safebrowsing. Mountain View, CA, US. 2015-03-25 [2020-06-11]. (
原始 内容 存 档于2015-04-06).2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s).
- ^ Internet Archive Frequently Asked Questions. [2020-06-11]. (
原始 内容 存 档于2009-02-21). - ^ Internet Archive Frequently Asked Questions. 2014-12-18 [2020-06-11]. (
原始 内容 存 档于2014年 12月18日 ). - ^ Can the manipulation of big data change the way the world thinks? [
操 纵大数 据 能 改 变世界 的 思 维方式 吗?]. The National. 2017-01-05 [2020-06-07]. (原始 内容 存 档于2017-01-12) (英 语). - ^ Crockett, Zachary. Inside Wayback Machine, the internet's time capsule. The Hustle. 2018-09-28 [2020-06-07]. (
原始 内容 存 档于2018-10-02) (英 语). - ^ Heffernan, Virginia. Things Break and Decay on the Internet—That's a Good Thing. WIRED. 2018-09-18 [2018-10-26]. (
原始 内容 存 档于2018-09-25) (英 语). - ^ Archive.org Site Info. Alexa Internet. [2020-06-11]. (
原始 内容 存 档于2013年 10月 28日 ). - ^ Archive.org Site Overview. Alexa Internet. [2020-06-11]. (
原始 内容 存 档于2015-04-09). - ^ Archive.org Traffic, Demographics and Competitors - Alexa. 2019-03-23 [2020-06-11]. (
原始 内容 存 档于2019-03-23). - ^ michelle. Wayback Machine Hits 400,000,000,000!. Internet Archive. 2014-05-09 [2020-06-11]. (
原始 内容 存 档于2014-08-26). - ^ Internet Archive Wayback Machine. 互联网档
案 馆. [2020-06-01]. (原始 内容 存 档于2015-02-13). - ^ Some sites are not available because of Robots.txt or other exclusions. What does that mean?. 网站时光
机 . [2020-06-13]. (原始 内容 存 档于2011-04-15) (英 语).......All of this information is contained in a file called robots.txt. While robots.txt has been adopted as the universal standard for robot exclusion, compliance with robots.txt is strictly voluntary...... Alexa, the company that crawls the web for the Internet Archive, does respect robots.txt instructions, and even does so retroactively. If a web site owner ever decides he/she prefers not to have a web crawler visiting his / her files and sets up robots.txt on the site, the Alexa crawlers will stop visiting those files and mark all files previously gathered as unavailable......sometimes a web site owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests.
- ^ Cox, Joseph. The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers. 2018-05-22 [2020-06-13]. (
原始 内容 存 档于2018年 5月 22日 ). - ^ Robots.txt meant for search engines don't work well for web archives. Internet Archive. 2017-04-17 [2020-06-13]. (
原始 内容 存 档于2018-12-04) (英 语). - ^ Recommendations for Managing Removal Requests And Preserving Archival Integrity.
加 利 福 尼 亚大学 . 2002-12-14 [2020-06-13]. (原始 内容 存 档于2017-09-18) (英 语). - ^ Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy. 互联网档
案 馆. 2014-07-07 [2020-06-13]. (原始 内容 存 档于2017年 10月 10日 ) (英 语). - ^ Mark Graham. Robots.txt meant for search engines don't work well for web archives [
用 于搜索引 擎的robots.txt不 适用于网络存档]. Internet Archive Blogs. 2017-04-17 [2020-06-18]. (原始 内容 存 档于2017-04-17) (英 语). - ^ Archivierung des Internets: Internet Archive ignoriert künftig robots.txt [互联网档
案 馆:互联网存档馆将 忽 略 robots.txt文 件 ]. heise online. [2020-06-18]. (原始 内容 存 档于2017-04-27) (德 语). - ^ Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren. Golem.de. [2020-06-18]. (
原始 内容 存 档于2017-06-19) (德 语). - ^ Internet Archive will ignore robots.txt files to keep historical record accurate [互联网档
案 馆将忽 略 robots.txt文 件 以保持 历史文 件 的 准 确性]. Digital Trends. 2017-04-24 [2020-06-18]. (原始 内容 存 档于2017-05-16) (英 语). - ^ Sampath Kumar, B.T.; Prithviraj, K.R. Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs. Journal of Information Science. 2014-11-21, 41 (1): 71–81. ISSN 0165-5515. doi:10.1177/0165551514552752 (
英 语). - ^ 48.0 48.1 Nelson, Steven. Wayback Machine Won't Censor Archive for Taste, Director Says After Olympics Article Scrubbed. US News. 2016-08-17 [2020-06-20]. (
原始 内容 存 档于2017-01-06).The Wayback Machine's unique search function frequently is used as a tool for journalists to review now-dead websites or to comb through dated news reports. The archived content has been used to embarrass politicians and expose battlefield lies.
- ^ Lepore, Jill. What the Web Said Yesterday. The New Yorker. 2015-01-19 [2020-06-20]. (
原始 内容 存 档于2015-01-25). - ^ The March for Science began with this person's 'throwaway line' on Reddit [为
科学 游 行 始 于此人 在 Reddit上 “一带而过的话”]. Washington Post. [2017-04-23]. (原始 内容 存 档于2017-04-23) (英 语). - ^ Are scientists going to march on Washington? [
科学 家 要 去 华盛顿游行 吗?]. The Washington Post. 2017-01-24 [2020-06-20]. (原始 内容 存 档于2017-01-31) (英 语). - ^ Foley, Katherine Ellen. The global March for Science started with a single Reddit thread. Quartz. [2020-06-20]. (
原始 内容 存 档于2017-04-24) (英 语). - ^ Internet Archive Frequently Asked Questions. 互联网档
案 馆. 2014-04-02 [2020-06-25]. (原始 内容 存 档于2014-04-02). - ^ 54.0 54.1 Using The Wayback Machine. help.archive.org. 互联网档
案 馆. [2020-06-25]. (原始 内容 存 档于2020-07-06). - ^ 55.0 55.1 Bates, Mary Ellen. The Wayback Machine. Online. 2002, 26: 80 –
通 过EBSCOhost. - ^ 56.0 56.1 56.2 Lloyd, Howard. Order to Disable Robots.txt (PDF). American-Justice.org. 2009-10-15 [2020-06-26]. (
原始 内容 (PDF)存 档于2019-08-08). - ^ Cortes, Antonio L. Motion Opposing Removal of Robots.txt. American-Justice.org. 2009-09-29 [2020-06-26]. (
原始 内容 存 档于2011-05-13).