fbpx
维基百科

网站时光机

网站时光机(英語:Wayback Machine)是万维网數碼档案馆,由位于美国加利福尼亚州旧金山非營利組織互联网档案馆创建,亦为该组织最重要的服务之一。它允许用户“回到过去”,查看过去的网站的样子。其创始人布鲁斯特·卡利Bruce Gilliat英语Bruce Gilliat开发了网站时光机,旨在通过保存已失效网页的存档副本,以“普及所有知识”(universal access to all knowledge)。自2001年推出以来,已有4,520多亿页面被加入档案馆。

网站时光机
Wayback Machine
截图
2021年10月的网站时光机首页
网站类型
存档
持有者互联网档案馆
网址web.archive.org
注册可选
推出时间2001年10月24日,​21年前​(2001-10-24[1][2]
现状活跃
編程語言JavaPython

历史

网站时光机由互联网档案馆的创始人布魯斯特·卡利和Bruce Gilliat英语Bruce Gilliat于2001年推出,以解决网站在维护或关闭时无法查看内容的问题[4],此外还能查看网页的历史存档版本,创始人Kahle和Gilliat希望以此能为整个互联网“普及所有知识”(universal access to all knowledge)。[5]

Wayback Machine这个名称源于动画片The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show中的“WABAC机器英语WABAC machine”(发音为Way-back),这是一个时间旅行装置。[6][7]在动画片的皮博迪的不可能的历史一集中,角色使用这一机器来见证、参与甚至改变历史上的著名事件。[8]

网站时光机于1996年开始存档缓存网页,目标是在五年后将服务公之于众。[9]从1996年到2001年,这些信息保存在数字磁带上,Kahle偶尔允许研究人员和科学家使用数据库。[10]2001年,互联网档案馆成立五周年时,加州大学伯克利分校举行了网站时光机的公布仪式。[11]当网站时光机推出时,它已经存档了超过100亿个页面。[12]

如今,数据存储在互联网档案馆的大型Linux节点群集上。[5]有时会重新访问并存档网站的新版本(参见下文技术细节)。[13]如果网站允许网络时光机“爬虫索引”网站并保存数据,则也可以通过在搜索框中输入网站的URL手动捕获网站。[9]

技术细节

网络时光机已经开发了软件用于“爬虫索引”并下载所有可公开访问的万维网页面、Gopher层次结构、Usenet公告板系统和可下载软件。[14]这些“爬虫”收集的信息并不能包括互联网上所有可用的信息,因为许多数据受发布者限制或存储在不可访问的数据库中。为了克服部分缓存网站的不一致性,2005年,互联网档案馆开发了Archive-It.org,使得机构和内容创作者可以自愿收集和保存数字内容,并创建数字档案馆。[15]

爬虫索引来自各种来源,其中一些是从第三方导入的,而另一些是由存档内部生成的[13]。自2010年以来,“Worldwide Web Crawls”一直在运行,并捕获全球网站[13][16]

快照捕获的频率因网站而异。[13]“Worldwide Web Crawls”中的网站包含在“爬网列表”(crawl list)中,每次爬网都会将网站存档一次。[13]爬网可能需要数月甚至数年才能完成,具体取决于其大小。[13]例如,"Wide Crawl Number 13"从2015年1月9日开始,于2016年7月11日完成。[17]但是,一次可能有多个爬网正在进行,并且一个站点可能包含在多个爬网列表中,因此,对站点进行爬网的频率有很大的不同。[13]

存储容量的增加

随着多年来技术的发展,网站时光机的存储容量不断增加。2003年,仅经过两年的公开访问,网站时光机便以每月12太字节(TB)的速度增长。数据存储在由互联网档案馆的工作人员定制设计的PetaBox英语PetaBox机架系统上。第一个100太字节(TB)的机架于2004年6月全面投入使用,不过很快就发现,这些存储空间远远不够。[18][19]

互联网档案馆在2009年其定制的存储体系结构迁移到Sun开放式储存英语Sun Open Storage,并在Sun系统加利福尼亚园区的Sun模块化数据中心英语Sun Modular Datacenter中托管了一个新的数据中心[20]截至2009年 (2009-Missing required parameter 1=month!),网站时光机包含大约3拍字节(PB)的数据,并以每月100太字节(TB)的速度增长。[21]

2013年1月,该公司宣布了2400亿个URL的突破性里程碑。[22]2013年10月,该公司宣布了“保存页面”(Save a Page)功能[23],允许任何互联网用户存档URL的内容。这成为了托管恶意二进制文件的服务滥用威胁。[24][25]

截至2014年12月 (2014-12),网站时光机存有4350亿个网页,将近9拍字节(PB)的数据,并且每周增长约20太字节(TB)。[12][26][27]

据报道,截至2016年7月 (2016-07),网站时光机存有约15拍字节(PB)的数据。[28]

截至2018年9月 (2018-09),网站时光机存有超过25拍字节(PB)的数据。[29][30]

成长

2013年10月至2015年3月,该网站的全球Alexa排名从163[31]变为208[32]。2019年3月,该排名为244[33].

网站时光机的成长 [34][35]
年份 已存档的页面数(单位:亿)
2005
400
2008
850
2012
1,500
2013
3,730
2014
4,000
2015
4,520

网站排除方针

历年来,网站时光机一直尊重机器人排除标准(robots.txt)以决定一个网站是否会被爬网;或者如果已经被爬网,它的存档是否可以公开查看。通过使用robots.txt,网站所有者可以选择退出网站时光机。如果站点阻止了网页存档,则域中以前存档的任何页面也将立即显示为不可用。此外,互联网档案馆表示,“有时网站所有者会直接联系我们,要求我们停止对网站进行爬网或存档。我们会遵守这些请求。”[36][37]

2017年4月17日,有报道称,一些网站已经倒闭,成为暂停的域英语Domain parking(Domain parking)。它们通过使用robots.txt把自己排除在搜索引擎之外,导致在无意中被网站时光机排除。[38]

网站时光机的网站排除方针(Website exclusion policy)部分基于2002年加利福尼亚大学伯克利分校信息管理和系统学院发布的《管理删除请求和维护档案完整性的建议》(英語:Recommendations for Managing Removal Requests and Preserving Archival Integrity),此建议赋予网站所有者阻止访问网站存档的权利。[39]网站时光机遵守了这一政策,以避免昂贵的诉讼。[40]

网站排除方针于2017年开始放宽,当时它停止遵循robots.txt,并对美国政府和军方的网站进行爬网和显示网页。截至2017年4月,网站时光机更广泛地忽略了robots.txt,而不仅对于美国政府网站。[41][42][43][44]

用途

自2001年网站时光机公开发布以来,学者们一直在研究它的存储和收集数据的方式,以及其存档中实际包含的页面。截至2013年,学者们已经在网站时光机上撰写了大约350篇文章,其中大部分来自信息技术图书馆学社会科学领域。社会科学学者们使用网站时光机分析了从90年代中期至今网站的发展对公司的成长的影响。[12]

当网站时光机存档一个页面时,它通常会包含大多数超链接,以使这些链接被互联网的不稳定性轻易破坏时,能够仍然保持活动状态。印度的研究人员研究了网站时光机保存在线学术出版物中的超链接的能力的有效性,发现它保存了略多于一半的超链接。[45]

有记者使用网站时光机查看失效的网站、过时的新闻报道以及被更改的网站内容。其内容已被用于追究政治家的责任,揭穿争论场合上的谎言[46]。2014年,乌克兰东部分裂地区叛军顿涅茨克人民军领导人伊戈尔·斯特列尔科夫的社交媒体的存档页面显示,他吹嘘自己的部队击落了一架疑似乌克兰军用飞机,后来才知道这架飞机实际上是一架马航民航客机(马来西亚航空17号班机),之后,他删除了发布的这篇文章,并指责乌克兰军方击落了这架飞机[46][47]。2017年,在社交网站reddit的讨论中,有人表示访问过archive.org 并发现白宫网站删除了所有提及气候变化的内容,对此,一位用户评论道:“科学家有必要在华盛顿举行一次游行”,此事成为了为科学游行(March for Science)举行的原因。[48][49][50]

局限性

2014年,从抓取网站到它可以在网站时光机上被查看之间存在6个月的延迟时间[51]。目前,该延迟时间为3-10小时[52]。网站时光机仅提供有限的搜索功能,它的“站点搜索”(Site Search)功能允许用户根据描述站点的词汇来查找站点,而非网页本身的词汇。[53]

由于网络爬虫的限制,网站时光机无法完全存档互动式网页,例如Flash平台和使用JavaScript渐进式网络应用程序编写的表单,因为这些功能需要与宿主网站交互。网站时光机的网络爬虫很难提取任何未使用HTML或其变形编码的内容,这通常会导致超链接损坏和图像丢失。因此,网络爬虫无法存档不包含指向其他页面的链接的“孤立页面”(Orphan page)。[53][52]由于其爬虫程序仅能根据其预设的深度限制追踪有限数量的超链接,因此它无法存档每个页面中的每个超链接[16]

法律证据

民事诉讼

Netbula LLC v. Chordiant Software Inc.

在2009年的“Netbula, LLC v. Chordiant Software Inc.”一案中,被告Chordiant提出动议,要求Netbula禁用其网站上的robots.txt文件,因为该文件导致网站时光机追溯性地撤销了对Netbula网站先前版本的存档的访问权限,Chordiant相信这些页面中存在有利于诉讼的材料[54]

Netbula反对该动议,理由是被告要求更改Netbula的网站,他们应该直接为这些页面直接传唤互联网档案馆[55]。然而,互联网档案馆的一名雇员发表了宣誓声明,支持Chordiant的动议,表示在“不对其运营造成大量负担,费用和干扰”的情况下,无法通过任何其他方式访问网页。[54]

美国加利福尼亚北区联邦地区法院圣何塞分部的地方法官霍华德·劳埃德(Howard Lloyd)驳回了Netbula的论点,并命令他们暂时禁用robots.txt阻止程序,以使Chordiant可以检索他们想要的存档页面。[54]

波兰电视台

在2004年10月的“ Telewizja Polska USA, Inc. v. Echostar Satellite”No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案中,一名诉讼当事人试图使用网站时光机的档案作为有效证据的来源,此举可能属于首次。波兰电视台是TVP Polonia英语TVP Polonia的供应商,EchoStar英语EchoStar运营Dish Network。在审判程序之前,EchoStar表示,它打算提供网站时光机快照,作为波兰电视台网站过去内容的证据。

参考文献

  1. ^ . WHOIS. [2016-03-13]. (原始内容存档于2020-05-14). 
  2. ^ . WHOIS. [2016-03-13]. (原始内容存档于2020-05-12). 
  3. ^ archive.org Competitive Analysis, Marketing Mix and Traffic - Alexa. alexa.com. [2020-06-06]. (原始内容于2020-05-18). 
  4. ^ Notess, Greg R. The Wayback Machine: The Web's Archive. Online. March–April 2002, 26: 59–61. 
  5. ^ 5.0 5.1 . blog.archive.org. [2018-10-15]. (原始内容存档于2018-10-20) (美国英语). 
  6. ^ Green, Heather. . BusinessWeek. 2002-02-28. (原始内容存档于2011-12-20). 
  7. ^ Tong, Judy. Responsible Party – Brewster Kahle; A Library Of the Web, On the Web. New York Times. 2002-09-08 [2011-08-15]. (原始内容于2011-02-20). 
  8. ^ Can the Internet Be Archived?. The New Yorker. 2015-01-26 [2019-01-23]. (原始内容于2015-01-25). 
  9. ^ 9.0 9.1 . archive.org. [2018-10-15]. (原始内容存档于2014-01-03) (英语). 
  10. ^ Cook, John. Web site takes you way back in Internet history. Seattle Post-Intelligencer. 2001-11-01 [2011-08-15]. (原始内容于2014-08-12). 
  11. ^ Wayback Goes Way Back on Web. Wired. 2001-10-28 [2017-10-16]. (原始内容于2017-10-16). 
  12. ^ 12.0 12.1 12.2 Arora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip. Using the wayback machine to mine websites in the social sciences: A methodological resource. Journal of the Association for Information Science and Technology. 2015-05-05, 67 (8): 1904–1915. ISSN 2330-1635. doi:10.1002/asi.23503 (英语). 
  13. ^ 13.0 13.1 13.2 13.3 13.4 13.5 13.6 Kalev Leetaru. The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web. Forbes. January 28, 2016 [October 16, 2017]. (原始内容于October 16, 2017). 
  14. ^ Kahle, Brewster. Archiving the Internet. Scientific American – March 1997 Issue. [2020-04-25]. (原始内容于2012-08-03) (英语). 
  15. ^ Kaplan, Jeff. Archive-It: Crawling the Web Together. Internet Archive Blogs. 2014-11-27 [2020-04-24]. (原始内容于2017-10-12) (英语). 
  16. ^ 16.0 16.1 Worldwide Web Crawls. Internet Archive. [2020-06-25]. (原始内容于2017-10-19). 
  17. ^ Wide Crawl Number 13. Internet Archive. [2020-06-07]. (原始内容于2017-10-19) (英语). 
  18. ^ Internet Archive: Petabox. archive.org. 2020-06-07 [2020-06-07]. (原始内容于2020-06-03) (英语). 
  19. ^ Kanellos, Michael. . CNET News.com. 2005-07-29 [2020-06-07]. (原始内容存档于2007-04-03). 
  20. ^ . Sun Microsystems. 2009-03-25 [2020-06-07]. (原始内容存档于2009-03-26) (英语). 
  21. ^ Mearian, Lucas. . Computerworld.com. 2009-03-19 [2020-09-07]. (原始内容存档于2009-03-23) (英语). 
  22. ^ Kahle, Brewster. Wayback Machine: Now with 240,000,000,000 URLs [网站时光机:现有240,000,000,000个URL]. blog.archive.org. Internet Archive Blogs. 2013-01-09 [2020-06-07]. (原始内容于2014-04-14) (英语). 
  23. ^ Rossi, Alexis. Fixing Broken Links on the Internet. archive.org. San Francisco, CA, US: Collections Team, the Internet Archive. October 25, 2013 [2020-06-11]. (原始内容于2014-11-07). We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future. 
  24. ^ The VirusTotal Team. . virustotal.com. Dublin 2, Ireland: VirusTotal. 2015-03-25 [2020-06-11]. (原始内容存档于2014-07-14). 2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe 
  25. ^ Advisory provided by Google. Safe Browsing Diagnostic page for archive.org. google.com/safebrowsing. Mountain View, CA, US. 2015-03-25 [2020-06-11]. (原始内容于2015-04-06). 2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s). 
  26. ^ Internet Archive Frequently Asked Questions. [2020-06-11]. (原始内容于2009-02-21). 
  27. ^ . 2014-12-18 [2020-06-11]. (原始内容存档于2014年12月18日). 
  28. ^ Can the manipulation of big data change the way the world thinks? [操纵大数据能改变世界的思维方式吗?]. The National. 2017-01-05 [2020-06-07]. (原始内容于2017-01-12) (英语). 
  29. ^ Crockett, Zachary. . The Hustle. 2018-09-28 [2020-06-07]. (原始内容存档于2018-10-02) (英语). 
  30. ^ Heffernan, Virginia. Things Break and Decay on the Internet—That's a Good Thing. WIRED. 2018-09-18 [October 26, 2018]. (原始内容于2018-09-25) (英语). 
  31. ^ . Alexa Internet. [2020-06-11]. (原始内容存档于2013年10月28日). 
  32. ^ . Alexa Internet. [2020-06-11]. (原始内容存档于2015-04-09). 
  33. ^ Archive.org Traffic, Demographics and Competitors - Alexa. 2019-03-23 [2020-06-11]. (原始内容于2019-03-23). 
  34. ^ michelle. Wayback Machine Hits 400,000,000,000!. Internet Archive. May 9, 2014 [2020-06-11]. (原始内容于2014-08-26). 
  35. ^ . 互联网档案馆. [2020-06-01]. (原始内容存档于2015-02-13). 
  36. ^ . 网站时光机. [2020-06-13]. (原始内容存档于2011-04-15) (英语). ......All of this information is contained in a file called robots.txt. While robots.txt has been adopted as the universal standard for robot exclusion, compliance with robots.txt is strictly voluntary...... Alexa, the company that crawls the web for the Internet Archive, does respect robots.txt instructions, and even does so retroactively. If a web site owner ever decides he/she prefers not to have a web crawler visiting his / her files and sets up robots.txt on the site, the Alexa crawlers will stop visiting those files and mark all files previously gathered as unavailable......sometimes a web site owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests. 
  37. ^ Cox, Joseph. The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers. 2018-05-22 [2020-06-13]. (原始内容存档于2018年5月22日). 
  38. ^ Robots.txt meant for search engines don't work well for web archives. Internet Archive. 2017-04-17 [2020-06-13]. (原始内容于2018-12-04) (英语). 
  39. ^ . 加利福尼亚大学. 2002-12-14 [2020-06-13]. (原始内容存档于2017-09-18) (英语). 
  40. ^ Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy. 互联网档案馆. 2014-07-07 [2020-06-13]. (原始内容于2017年10月10日) (英语). 
  41. ^ Mark Graham. Robots.txt meant for search engines don't work well for web archives [用于搜索引擎的robots.txt不适用于网络存档]. Internet Archive Blogs. 2017-04-17 [2020-06-18]. (原始内容于2017-04-17) (英语). 
  42. ^ Archivierung des Internets: Internet Archive ignoriert künftig robots.txt [互联网档案馆:互联网存档馆将忽略robots.txt文件]. heise online. [2020-06-18]. (原始内容于2017-04-27) (德语). 
  43. ^ Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren. Golem.de. [2020-06-18]. (原始内容于2017-06-19) (德语). 
  44. ^ Internet Archive will ignore robots.txt files to keep historical record accurate [互联网档案馆将忽略robots.txt文件以保持历史文件的准确性]. Digital Trends. April 24, 2017 [2020-06-18]. (原始内容于2017-05-16) (英语). 
  45. ^ Sampath Kumar, B.T.; Prithviraj, K.R. Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs. Journal of Information Science. 2014-11-21, 41 (1): 71–81. ISSN 0165-5515. doi:10.1177/0165551514552752 (英语). 
  46. ^ 46.0 46.1 Nelson, Steven. Wayback Machine Won't Censor Archive for Taste, Director Says After Olympics Article Scrubbed. US News. 2016-08-17 [2020-06-20]. (原始内容于2017-01-06). The Wayback Machine's unique search function frequently is used as a tool for journalists to review now-dead websites or to comb through dated news reports. The archived content has been used to embarrass politicians and expose battlefield lies. 
  47. ^ Lepore, Jill. What the Web Said Yesterday. The New Yorker. 2015-01-19 [2020-06-20]. (原始内容于2015-01-25). 
  48. ^ The March for Science began with this person's 'throwaway line' on Reddit [为科学游行始于此人在Reddit上“一带而过的话”]. Washington Post. [2017-04-23]. (原始内容于2017-04-23) (英语). 
  49. ^ . The Washington Post. 2017-01-24 [2020-06-20]. (原始内容存档于2017-01-31) (英语). 
  50. ^ Foley, Katherine Ellen. The global March for Science started with a single Reddit thread. Quartz. [2020-06-20]. (原始内容于2017-04-24) (英语). 
  51. ^ . 互联网档案馆. 2014-04-02 [2020-06-25]. (原始内容存档于2014-04-02). 
  52. ^ 52.0 52.1 Using The Wayback Machine. help.archive.org. 互联网档案馆. [2020-06-25]. (原始内容于2020-07-06). 
  53. ^ 53.0 53.1 Bates, Mary Ellen. The Wayback Machine. Online. 2002, 26: 80 –通过EBSCOhost. 
  54. ^ 54.0 54.1 54.2 Lloyd, Howard. (PDF). American-Justice.org. 2009-10-15 [2020-06-26]. (原始内容 (PDF)存档于2019-08-08). 
  55. ^ Cortes, Antonio L. . American-Justice.org. 2009-09-29 [2020-06-26]. (原始内容存档于2011-05-13). 

参閲

  • 网络存档网站列表英语Lists of Internet Archive's collections
  • 公共領域音樂英语Public domain music
  • 網頁存檔英语Web archiving
  • 數位圖書館

外部链接

  • 官方网站  
  • 互联网档案馆的使用条款,隐私政策和版权政策. archive.org. 2014-12-31 [2020年6月20日]. (原始内容于2020年6月6日). 
  • 搜索或保存网页的基本用户操作指南. WikiHow.com. [2020-06-20]. (原始内容于2020-03-15) (英语、德语、西班牙语、法语及意大利语). 
  • Internet history is fragile. This archive is making sure it doesn't disappear [互联网历史是脆弱的。这个档案正在确保它不会消失]. San Francisco: PBS Newshour. [2020-06-20]. (原始内容于2021-04-08). 

镜像网站

  • 网站时光机的官方镜像网站. 新亚历山大图书馆. [2020-06-20]. (原始内容存档于2012-11-28).  1996-2007年 (截至2019年 (2019-Missing required parameter 1=month!)).

实用程序

  • . SourceForge.net. [2020-06-20]. (原始内容存档于2011-09-16). 
  • 从网站时光机检索备份的工具. github.com. [2018-05-03]. (原始内容于2021-05-03). 
  • . [2018-03-20]. (原始内容存档于2018-03-21) (英语及波兰语). 

网站时光机, 关于如何在中文维基百科中引用的资料, 请见, 维基百科, 使用时光机, 此條目可参照英語維基百科相應條目来扩充, 2018年5月3日, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, 依版权协议, 译文需在编辑摘要注明来源, 或于讨论页顶部标记, href, template, translated, page, html, title, template, translated, page, translated, page, 标. 关于如何在中文维基百科中引用网站时光机的资料 请见 维基百科 使用时光机 此條目可参照英語維基百科相應條目来扩充 2018年5月3日 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 网站时光机 英語 Wayback Machine 是万维网的數碼档案馆 由位于美国加利福尼亚州旧金山的非營利組織互联网档案馆创建 亦为该组织最重要的服务之一 它允许用户 回到过去 查看过去的网站的样子 其创始人布鲁斯特 卡利和Bruce Gilliat 英语 Bruce Gilliat 开发了网站时光机 旨在通过保存已失效网页的存档副本 以 普及所有知识 universal access to all knowledge 自2001年推出以来 已有4 520多亿页面被加入档案馆 网站时光机Wayback Machine截图2021年10月的网站时光机首页网站类型存档持有者互联网档案馆网址web wbr archive wbr org注册可选推出时间2001年10月24日 21年前 2001 10 24 1 2 现状活跃編程語言Java Python 目录 1 历史 2 技术细节 2 1 存储容量的增加 2 2 成长 2 3 网站排除方针 3 用途 3 1 局限性 3 2 法律证据 3 2 1 民事诉讼 3 2 1 1 Netbula LLC v Chordiant Software Inc 3 2 1 2 波兰电视台 4 参考文献 5 参閲 6 外部链接 6 1 镜像网站 6 2 实用程序历史 编辑网站时光机由互联网档案馆的创始人布魯斯特 卡利和Bruce Gilliat 英语 Bruce Gilliat 于2001年推出 以解决网站在维护或关闭时无法查看内容的问题 4 此外还能查看网页的历史存档版本 创始人Kahle和Gilliat希望以此能为整个互联网 普及所有知识 universal access to all knowledge 5 Wayback Machine这个名称源于动画片The Rocky and Bullwinkle Show 英语 The Rocky and Bullwinkle Show 中的 WABAC机器 英语 WABAC machine 发音为Way back 这是一个时间旅行装置 6 7 在动画片的皮博迪的不可能的历史一集中 角色使用这一机器来见证 参与甚至改变历史上的著名事件 8 网站时光机于1996年开始存档缓存网页 目标是在五年后将服务公之于众 9 从1996年到2001年 这些信息保存在数字磁带上 Kahle偶尔允许研究人员和科学家使用数据库 10 2001年 互联网档案馆成立五周年时 加州大学伯克利分校举行了网站时光机的公布仪式 11 当网站时光机推出时 它已经存档了超过100亿个页面 12 如今 数据存储在互联网档案馆的大型Linux节点群集上 5 有时会重新访问并存档网站的新版本 参见下文技术细节 13 如果网站允许网络时光机 爬虫索引 网站并保存数据 则也可以通过在搜索框中输入网站的URL手动捕获网站 9 技术细节 编辑网络时光机已经开发了软件用于 爬虫索引 并下载所有可公开访问的万维网页面 Gopher层次结构 Usenet公告板系统和可下载软件 14 这些 爬虫 收集的信息并不能包括互联网上所有可用的信息 因为许多数据受发布者限制或存储在不可访问的数据库中 为了克服部分缓存网站的不一致性 2005年 互联网档案馆开发了Archive It org 使得机构和内容创作者可以自愿收集和保存数字内容 并创建数字档案馆 15 爬虫索引来自各种来源 其中一些是从第三方导入的 而另一些是由存档内部生成的 13 自2010年以来 Worldwide Web Crawls 一直在运行 并捕获全球网站 13 16 快照捕获的频率因网站而异 13 Worldwide Web Crawls 中的网站包含在 爬网列表 crawl list 中 每次爬网都会将网站存档一次 13 爬网可能需要数月甚至数年才能完成 具体取决于其大小 13 例如 Wide Crawl Number 13 从2015年1月9日开始 于2016年7月11日完成 17 但是 一次可能有多个爬网正在进行 并且一个站点可能包含在多个爬网列表中 因此 对站点进行爬网的频率有很大的不同 13 存储容量的增加 编辑 随着多年来技术的发展 网站时光机的存储容量不断增加 2003年 仅经过两年的公开访问 网站时光机便以每月12太字节 TB 的速度增长 数据存储在由互联网档案馆的工作人员定制设计的PetaBox 英语 PetaBox 机架系统上 第一个100太字节 TB 的机架于2004年6月全面投入使用 不过很快就发现 这些存储空间远远不够 18 19 互联网档案馆在2009年其定制的存储体系结构迁移到Sun开放式储存 英语 Sun Open Storage 并在Sun系统的加利福尼亚园区的Sun模块化数据中心 英语 Sun Modular Datacenter 中托管了一个新的数据中心 20 截至2009年 2009 Missing required parameter 1 month update 网站时光机包含大约3拍字节 PB 的数据 并以每月100太字节 TB 的速度增长 21 2013年1月 该公司宣布了2400亿个URL的突破性里程碑 22 2013年10月 该公司宣布了 保存页面 Save a Page 功能 23 允许任何互联网用户存档URL的内容 这成为了托管恶意二进制文件的服务滥用威胁 24 25 截至2014年12月 2014 12 update 网站时光机存有4350亿个网页 将近9拍字节 PB 的数据 并且每周增长约20太字节 TB 12 26 27 据报道 截至2016年7月 2016 07 update 网站时光机存有约15拍字节 PB 的数据 28 截至2018年9月 2018 09 update 网站时光机存有超过25拍字节 PB 的数据 29 30 成长 编辑 2013年10月至2015年3月 该网站的全球Alexa排名从163 31 变为208 32 2019年3月 该排名为244 33 网站时光机的成长 34 35 年份 已存档的页面数 单位 亿 2005 4002008 8502012 1 5002013 3 7302014 4 0002015 4 520网站排除方针 编辑 历年来 网站时光机一直尊重机器人排除标准 robots txt 以决定一个网站是否会被爬网 或者如果已经被爬网 它的存档是否可以公开查看 通过使用robots txt 网站所有者可以选择退出网站时光机 如果站点阻止了网页存档 则域中以前存档的任何页面也将立即显示为不可用 此外 互联网档案馆表示 有时网站所有者会直接联系我们 要求我们停止对网站进行爬网或存档 我们会遵守这些请求 36 37 2017年4月17日 有报道称 一些网站已经倒闭 成为暂停的域 英语 Domain parking Domain parking 它们通过使用robots txt把自己排除在搜索引擎之外 导致在无意中被网站时光机排除 38 网站时光机的网站排除方针 Website exclusion policy 部分基于2002年加利福尼亚大学伯克利分校信息管理和系统学院发布的 管理删除请求和维护档案完整性的建议 英語 Recommendations for Managing Removal Requests and Preserving Archival Integrity 此建议赋予网站所有者阻止访问网站存档的权利 39 网站时光机遵守了这一政策 以避免昂贵的诉讼 40 网站排除方针于2017年开始放宽 当时它停止遵循robots txt 并对美国政府和军方的网站进行爬网和显示网页 截至2017年4月 网站时光机更广泛地忽略了robots txt 而不仅对于美国政府网站 41 42 43 44 用途 编辑自2001年网站时光机公开发布以来 学者们一直在研究它的存储和收集数据的方式 以及其存档中实际包含的页面 截至2013年 学者们已经在网站时光机上撰写了大约350篇文章 其中大部分来自信息技术 图书馆学和社会科学领域 社会科学学者们使用网站时光机分析了从90年代中期至今网站的发展对公司的成长的影响 12 当网站时光机存档一个页面时 它通常会包含大多数超链接 以使这些链接被互联网的不稳定性轻易破坏时 能够仍然保持活动状态 印度的研究人员研究了网站时光机保存在线学术出版物中的超链接的能力的有效性 发现它保存了略多于一半的超链接 45 有记者使用网站时光机查看失效的网站 过时的新闻报道以及被更改的网站内容 其内容已被用于追究政治家的责任 揭穿争论场合上的谎言 46 2014年 乌克兰东部分裂地区叛军顿涅茨克人民军领导人伊戈尔 斯特列尔科夫的社交媒体的存档页面显示 他吹嘘自己的部队击落了一架疑似乌克兰军用飞机 后来才知道这架飞机实际上是一架马航民航客机 马来西亚航空17号班机 之后 他删除了发布的这篇文章 并指责乌克兰军方击落了这架飞机 46 47 2017年 在社交网站reddit的讨论中 有人表示访问过archive org 并发现白宫网站删除了所有提及气候变化的内容 对此 一位用户评论道 科学家有必要在华盛顿举行一次游行 此事成为了为科学游行 March for Science 举行的原因 48 49 50 局限性 编辑 2014年 从抓取网站到它可以在网站时光机上被查看之间存在6个月的延迟时间 51 目前 该延迟时间为3 10小时 52 网站时光机仅提供有限的搜索功能 它的 站点搜索 Site Search 功能允许用户根据描述站点的词汇来查找站点 而非网页本身的词汇 53 由于网络爬虫的限制 网站时光机无法完全存档互动式网页 例如Flash平台和使用JavaScript和渐进式网络应用程序编写的表单 因为这些功能需要与宿主网站交互 网站时光机的网络爬虫很难提取任何未使用HTML或其变形编码的内容 这通常会导致超链接损坏和图像丢失 因此 网络爬虫无法存档不包含指向其他页面的链接的 孤立页面 Orphan page 53 52 由于其爬虫程序仅能根据其预设的深度限制追踪有限数量的超链接 因此它无法存档每个页面中的每个超链接 16 法律证据 编辑 民事诉讼 编辑 Netbula LLC v Chordiant Software Inc 编辑 在2009年的 Netbula LLC v Chordiant Software Inc 一案中 被告Chordiant提出动议 要求Netbula禁用其网站上的robots txt文件 因为该文件导致网站时光机追溯性地撤销了对Netbula网站先前版本的存档的访问权限 Chordiant相信这些页面中存在有利于诉讼的材料 54 Netbula反对该动议 理由是被告要求更改Netbula的网站 他们应该直接为这些页面直接传唤互联网档案馆 55 然而 互联网档案馆的一名雇员发表了宣誓声明 支持Chordiant的动议 表示在 不对其运营造成大量负担 费用和干扰 的情况下 无法通过任何其他方式访问网页 54 美国加利福尼亚北区联邦地区法院圣何塞分部的地方法官霍华德 劳埃德 Howard Lloyd 驳回了Netbula的论点 并命令他们暂时禁用robots txt阻止程序 以使Chordiant可以检索他们想要的存档页面 54 波兰电视台 编辑 在2004年10月的 Telewizja Polska USA Inc v Echostar Satellite No 02 C 3293 65 Fed R Evid Serv 673 N D Ill October 15 2004 一案中 一名诉讼当事人试图使用网站时光机的档案作为有效证据的来源 此举可能属于首次 波兰电视台是TVP Polonia 英语 TVP Polonia 的供应商 EchoStar 英语 EchoStar 运营Dish Network 在审判程序之前 EchoStar表示 它打算提供网站时光机快照 作为波兰电视台网站过去内容的证据 参考文献 编辑 WayBackMachine org WHOIS DNS amp Domain Info DomainTools WHOIS 2016 03 13 原始内容存档于2020 05 14 InternetArchive org WHOIS DNS amp Domain Info DomainTools WHOIS 2016 03 13 原始内容存档于2020 05 12 archive org Competitive Analysis Marketing Mix and Traffic Alexa alexa com 2020 06 06 原始内容存档于2020 05 18 Notess Greg R The Wayback Machine The Web s Archive Online March April 2002 26 59 61 5 0 5 1 20 000 Hard Drives on a Mission Internet Archive Blogs blog archive org 2018 10 15 原始内容存档于2018 10 20 美国英语 Green Heather A Library as Big as the World BusinessWeek 2002 02 28 原始内容存档于2011 12 20 Tong Judy Responsible Party Brewster Kahle A Library Of the Web On the Web New York Times 2002 09 08 2011 08 15 原始内容存档于2011 02 20 Can the Internet Be Archived The New Yorker 2015 01 26 2019 01 23 原始内容存档于2015 01 25 9 0 9 1 Internet Archive Wayback Machine archive org 2018 10 15 原始内容存档于2014 01 03 英语 Cook John Web site takes you way back in Internet history Seattle Post Intelligencer 2001 11 01 2011 08 15 原始内容存档于2014 08 12 Wayback Goes Way Back on Web Wired 2001 10 28 2017 10 16 原始内容存档于2017 10 16 12 0 12 1 12 2 Arora Sanjay K Li Yin Youtie Jan Shapira Philip Using the wayback machine to mine websites in the social sciences A methodological resource Journal of the Association for Information Science and Technology 2015 05 05 67 8 1904 1915 ISSN 2330 1635 doi 10 1002 asi 23503 英语 13 0 13 1 13 2 13 3 13 4 13 5 13 6 Kalev Leetaru The Internet Archive Turns 20 A Behind the Scenes Look at Archiving the Web Forbes January 28 2016 October 16 2017 原始内容存档于October 16 2017 Kahle Brewster Archiving the Internet Scientific American March 1997 Issue 2020 04 25 原始内容存档于2012 08 03 英语 Kaplan Jeff Archive It Crawling the Web Together Internet Archive Blogs 2014 11 27 2020 04 24 原始内容存档于2017 10 12 英语 16 0 16 1 Worldwide Web Crawls Internet Archive 2020 06 25 原始内容存档于2017 10 19 Wide Crawl Number 13 Internet Archive 2020 06 07 原始内容存档于2017 10 19 英语 Internet Archive Petabox archive org 2020 06 07 2020 06 07 原始内容存档于2020 06 03 英语 Kanellos Michael Big storage on the cheap CNET News com 2005 07 29 2020 06 07 原始内容存档于2007 04 03 Internet Archive and Sun Microsystems Create Living History of the Internet 互联网档案馆和Sun系统创造了互联网的鲜活历史 Sun Microsystems 2009 03 25 2020 06 07 原始内容存档于2009 03 26 英语 Mearian Lucas Internet Archive to unveil massive Wayback Machine data center 互联网档案馆推出大规模网站时光机数据中心 Computerworld com 2009 03 19 2020 09 07 原始内容存档于2009 03 23 英语 Kahle Brewster Wayback Machine Now with 240 000 000 000 URLs 网站时光机 现有240 000 000 000个URL blog archive org Internet Archive Blogs 2013 01 09 2020 06 07 原始内容存档于2014 04 14 英语 Rossi Alexis Fixing Broken Links on the Internet archive org San Francisco CA US Collections Team the Internet Archive October 25 2013 2020 06 11 原始内容存档于2014 11 07 We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine This service allows anyone wikipedia editors scholars legal professionals students or home cooks like me to create a stable URL to cite share or bookmark any information they want to still have access to in the future The VirusTotal Team 207 241 226 190 IP address information virustotal com Dublin 2 Ireland VirusTotal 2015 03 25 2020 06 11 原始内容存档于2014 07 14 2015 03 25 Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset 2 62 2015 03 25 16 14 12 complete URL redacted Renegotiating TLS pdf 1 62 2015 03 25 04 46 34 complete URL redacted CBLightSetup exe Advisory provided by Google Safe Browsing Diagnostic page for archive org google com safebrowsing Mountain View CA US 2015 03 25 2020 06 11 原始内容存档于2015 04 06 2015 03 25 Part of this site was listed for suspicious activity 138 time s over the past 90 days What happened when Google visited this site Of the 42410 pages we tested on the site over the past 90 days 450 page s resulted in malicious software being downloaded and installed without user consent The last time Google visited this site was on 2015 03 25 and the last time suspicious content was found on this site was on 2015 03 25 Malicious software includes 169 trojan s 126 virus 43 backdoor s Internet Archive Frequently Asked Questions 2020 06 11 原始内容存档于2009 02 21 Internet Archive Frequently Asked Questions 2014 12 18 2020 06 11 原始内容存档于2014年12月18日 Can the manipulation of big data change the way the world thinks 操纵大数据能改变世界的思维方式吗 The National 2017 01 05 2020 06 07 原始内容存档于2017 01 12 英语 Crockett Zachary Inside Wayback Machine the internet s time capsule The Hustle 2018 09 28 2020 06 07 原始内容存档于2018 10 02 英语 Heffernan Virginia Things Break and Decay on the Internet That s a Good Thing WIRED 2018 09 18 October 26 2018 原始内容存档于2018 09 25 英语 Archive org Site Info Alexa Internet 2020 06 11 原始内容存档于2013年10月28日 Archive org Site Overview Alexa Internet 2020 06 11 原始内容存档于2015 04 09 Archive org Traffic Demographics and Competitors Alexa 2019 03 23 2020 06 11 原始内容存档于2019 03 23 michelle Wayback Machine Hits 400 000 000 000 Internet Archive May 9 2014 2020 06 11 原始内容存档于2014 08 26 Internet Archive Wayback Machine 互联网档案馆 2020 06 01 原始内容存档于2015 02 13 Some sites are not available because of Robots txt or other exclusions What does that mean 网站时光机 2020 06 13 原始内容存档于2011 04 15 英语 All of this information is contained in a file called robots txt While robots txt has been adopted as the universal standard for robot exclusion compliance with robots txt is strictly voluntary Alexa the company that crawls the web for the Internet Archive does respect robots txt instructions and even does so retroactively If a web site owner ever decides he she prefers not to have a web crawler visiting his her files and sets up robots txt on the site the Alexa crawlers will stop visiting those files and mark all files previously gathered as unavailable sometimes a web site owner will contact us directly and ask us to stop crawling or archiving a site We comply with these requests Cox Joseph The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers 2018 05 22 2020 06 13 原始内容存档于2018年5月22日 Robots txt meant for search engines don t work well for web archives Internet Archive 2017 04 17 2020 06 13 原始内容存档于2018 12 04 英语 Recommendations for Managing Removal Requests And Preserving Archival Integrity 加利福尼亚大学 2002 12 14 2020 06 13 原始内容存档于2017 09 18 英语 Retroactive robots txt removal of past crawls AKA Oakland Archive Policy 互联网档案馆 2014 07 07 2020 06 13 原始内容存档于2017年10月10日 英语 Mark Graham Robots txt meant for search engines don t work well for web archives 用于搜索引擎的robots txt不适用于网络存档 Internet Archive Blogs 2017 04 17 2020 06 18 原始内容存档于2017 04 17 英语 Archivierung des Internets Internet Archive ignoriert kunftig robots txt 互联网档案馆 互联网存档馆将忽略robots txt文件 heise online 2020 06 18 原始内容存档于2017 04 27 德语 Suchmaschinen Internet Archive will kunftig Robots txt Eintrage ignorieren Golem de 2020 06 18 原始内容存档于2017 06 19 德语 Internet Archive will ignore robots txt files to keep historical record accurate 互联网档案馆将忽略robots txt文件以保持历史文件的准确性 Digital Trends April 24 2017 2020 06 18 原始内容存档于2017 05 16 英语 Sampath Kumar B T Prithviraj K R Bringing life to dead Role of Wayback Machine in retrieving vanished URLs Journal of Information Science 2014 11 21 41 1 71 81 ISSN 0165 5515 doi 10 1177 0165551514552752 英语 46 0 46 1 Nelson Steven Wayback Machine Won t Censor Archive for Taste Director Says After Olympics Article Scrubbed US News 2016 08 17 2020 06 20 原始内容存档于2017 01 06 The Wayback Machine s unique search function frequently is used as a tool for journalists to review now dead websites or to comb through dated news reports The archived content has been used to embarrass politicians and expose battlefield lies Lepore Jill What the Web Said Yesterday The New Yorker 2015 01 19 2020 06 20 原始内容存档于2015 01 25 The March for Science began with this person s throwaway line on Reddit 为科学游行始于此人在Reddit上 一带而过的话 Washington Post 2017 04 23 原始内容存档于2017 04 23 英语 Are scientists going to march on Washington 科学家要去华盛顿游行吗 The Washington Post 2017 01 24 2020 06 20 原始内容存档于2017 01 31 英语 Foley Katherine Ellen The global March for Science started with a single Reddit thread Quartz 2020 06 20 原始内容存档于2017 04 24 英语 Internet Archive Frequently Asked Questions 互联网档案馆 2014 04 02 2020 06 25 原始内容存档于2014 04 02 52 0 52 1 Using The Wayback Machine help archive org 互联网档案馆 2020 06 25 原始内容存档于2020 07 06 53 0 53 1 Bates Mary Ellen The Wayback Machine Online 2002 26 80 通过EBSCOhost 54 0 54 1 54 2 Lloyd Howard Order to Disable Robots txt PDF American Justice org 2009 10 15 2020 06 26 原始内容 PDF 存档于2019 08 08 Cortes Antonio L Motion Opposing Removal of Robots txt American Justice org 2009 09 29 2020 06 26 原始内容存档于2011 05 13 参閲 编辑 互联网主题 信息技术主题 历史主题 网络存档网站列表 英语 Lists of Internet Archive s collections 公共領域音樂 英语 Public domain music 網頁存檔 英语 Web archiving 數位圖書館类似的项目Archive is 網際網路記憶基金會 英语 Internet Memory Foundation LibriVox 國家數位資訊基礎設施和保護計劃 英语 National Digital Information Infrastructure and Preservation Program NDIIPP 國家數位圖書館計劃 英语 National Digital Library Program NDLP 古腾堡计划 英國國家檔案館的英國政府網頁存檔 英语 UK Government Web Archive 英國網頁存檔聯盟 英语 UK Web Archiving Consortium WebCite Google圖書 ウェブ魚拓 日语 ウェブ魚拓 其他Archive Team 英语 Archive Team 数位黑暗时代 數位保存 英语 Digital preservation Heritrix 英语 Heritrix Link rot 英语 Link rot 忘怀洞 PetaBox 英语 PetaBox 網路蜘蛛外部链接 编辑官方网站 互联网档案馆的使用条款 隐私政策和版权政策 archive org 2014 12 31 2020年6月20日 原始内容存档于2020年6月6日 搜索或保存网页的基本用户操作指南 WikiHow com 2020 06 20 原始内容存档于2020 03 15 英语 德语 西班牙语 法语及意大利语 Internet history is fragile This archive is making sure it doesn t disappear 互联网历史是脆弱的 这个档案正在确保它不会消失 San Francisco PBS Newshour 2020 06 20 原始内容存档于2021 04 08 镜像网站 编辑 网站时光机的官方镜像网站 新亚历山大图书馆 2020 06 20 原始内容存档于2012 11 28 1996 2007年 截至2019年 2019 Missing required parameter 1 month update 实用程序 编辑 Wayback SourceForge net 2020 06 20 原始内容存档于2011 09 16 从网站时光机检索备份的工具 github com 2018 05 03 原始内容存档于2021 05 03 网站时光机在线下载器 2018 03 20 原始内容存档于2018 03 21 英语及波兰语 取自 https zh wikipedia org w index php title 网站时光机 amp oldid 73430363, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。