fbpx
维基百科

互联网档案馆

互联网档案馆(英語:Internet Archive)是美国的一個非營利性的、提供互联网多媒体资料档案阅览服务數位圖書館。互联网档案馆由Alexa创始人布鲁斯特·卡利于1996年创办,总部位于加利福尼亚州旧金山的列治文区,其使命是“普及所有知识”(英語:universal access to all knowledge.[5][6]。该网站提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。 迄至2021年2月,该网站儲存了7280 億個網頁、3800萬本書和文本、1400 萬個錄音(包括 240,000 場現場音樂會)、700 萬個視頻(包括 200 萬個電視新聞節目)、400 萬張圖片、790,000 個軟件程序。[7]除此之外,互联网檔案館也是網絡開放與自由化的倡議者之一。

互联网档案馆
Internet Archive
互联网档案馆1997年1月26日的早期样式
公司类型501(c)条款非營利组织
网站类型
數位圖書館
语言英語
成立1996年5月12日,​26年前​(1996-05-12[1][2]
總部美國加利福尼亞州舊金山列治文区
37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028坐标37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028
创始人布魯斯特·卡利
服务存档、開放圖書館互聯網檔案館(2001年起)、网络标签、NASA图片、普林格档案英语Prelinger Archives
员工200
网址archive.org
http://archivebyd3rzt3ehjpm4c3bjky
xv3hjleiytnvxcn7x32psn2kxcuid.onion (如何访问)[3]
推出时间1996年 (1996)
旧“互联网档案馆”总部(1996年 - 2009年11月)
新“互联网档案馆”总部(2009年11月 - )

数据来源

该档案馆的數據由自帶的網絡爬蟲自動搜集,網站時光機抓取了超過1500億的網頁[8][9]

资金情况

互联网档案馆年度預算約为1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會[10]。總部僱員只有數十人,大部份僱員工作於書籍掃描中心,在紅木城也有數據中心。

数据库

档案馆的數據庫是國際網際網路保留協會英语International Internet Preservation Consortium成員[11],2007年被加利福尼亞州選為官方指定圖書館[12]。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏[13]

歷史

1996年,卡利(Brewster Kahle)在創建盈利性的Alexa Internet的同時也創立了互联网檔案館;同年10月開始收集儲存數據[14][15]。不過,直到2001年開發了「時光機」前,這些數據都無法存取。1999年末擴展收集範圍[16]

2012年8月,互联网档案馆宣布[17]將在其現存的130萬檔案的下載選項中加入BitTorrent[18][19]。因為通過兩個檔案數據中心協調,這成為從該檔案館下載數據的最快方法[18][20]

2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多設備和一些附近的公寓[21][22],預計損失達到60萬美元[23]

网页存档

时光机

网站时光机是互联网档案馆最重要的服务之一,其名称取自一部名为The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show的美国卡通片。时光机允许人们去搜索和访问其网页存档。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。

 
互联网档案馆增量采购的存储盘
年份 存档页面的数量(亿)
2005 40[24]
2006 85[25]
2007 85[26]
2008 85[27]
2009 150[28]
2010 150[29]
2011 150[30]
2012 150[31]
2013 373[32]
2014 430[33]
2015 479[34]
2016 510[A][35]

273[B][36]

2017 286[37]
2018 344[38]
A 使用了2016年10月以前的旧版计数系统
B 使用了2016年10月以后的新版计数系统

Archive-It

创始人布魯斯特·卡利正在谈论Archive-It

Archive-it是一款帮助机构和个人建立存档的工具。一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的robots.txt访问,该网页将会成为时光机的一部分。[39]截至2014年3月 (2014-03),Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。

收集书目

 
互联网档案馆的“抄写员”图书扫描工作站

互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品。互联网档案馆在5个国家经营着33个圖書掃描中心,其活动受图书馆和基金会的财政支持。[40][41]截至2013年7月 (2013-07),档案馆共收集了440万本书,每月的下载量超过1500万次。[40]截至2008年11月 (2008-11),档案馆共有100万个网络文本,总大小高达0.5PB,涵盖了原始照相图像、裁剪和歪斜的图像、PDF文件和原始OCR数据。[42]

各语言文本数

1 语言 英语 法语 德语 西班牙语 汉语 阿拉伯语
文本数(2015年11月27日) 6,553,945[43] 358,721[44] 344,810[45] 134,170[46] 84,147[47] 66,786[48]
2 语言 荷蘭語 葡萄牙語 俄语 乌尔都语 日语 合计(2016年10月30日)
文本数(2015年11月27日) 30,237[49] 25,938[50] 22,731[51] 14,978[52] 14,795[53] 10,612,003[54]

各年代文本数

1 年代 1800年代 1810年代 1820年代 1830年代 1840年代 1850年代
文本数

(2015年11月27日)

39,842[55] 51,151[56] 79,476[57] 105,021[58] 127,649[59] 180,950[60]
2 年代 1860年代 1870年代 1880年代 1890年代 1900年代 1910年代
文本数

(2015年11月27日)

210,574[61] 214,505[62] 285,984[63] 370,726[64] 504,000[65] 455,539[66]
3 年代 1920年代 1930年代 1940年代 1950年代 1960年代 1970年代
文本数

(2015年11月27日)

185,876[67] 70,190[68] 85,062[69] 81,192[70] 125,977[71] 206,870[72]
4 年代 1980年代 1990年代 2000年代 2010年代
文本数

(2015年11月27日)

181,129[73] 272,848[74] 579,905[75] 855,253[76]

影像资料

 
读卡器
 
互联网档案馆的缩微胶片
 
互联网档案馆的录影带

除了上述内容之外,互联网档案库还收集了大量的数字媒体,这些数字媒体均符合美国公共领域CC授权协议。这些媒体文件均会根据媒体类型(moving images、audio、text、etc.)被组织成集合,并根据各项标准被分入子集合。例如大都會藝術博物館提供的相关资料就会被分入一个子集,目前该集合相关资料的数量已经超过了140,000个[77]。每个主集合都含有一个“社区”子集合(以前被称为“开源”)用于存储公众的贡献。

音频收藏

音频档案包括音乐、有声读物、新闻广播、旧时广播的节目和各种其他音频文件。该系列中有超过200,000个免费数字录音。子集包括有声读物和诗歌、播客、[78]非英语音频等。[79]

Live Music Archive子集包括来自独立音乐家的超过170,000个音乐会录音,以及更为成熟的艺术家和音乐合奏,以及关于录制他们的音乐会的宽松规则,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon还允许互联网档案馆收藏他父亲Warren Zevon的音乐会录音。Zevon系列从1976年至2001年不等,包含126场音乐会,包括1,137首歌曲。[80]

布鲁克林博物馆

此系列包含大约3,000件布鲁克林博物馆的物品。[81]

镜像網站

宕機或資料庫出錯時,可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料[82]

参考文献

  1. ^ . Wayback Machine. 2000-04-08 [2016-03-13]. (原始内容存档于2000-04-08). 
  2. ^ archive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始内容于2018-11-05). 
  3. ^ Internet Archive: Offline Archive. archive.org. [2019-11-22]. (原始内容于2019-10-29). 
  4. ^ archive.org Site Info. Alexa Internet. [2018年11月13日]. (原始内容于2018年11月13日). 
  5. ^ Internet Archive Frequently Asked Questions. Internet Archive. [2013-04-13]. (原始内容于2009-10-21). 
  6. ^ Internet Archive: Universal Access to all Knowledge. Internet Archive. [2013-04-13]. (原始内容于2013-03-10). 
  7. ^ Internet Archive: About IA. archive.org. [2022-02-23]. 
  8. ^ Internet Archive: Projects. Internet Archive. [2013-03-06]. (原始内容于2013-03-01). 
  9. ^ Grotke, A. (2011). Web Archiving at the Library of Congress. Computers In Libraries, 31 no. 10 (December 2011), p. 15-19.
  10. ^ Womack, David. Who Owns History?. Cabinet Magazine. No. 10. Spring 2003 [2013-04-13]. (原始内容于2013-03-19). 
  11. ^ International Internet Preservation Consortium. Netpreserve.org
  12. ^ "Internet Archive officially a library" (页面存档备份,存于互联网档案馆), May 2, 2007. Archive.org
  13. ^ Internet Archive 放大招,2400 款 MS-DOS 游戏任你玩. ifanr爱范儿. 2015-01-07 [2017-01-29]. (原始内容于2017-02-02). 
  14. ^ Wortham, Jenna. . The New York Times. 2016-06-21. ISSN 0362-4331. (原始内容存档于2022-06-26) (美国英语). 
  15. ^ . Wayback Machine. 2000-06-06 [2016-03-15]. (原始内容存档于2000-06-06). 
  16. ^ "Daisy Books for the Print Disabled" (页面存档备份,存于互联网档案馆), February 25, 2013. Internet Archive.
  17. ^ Kahle, Brewster (August 7, 2012). "Over 1,000,000 Torrents of Downloadable Books, Music, and Movies" (页面存档备份,存于互联网档案馆). Internet Archive Blogs.
  18. ^ 18.0 18.1 Van der Sar, Ernesto. Internet Archive Starts Seeding 1,398,875 Torrents. TorrentFreak英语TorrentFreak. 2012-08-07 [2014-03-21]. (原始内容于2012-08-08). 
  19. ^ "Hot List for bt1.us.archive.org (Updated August 7 2012, 7:31 pm PDT)" (页面存档备份,存于互联网档案馆). US Cluster. Internet Archive.
  20. ^ "Welcome to Archive torrents" (页面存档备份,存于互联网档案馆). Internet Archive.
  21. ^ Alexander, Kurtis. Internet Archive's S.F. office damaged in fire. San Francisco Chronicle. 2013-11-06 [2014-03-21]. (原始内容于2013-12-12). 
  22. ^ Fire Update: Lost Many Cameras, 20 Boxes. No One Hurt. Internet Archive Blogs. 2013-11-06 [2014-03-21]. (原始内容于2014-03-14). 
  23. ^ Shu, Catherine. Internet Archive Seeking Donations To Rebuild Its Fire-Damaged Scanning Center. TechCrunch. 2013-11-06 [2014-03-21]. (原始内容于2014-03-17). 
  24. ^ . Internet Archive. [2014-03-02]. (原始内容存档于2005-12-31). 
  25. ^ . Internet Archive. [2014-03-02]. (原始内容存档于2006-12-28). 
  26. ^ . Internet Archive. [2014-03-02]. (原始内容存档于2007-12-28). 
  27. ^ . Internet Archive. [2014-03-02]. (原始内容存档于2008-12-24). 
  28. ^ . Internet Archive. [2014-03-02]. (原始内容存档于2009-12-20). 
  29. ^ . Internet Archive. [2014-03-02]. (原始内容存档于2010-12-30). 
  30. ^ . Internet Archive. [2014-03-02]. (原始内容存档于2011-08-30). 
  31. ^ . Internet Archive. [2014-03-02]. (原始内容存档于2002-10-14). 
  32. ^ . Internet Archive. [2014-03-02]. (原始内容存档于2013-12-31). 
  33. ^ . blog.archive.org. [2018-06-10]. (原始内容存档于2018-07-07) (美国英语). 
  34. ^ . Internet Archive. [2018-12-09]. (原始内容存档于2015-05-31). 
  35. ^ . Internet Archive. [2018-12-09]. (原始内容存档于2016-09-30). 
  36. ^ Goel, Vinay. . Internet Archive. 2016-10-23 [2018-12-09]. (原始内容存档于2018-12-09). 
  37. ^ . Internet Archive. [2018-12-09]. (原始内容存档于2017-06-01). 
  38. ^ . Internet Archive. [2018-12-09]. (原始内容存档于2018-12-09). 
  39. ^ Rossi, Alexis. Fixing Broken Links on the Internet. Internet Archive. 2013-10-25 [2013-12-29]. (原始内容于2013-12-16). 
  40. ^ 40.0 40.1 Hoffelder, Nate (July 9, 2013). "Internet Archive Now Hosts 4.4 Million eBooks, Sees 15 Million eBooks Downloaded Each Month" (页面存档备份,存于互联网档案馆). The Digital Reader.
  41. ^ Kahle, Brewster (May 23, 2008). "Books Scanning to be Publicly Funded" (页面存档备份,存于互联网档案馆). Internet Archive Forums.
  42. ^ "Bulk Access to OCR for 1 Million Books" (页面存档备份,存于互联网档案馆). Open Library Blog. November 24, 2008.
  43. ^ Internet Archive Search : (language:eng OR language:"English"). Internet Archive. [2015-11-27]. (原始内容于2016-04-15). 
  44. ^ Internet Archive Search : (language:fre OR language:"French"). Internet Archive. [2015-11-27]. (原始内容于2016-03-17). 
  45. ^ Internet Archive Search : (language:ger OR language:"German"). Internet Archive. [2015-11-27]. (原始内容于2016-01-14). 
  46. ^ Internet Archive Search : (language:spa OR language:"Spanish"). Internet Archive. [2015-11-27]. (原始内容于2016-04-08). 
  47. ^ Internet Archive Search : (language:Chinese OR language:"chi") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容于2016-04-08). 
  48. ^ Internet Archive Search : (language:ara OR language:"Arabic"). Internet Archive. [2015-11-27]. (原始内容于2016-03-22). 
  49. ^ Internet Archive Search : (language:Dutch OR language:"dut") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容于2016-04-08). 
  50. ^ Internet Archive Search : (language:Portuguese OR language:"por") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容于2016-03-15). 
  51. ^ Internet Archive Search : (language:rus OR language:"Russian") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容于2016-03-19). 
  52. ^ Internet Archive Search : (language:urd OR language:"Urdu") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容于2016-03-15). 
  53. ^ Internet Archive Search : (language:Japanese OR language:"jpn") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容于2016-04-08). 
  54. ^ Internet Archive Search : mediatype:texts. Internet Archive. [2015-11-27]. (原始内容于2016-03-05). 
  55. ^ Internet Archive Search : mediatype:texts AND date:[1800-01-01 TO 1809-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-04-09). 
  56. ^ Internet Archive Search : mediatype:texts AND date:[1810-01-01 TO 1819-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-26). 
  57. ^ Internet Archive Search : mediatype:texts AND date:[1820-01-01 TO 1829-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-15). 
  58. ^ Internet Archive Search : mediatype:texts AND date:[1830-01-01 TO 1839-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-04-09). 
  59. ^ Internet Archive Search : mediatype:texts AND date:[1840-01-01 TO 1849-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-26). 
  60. ^ Internet Archive Search : mediatype:texts AND date:[1850-01-01 TO 1859-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-17). 
  61. ^ Internet Archive Search : mediatype:texts AND date:[1860-01-01 TO 1869-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-13). 
  62. ^ Internet Archive Search : mediatype:texts AND date:[1870-01-01 TO 1879-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-15). 
  63. ^ Internet Archive Search : mediatype:texts AND date:[1880-01-01 TO 1889-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-16). 
  64. ^ Internet Archive Search : mediatype:texts AND date:[1890-01-01 TO 1899-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-11). 
  65. ^ Internet Archive Search : mediatype:texts AND date:[1900-01-01 TO 1909-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-18). 
  66. ^ Internet Archive Search : mediatype:texts AND date:[1910-01-01 TO 1919-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-19). 
  67. ^ Internet Archive Search : mediatype:texts AND date:[1920-01-01 TO 1929-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-04-09). 
  68. ^ Internet Archive Search : mediatype:texts AND date:[1930-01-01 TO 1939-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-04-09). 
  69. ^ Internet Archive Search : mediatype:texts AND date:[1940-01-01 TO 1949-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-26). 
  70. ^ Internet Archive Search : mediatype:texts AND date:[1950-01-01 TO 1959-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-16). 
  71. ^ Internet Archive Search : mediatype:texts AND date:[1960-01-01 TO 1969-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-15). 
  72. ^ Internet Archive Search : mediatype:texts AND date:[1970-01-01 TO 1979-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-04-09). 
  73. ^ Internet Archive Search : mediatype:texts AND date:[1980-01-01 TO 1989-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-04-09). 
  74. ^ Internet Archive Search : mediatype:texts AND date:[1990-01-01 TO 1999-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-11). 
  75. ^ Internet Archive Search : mediatype:texts AND date:[2000-01-01 TO 2009-12-31]. Internet Archive. [2015-11-27]. (原始内容于2016-03-26). 
  76. ^ Internet Archive Search : mediatype:texts AND date:[2010-01-01 TO 2015-11-27]. Internet Archive. [2015-11-27]. (原始内容于2016-04-09). 
  77. ^ Metropolitan Museum of Art - Gallery Images: Free Image : Download & Streaming : Internet Archive. Internet Archive. [2014-12-04]. (原始内容于2015-01-03). 
  78. ^ . TurboFuture. [2019-02-25]. (原始内容存档于2017-08-04) (英语). 
  79. ^ Download & Streaming : Audio Archive : Internet Archive. archive.org. [2019-02-25]. (原始内容于2019-02-24) (英语). 
  80. ^ Clarke, John. Warren Zevon Live Shows Hit the Web, Possible Film in the Works. Rolling Stone. 2009-06-03 [2019-02-25]. (原始内容于2019-02-26) (美国英语). 
  81. ^ Brooklyn Museum : Free Image : Free Download, Borrow and Streaming : Internet Archive. archive.org. [2019-02-25]. (原始内容于2019-02-24) (英语). 
  82. ^ International School of Information Science (ISIS). www.bibalex.org. International School of Information Science. [2016-10-30]. (原始内容于2016-10-31). 

延伸阅读

  • Kahle, Brewster. Archiving the Internet. Scientific America. November 1996. 
  • Kahle, Brewster. Scanning Center Fire — Please Help Rebuild. Internet Archive Blogs. 2013-11-06. 
  • Jill Lepore. The Cobweb. The New Yorker. 2015-01-26 [2016-10-30]. (原始内容于2015-01-25). 
  • Ringmar, Erik. Liberate and Disseminate. Times Higher Education Supplement. 2008-04-10 [2016-10-30]. (原始内容于2012-12-02). 

外部連結

  • 官方网站  
  • 官方博客
  • 互联网档案馆的Twitter帳戶 (英文)
  • Internet Archive Mirror(页面存档备份,存于互联网档案馆)于埃及亚历山大图书馆
  • Netlabels release collection
  • The Other Minds Archive – 来自radiom.org(页面存档备份,存于互联网档案馆)的新音乐资源
  • Web Archiving at archive.org(页面存档备份,存于互联网档案馆),关于互联网档案馆运营的详情
  • Pictures and descriptions of the Wayback Machine hardware in 2003 (prior to the Petabox), with cost information
  • Current Petabox storage hardware
  • brewster. Scanning Center Fire — Please Help Rebuild. Internet Archive Blogs. 2013-11-06 [2013-11-07]. 
  • 互联网真能帮人类历史存档吗?. 腾讯网. 2015-01-24 [2015-09-04]. (原始内容于2016-09-15) (中文(中国大陆)). 

参见

  • 網際網路檔案館存檔列表英语Lists of Internet Archive's collections
  • 公共領域音樂英语Public domain music
  • 網頁存檔英语Web archiving
  • 數位圖書館

互联网档案馆, 此條目可参照外語維基百科相應條目来扩充, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, 依版权协议, 译文需在编辑摘要注明来源, 或于讨论页顶部标记, href, template, translated, page, html, title, template, translated, page, translated, page, 标签, 提示, 此条目的主题不是archive, is或arxiv, 在中文维基百科中引用互联. 此條目可参照外語維基百科相應條目来扩充 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 提示 此条目的主题不是archive is或arXiv 在中文维基百科中引用互联网档案的资料 请见维基百科 使用时光机 互联网档案馆 英語 Internet Archive 是美国的一個非營利性的 提供互联网多媒体资料档案阅览服务的數位圖書館 互联网档案馆由Alexa创始人布鲁斯特 卡利于1996年创办 总部位于加利福尼亚州旧金山的列治文区 其使命是 普及所有知识 英語 universal access to all knowledge 5 6 该网站提供的数字资料有如网站 网页 图形材料音乐 视频 音频 软件 动态图像和数百万书籍等的永久性免费储存及获取的副本 迄至2021年2月 该网站儲存了7280 億個網頁 3800萬本書和文本 1400 萬個錄音 包括 240 000 場現場音樂會 700 萬個視頻 包括 200 萬個電視新聞節目 400 萬張圖片 790 000 個軟件程序 7 除此之外 互联网檔案館也是網絡開放與自由化的倡議者之一 互联网档案馆Internet Archive互联网档案馆1997年1月26日的早期样式公司类型501 c 条款非營利组织网站类型數位圖書館语言英語成立1996年5月12日 26年前 1996 05 12 1 2 總部美國加利福尼亞州舊金山列治文区37 48 0 N 122 27 37 W 37 80000 N 122 46028 W 37 80000 122 46028 坐标 37 48 0 N 122 27 37 W 37 80000 N 122 46028 W 37 80000 122 46028创始人布魯斯特 卡利服务存档 開放圖書館 互聯網檔案館 2001年起 网络标签 NASA图片 普林格档案 英语 Prelinger Archives 员工200网址archive wbr org http archivebyd3rzt3ehjpm4c3bjkyxv3hjleiytnvxcn7x32psn2kxcuid onion 如何访问 3 推出时间1996年 1996 旧 互联网档案馆 总部 1996年 2009年11月 新 互联网档案馆 总部 2009年11月 目录 1 数据来源 2 资金情况 3 数据库 4 歷史 5 网页存档 5 1 时光机 5 2 Archive It 6 收集书目 6 1 各语言文本数 6 2 各年代文本数 7 影像资料 7 1 音频收藏 7 2 布鲁克林博物馆 8 镜像網站 9 参考文献 10 延伸阅读 11 外部連結 12 参见数据来源 编辑该档案馆的數據由自帶的網絡爬蟲自動搜集 網站時光機抓取了超過1500億的網頁 8 9 资金情况 编辑互联网档案馆年度預算約为1000萬美元 來源則是其網頁爬蟲服務 合作關係 贊助以及卡利 奧斯丁基金會 10 總部僱員只有數十人 大部份僱員工作於書籍掃描中心 在紅木城也有數據中心 数据库 编辑档案馆的數據庫是國際網際網路保留協會 英语 International Internet Preservation Consortium 成員 11 2007年被加利福尼亞州選為官方指定圖書館 12 档案馆收集的数据是各种各样的 截止2015年年初 互联网档案馆共收录了2400款MS DOS游戏 13 歷史 编辑1996年 卡利 Brewster Kahle 在創建盈利性的Alexa Internet的同時也創立了互联网檔案館 同年10月開始收集儲存數據 14 15 不過 直到2001年開發了 時光機 前 這些數據都無法存取 1999年末擴展收集範圍 16 2012年8月 互联网档案馆宣布 17 將在其現存的130萬檔案的下載選項中加入BitTorrent 18 19 因為通過兩個檔案數據中心協調 這成為從該檔案館下載數據的最快方法 18 20 2013年11月6日 檔案館在里奇蒙德區的總部失火 損壞了許多設備和一些附近的公寓 21 22 預計損失達到60萬美元 23 1996年至2009年时档案馆的总部 位于美国旧金山 2009年至今的总部 原旧金山基督教科学派第四教会 互联网档案馆在亚历山大图书馆的宣传标板 总部内的大厅网页存档 编辑时光机 编辑 主条目 网站时光机 网站时光机是互联网档案馆最重要的服务之一 其名称取自一部名为The Rocky and Bullwinkle Show 英语 The Rocky and Bullwinkle Show 的美国卡通片 时光机允许人们去搜索和访问其网页存档 在一些国家和地区 时光机这个术语的使用已经非常普遍 时光机 和 互联网档案馆 甚至开始被当做同义词使用 互联网档案馆增量采购的存储盘 年份 存档页面的数量 亿 2005 40 24 2006 85 25 2007 85 26 2008 85 27 2009 150 28 2010 150 29 2011 150 30 2012 150 31 2013 373 32 2014 430 33 2015 479 34 2016 510 A 35 273 B 36 2017 286 37 2018 344 38 A 使用了2016年10月以前的旧版计数系统B 使用了2016年10月以后的新版计数系统 Archive It 编辑 source source source source source source source source source source track track track 创始人布魯斯特 卡利正在谈论Archive It Archive it是一款帮助机构和个人建立存档的工具 一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的robots txt访问 该网页将会成为时光机的一部分 39 截至2014年3月 2014 03 update Archive it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴 共有超过74亿个网页的在线存档 收集书目 编辑 互联网档案馆的 抄写员 图书扫描工作站 互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品 互联网档案馆在5个国家经营着33个圖書掃描中心 其活动受图书馆和基金会的财政支持 40 41 截至2013年7月 2013 07 update 档案馆共收集了440万本书 每月的下载量超过1500万次 40 截至2008年11月 2008 11 update 档案馆共有100万个网络文本 总大小高达0 5PB 涵盖了原始照相图像 裁剪和歪斜的图像 PDF文件和原始OCR数据 42 各语言文本数 编辑 1 语言 英语 法语 德语 西班牙语 汉语 阿拉伯语文本数 2015年11月27日 6 553 945 43 358 721 44 344 810 45 134 170 46 84 147 47 66 786 48 2 语言 荷蘭語 葡萄牙語 俄语 乌尔都语 日语 合计 2016年10月30日 文本数 2015年11月27日 30 237 49 25 938 50 22 731 51 14 978 52 14 795 53 10 612 003 54 各年代文本数 编辑 1 年代 1800年代 1810年代 1820年代 1830年代 1840年代 1850年代文本数 2015年11月27日 39 842 55 51 151 56 79 476 57 105 021 58 127 649 59 180 950 60 2 年代 1860年代 1870年代 1880年代 1890年代 1900年代 1910年代文本数 2015年11月27日 210 574 61 214 505 62 285 984 63 370 726 64 504 000 65 455 539 66 3 年代 1920年代 1930年代 1940年代 1950年代 1960年代 1970年代文本数 2015年11月27日 185 876 67 70 190 68 85 062 69 81 192 70 125 977 71 206 870 72 4 年代 1980年代 1990年代 2000年代 2010年代文本数 2015年11月27日 181 129 73 272 848 74 579 905 75 855 253 76 影像资料 编辑 读卡器 互联网档案馆的缩微胶片 互联网档案馆的录影带 除了上述内容之外 互联网档案库还收集了大量的数字媒体 这些数字媒体均符合美国公共领域或CC授权协议 这些媒体文件均会根据媒体类型 moving images audio text etc 被组织成集合 并根据各项标准被分入子集合 例如大都會藝術博物館提供的相关资料就会被分入一个子集 目前该集合相关资料的数量已经超过了140 000个 77 每个主集合都含有一个 社区 子集合 以前被称为 开源 用于存储公众的贡献 音频收藏 编辑 音频档案包括音乐 有声读物 新闻广播 旧时广播的节目和各种其他音频文件 该系列中有超过200 000个免费数字录音 子集包括有声读物和诗歌 播客 78 非英语音频等 79 Live Music Archive子集包括来自独立音乐家的超过170 000个音乐会录音 以及更为成熟的艺术家和音乐合奏 以及关于录制他们的音乐会的宽松规则 例如Grateful Dead 以及最近的The Smashing Pumpkins 此外 Jordan Zevon还允许互联网档案馆收藏他父亲Warren Zevon的音乐会录音 Zevon系列从1976年至2001年不等 包含126场音乐会 包括1 137首歌曲 80 布鲁克林博物馆 编辑此系列包含大约3 000件布鲁克林博物馆的物品 81 镜像網站 编辑宕機或資料庫出錯時 可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料 82 参考文献 编辑 Internet Archive About the Archive Wayback Machine 2000 04 08 2016 03 13 原始内容存档于2000 04 08 archive org WHOIS DNS amp Domain Info DomainTools WHOIS 2016 03 13 原始内容存档于2018 11 05 Internet Archive Offline Archive archive org 2019 11 22 原始内容存档于2019 10 29 archive org Site Info Alexa Internet 2018年11月13日 原始内容存档于2018年11月13日 Internet Archive Frequently Asked Questions Internet Archive 2013 04 13 原始内容存档于2009 10 21 Internet Archive Universal Access to all Knowledge Internet Archive 2013 04 13 原始内容存档于2013 03 10 Internet Archive About IA archive org 2022 02 23 Internet Archive Projects Internet Archive 2013 03 06 原始内容存档于2013 03 01 Grotke A 2011 Web Archiving at the Library of Congress Computers In Libraries 31 no 10 December 2011 p 15 19 Womack David Who Owns History Cabinet Magazine No 10 Spring 2003 2013 04 13 原始内容存档于2013 03 19 Members International Internet Preservation Consortium Netpreserve org Internet Archive officially a library 页面存档备份 存于互联网档案馆 May 2 2007 Archive org Internet Archive 放大招 2400 款 MS DOS 游戏任你玩 ifanr爱范儿 2015 01 07 2017 01 29 原始内容存档于2017 02 02 Wortham Jenna How an Archive of the Internet Could Change History The New York Times 2016 06 21 ISSN 0362 4331 原始内容存档于2022 06 26 美国英语 Internet Archive In the Collections Wayback Machine 2000 06 06 2016 03 15 原始内容存档于2000 06 06 Daisy Books for the Print Disabled 页面存档备份 存于互联网档案馆 February 25 2013 Internet Archive Kahle Brewster August 7 2012 Over 1 000 000 Torrents of Downloadable Books Music and Movies 页面存档备份 存于互联网档案馆 Internet Archive Blogs 18 0 18 1 Van der Sar Ernesto Internet Archive Starts Seeding 1 398 875 Torrents TorrentFreak 英语 TorrentFreak 2012 08 07 2014 03 21 原始内容存档于2012 08 08 Hot List for bt1 us archive org Updated August 7 2012 7 31 pm PDT 页面存档备份 存于互联网档案馆 US Cluster Internet Archive Welcome to Archive torrents 页面存档备份 存于互联网档案馆 Internet Archive Alexander Kurtis Internet Archive s S F office damaged in fire San Francisco Chronicle 2013 11 06 2014 03 21 原始内容存档于2013 12 12 Fire Update Lost Many Cameras 20 Boxes No One Hurt Internet Archive Blogs 2013 11 06 2014 03 21 原始内容存档于2014 03 14 Shu Catherine Internet Archive Seeking Donations To Rebuild Its Fire Damaged Scanning Center TechCrunch 2013 11 06 2014 03 21 原始内容存档于2014 03 17 Internet Archive Internet Archive 2014 03 02 原始内容存档于2005 12 31 Internet Archive Internet Archive 2014 03 02 原始内容存档于2006 12 28 Internet Archive Internet Archive 2014 03 02 原始内容存档于2007 12 28 Internet Archive Internet Archive 2014 03 02 原始内容存档于2008 12 24 Internet Archive Internet Archive 2014 03 02 原始内容存档于2009 12 20 Internet Archive Internet Archive 2014 03 02 原始内容存档于2010 12 30 Internet Archive Internet Archive 2014 03 02 原始内容存档于2011 08 30 Internet Archive Internet Archive 2014 03 02 原始内容存档于2002 10 14 Internet Archive Internet Archive 2014 03 02 原始内容存档于2013 12 31 430 Billion Web Pages Saved Help Us Do More Internet Archive Blogs blog archive org 2018 06 10 原始内容存档于2018 07 07 美国英语 Internet Archive Internet Archive 2018 12 09 原始内容存档于2015 05 31 Internet Archive Internet Archive 2018 12 09 原始内容存档于2016 09 30 Goel Vinay Defining Web pages Web sites and Web captures Internet Archive 2016 10 23 2018 12 09 原始内容存档于2018 12 09 Internet Archive Internet Archive 2018 12 09 原始内容存档于2017 06 01 Internet Archive Internet Archive 2018 12 09 原始内容存档于2018 12 09 Rossi Alexis Fixing Broken Links on the Internet Internet Archive 2013 10 25 2013 12 29 原始内容存档于2013 12 16 40 0 40 1 Hoffelder Nate July 9 2013 Internet Archive Now Hosts 4 4 Million eBooks Sees 15 Million eBooks Downloaded Each Month 页面存档备份 存于互联网档案馆 The Digital Reader Kahle Brewster May 23 2008 Books Scanning to be Publicly Funded 页面存档备份 存于互联网档案馆 Internet Archive Forums Bulk Access to OCR for 1 Million Books 页面存档备份 存于互联网档案馆 Open Library Blog November 24 2008 Internet Archive Search language eng OR language English Internet Archive 2015 11 27 原始内容存档于2016 04 15 Internet Archive Search language fre OR language French Internet Archive 2015 11 27 原始内容存档于2016 03 17 Internet Archive Search language ger OR language German Internet Archive 2015 11 27 原始内容存档于2016 01 14 Internet Archive Search language spa OR language Spanish Internet Archive 2015 11 27 原始内容存档于2016 04 08 Internet Archive Search language Chinese OR language chi AND mediatype texts Internet Archive 2015 11 27 原始内容存档于2016 04 08 Internet Archive Search language ara OR language Arabic Internet Archive 2015 11 27 原始内容存档于2016 03 22 Internet Archive Search language Dutch OR language dut AND mediatype texts Internet Archive 2015 11 27 原始内容存档于2016 04 08 Internet Archive Search language Portuguese OR language por AND mediatype texts Internet Archive 2015 11 27 原始内容存档于2016 03 15 Internet Archive Search language rus OR language Russian AND mediatype texts Internet Archive 2015 11 27 原始内容存档于2016 03 19 Internet Archive Search language urd OR language Urdu AND mediatype texts Internet Archive 2015 11 27 原始内容存档于2016 03 15 Internet Archive Search language Japanese OR language jpn AND mediatype texts Internet Archive 2015 11 27 原始内容存档于2016 04 08 Internet Archive Search mediatype texts Internet Archive 2015 11 27 原始内容存档于2016 03 05 Internet Archive Search mediatype texts AND date 1800 01 01 TO 1809 12 31 Internet Archive 2015 11 27 原始内容存档于2016 04 09 Internet Archive Search mediatype texts AND date 1810 01 01 TO 1819 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 26 Internet Archive Search mediatype texts AND date 1820 01 01 TO 1829 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 15 Internet Archive Search mediatype texts AND date 1830 01 01 TO 1839 12 31 Internet Archive 2015 11 27 原始内容存档于2016 04 09 Internet Archive Search mediatype texts AND date 1840 01 01 TO 1849 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 26 Internet Archive Search mediatype texts AND date 1850 01 01 TO 1859 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 17 Internet Archive Search mediatype texts AND date 1860 01 01 TO 1869 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 13 Internet Archive Search mediatype texts AND date 1870 01 01 TO 1879 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 15 Internet Archive Search mediatype texts AND date 1880 01 01 TO 1889 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 16 Internet Archive Search mediatype texts AND date 1890 01 01 TO 1899 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 11 Internet Archive Search mediatype texts AND date 1900 01 01 TO 1909 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 18 Internet Archive Search mediatype texts AND date 1910 01 01 TO 1919 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 19 Internet Archive Search mediatype texts AND date 1920 01 01 TO 1929 12 31 Internet Archive 2015 11 27 原始内容存档于2016 04 09 Internet Archive Search mediatype texts AND date 1930 01 01 TO 1939 12 31 Internet Archive 2015 11 27 原始内容存档于2016 04 09 Internet Archive Search mediatype texts AND date 1940 01 01 TO 1949 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 26 Internet Archive Search mediatype texts AND date 1950 01 01 TO 1959 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 16 Internet Archive Search mediatype texts AND date 1960 01 01 TO 1969 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 15 Internet Archive Search mediatype texts AND date 1970 01 01 TO 1979 12 31 Internet Archive 2015 11 27 原始内容存档于2016 04 09 Internet Archive Search mediatype texts AND date 1980 01 01 TO 1989 12 31 Internet Archive 2015 11 27 原始内容存档于2016 04 09 Internet Archive Search mediatype texts AND date 1990 01 01 TO 1999 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 11 Internet Archive Search mediatype texts AND date 2000 01 01 TO 2009 12 31 Internet Archive 2015 11 27 原始内容存档于2016 03 26 Internet Archive Search mediatype texts AND date 2010 01 01 TO 2015 11 27 Internet Archive 2015 11 27 原始内容存档于2016 04 09 Metropolitan Museum of Art Gallery Images Free Image Download amp Streaming Internet Archive Internet Archive 2014 12 04 原始内容存档于2015 01 03 How to Host Podcast MP3 on Archive org TurboFuture 2019 02 25 原始内容存档于2017 08 04 英语 Download amp Streaming Audio Archive Internet Archive archive org 2019 02 25 原始内容存档于2019 02 24 英语 Clarke John Warren Zevon Live Shows Hit the Web Possible Film in the Works Rolling Stone 2009 06 03 2019 02 25 原始内容存档于2019 02 26 美国英语 Brooklyn Museum Free Image Free Download Borrow and Streaming Internet Archive archive org 2019 02 25 原始内容存档于2019 02 24 英语 International School of Information Science ISIS www bibalex org International School of Information Science 2016 10 30 原始内容存档于2016 10 31 延伸阅读 编辑Kahle Brewster Archiving the Internet Scientific America November 1996 Kahle Brewster Scanning Center Fire Please Help Rebuild Internet Archive Blogs 2013 11 06 Jill Lepore The Cobweb The New Yorker 2015 01 26 2016 10 30 原始内容存档于2015 01 25 Ringmar Erik Liberate and Disseminate Times Higher Education Supplement 2008 04 10 2016 10 30 原始内容存档于2012 12 02 外部連結 编辑维基共享资源中相关的多媒体资源 互联网档案馆官方网站 官方博客 互联网档案馆的Twitter帳戶 英文 Internet Archive Mirror 页面存档备份 存于互联网档案馆 于埃及亚历山大图书馆 Netlabels release collection The Other Minds Archive 来自radiom org 页面存档备份 存于互联网档案馆 的新音乐资源 Web Archiving at archive org 页面存档备份 存于互联网档案馆 关于互联网档案馆运营的详情 Pictures and descriptions of the Wayback Machine hardware in 2003 prior to the Petabox with cost information Current Petabox storage hardware Earliest known website of Internet Archive www archive org from 1997 Early websites from 1996 brewster Scanning Center Fire Please Help Rebuild Internet Archive Blogs 2013 11 06 2013 11 07 互联网真能帮人类历史存档吗 腾讯网 2015 01 24 2015 09 04 原始内容存档于2016 09 15 中文 中国大陆 参见 编辑 互联网主题 信息技术主题 历史主题 網際網路檔案館存檔列表 英语 Lists of Internet Archive s collections 公共領域音樂 英语 Public domain music 網頁存檔 英语 Web archiving 數位圖書館类似的项目Archive is 網際網路記憶基金會 英语 Internet Memory Foundation LibriVox 國家數位資訊基礎設施和保護計劃 英语 National Digital Information Infrastructure and Preservation Program NDIIPP 國家數位圖書館計劃 英语 National Digital Library Program NDLP 古腾堡计划 英國國家檔案館的英國政府網頁存檔 英语 UK Government Web Archive 英國網頁存檔聯盟 英语 UK Web Archiving Consortium WebCite Google圖書 ウェブ魚拓 日语 ウェブ魚拓 其他Archive Team 英语 Archive Team 数位黑暗时代 數位保存 英语 Digital preservation Heritrix 英语 Heritrix Link rot 英语 Link rot 忘怀洞 PetaBox 英语 PetaBox 網路蜘蛛 取自 https zh wikipedia org w index php title 互联网档案馆 amp oldid 75169202, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。