fbpx
维基百科

深网

深网,即深層網站(英語:Deep web),是指不能被标准搜索引擎索引的全球資訊網内容。與深網相反的術語是表網,任何人都可以使用網際網路存取。

深網可以直接透過的URLIP位址存取,但可能需要輸入密碼或其他安全資訊才能存取實際內容[1][2]。這類網站用途包括網路郵件網路銀行、限制存取的社群媒體頁面和資料以及使用者必須付費並受到付費牆保護的服務,如隨選視訊、網路雜誌和報紙等。

名詞 编辑

2009年,深網與暗網這兩個名詞首度被混為一談,當時討論了深網概念以及自由網黑暗網路上發生的非法活動[3]。這些犯罪活動包括個人密碼、造假身份證件、毒品、槍支和兒童色情交易[4]

從那時起,在媒體報導絲綢之路之後,媒體開始使用深網作為黑暗網站黑暗網路的同義詞,導致了長期的混亂[5][6]Wired記者Kim Zetter和Andy Greenberg建議使用不同的方式使用這些術語。雖然深網是指無法利用傳統搜尋引擎存取的任何網站,但暗網只是深網的一部分,被刻意隱藏並且無法利用一般瀏覽器和方法進入[7][8][9][10][11]

命名 编辑

伯格曼在The Journal of Electronic Publishing上發表一篇關於深网的重大論文中提到,吉尔.艾尔斯沃夫曾经使用“隱形網”这一术语表示那些没有被任何搜索引擎索引注册的网站[12]。伯格曼還引用法兰克·加西亚在1996年1月的一篇文章[13]

这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。我稱之為隱形網。

早期另一個使用“隱形網”这一术语的是一家叫做“个人图书馆软件”公司的布鲁斯·芒特和马修·B·科尔,当他们公司在1996年12月推出和发行的一款软件时,他们对深网工具的有过这样的一番描述。[14]

現在普遍接受的深网這一特定術語首次使用在2001年伯格曼的研究中[12]。2001年,電腦科學家迈克尔·伯格曼将当今全球資訊網上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于深网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,深网就隐藏了起来。据估计,深网要比表網大几个数量级[12]

深網資源 编辑

防止網頁被傳統搜索引擎索引的方法可以被分類為以下一個或多個:

  1. 被限制存取的內容:以技術方式限制訪問其網頁的網站,例如Robots.txtCAPTCHAs或是禁止搜尋引擎建立快取[15]
  2. 非HTML或文本的內容:圖像或影片等多媒體或是特定檔案格式無法被搜尋引擎處理。
  3. 私人網站:需要註冊或是登入的網站。
  4. 軟體:某些內容刻意隱藏在一般的網路上,只能使用特殊軟體如TorI2P或其他程式存取。例如Tor讓使用者匿名訪問.onion網址的網站,以隱藏他們的IP位址。
  5. 未被連結的內容:未被其他網站連結或很少連結的網頁,這可能防止被網路爬蟲存取。
  6. 網站檔案管理庫網站時光機這類網站內容的網頁無法被搜尋引擎編入索引[16]

抓取深網內容 编辑

研究人员探寻了如何自动抓取深网内容。

2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亞·莫利納(Hector Garcia-Molina)[17][18]发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序。[19]

商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap協議(由Google於2005年首次開發並由Google引入)和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个HTML表单并且添加结果HTML页面到Google搜索引擎索引。在这个系统里,使用三种方法计算提交词:

  1. 为输入搜索选择关键词允许的输入值,
  2. 确定是否只接受特定的值(例如时间),以及
  3. 选择少量的组合生成适合纳入网站的搜索索引网址。

2008年,為了方便Tor隱藏服務的使用者存取和搜尋隱藏的.onion網域,亞倫·斯沃茨設計了Tor2web—一個能夠利用普通瀏覽器存取的代理應用程序[20]

参見 编辑

参考资源 编辑

  1. ^ Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.
  2. ^ Shedden, Sam. . Sunday Mail. June 8, 2014. (原始内容存档于March 1, 2020). 
  3. ^ Beckett, Andy. . November 26, 2009 [August 9, 2015]. (原始内容存档于2020-02-26). 
  4. ^ D. Day. Easiest Catch: Don't Be Another Fish in the Dark Net. Wake Forest University: TEDx Talks. (原始内容存档于November 13, 2021). 
  5. ^ . BrightPlanet. March 27, 2014 [2022-07-03]. (原始内容存档于2015-05-16). 
  6. ^ Solomon, Jane. . May 6, 2015 [May 26, 2015]. (原始内容存档于2017-08-14). 
  7. ^ (PDF). January 20, 2014 [January 15, 2017]. (原始内容 (PDF)存档于2017-01-16). 
  8. ^ Lam, Kwok-Yan; Chi, Chi-Hung; Qing, Sihan. . Springer. November 23, 2016 [January 15, 2017]. ISBN 9783319500119. (原始内容存档于2022-03-20) (英语). 
  9. ^ . Dictionary Blog. May 6, 2015 [January 15, 2017]. (原始内容存档于2017-08-14). 
  10. ^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser. . Springer. January 1, 2017 [January 15, 2017]. ISBN 9783319476711. (原始内容存档于2022-03-19) (英语). 
  11. ^ . The Globe and Mail. [January 15, 2017]. (原始内容存档于2017-07-21). 
  12. ^ 12.0 12.1 12.2 Bergman, Michael K. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing. August 2001, 7 (1) [2009-02-24]. (原始内容于2011-04-10). . According to that paper, the study was originally published on July 26, 2000, with data then updated to 2001.
  13. ^ Garcia, Frank (January 1996). "Business and Marketing on the Internet". Masthead 9 (1). (Citation from Flynn-Burhoe, Maureen (19 December 2006). "The Ultimate Guide to the Invisible Web (页面存档备份,存于互联网档案馆)". oceanflynn @ Digg.) ( archived by the Internet Archive.)
  14. ^ Personal Library Software (Dec 1996). "PLS introduces AT1, the first 'second generation' Internet search service". (.)
  15. ^ Hypertext Transfer Protocol (HTTP/1.1): Caching. Internet Engineering Task Force. 2014 [2014-07-30]. (原始内容于2017-05-13). 
  16. ^ Wiener-Bronner, Danielle. . Fusion. June 10, 2015 [June 27, 2015]. (原始内容存档于2015-06-30). There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said Chris Mattmann. 
  17. ^ Sriram Raghavan; Hector Garcia-Molina. Crawling the Hidden Web (PDF). Stanford Digital Libraries Technical Report. 2000 [2008-12-27]. (原始内容 (PDF)于2018-05-08). 
  18. ^ Raghavan, Sriram; Garcia-Molina, Hector. Crawling the Hidden Web (PDF). Proceedings of the 27th International Conference on Very Large Data Bases (VLDB): 129–138. 2001 [2009-07-14]. (原始内容 (PDF)于2019-07-28). 
  19. ^ Alexandros, Ntoulas; Petros Zerfos, and Junghoo Cho. Downloading Hidden Web Content (PDF). UCLA Computer Science. 2005 [2009-02-24]. (原始内容 (PDF)于2020-06-05). 
  20. ^ Aaron, Swartz. . [February 4, 2014]. (原始内容存档于2018-10-31). 

深网, 此條目介紹的是传统的网络搜索引擎无法访问到的網站內容, 关于無法用正常方式訪問的網站, 请见, 黑暗网站, 即深層網站, 英語, deep, 是指不能被标准搜索引擎索引的全球資訊網内容, 與深網相反的術語是表網, 任何人都可以使用網際網路存取, 深網可以直接透過的url或ip位址存取, 但可能需要輸入密碼或其他安全資訊才能存取實際內容, 這類網站用途包括網路郵件, 網路銀行, 限制存取的社群媒體頁面和資料以及使用者必須付費並受到付費牆保護的服務, 如隨選視訊, 網路雜誌和報紙等, 目录, 名詞, 命名, 深. 此條目介紹的是传统的网络搜索引擎无法访问到的網站內容 关于無法用正常方式訪問的網站 请见 黑暗网站 深网 即深層網站 英語 Deep web 是指不能被标准搜索引擎索引的全球資訊網内容 與深網相反的術語是表網 任何人都可以使用網際網路存取 深網可以直接透過的URL或IP位址存取 但可能需要輸入密碼或其他安全資訊才能存取實際內容 1 2 這類網站用途包括網路郵件 網路銀行 限制存取的社群媒體頁面和資料以及使用者必須付費並受到付費牆保護的服務 如隨選視訊 網路雜誌和報紙等 目录 1 名詞 2 命名 3 深網資源 4 抓取深網內容 5 参見 6 参考资源名詞 编辑2009年 深網與暗網這兩個名詞首度被混為一談 當時討論了深網概念以及自由網和黑暗網路上發生的非法活動 3 這些犯罪活動包括個人密碼 造假身份證件 毒品 槍支和兒童色情交易 4 從那時起 在媒體報導絲綢之路之後 媒體開始使用深網作為黑暗網站或黑暗網路的同義詞 導致了長期的混亂 5 6 Wired記者Kim Zetter和Andy Greenberg建議使用不同的方式使用這些術語 雖然深網是指無法利用傳統搜尋引擎存取的任何網站 但暗網只是深網的一部分 被刻意隱藏並且無法利用一般瀏覽器和方法進入 7 8 9 10 11 命名 编辑伯格曼在The Journal of Electronic Publishing上發表一篇關於深网的重大論文中提到 吉尔 艾尔斯沃夫曾经使用 隱形網 这一术语表示那些没有被任何搜索引擎索引注册的网站 12 伯格曼還引用法兰克 加西亚在1996年1月的一篇文章 13 这些网站可能已经被合理地设计出来了 但是他们却没有被任何搜索引擎编列索引 以至于事实上没有人能找到他们 我可以这样对这些不可见的网站说 你们是隐藏了的 我稱之為隱形網 早期另一個使用 隱形網 这一术语的是一家叫做 个人图书馆软件 公司的布鲁斯 芒特和马修 B 科尔 当他们公司在1996年12月推出和发行的一款软件时 他们对深网工具的有过这样的一番描述 14 現在普遍接受的深网這一特定術語首次使用在2001年伯格曼的研究中 12 2001年 電腦科學家迈克尔 伯格曼将当今全球資訊網上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索 巨量的表面信息固然可以通过这种方式被查找得到 可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉 绝大部分这些隐藏的信息是须通过动态请求产生的网页信息 而标准的搜索引擎却无法对其进行查找 传统的搜索引擎 看 不到 也获取不了这些存在于深网的内容 除非通过特定的搜查这些页面才会动态产生 于是相对的 深网就隐藏了起来 据估计 深网要比表網大几个数量级 12 深網資源 编辑防止網頁被傳統搜索引擎索引的方法可以被分類為以下一個或多個 被限制存取的內容 以技術方式限制訪問其網頁的網站 例如Robots txt CAPTCHAs或是禁止搜尋引擎建立快取 15 非HTML或文本的內容 圖像或影片等多媒體或是特定檔案格式無法被搜尋引擎處理 私人網站 需要註冊或是登入的網站 軟體 某些內容刻意隱藏在一般的網路上 只能使用特殊軟體如Tor I2P或其他程式存取 例如Tor讓使用者匿名訪問 onion網址的網站 以隱藏他們的IP位址 未被連結的內容 未被其他網站連結或很少連結的網頁 這可能防止被網路爬蟲存取 網站檔案管理庫 網站時光機這類網站內容的網頁無法被搜尋引擎編入索引 16 抓取深網內容 编辑研究人员探寻了如何自动抓取深网内容 2001年 斯利拉姆 拉格哈瓦 Sriram Raghavan 和赫克托 加西亞 莫利納 Hector Garcia Molina 17 18 发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源 加利福尼亚大学洛杉矶分校的Alexandros Ntoulas Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序 19 商业搜索引擎已经开始使用以上两种方法之一抓取深网 Sitemap協議 由Google於2005年首次開發並由Google引入 和mod oai是允许搜索引擎和其他网络服务探索深网解决方法 以上两种解决方法允许网络服务主动公布网址 这对于他们来说是容易的 因而允许自动探寻资源而不直接通过网络表面的链接 Google的深网探寻系统预先计算每个HTML表单并且添加结果HTML页面到Google搜索引擎索引 在这个系统里 使用三种方法计算提交词 为输入搜索选择关键词允许的输入值 确定是否只接受特定的值 例如时间 以及 选择少量的组合生成适合纳入网站的搜索索引网址 2008年 為了方便Tor隱藏服務的使用者存取和搜尋隱藏的 onion網域 亞倫 斯沃茨設計了Tor2web 一個能夠利用普通瀏覽器存取的代理應用程序 20 参見 编辑暗网参考资源 编辑 Madhavan J Ko D Kot L Ganapathy V Rasmussen A amp Halevy A 2008 Google s deep web crawl Proceedings of the VLDB Endowment 1 2 1241 52 Shedden Sam How Do You Want Me to Do It Does It Have to Look like an Accident an Assassin Selling a Hit on the Net Revealed Inside the Deep Web Sunday Mail June 8 2014 原始内容存档于March 1 2020 Beckett Andy The dark side of the internet November 26 2009 August 9 2015 原始内容存档于2020 02 26 D Day Easiest Catch Don t Be Another Fish in the Dark Net Wake Forest University TEDx Talks 原始内容存档于November 13 2021 Clearing Up Confusion Deep Web vs Dark Web BrightPlanet March 27 2014 2022 07 03 原始内容存档于2015 05 16 Solomon Jane The Deep Web vs The Dark Web May 6 2015 May 26 2015 原始内容存档于2017 08 14 The Impact of the Dark Web on Internet Governance and Cyber Security PDF January 20 2014 January 15 2017 原始内容 PDF 存档于2017 01 16 Lam Kwok Yan Chi Chi Hung Qing Sihan Information and Communications Security 18th International Conference ICICS 2016 Singapore Singapore November 29 December 2 2016 Proceedings Springer November 23 2016 January 15 2017 ISBN 9783319500119 原始内容存档于2022 03 20 英语 The Deep Web vs The Dark Web Dictionary com Blog Dictionary Blog May 6 2015 January 15 2017 原始内容存档于2017 08 14 Akhgar Babak Bayerl P Saskia Sampson Fraser Open Source Intelligence Investigation From Strategy to Implementation Springer January 1 2017 January 15 2017 ISBN 9783319476711 原始内容存档于2022 03 19 英语 What is the dark web and who uses it The Globe and Mail January 15 2017 原始内容存档于2017 07 21 12 0 12 1 12 2 Bergman Michael K The Deep Web Surfacing Hidden Value The Journal of Electronic Publishing August 2001 7 1 2009 02 24 原始内容存档于2011 04 10 According to that paper the study was originally published on July 26 2000 with data then updated to 2001 Garcia Frank January 1996 Business and Marketing on the Internet Masthead 9 1 Citation from Flynn Burhoe Maureen 19 December 2006 The Ultimate Guide to the Invisible Web 页面存档备份 存于互联网档案馆 oceanflynn Digg Electronic copy archived by the Internet Archive Personal Library Software Dec 1996 PLS introduces AT1 the first second generation Internet search service Archived by the Internet Archive Hypertext Transfer Protocol HTTP 1 1 Caching Internet Engineering Task Force 2014 2014 07 30 原始内容存档于2017 05 13 Wiener Bronner Danielle NASA is indexing the Deep Web to show mankind what Google won t Fusion June 10 2015 June 27 2015 原始内容存档于2015 06 30 There are other simpler versions of Memex already available If you ve ever used the Internet Archive s Wayback Machine which gives you past versions of a website not accessible through Google then you ve technically searched the Deep Web said Chris Mattmann Sriram Raghavan Hector Garcia Molina Crawling the Hidden Web PDF Stanford Digital Libraries Technical Report 2000 2008 12 27 原始内容存档 PDF 于2018 05 08 引文使用过时参数coauthors 帮助 Raghavan Sriram Garcia Molina Hector Crawling the Hidden Web PDF Proceedings of the 27th International Conference on Very Large Data Bases VLDB 129 138 2001 2009 07 14 原始内容存档 PDF 于2019 07 28 引文使用过时参数coauthors 帮助 Alexandros Ntoulas Petros Zerfos and Junghoo Cho Downloading Hidden Web Content PDF UCLA Computer Science 2005 2009 02 24 原始内容存档 PDF 于2020 06 05 引文使用过时参数coauthors 帮助 Aaron Swartz In Defense of Anonymity February 4 2014 原始内容存档于2018 10 31 取自 https zh wikipedia org w index php title 深网 amp oldid 76478172, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。