fbpx
维基百科

Lucene

Lucene是一套用于全文检索搜尋開放源碼程式庫,由Apache软件基金会支持和提供。Lucene提供了一個簡單卻強大的應用程式介面,能夠做全文索引和搜索。Lucene被广泛应用作搜索应用的标准基础库[3][4][5]

Lucene
開發者Apache软件基金会
首次发布1999年,​24年前​(1999
目前版本
  • 9.1.0 (2022年3月22日;穩定版本)[1]
  • 9.4.2 (2022年12月2日)[2]
源代码库
  • github.com/apache/lucene
编程语言Java
操作系统跨平臺
类型搜索全文检索
许可协议Apache许可证 2.0
网站lucene.apache.org

Lucene现已被移植到其他编程语言,包括Object PascalPerlC#C++PythonRubyPHP[6]

历史

Doug Cutting在1999年编写了Lucene[7],他是一位資深的全文索引及檢索專家,曾經是V-Twin搜索引擎的主要開發者,後來在Excite擔任高級系統架構設計師,目前從事於一些互联网底層架構的研究。他貢獻出Lucene的目標是為各種中小型應用程式加入全文檢索功能。Lucene最初可以从SourceForge网站的主页下载,它于2001年9月加入Apache软件基金会的Jakarta开源Java产品家族,并于2005年2月成为独立的顶级Apache项目。Lucene这个名字是Doug Cutting妻子的中间名,也是她外祖母的名字[8]

Lucene以前包含了许多子项目,例如 Lucene.NET、Mahout、Tika and Nutch。这三个现在已经成为了独立的顶级Apache项目。

2010年3月,Apache Solr搜索服务器作为Lucene子项目加入,合并了开发者社区。

4.0版于2012年10月12日发布[9]

2021年3月,Lucene更改了logo,Apache Solr再次成为顶级Apache项目,独立于 Lucene。

功能和常见用途

虽然理论上Lucene适用于任何需要全文索引和搜索功能的应用程序,但其主要是因为在Internet搜索引擎和本地单站点搜索实现中的实用性而受到认可[10][11]

Lucene包含了基于编辑距离执行模糊搜索的功能[12]

Lucene也被用于实现推荐系统[13]。例如,Lucene的'MoreLikeThis'类可以生成相似文档的推荐。在将“MoreLikeThis”基于向量的相似性方法与基于引用的文档相似性度量(例如共引和共引邻近度分析)进行比较时,Lucene的方法在推荐具有非常相似的结构特征和更窄相关性的文档上表现出色[14]。相比之下,基于引用的文档相似性度量往往更适合推荐更广泛相关的文档[14]

基於Lucene的項目

Lucene本身只是一个索引和搜索库,不包含爬取和HTML解析功能。但是,以下的项目扩展了Lucene的功能:

  • Apache Nutch — 提供成熟可用的网络爬虫[15]
  • Apache Solr — 基于Lucene核心的高性能搜索服务器,提供JSON/Python/Ruby API[16]
  • Compass – Elasticsearch的前身[17]
  • CrateDB – 基于Lucene构建的开源分布式SQL数据库[18]
  • DocFetcher — 跨平台的本机文件搜索桌面程序[來源請求][19]
  • Elasticsearch —企业搜索平台,目的是组织数据并使其易于获取[20]
  • Kinosearch – 用PerlC语言[21]实现的搜索引擎与Lucene的移植[22]。Socialtext wiki[21]和MojoMojo wiki均使用了这一搜索引擎[23]。 它在人类代谢物组数据库(HMDB)[24] 和毒素与毒素目标数据库(T3DB)[25]中亦有应用。
  • MongoDB Atlas Search – 基于MongoDB和Apache Lucene的云原生企业搜索应用程序
  • OpenSearch – 基于Elasticsearch 7的开源企业级搜索服务器
  • Swiftype — 基于Lucene的企业级搜索[26]
  • Lucene.NET — 提供给.Net平台用户的Lucene类库的封装[27]
  • Apache Lucy — 为动态语言提供全文搜索的能力,是Lucene Java 库的C接口[28]
  • Luke — Java编写的用户界面用于编辑Lucene的索引,此项目已停止开发[29]

參見

  • Solr - 使用Lucene的企業搜索伺服器,亦由Apache軟件基金會所研發。

參考資料

  1. ^ https://lucene.apache.org/core/corenews.html#apache-lucenetm-910-available; 检索日期: 2022年4月16日.
  2. ^ Release 9.4.2. 2022年12月2日 [2022年12月5日]. 
  3. ^ Kamphuis, Chris; de Vries, Arjen P.; Boytsov, Leonid; Lin, Jimmy, Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo , 编, Which BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants, Advances in Information Retrieval (Cham: Springer International Publishing), 2020, 12036: 28–34 [2021-06-07], ISBN 978-3-030-45441-8, PMC 7148026 , doi:10.1007/978-3-030-45442-5_4 (英语) 
  4. ^ Grand, Adrien; Muir, Robert; Ferenczi, Jim; Lin, Jimmy, Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo , 编, From MAXSCORE to Block-Max Wand: The Story of How Lucene Significantly Improved Query Evaluation Performance, Advances in Information Retrieval (Cham: Springer International Publishing), 2020, 12036: 20–27 [2021-06-07], ISBN 978-3-030-45441-8, PMC 7148045 , doi:10.1007/978-3-030-45442-5_3 (英语) 
  5. ^ Azzopardi, Leif; Moshfeghi, Yashar; Halvey, Martin; Alkhawaldeh, Rami S.; Balog, Krisztian; Di Buccio, Emanuele; Ceccarelli, Diego; Fernández-Luna, Juan M.; Hull, Charlie; Mannix, Jake; Palchowdhury, Sauparna. Lucene4IR: Developing Information Retrieval Evaluation Resources using Lucene. ACM SIGIR Forum. 2017-02-14, 50 (2): 58–75 [2022-07-25]. ISSN 0163-5840. doi:10.1145/3053408.3053421. (原始内容于2022-07-28) (英语). 
  6. ^ LuceneImplementations. apache.org. [23 September 2015]. (原始内容于6 October 2015). 
  7. ^ KeywordAnalyzer (PDF). 19 November 2007. (原始内容 (PDF)存档于31 January 2012). 
  8. ^ Barker, Deane. Web Content Management. O'Reilly. 2016: 233. ISBN 978-1491908105. 
  9. ^ Apache Lucene - Welcome to Apache Lucene. apache.org. [4 February 2016]. (原始内容于4 February 2016). 
  10. ^ McCandless, Michael; Hatcher, Erik; Gospodnetić, Otis. Lucene in Action, Second Edition . Manning. 2010: 8. ISBN 978-1933988177. 
  11. ^ (PDF). glscube.org. (原始内容 (PDF)存档于2010-06-01). 
  12. ^ Apache Lucene - Query Parser Syntax. lucene.apache.org. (原始内容于2017-05-02). 
  13. ^ J. Beel, S. Langer, and B. Gipp, “The Architecture and Datasets of Docear’s Research Paper Recommender System,” in Proceedings of the 3rd International Workshop on Mining Scientific Publications (WOSP 2014) at the ACM/IEEE Joint Conference on Digital Libraries (JCDL 2014), London, UK, 2014
  14. ^ 14.0 14.1 M. Schwarzer, M. Schubotz, N. Meuschke, C. Breitinger, V. Markl, and B. Gipp, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016.pdf (页面存档备份,存于互联网档案馆) "Evaluating Link-based Recommendations for Wikipedia" in Proceedings of the 16th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL), New York, NY, USA, 2016, pp. 191-200.
  15. ^ dev@Nutch.apache.org. Apache Nutch™ -. nutch.apache.org. [2016-11-29]. (原始内容于2021-01-26). 
  16. ^ What are the main differences between ElasticSearch, Apache Solr and SolrCloud? - Quora. quora.com. [23 September 2015]. 
  17. ^ . the dude abides. [2015-10-14]. (原始内容存档于2015-10-15) (英语). 
  18. ^ Wayner, Peter. 11 cutting-edge databases worth exploring now. InfoWorld. [21 September 2015]. (原始内容于21 September 2015). 
  19. ^ Quang, Tran Nam. DocFetcher - Fast Document Search. docfetcher.sourceforge.net. [2016-11-29]. (原始内容于2021-01-13). 
  20. ^ Elasticsearch: RESTful, Distributed Search & Analytics - Elastic. elastic.co. [23 September 2015]. (原始内容于2015-09-21). 
  21. ^ 21.0 21.1 Natividad, Angela. Socialtext Updates Search, Goes Kino. CMS Wire. [2011-05-31]. (原始内容于2012-09-29). 
  22. ^ Marvin Humphrey. KinoSearch - Search engine library. - metacpan.org. p3rl.org. [23 September 2015]. 
  23. ^ Diment, Kieren; Trout, Matt S. Catalyst Cookbook. The Definitive Guide to Catalyst . Apress. 2009: 280. ISBN 978-1-4302-2365-8. 
  24. ^ Wishart, D. S.; et al. HMDB: a knowledgebase for the human metabolome. Nucleic Acids Res. January 2009, 37 (Database issue): D603–10. PMC 2686599 . PMID 18953024. doi:10.1093/nar/gkn810. 
  25. ^ Lim, Emilia; Pon, Allison; Djoumbou, Yannick; Knox, Craig; Shrivastava, Savita; Guo, An Chi; Neveu, Vanessa; Wishart, David S. T3DB: a comprehensively annotated database of common toxins and their targets. Nucleic Acids Res. January 2010, 38 (Database issue): D781–6. PMC 2808899 . PMID 19897546. doi:10.1093/nar/gkp934. 
  26. ^ Swiftype - Site search and enterprise search. Swiftype. [2016-11-29]. (原始内容于2021-02-05). 
  27. ^ Apache Lucene.Net. lucenenet.apache.org. [2016-11-29]. (原始内容于2020-12-31). 
  28. ^ Apache Lucy. lucy.apache.org. [2016-11-29]. (原始内容于2020-12-31). 
  29. ^ luke. GitHub. [2016-11-29]. (原始内容于2020-11-30). 

外部連結

  • Lucene homepage (页面存档备份,存于互联网档案馆
  • Article "" by Chris Conrad
  • Schmidt, Marco. . 2005 [2021-02-07]. (原始内容存档于2006-07-15). Introductory article with Java code for search 
  • Apache Lucene popular APIs (页面存档备份,存于互联网档案馆) in GitHub

lucene, 是一套用于全文检索和搜尋的開放源碼程式庫, 由apache软件基金会支持和提供, 提供了一個簡單卻強大的應用程式介面, 能夠做全文索引和搜索, 被广泛应用作搜索应用的标准基础库, 開發者apache软件基金会首次发布1999年, 24年前, 1999, 目前版本9, 2022年3月22日, 穩定版本, 2022年12月2日, 源代码库github, apache, lucene编程语言java操作系统跨平臺类型搜索及全文检索许可协议apache许可证, 0网站lucene, apache, org现. Lucene是一套用于全文检索和搜尋的開放源碼程式庫 由Apache软件基金会支持和提供 Lucene提供了一個簡單卻強大的應用程式介面 能夠做全文索引和搜索 Lucene被广泛应用作搜索应用的标准基础库 3 4 5 Lucene開發者Apache软件基金会首次发布1999年 24年前 1999 目前版本9 1 0 2022年3月22日 穩定版本 1 9 4 2 2022年12月2日 2 源代码库github wbr com wbr apache wbr lucene编程语言Java操作系统跨平臺类型搜索及全文检索许可协议Apache许可证 2 0网站lucene wbr apache wbr orgLucene现已被移植到其他编程语言 包括Object Pascal Perl C C Python Ruby和PHP 6 目录 1 历史 2 功能和常见用途 3 基於Lucene的項目 4 參見 5 參考資料 6 外部連結历史 编辑Doug Cutting在1999年编写了Lucene 7 他是一位資深的全文索引及檢索專家 曾經是V Twin搜索引擎的主要開發者 後來在Excite擔任高級系統架構設計師 目前從事於一些互联网底層架構的研究 他貢獻出Lucene的目標是為各種中小型應用程式加入全文檢索功能 Lucene最初可以从SourceForge网站的主页下载 它于2001年9月加入Apache软件基金会的Jakarta开源Java产品家族 并于2005年2月成为独立的顶级Apache项目 Lucene这个名字是Doug Cutting妻子的中间名 也是她外祖母的名字 8 Lucene以前包含了许多子项目 例如 Lucene NET Mahout Tika and Nutch 这三个现在已经成为了独立的顶级Apache项目 2010年3月 Apache Solr搜索服务器作为Lucene子项目加入 合并了开发者社区 4 0版于2012年10月12日发布 9 2021年3月 Lucene更改了logo Apache Solr再次成为顶级Apache项目 独立于 Lucene 功能和常见用途 编辑虽然理论上Lucene适用于任何需要全文索引和搜索功能的应用程序 但其主要是因为在Internet搜索引擎和本地单站点搜索实现中的实用性而受到认可 10 11 Lucene包含了基于编辑距离执行模糊搜索的功能 12 Lucene也被用于实现推荐系统 13 例如 Lucene的 MoreLikeThis 类可以生成相似文档的推荐 在将 MoreLikeThis 基于向量的相似性方法与基于引用的文档相似性度量 例如共引和共引邻近度分析 进行比较时 Lucene的方法在推荐具有非常相似的结构特征和更窄相关性的文档上表现出色 14 相比之下 基于引用的文档相似性度量往往更适合推荐更广泛相关的文档 14 基於Lucene的項目 编辑Lucene本身只是一个索引和搜索库 不包含爬取和HTML解析功能 但是 以下的项目扩展了Lucene的功能 Apache Nutch 提供成熟可用的网络爬虫 15 Apache Solr 基于Lucene核心的高性能搜索服务器 提供JSON Python Ruby API 16 Compass Elasticsearch的前身 17 CrateDB 基于Lucene构建的开源分布式SQL数据库 18 DocFetcher 跨平台的本机文件搜索桌面程序 來源請求 19 Elasticsearch 企业搜索平台 目的是组织数据并使其易于获取 20 Kinosearch 用Perl和C语言 21 实现的搜索引擎与Lucene的移植 22 Socialtext wiki 21 和MojoMojo wiki均使用了这一搜索引擎 23 它在人类代谢物组数据库 HMDB 24 和毒素与毒素目标数据库 T3DB 25 中亦有应用 MongoDB Atlas Search 基于MongoDB和Apache Lucene的云原生企业搜索应用程序 OpenSearch 基于Elasticsearch 7的开源企业级搜索服务器 Swiftype 基于Lucene的企业级搜索 26 Lucene NET 提供给 Net平台用户的Lucene类库的封装 27 Apache Lucy 为动态语言提供全文搜索的能力 是Lucene Java 库的C接口 28 Luke Java编写的用户界面用于编辑Lucene的索引 此项目已停止开发 29 參見 编辑Solr 使用Lucene的企業搜索伺服器 亦由Apache軟件基金會所研發 參考資料 编辑 https lucene apache org core corenews html apache lucenetm 910 available 检索日期 2022年4月16日 Release 9 4 2 2022年12月2日 2022年12月5日 Kamphuis Chris de Vries Arjen P Boytsov Leonid Lin Jimmy Jose Joemon M Yilmaz Emine Magalhaes Joao Castells Pablo 编 Which BM25 Do You Mean A Large Scale Reproducibility Study of Scoring Variants Advances in Information Retrieval Cham Springer International Publishing 2020 12036 28 34 2021 06 07 ISBN 978 3 030 45441 8 PMC 7148026 doi 10 1007 978 3 030 45442 5 4 英语 Grand Adrien Muir Robert Ferenczi Jim Lin Jimmy Jose Joemon M Yilmaz Emine Magalhaes Joao Castells Pablo 编 From MAXSCORE to Block Max Wand The Story of How Lucene Significantly Improved Query Evaluation Performance Advances in Information Retrieval Cham Springer International Publishing 2020 12036 20 27 2021 06 07 ISBN 978 3 030 45441 8 PMC 7148045 doi 10 1007 978 3 030 45442 5 3 英语 Azzopardi Leif Moshfeghi Yashar Halvey Martin Alkhawaldeh Rami S Balog Krisztian Di Buccio Emanuele Ceccarelli Diego Fernandez Luna Juan M Hull Charlie Mannix Jake Palchowdhury Sauparna Lucene4IR Developing Information Retrieval Evaluation Resources using Lucene ACM SIGIR Forum 2017 02 14 50 2 58 75 2022 07 25 ISSN 0163 5840 doi 10 1145 3053408 3053421 原始内容存档于2022 07 28 英语 LuceneImplementations apache org 23 September 2015 原始内容存档于6 October 2015 KeywordAnalyzer Better Search with Apache Lucene and Solr PDF 19 November 2007 原始内容 PDF 存档于31 January 2012 Barker Deane Web Content Management O Reilly 2016 233 ISBN 978 1491908105 Apache Lucene Welcome to Apache Lucene apache org 4 February 2016 原始内容存档于4 February 2016 McCandless Michael Hatcher Erik Gospodnetic Otis Lucene in Action Second Edition Manning 2010 8 ISBN 978 1933988177 GNU Linux Semantic Storage System PDF glscube org 原始内容 PDF 存档于2010 06 01 Apache Lucene Query Parser Syntax lucene apache org 原始内容存档于2017 05 02 J Beel S Langer and B Gipp The Architecture and Datasets of Docear s Research Paper Recommender System in Proceedings of the 3rd International Workshop on Mining Scientific Publications WOSP 2014 at the ACM IEEE Joint Conference on Digital Libraries JCDL 2014 London UK 2014 14 0 14 1 M Schwarzer M Schubotz N Meuschke C Breitinger V Markl and B Gipp https www gipp com wp content papercite data pdf schwarzer2016 pdf 页面存档备份 存于互联网档案馆 Evaluating Link based Recommendations for Wikipedia in Proceedings of the 16th ACM IEEE CS Joint Conference on Digital Libraries JCDL New York NY USA 2016 pp 191 200 dev Nutch apache org Apache Nutch nutch apache org 2016 11 29 原始内容存档于2021 01 26 What are the main differences between ElasticSearch Apache Solr and SolrCloud Quora quora com 23 September 2015 The Future of Compass amp Elasticsearch the dude abides 2015 10 14 原始内容存档于2015 10 15 英语 Wayner Peter 11 cutting edge databases worth exploring now InfoWorld 21 September 2015 原始内容存档于21 September 2015 Quang Tran Nam DocFetcher Fast Document Search docfetcher sourceforge net 2016 11 29 原始内容存档于2021 01 13 Elasticsearch RESTful Distributed Search amp Analytics Elastic elastic co 23 September 2015 原始内容存档于2015 09 21 21 0 21 1 Natividad Angela Socialtext Updates Search Goes Kino CMS Wire 2011 05 31 原始内容存档于2012 09 29 Marvin Humphrey KinoSearch Search engine library metacpan org p3rl org 23 September 2015 Diment Kieren Trout Matt S Catalyst Cookbook The Definitive Guide to Catalyst Apress 2009 280 ISBN 978 1 4302 2365 8 Wishart D S et al HMDB a knowledgebase for the human metabolome Nucleic Acids Res January 2009 37 Database issue D603 10 PMC 2686599 PMID 18953024 doi 10 1093 nar gkn810 Lim Emilia Pon Allison Djoumbou Yannick Knox Craig Shrivastava Savita Guo An Chi Neveu Vanessa Wishart David S T3DB a comprehensively annotated database of common toxins and their targets Nucleic Acids Res January 2010 38 Database issue D781 6 PMC 2808899 PMID 19897546 doi 10 1093 nar gkp934 Swiftype Site search and enterprise search Swiftype 2016 11 29 原始内容存档于2021 02 05 Apache Lucene Net lucenenet apache org 2016 11 29 原始内容存档于2020 12 31 Apache Lucy lucy apache org 2016 11 29 原始内容存档于2020 12 31 luke GitHub 2016 11 29 原始内容存档于2020 11 30 外部連結 编辑維基教科書中的相關電子教程 LuceneLucene homepage 页面存档备份 存于互联网档案馆 Article Behind the Scenes of the SourceForge net Search System by Chris Conrad Schmidt Marco Lucene Wikipedia indexer 2005 2021 02 07 原始内容存档于2006 07 15 Introductory article with Java code for search Simple Lucene Examples Apache Lucene popular APIs 页面存档备份 存于互联网档案馆 in GitHub 取自 https zh wikipedia org w index php title Lucene amp oldid 75418827, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。