fbpx
维基百科

全文檢索

從文本或資料庫中,不限定資料欄位,自由地萃取出訊息的技術。

執行全文檢索任務的程式,一般稱作搜尋引擎,它將使用者隨意輸入的文字,試圖從資料庫中,找到符合的內容。

全文索引的相關議題 编辑

  • 語根處理 (stemming)
  • 符素解析器 (token parser) 1-gram, 2-gram , n-gram
  • 斷詞/分詞 word segmentation
  • 倒排索引 inverted index

演算法、搜尋策略之模型 编辑

  • 布林式 boolean
  • 統計模型 Probabilistic model
  • 向量空間模型 vector base model
  • 隱性語義模型 Latent semantic model

評量之準則 编辑

  • 查全率(recall rate),查準率(precision)

開放原始碼之全文檢索系統 编辑

  • Apache Solr
  • BaseX
  • Clusterpoint Server
  • DataparkSearch
  • Ferret
  • Ht-//Dig
  • Hyper Estraier
  • KinoSearch
  • Lemur/Indri
  • Lucene
  • mnoGoSearch
  • Sphinx
  • Swish-e
  • Xapian
  • ElasticSearch

和中文有關的議題 编辑

  • 斷詞
  • 語法解析
  • 古籍議題
  • 多語言混合

優化 编辑

  • 剔除字(Stopwords)
  • 詞性標註
  • 规范文件(authority file)
  • 知識體系,本體論(ontology)
  • 超連結分析(page rank)技術

歷史及未來之趨勢 编辑

  • 自由語句搜尋

參考 编辑

全文檢索, 本條目存在以下問題, 請協助改善本條目或在討論頁針對議題發表看法, 此條目可参照英語維基百科相應條目来扩充, 2019年5月15日, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, 依版权协议, 译文需在编辑摘要注明来源, 或于讨论页顶部标记, href, template, translated, page, html, title, template, translated, page, translated, page, 标签,. 本條目存在以下問題 請協助改善本條目或在討論頁針對議題發表看法 此條目可参照英語維基百科相應條目来扩充 2019年5月15日 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 此條目的语调或风格可能不適合百科全書的寫作方式 2019年5月15日 請根據指南協助改善这篇条目 請在讨论页討論問題所在及加以改善 此條目應避免有陳列雜項 瑣碎資料的部分 2019年5月15日 請協助將有關資料重新編排成連貫性的文章 安置於適當章節或條目內 此條目没有列出任何参考或来源 2019年5月15日 維基百科所有的內容都應該可供查證 请协助補充可靠来源以改善这篇条目 无法查证的內容可能會因為異議提出而被移除 從文本或資料庫中 不限定資料欄位 自由地萃取出訊息的技術 執行全文檢索任務的程式 一般稱作搜尋引擎 它將使用者隨意輸入的文字 試圖從資料庫中 找到符合的內容 目录 1 全文索引的相關議題 2 演算法 搜尋策略之模型 3 評量之準則 4 開放原始碼之全文檢索系統 5 和中文有關的議題 6 優化 7 歷史及未來之趨勢 8 參考全文索引的相關議題 编辑語根處理 stemming 符素解析器 token parser 1 gram 2 gram n gram 斷詞 分詞 word segmentation 倒排索引 inverted index演算法 搜尋策略之模型 编辑布林式 boolean 統計模型 Probabilistic model 向量空間模型 vector base model 隱性語義模型 Latent semantic model評量之準則 编辑查全率 recall rate 查準率 precision 開放原始碼之全文檢索系統 编辑Apache Solr BaseX Clusterpoint Server freeware licence for a single server DataparkSearch Ferret Ht Dig Hyper Estraier KinoSearch Lemur Indri Lucene mnoGoSearch Sphinx Swish e Xapian ElasticSearch和中文有關的議題 编辑斷詞 語法解析 古籍議題 多語言混合優化 编辑剔除字 Stopwords 詞性標註 规范文件 authority file 知識體系 本體論 ontology 超連結分析 page rank 技術歷史及未來之趨勢 编辑自由語句搜尋參考 编辑信息抽取 搜尋引擎 取自 https zh wikipedia org w index php title 全文檢索 amp oldid 54423734, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。