fbpx
维基百科

词袋模型

词袋模型(英語:Bag-of-words model)是一個在自然語言處理和信息檢索(IR)下被簡化的表達模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一個装着这些词的袋子来表示,這種表示方式不考慮文法以及詞的順序。最近词袋模型也被應用在電腦視覺領域。[1]

词袋模型被廣泛應用在文件分類,詞出現的頻率可以用來當作訓練分類器的特徵。

關於"词袋"這個用字的由來可追溯到澤里格·哈里斯英语Zellig Harris於1954年在《Distributional Structure》的文章[2]

範例

下列文件可用词袋表示:

以下是兩個簡單的文件:

(1) John likes to watch movies. Mary likes movies too. 
(2) John also likes to watch football games. 

基於以上兩個文件,可以建構出下列清單:

[ "John", "likes", "to", "watch", "movies", "also", "football", "games", "Mary", "too" ] 

此處有10個不同的詞,使用清單的索引表示長度為10的向量:

(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0] 

每個向量的索引內容對應到清單中詞出現的次數。

舉例來說,第一個向量(文件一)前兩個內容索引是1和2,第一個索引內容是"John"對應到清單第一個詞並且該值設定為1,因為"John"出現一次。

此向量表示法不會保存原始句子中詞的順序。該表示法有許多成功的應用,像是郵件過濾。

Term weighting

在上述的範例,文件向量包含term頻率 。在IR和文字分類常用不同方法量term權重。常見方法為tf-idf。

範例:垃圾郵件過濾

分類一個郵件訊息,一個貝氏垃圾郵件分類假設訊息是一堆字並且隨機倒在兩堆袋子其中一個袋子裡,之後使用貝氏機率去決定哪個袋子是較有可能的。

参考文献

  1. ^ Sivic, Josef. Efficient visual search of videos cast as text retrieval (PDF). IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4. IEEE: 591–605. April 2009 [2016-03-06]. (原始内容 (PDF)于2016-02-22). 
  2. ^ Harris, Zellig. Distributional Structure. Word. 1954, 10 (2/3): 146–62. And this stock of combinations of elements becomes a factor in the way later choices are made ... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use 

參見

词袋模型, 英語, words, model, 是一個在自然語言處理和信息檢索, 下被簡化的表達模型, 此模型下, 一段文本, 比如一个句子或是一个文档, 可以用一個装着这些词的袋子来表示, 這種表示方式不考慮文法以及詞的順序, 最近也被應用在電腦視覺領域, 被廣泛應用在文件分類, 詞出現的頻率可以用來當作訓練分類器的特徵, 關於, 词袋, 這個用字的由來可追溯到澤里格, 哈里斯, 英语, zellig, harris, 於1954年在, distributional, structure, 的文章, 目录, 範例. 词袋模型 英語 Bag of words model 是一個在自然語言處理和信息檢索 IR 下被簡化的表達模型 此模型下 一段文本 比如一个句子或是一个文档 可以用一個装着这些词的袋子来表示 這種表示方式不考慮文法以及詞的順序 最近词袋模型也被應用在電腦視覺領域 1 词袋模型被廣泛應用在文件分類 詞出現的頻率可以用來當作訓練分類器的特徵 關於 词袋 這個用字的由來可追溯到澤里格 哈里斯 英语 Zellig Harris 於1954年在 Distributional Structure 的文章 2 目录 1 範例 2 Term weighting 3 範例 垃圾郵件過濾 4 参考文献 5 參見範例 编辑下列文件可用词袋表示 以下是兩個簡單的文件 1 John likes to watch movies Mary likes movies too 2 John also likes to watch football games 基於以上兩個文件 可以建構出下列清單 John likes to watch movies also football games Mary too 此處有10個不同的詞 使用清單的索引表示長度為10的向量 1 1 2 1 1 2 0 0 0 1 1 2 1 1 1 1 0 1 1 1 0 0 每個向量的索引內容對應到清單中詞出現的次數 舉例來說 第一個向量 文件一 前兩個內容索引是1和2 第一個索引內容是 John 對應到清單第一個詞並且該值設定為1 因為 John 出現一次 此向量表示法不會保存原始句子中詞的順序 該表示法有許多成功的應用 像是郵件過濾 Term weighting 编辑在上述的範例 文件向量包含term頻率 在IR和文字分類常用不同方法量term權重 常見方法為tf idf 範例 垃圾郵件過濾 编辑分類一個郵件訊息 一個貝氏垃圾郵件分類假設訊息是一堆字並且隨機倒在兩堆袋子其中一個袋子裡 之後使用貝氏機率去決定哪個袋子是較有可能的 参考文献 编辑 Sivic Josef Efficient visual search of videos cast as text retrieval PDF IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE VOL 31 NO 4 IEEE 591 605 April 2009 2016 03 06 原始内容存档 PDF 于2016 02 22 Harris Zellig Distributional Structure Word 1954 10 2 3 146 62 And this stock of combinations of elements becomes a factor in the way later choices are made for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use 參見 编辑 计算机科学主题 w shingling 英语 w shingling n元语法 向量空間模型 自然語言處理 Additive smoothing 英语 Additive smoothing 文件分類 機器學習 Document term matrix 英语 Document term matrix Hashing trick 英语 Hashing trick 最小哈希 特徵擷取 取自 https zh wikipedia org w index php title 词袋模型 amp oldid 75381388, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。