fbpx
维基百科

Word2vec

Word2vec是一群用來產生詞向量的相關模型。這些模型為淺层雙層的神經網路,用來訓練以重新建構語言學之詞文本。網路以詞表現,並且需猜測相鄰位置的輸入詞,在word2vec中词袋模型假設下,詞的順序是不重要的。

訓練完成之後,word2vec模型可以把每個詞映射到一個向量,來表示詞与詞之間的關係。該向量為神經網路的隱藏層[1]

Word2vec依賴skip-grams或連續詞袋(CBOW)來建立神經詞嵌入。Word2vec為托馬斯·米科洛夫(Tomas Mikolov)在Google帶領的研究團隊創造。該演算法漸漸被其他人所分析和解釋[2][3]

Skip-grams和CBOW 编辑

CBOW把一個詞從詞窗剔除。在CBOW下給定n詞圍繞著詞w,word2vec預測一個句子中其中一個缺漏的詞c,即以機率 來表示。相反地,Skip-gram給定詞窗中的文本,預測當前的詞 

延伸 编辑

Word2vec用來建構整份文件(而分獨立的詞)的延伸應用已被提出[4], 該延伸稱為paragraph2vec或doc2vec,並且用C、Python[5][6]和 Java/Scala[7]實做成工具(參考下方)。Java和Python也支援推斷文件嵌入於未觀測的文件。

分析 编辑

對word2vec框架為何做词嵌入如此成功知之甚少,約阿夫·哥德堡(Yoav Goldberg)和歐莫·列維(Omer Levy)指出word2vec的功能導致相似文本擁有相似的嵌入(用余弦相似性計算)並且和約翰·魯伯特·弗斯分佈假說英语Distributional semantics有關。

實作 编辑

參見 编辑

参考文献 编辑

  1. ^ Mikolov, Tomas; et al. (PDF). [2015-08-14]. (原始内容 (PDF)存档于2022-05-09). 
  2. ^ Goldberg, Yoav; Levy, Omar. (PDF). [2015-08-14]. (原始内容 (PDF)存档于2022-01-22). 
  3. ^ Řehůřek, Radim. (Youtube video). [2015-08-14]. (原始内容存档于2020-05-22). 
  4. ^ Le, Quoc; et al. (PDF). [2016-02-18]. (原始内容 (PDF)存档于2021-11-23). 
  5. ^ . [2015-08-02]. (原始内容存档于2021-01-23). 
  6. ^ Doc2vec for IMDB sentiment analysis. [2016-02-18]. (原始内容于2020-01-07). 
  7. ^ . [2016-01-13]. (原始内容存档于2015-12-31). 

word2vec, 此條目翻譯品質不佳, 翻譯者可能不熟悉中文或原文語言, 也可能使用了機器翻譯, 請協助翻譯本條目或重新編寫, 并注意避免翻译腔的问题, 明顯拙劣的翻譯請改掛, href, template, html, class, redirect, title, template, href, wikipedia, html, class, redirect, title, wikipedia, 提交刪除, 是一群用來產生詞向量的相關模型, 這些模型為淺层雙層的神經網路, 用來訓練以重新建構語言學之詞文本,. 此條目翻譯品質不佳 翻譯者可能不熟悉中文或原文語言 也可能使用了機器翻譯 請協助翻譯本條目或重新編寫 并注意避免翻译腔的问题 明顯拙劣的翻譯請改掛 a href Template D html class mw redirect title Template D d a a href Wikipedia CSD html G13 class mw redirect title Wikipedia CSD G13 a 提交刪除 Word2vec是一群用來產生詞向量的相關模型 這些模型為淺层雙層的神經網路 用來訓練以重新建構語言學之詞文本 網路以詞表現 並且需猜測相鄰位置的輸入詞 在word2vec中词袋模型假設下 詞的順序是不重要的 訓練完成之後 word2vec模型可以把每個詞映射到一個向量 來表示詞与詞之間的關係 該向量為神經網路的隱藏層 1 Word2vec依賴skip grams或連續詞袋 CBOW 來建立神經詞嵌入 Word2vec為托馬斯 米科洛夫 Tomas Mikolov 在Google帶領的研究團隊創造 該演算法漸漸被其他人所分析和解釋 2 3 目录 1 Skip grams和CBOW 2 延伸 3 分析 4 實作 5 參見 6 参考文献Skip grams和CBOW 编辑CBOW把一個詞從詞窗剔除 在CBOW下給定n 詞圍繞著詞w word2vec預測一個句子中其中一個缺漏的詞c 即以機率p c w displaystyle p c w nbsp 來表示 相反地 Skip gram給定詞窗中的文本 預測當前的詞p w c displaystyle p w c nbsp 延伸 编辑Word2vec用來建構整份文件 而分獨立的詞 的延伸應用已被提出 4 該延伸稱為paragraph2vec或doc2vec 並且用C Python 5 6 和 Java Scala 7 實做成工具 參考下方 Java和Python也支援推斷文件嵌入於未觀測的文件 分析 编辑對word2vec框架為何做词嵌入如此成功知之甚少 約阿夫 哥德堡 Yoav Goldberg 和歐莫 列維 Omer Levy 指出word2vec的功能導致相似文本擁有相似的嵌入 用余弦相似性計算 並且和約翰 魯伯特 弗斯的分佈假說 英语 Distributional semantics 有關 實作 编辑C 页面存档备份 存于互联网档案馆 Java Scala Python 页面存档备份 存于互联网档案馆 Python 页面存档备份 存于互联网档案馆 參見 编辑向量空間模型参考文献 编辑 Mikolov Tomas et al Efficient Estimation of Word Representations in Vector Space PDF 2015 08 14 原始内容 PDF 存档于2022 05 09 Goldberg Yoav Levy Omar word2vec Explained Deriving Mikolov et al s Negative Sampling Word Embedding Method PDF 2015 08 14 原始内容 PDF 存档于2022 01 22 Rehurek Radim Word2vec and friends Youtube video 2015 08 14 原始内容存档于2020 05 22 Le Quoc et al Distributed Representations of Sentences and Documents PDF 2016 02 18 原始内容 PDF 存档于2021 11 23 Doc2Vec tutorial using Gensim 2015 08 02 原始内容存档于2021 01 23 Doc2vec for IMDB sentiment analysis 2016 02 18 原始内容存档于2020 01 07 Doc2Vec and Paragraph Vectors for Classification 2016 01 13 原始内容存档于2015 12 31 取自 https zh wikipedia org w index php title Word2vec amp oldid 74257262, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。