fbpx
维基百科

隐含狄利克雷分布

隐含狄利克雷分布(英語:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。

LDA首先由 David M. Blei、吴恩达迈克尔·I·乔丹于2003年提出[1],目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。

数学模型

 
LDA贝斯网络结构

LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

另外,正如Beta分布二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:

  • 从狄利克雷分布 中取样生成文档i的主题分布 
  • 从主题的多项式分布 中取样生成文档i第j个词的主题 
  • 从狄利克雷分布 中取样生成主题 的词语分布 
  • 从词语的多项式分布 中采样最终生成词语 

因此整个模型中所有可见变量以及隐藏变量的联合分布

 

最终一篇文档的单词分布的最大似然估计可以通过将上式的 以及 进行积分和对 进行求和得到

 

根据 的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。

使用吉布斯采样估计LDA参数

在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:

  • 首先对所有文档中的所有词遍历一遍,为其都随机分配一个主题,即 ,其中m表示第m篇文档,n表示文档中的第n个词,k表示主题,K表示主题的总数,之后将对应的    ,他们分别表示在m文档中k主题出现的次数,m文档中主题数量的和,k主题对应的t词的次数,k主题对应的总词数。
  • 之后对下述操作进行重复迭代。
  • 对所有文档中的所有词进行遍历,假如当前文档m的词t对应主题为k,则    ,即先拿出当前词,之后根据LDA中topic sample的概率分布sample出新的主题,在对应的    上分别+1。
  
  • 迭代完成后输出主题-词参数矩阵φ和文档-主题矩阵θ
 
 

参见

  • 萬能翻譯機英语universal translator
  • 電腦語言學
  • 受限自然語言
  • 信息抽取
  • 資訊檢索
  • 自然語言理解
  • 潛在語義索引
  • 潜在语义学
  • 隨機文法英语Stochastic grammar
  • 機器記者
  • 寫作自動評分英语Automated essay scoring
  • 生物醫學文件探勘系統英语Biomedical text mining
  • 複合詞處理英语Compound term processing
  • 计算语言学
  • 電腦輔助審查英语Computer-assisted reviewing
  • 深度学习
  • 深度語言處理英语Deep linguistic processing
  • 輔助外文閱讀英语Foreign language reading aid
  • 輔助外文寫作英语Foreign language writing aid
  • 語言科技英语Language technology
  • 隐含狄利克雷分布(LDA)
  • 母语识别英语Native-language identification
  • 自然語言編程英语Natural language programming
  • 自然語言使用者界面英语Natural language user interface
  • 擴展查詢
  • 具體化 (語言學)英语Reification (linguistics)
  • 語義折疊英语Semantic folding
  • 语音处理
  • 口語對話系統英语Spoken dialogue system
  • 校對
  • 文字简化英语Text simplification
  • Thought vector英语Thought vector
  • Truecasing英语Truecasing
  • 問答系統
  • Word2vec


参考文献

  1. ^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Lafferty, John , 编. . Journal of Machine Learning Research. January 2003, 3 (4–5): pp. 993–1022 [2013-07-08]. doi:10.1162/jmlr.2003.3.4-5.993. (原始内容存档于2012-05-01). 

隐含狄利克雷分布, 英語, latent, dirichlet, allocation, 简称lda, 是一种主题模型, 它可以将文档集中每篇文档的主题按照概率分布的形式给出, 同时它是一种无监督学习算法, 在训练时不需要手工标注的训练集, 需要的仅仅是文档集以及指定主题的数量k即可, 此外lda的另一个优点则是, 对于每一个主题均可找出一些词语来描述它, lda首先由, david, blei, 吴恩达和迈克尔, 乔丹于2003年提出, 目前在文本挖掘领域包括文本主题识别, 文本分类以及文本相似度计算方面都有应用. 隐含狄利克雷分布 英語 Latent Dirichlet allocation 简称LDA 是一种主题模型 它可以将文档集中每篇文档的主题按照概率分布的形式给出 同时它是一种无监督学习算法 在训练时不需要手工标注的训练集 需要的仅仅是文档集以及指定主题的数量k即可 此外LDA的另一个优点则是 对于每一个主题均可找出一些词语来描述它 LDA首先由 David M Blei 吴恩达和迈克尔 I 乔丹于2003年提出 1 目前在文本挖掘领域包括文本主题识别 文本分类以及文本相似度计算方面都有应用 目录 1 数学模型 2 使用吉布斯采样估计LDA参数 3 参见 4 参考文献数学模型 编辑 LDA贝斯网络结构 LDA是一种典型的词袋模型 即它认为一篇文档是由一组词构成的一个集合 词与词之间没有顺序以及先后的关系 一篇文档可以包含多个主题 文档中每一个词都由其中的一个主题生成 另外 正如Beta分布是二项式分布的共轭先验概率分布 狄利克雷分布作为多项式分布的共轭先验概率分布 因此正如LDA贝斯网络结构中所描述的 在LDA模型中一篇文档生成的方式如下 从狄利克雷分布a displaystyle alpha 中取样生成文档i的主题分布8 i displaystyle theta i 从主题的多项式分布8 i displaystyle theta i 中取样生成文档i第j个词的主题z i j displaystyle z i j 从狄利克雷分布b displaystyle beta 中取样生成主题z i j displaystyle z i j 的词语分布ϕ z i j displaystyle phi z i j 从词语的多项式分布ϕ z i j displaystyle phi z i j 中采样最终生成词语w i j displaystyle w i j 因此整个模型中所有可见变量以及隐藏变量的联合分布是 p w i z i 8 i F a b j 1 N p 8 i a p z i j 8 i p F b p w i j ϕ z i j displaystyle p w i z i theta i Phi alpha beta prod j 1 N p theta i alpha p z i j theta i p Phi beta p w i j phi z i j 最终一篇文档的单词分布的最大似然估计可以通过将上式的8 i displaystyle theta i 以及F displaystyle Phi 进行积分和对z i displaystyle z i 进行求和得到 p w i a b 8 i F z i p w i z i 8 i F a b displaystyle p w i alpha beta int theta i int Phi sum z i p w i z i theta i Phi alpha beta 根据p w i a b displaystyle p w i alpha beta 的最大似然估计 最终可以通过吉布斯采样等方法估计出模型中的参数 使用吉布斯采样估计LDA参数 编辑在LDA最初提出的时候 人们使用EM算法进行求解 后来人们普遍开始使用较为简单的Gibbs Sampling 具体过程如下 首先对所有文档中的所有词遍历一遍 为其都随机分配一个主题 即z m n k M u l t 1 K displaystyle z m n k sim Mult 1 K 其中m表示第m篇文档 n表示文档中的第n个词 k表示主题 K表示主题的总数 之后将对应的n m k 1 displaystyle n m k 1 n m 1 displaystyle n m 1 n k t 1 displaystyle n k t 1 n k 1 displaystyle n k 1 他们分别表示在m文档中k主题出现的次数 m文档中主题数量的和 k主题对应的t词的次数 k主题对应的总词数 之后对下述操作进行重复迭代 对所有文档中的所有词进行遍历 假如当前文档m的词t对应主题为k 则n m k 1 displaystyle n m k 1 n m 1 displaystyle n m 1 n k t 1 displaystyle n k t 1 n k 1 displaystyle n k 1 即先拿出当前词 之后根据LDA中topic sample的概率分布sample出新的主题 在对应的n m k displaystyle n m k n m displaystyle n m n k t displaystyle n k t n k displaystyle n k 上分别 1 p z i k z i w displaystyle p z i k z i w n k i t b t n m i k a k t 1 V n k i t b t displaystyle n k i t beta t n m i k alpha k sum t 1 V n k i t beta t 迭代完成后输出主题 词参数矩阵f和文档 主题矩阵8ϕ k t n k t b t n k b t displaystyle phi k t n k t beta t n k beta t 8 m k n m k a k n m a k displaystyle theta m k n m k alpha k n m alpha k 参见 编辑萬能翻譯機 英语 universal translator 電腦語言學 受限自然語言 信息抽取 資訊檢索 自然語言理解 潛在語義索引 潜在语义学 隨機文法 英语 Stochastic grammar 機器記者 寫作自動評分 英语 Automated essay scoring 生物醫學文件探勘系統 英语 Biomedical text mining 複合詞處理 英语 Compound term processing 计算语言学 電腦輔助審查 英语 Computer assisted reviewing 深度学习 深度語言處理 英语 Deep linguistic processing 輔助外文閱讀 英语 Foreign language reading aid 輔助外文寫作 英语 Foreign language writing aid 語言科技 英语 Language technology 隐含狄利克雷分布 LDA 母语识别 英语 Native language identification 自然語言編程 英语 Natural language programming 自然語言使用者界面 英语 Natural language user interface 擴展查詢 具體化 語言學 英语 Reification linguistics 語義折疊 英语 Semantic folding 语音处理 口語對話系統 英语 Spoken dialogue system 校對 文字简化 英语 Text simplification Thought vector 英语 Thought vector Truecasing 英语 Truecasing 問答系統 Word2vec参考文献 编辑 Blei David M Ng Andrew Y Jordan Michael I Lafferty John 编 Latent Dirichlet allocation Journal of Machine Learning Research January 2003 3 4 5 pp 993 1022 2013 07 08 doi 10 1162 jmlr 2003 3 4 5 993 原始内容存档于2012 05 01 取自 https zh wikipedia org w index php title 隐含狄利克雷分布 amp oldid 65126802, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。