^Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Lafferty, John , 编. . Journal of Machine Learning Research. January 2003, 3 (4–5): pp. 993–1022 [2013-07-08]. doi:10.1162/jmlr.2003.3.4-5.993. (原始内容存档于2012-05-01).
一月 12, 2023
隐含狄利克雷分布, 英語, latent, dirichlet, allocation, 简称lda, 是一种主题模型, 它可以将文档集中每篇文档的主题按照概率分布的形式给出, 同时它是一种无监督学习算法, 在训练时不需要手工标注的训练集, 需要的仅仅是文档集以及指定主题的数量k即可, 此外lda的另一个优点则是, 对于每一个主题均可找出一些词语来描述它, lda首先由, david, blei, 吴恩达和迈克尔, 乔丹于2003年提出, 目前在文本挖掘领域包括文本主题识别, 文本分类以及文本相似度计算方面都有应用. 隐含狄利克雷分布 英語 Latent Dirichlet allocation 简称LDA 是一种主题模型 它可以将文档集中每篇文档的主题按照概率分布的形式给出 同时它是一种无监督学习算法 在训练时不需要手工标注的训练集 需要的仅仅是文档集以及指定主题的数量k即可 此外LDA的另一个优点则是 对于每一个主题均可找出一些词语来描述它 LDA首先由 David M Blei 吴恩达和迈克尔 I 乔丹于2003年提出 1 目前在文本挖掘领域包括文本主题识别 文本分类以及文本相似度计算方面都有应用 目录 1 数学模型 2 使用吉布斯采样估计LDA参数 3 参见 4 参考文献数学模型 编辑 LDA贝斯网络结构 LDA是一种典型的词袋模型 即它认为一篇文档是由一组词构成的一个集合 词与词之间没有顺序以及先后的关系 一篇文档可以包含多个主题 文档中每一个词都由其中的一个主题生成 另外 正如Beta分布是二项式分布的共轭先验概率分布 狄利克雷分布作为多项式分布的共轭先验概率分布 因此正如LDA贝斯网络结构中所描述的 在LDA模型中一篇文档生成的方式如下 从狄利克雷分布a displaystyle alpha 中取样生成文档i的主题分布8 i displaystyle theta i 从主题的多项式分布8 i displaystyle theta i 中取样生成文档i第j个词的主题z i j displaystyle z i j 从狄利克雷分布b displaystyle beta 中取样生成主题z i j displaystyle z i j 的词语分布ϕ z i j displaystyle phi z i j 从词语的多项式分布ϕ z i j displaystyle phi z i j 中采样最终生成词语w i j displaystyle w i j 因此整个模型中所有可见变量以及隐藏变量的联合分布是 p w i z i 8 i F a b j 1 N p 8 i a p z i j 8 i p F b p w i j ϕ z i j displaystyle p w i z i theta i Phi alpha beta prod j 1 N p theta i alpha p z i j theta i p Phi beta p w i j phi z i j 最终一篇文档的单词分布的最大似然估计可以通过将上式的8 i displaystyle theta i 以及F displaystyle Phi 进行积分和对z i displaystyle z i 进行求和得到 p w i a b 8 i F z i p w i z i 8 i F a b displaystyle p w i alpha beta int theta i int Phi sum z i p w i z i theta i Phi alpha beta 根据p w i a b displaystyle p w i alpha beta 的最大似然估计 最终可以通过吉布斯采样等方法估计出模型中的参数 使用吉布斯采样估计LDA参数 编辑在LDA最初提出的时候 人们使用EM算法进行求解 后来人们普遍开始使用较为简单的Gibbs Sampling 具体过程如下 首先对所有文档中的所有词遍历一遍 为其都随机分配一个主题 即z m n k M u l t 1 K displaystyle z m n k sim Mult 1 K 其中m表示第m篇文档 n表示文档中的第n个词 k表示主题 K表示主题的总数 之后将对应的n m k 1 displaystyle n m k 1 n m 1 displaystyle n m 1 n k t 1 displaystyle n k t 1 n k 1 displaystyle n k 1 他们分别表示在m文档中k主题出现的次数 m文档中主题数量的和 k主题对应的t词的次数 k主题对应的总词数 之后对下述操作进行重复迭代 对所有文档中的所有词进行遍历 假如当前文档m的词t对应主题为k 则n m k 1 displaystyle n m k 1 n m 1 displaystyle n m 1 n k t 1 displaystyle n k t 1 n k 1 displaystyle n k 1 即先拿出当前词 之后根据LDA中topic sample的概率分布sample出新的主题 在对应的n m k displaystyle n m k n m displaystyle n m n k t displaystyle n k t n k displaystyle n k 上分别 1 p z i k z i w displaystyle p z i k z i w n k i t b t n m i k a k t 1 V n k i t b t displaystyle n k i t beta t n m i k alpha k sum t 1 V n k i t beta t 迭代完成后输出主题 词参数矩阵f和文档 主题矩阵8ϕ k t n k t b t n k b t displaystyle phi k t n k t beta t n k beta t 8 m k n m k a k n m a k displaystyle theta m k n m k alpha k n m alpha k 参见 编辑萬能翻譯機 英语 universal translator 電腦語言學 受限自然語言 信息抽取 資訊檢索 自然語言理解 潛在語義索引 潜在语义学 隨機文法 英语 Stochastic grammar 機器記者 寫作自動評分 英语 Automated essay scoring 生物醫學文件探勘系統 英语 Biomedical text mining 複合詞處理 英语 Compound term processing 计算语言学 電腦輔助審查 英语 Computer assisted reviewing 深度学习 深度語言處理 英语 Deep linguistic processing 輔助外文閱讀 英语 Foreign language reading aid 輔助外文寫作 英语 Foreign language writing aid 語言科技 英语 Language technology 隐含狄利克雷分布 LDA 母语识别 英语 Native language identification 自然語言編程 英语 Natural language programming 自然語言使用者界面 英语 Natural language user interface 擴展查詢 具體化 語言學 英语 Reification linguistics 語義折疊 英语 Semantic folding 语音处理 口語對話系統 英语 Spoken dialogue system 校對 文字简化 英语 Text simplification Thought vector 英语 Thought vector Truecasing 英语 Truecasing 問答系統 Word2vec参考文献 编辑 Blei David M Ng Andrew Y Jordan Michael I Lafferty John 编 Latent Dirichlet allocation Journal of Machine Learning Research January 2003 3 4 5 pp 993 1022 2013 07 08 doi 10 1162 jmlr 2003 3 4 5 993 原始内容存档于2012 05 01 取自 https zh wikipedia org w index php title 隐含狄利克雷分布 amp oldid 65126802, 维基百科,wiki,书籍,书籍,图书馆,