隐含狄利克雷分布

隐含狄利克雷分布（英語：Latent Dirichlet allocation，简称LDA），是一种主题模型，它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。

LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出^[1]，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。

数学模型

LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。它以概率分佈的形式揭示每個文檔集的主題，以便在分析一些文檔以提取其主題分佈後，可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示^[2]。

另外，正如Beta分布是二项式分布的共轭先验概率分布，狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝斯网络结构中所描述的，在LDA模型中一篇文档生成的方式如下:

从狄利克雷分布 $\alpha$ 中取样生成文档 $i$ 的主题分布 $\theta _{i}$
从主题的多项式分布 $\theta _{i}$ 中取样生成文档 $i$ 中第 $j$ 个主题 $z_{i,j}$
从狄利克雷分布 $\beta$ 中取样生成主题 $z_{i,j}$ 的词语分布 $\phi _{z_{i,j}}$
从词语的多项式分布 $\phi _{z_{i,j}}$ 中采样最终生成词语 $w_{i,j}$

因此整个模型中所有可见变量以及隐藏变量的联合分布是

p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )=\prod _{j=1}^{N}p(\theta _{i}|\alpha )p(z_{i,j}|\theta _{i})p(\Phi |\beta )p(w_{i,j}|\phi _{z_{i,j}})

最终一篇文档的单词分布的最大似然估计可以通过将上式的 $\theta _{i}$ 以及 $\Phi$ 进行积分和对 $z_{i}$ 进行求和得到

p(w_{i}|\alpha ,\beta )=\int _{\theta _{i}}\int _{\Phi }\sum _{z_{i}}p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )

根据 $p(w_{i}|\alpha ,\beta )$ 的最大似然估计，最终可以通过吉布斯采样等方法估计出模型中的参数。

使用吉布斯采样估计LDA参数

在LDA最初提出的时候，人们使用EM算法进行求解，后来人们普遍开始使用较为简单的Gibbs Sampling，具体过程如下：

首先对所有文档中的所有词遍历一遍，为其都随机分配一个主题，即 $z_{m,n}=k\sim Mult(1/K)$ ，其中m表示第m篇文档，n表示文档中的第n个词，k表示主题，K表示主题的总数，之后将对应的 $n_{m}^{k}+1$ ， $n_{m}+1$ ， $n_{k}^{t}+1$ ， $n_{k}+1$ ，他们分别表示在m文档中k主题出现的次数，m文档中主题数量的和，k主题对应的t词的次数，k主题对应的总词数。
之后对下述操作进行重复迭代。
对所有文档中的所有词进行遍历，假如当前文档m的词t对应主题为k，则 $n_{m}^{k}-1$ ， $n_{m}-1$ ， $n_{k}^{t}-1$ ， $n_{k}-1$ ，即先拿出当前词，之后根据LDA中topic sample的概率分布sample出新的主题，在对应的 $n_{m}^{k}$ ， $n_{m}$ ， $n_{k}^{t}$ ， $n_{k}$ 上分别+1。

p(z_{i}=k|z_{-i},w)

∝

(n_{k,-i}^{(t)}+\beta _{t})(n_{m,-i}^{(k)}+\alpha _{k})/(\sum _{t=1}^{V}n_{k,-i}^{(t)}+\beta _{t})

迭代完成后输出主题-词参数矩阵φ和文档-主题矩阵θ

\phi _{k,t}=(n_{k}^{(t)}+\beta _{t})/(n_{k}+\beta _{t})

\theta _{m,k}=(n_{m}^{(k)}+\alpha _{k})/(n_{m}+\alpha _{k})

参见

萬能翻譯機（英语：universal translator）
電腦語言學
受限自然語言
信息抽取
資訊檢索
自然語言理解
潛在語義索引
潜在语义学
隨機文法（英语：Stochastic grammar）
機器記者
寫作自動評分（英语：Automated essay scoring）
生物醫學文件探勘系統（英语：Biomedical text mining）
複合詞處理（英语：Compound term processing）
计算语言学
電腦輔助審查（英语：Computer-assisted reviewing）
深度学习
深度語言處理（英语：Deep linguistic processing）
輔助外文閱讀（英语：Foreign language reading aid）
輔助外文寫作（英语：Foreign language writing aid）
語言科技（英语：Language technology）
隐含狄利克雷分布（LDA）
母语识别（英语：Native-language identification）
自然語言編程（英语：Natural language programming）
自然語言使用者界面（英语：Natural language user interface）
擴展查詢
具體化 (語言學)（英语：Reification (linguistics)）
語義折疊（英语：Semantic folding）
语音处理
口語對話系統（英语：Spoken dialogue system）
校對
文字简化（英语：Text simplification）
Thought vector（英语：Thought vector）
Truecasing（英语：Truecasing）
問答系統
Word2vec

参考文献

^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Lafferty, John , 编. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3 (4–5): pp. 993–1022 [2013-07-08]. doi:10.1162/jmlr.2003.3.4-5.993. （原始内容存档于2012-05-01）.
^ Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach, Buildings 2023, 13(4), 927; https://doi.org/10.3390/buildings13040927

[blei2003-1] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Lafferty, John , 编. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3 (4–5): pp. 993–1022 [2013-07-08]. doi:10.1162/jmlr.2003.3.4-5.993. （原始内容存档于2012-05-01）.

[2] Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach, Buildings 2023, 13(4), 927; https://doi.org/10.3390/buildings13040927

[1]

[2]

查论编计算机科学的主要领域
注：该模板大致遵循ACM 电脑分类系统。
计算机硬件	印刷电路板外部设备集成电路超大规模集成电路绿色计算電子設計自動化
系统架构组织	電腦系統架構嵌入式系统实时计算
网络	网络传输协议路由网络拓扑网络服务
软件组织	直譯器中间件虛擬機器操作系统软件质量
软件符号和工具	编程范型编程语言編譯器领域特定语言軟體框架集成开发环境软件配置管理函式庫
软件开发	软件开发过程需求分析软件设计软件部署軟體維護开源模式
计算理论	自动机可计算性理论計算複雜性理論量子计算数值计算方法计算机逻辑形式语义学
算法	算法分析算法设计算法效率随机化算法计算几何
计算数学	离散数学信息与计算科学统计学数学软件数理逻辑集合论数论图论类型论范畴论信息论数值分析数学分析
信息系统	数据库管理系统電腦數據企业信息系统社会性软件地理信息系统决策支持系统过程控制数据挖掘數位圖書館系统平台數位行銷万维网信息檢索
安全	密码学形式化方法入侵检测系统网络安全信息安全
人机交互	计算机辅助功能用户界面可穿戴计算机普适计算虚拟现实聊天機器人
并发性	并发计算并行计算分布式计算多线程多元處理
人工智能	自动推理计算语言学计算机视觉进化计算专家系统自然语言处理机器人学
机器学习	監督式學習無監督學習强化学习交叉驗證
计算机图形学	计算机动画可视化渲染修飾照片圖形處理器混合现实虚拟现实图像处理图像压缩实体造型
应用计算	电子商务企业级软件计算数学计算物理学计算化学计算生物学計算社會科學医学信息学数字艺术電子出版網絡戰电子游戏文字处理器運籌學教育技术学生物信息学认知科学文件管理系统（英语：Document management system）
分类主题专题维基共享