隱含狄利克雷分布

隱含狄利克雷分布（英語：Latent Dirichlet allocation，簡稱LDA），是一種主題模型，它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。同時它是一種無監督學習算法，在訓練時不需要手工標註的訓練集，需要的僅僅是文檔集以及指定主題的數量k即可。此外LDA的另一個優點則是，對於每一個主題均可找出一些詞語來描述它。

LDA首先由 David M. Blei、吳恩達和邁克爾·I·喬丹於2003年提出^[1]，目前在文本挖掘領域包括文本主題識別、文本分類以及文本相似度計算方面都有應用。

數學模型

LDA是一種典型的詞袋模型，即它認為一篇文檔是由一組詞構成的一個集合，詞與詞之間沒有順序以及先後的關係。一篇文檔可以包含多個主題，文檔中每一個詞都由其中的一個主題生成。它以概率分佈的形式揭示每個文檔集的主題，以便在分析一些文檔以提取其主題分佈後，可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示^[2]。

另外，正如Beta分布是二項式分布的共軛先驗概率分布，狄利克雷分布作為多項式分布的共軛先驗概率分布。因此正如LDA貝斯網絡結構中所描述的，在LDA模型中一篇文檔生成的方式如下:

從狄利克雷分布 $\alpha$ 中取樣生成文檔 $i$ 的主題分布 $\theta _{i}$
從主題的多項式分布 $\theta _{i}$ 中取樣生成文檔 $i$ 中第 $j$ 個主題 $z_{i,j}$
從狄利克雷分布 $\beta$ 中取樣生成主題 $z_{i,j}$ 的詞語分布 $\phi _{z_{i,j}}$
從詞語的多項式分布 $\phi _{z_{i,j}}$ 中採樣最終生成詞語 $w_{i,j}$

因此整個模型中所有可見變量以及隱藏變量的聯合分布是

p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )=\prod _{j=1}^{N}p(\theta _{i}|\alpha )p(z_{i,j}|\theta _{i})p(\Phi |\beta )p(w_{i,j}|\phi _{z_{i,j}})

最終一篇文檔的單詞分布的最大似然估計可以通過將上式的 $\theta _{i}$ 以及 $\Phi$ 進行積分和對 $z_{i}$ 進行求和得到

p(w_{i}|\alpha ,\beta )=\int _{\theta _{i}}\int _{\Phi }\sum _{z_{i}}p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )

根據 $p(w_{i}|\alpha ,\beta )$ 的最大似然估計，最終可以通過吉布斯採樣等方法估計出模型中的參數。

使用吉布斯採樣估計LDA參數

在LDA最初提出的時候，人們使用EM算法進行求解，後來人們普遍開始使用較為簡單的Gibbs Sampling，具體過程如下：

首先對所有文檔中的所有詞遍歷一遍，為其都隨機分配一個主題，即 $z_{m,n}=k\sim Mult(1/K)$ ，其中m表示第m篇文檔，n表示文檔中的第n個詞，k表示主題，K表示主題的總數，之後將對應的 $n_{m}^{k}+1$ ， $n_{m}+1$ ， $n_{k}^{t}+1$ ， $n_{k}+1$ ，他們分別表示在m文檔中k主題出現的次數，m文檔中主題數量的和，k主題對應的t詞的次數，k主題對應的總詞數。
之後對下述操作進行重複迭代。
對所有文檔中的所有詞進行遍歷，假如當前文檔m的詞t對應主題為k，則 $n_{m}^{k}-1$ ， $n_{m}-1$ ， $n_{k}^{t}-1$ ， $n_{k}-1$ ，即先拿出當前詞，之後根據LDA中topic sample的概率分布sample出新的主題，在對應的 $n_{m}^{k}$ ， $n_{m}$ ， $n_{k}^{t}$ ， $n_{k}$ 上分別+1。

p(z_{i}=k|z_{-i},w)

∝

(n_{k,-i}^{(t)}+\beta _{t})(n_{m,-i}^{(k)}+\alpha _{k})/(\sum _{t=1}^{V}n_{k,-i}^{(t)}+\beta _{t})

迭代完成後輸出主題-詞參數矩陣φ和文檔-主題矩陣θ

\phi _{k,t}=(n_{k}^{(t)}+\beta _{t})/(n_{k}+\beta _{t})

\theta _{m,k}=(n_{m}^{(k)}+\alpha _{k})/(n_{m}+\alpha _{k})

參見

萬能翻譯機（英語：universal translator）
電腦語言學
受限自然語言
信息抽取
資訊檢索
自然語言理解
潛在語義索引
潛在語義學
隨機文法（英語：Stochastic grammar）
機器記者
寫作自動評分（英語：Automated essay scoring）
生物醫學文件探勘系統（英語：Biomedical text mining）
複合詞處理（英語：Compound term processing）
計算語言學
電腦輔助審查（英語：Computer-assisted reviewing）
深度學習
深度語言處理（英語：Deep linguistic processing）
輔助外文閱讀（英語：Foreign language reading aid）
輔助外文寫作（英語：Foreign language writing aid）
語言科技（英語：Language technology）
隱含狄利克雷分布（LDA）
母語識別（英語：Native-language identification）
自然語言編程（英語：Natural language programming）
自然語言使用者界面（英語：Natural language user interface）
擴展查詢
具體化 (語言學)（英語：Reification (linguistics)）
語義折疊（英語：Semantic folding）
語音處理
口語對話系統（英語：Spoken dialogue system）
校對
文字簡化（英語：Text simplification）
Thought vector（英語：Thought vector）
Truecasing（英語：Truecasing）
問答系統
Word2vec

參考文獻

^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Lafferty, John , 編. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3 (4–5): pp. 993–1022 [2013-07-08]. doi:10.1162/jmlr.2003.3.4-5.993. （原始內容存檔於2012-05-01）.
^ Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach, Buildings 2023, 13(4), 927; https://doi.org/10.3390/buildings13040927

[blei2003-1] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Lafferty, John , 編. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3 (4–5): pp. 993–1022 [2013-07-08]. doi:10.1162/jmlr.2003.3.4-5.993. （原始內容存檔於2012-05-01）.

[2] Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach, Buildings 2023, 13(4), 927; https://doi.org/10.3390/buildings13040927

[1]

[2]

閱論編計算機科學的主要領域
註：該模板大致遵循ACM 電腦分類系統。
計算機硬件	印刷電路板外部設備集成電路超大規模集成電路綠色計算電子設計自動化
系統架構組織	電腦系統架構嵌入式系統實時計算
網絡	網絡傳輸協議路由網絡拓撲網絡服務
軟件組織	直譯器中間件虛擬機器操作系統軟件質量
軟件符號和工具	編程范型編程語言編譯器領域特定語言軟體框架集成開發環境軟件配置管理函式庫
軟件開發	軟件開發過程需求分析軟件設計軟件部署軟體維護開源模式
計算理論	自動機可計算性理論計算複雜性理論量子計算數值計算方法計算機邏輯形式語義學
算法	算法分析算法設計算法效率隨機化算法計算幾何
計算數學	離散數學信息與計算科學統計學數學軟件數理邏輯集合論數論圖論類型論範疇論信息論數值分析數學分析
信息系統	數據庫管理系統電腦數據企業信息系統社會性軟件地理信息系統決策支持系統過程控制數據挖掘數位圖書館系統平台數位行銷萬維網信息檢索
安全	密碼學形式化方法入侵檢測系統網絡安全信息安全
人機交互	計算機輔助功能用戶界面可穿戴計算機普適計算虛擬現實聊天機器人
並發性	並發計算並行計算分布式計算多線程多元處理
人工智能	自動推理計算語言學計算機視覺進化計算專家系統自然語言處理機器人學
機器學習	監督式學習無監督學習強化學習交叉驗證
計算機圖形學	計算機動畫可視化渲染修飾照片圖形處理器混合現實虛擬現實圖像處理圖像壓縮實體造型
應用計算	電子商務企業級軟件計算數學計算物理學計算化學計算生物學計算社會科學醫學信息學數字藝術電子出版網絡戰電子遊戲文字處理器運籌學教育技術學生物信息學認知科學文件管理系統（英語：Document management system）
分類主題專題維基共享