貝葉斯垃圾郵件過濾
外观
貝葉斯垃圾郵件過濾是一種電子郵件過濾的統計學技術。它使用貝葉斯分類來進行垃圾郵件的判別。
貝葉斯分類的運作是藉著使用標記(一般是字詞,有時候是其他)與垃圾郵件、非垃圾郵件的關連,然後搭配貝葉斯推斷來計算一封郵件為垃圾郵件的可能性。
貝葉斯垃圾郵件過濾是非常有威力的技術,可以修改自己以符合個別使用者的需要,並且給予較低的垃圾郵件偵測率,讓使用者可接受。
歷史
[编辑]第一個已知使用貝葉斯分類的郵件過濾是Jason Rennie的iFile,在1996年釋出。這個程式可以排序郵件並放到目錄。[1]第一個關於貝葉斯垃圾郵件過濾的學術出版是由Sahami et al.在1998年所寫。[2]之後很快就被應用到商用的垃圾郵件過濾器上。然而,在2002年,Paul Graham大大地加強了假陽性的機率,所以它可以作為一個簡單的垃圾過濾器來使用。[3] [4]
根植於此技術的變種技術相繼在許多的研究工作與商業產品上被實作出來。[5]許多流行的郵件客戶端都實作了貝葉斯垃圾郵件過濾。使用者也可以安裝其他的郵件過濾程式。伺服器端的郵件過濾器,像DSPAM、SpamAssassin[6]、SpamBayes[7]、Bogofilter與ASSP也都利用了貝葉斯郵件過濾技術,有時候這個功能直接內建在郵件伺服器軟體上。
貝葉斯過濾的一般應用程式
[编辑]貝葉斯過濾被廣泛地使用來鑑別垃圾郵件,但這項技術其實可以用來分類(或叢集)幾乎任何種類的資料。它被使用在科學、醫學與工程方面。例如普遍用來分類的程式:AutoClass (页面存档备份,存于互联网档案馆),它可以根據可能非常微小到難以察覺的光譜特徵來分類星星。最近甚至有人推測大腦可能也使用貝葉斯方法來為知覺刺激做分類並決定行為回應。[8]
参考文献
[编辑]- ^ Jason Rennie. ifile. 1996 [2012-03-01]. (原始内容存档于2012-10-25).
- ^ M. Sahami, S. Dumais, D. Heckerman, E. Horvitz. A Bayesian approach to filtering junk e-mail (PDF). AAAI'98 Workshop on Learning for Text Categorization. 1998 [2012-03-01]. (原始内容存档 (PDF)于2013-06-26).
- ^ Paul Graham (2003), Better Bayesian filtering (页面存档备份,存于互联网档案馆)
- ^ Brian Livingston (2002), Paul Graham provides stunning answer to spam e-mails (页面存档备份,存于互联网档案馆)
- ^ Junk Mail Controls. MozillaZine. November 2009 [2012-03-01]. (原始内容存档于2012-10-25).
- ^ Installation. Ubuntu manuals. 2010-09-18 [2010-09-18]. (原始内容存档于2010-09-29).
Gary Robinson’s f(x) and combining algorithms, as used in SpamAssassin
- ^ Background Reading. SpamBayes project. 2010-09-18 [2010-09-18]. (原始内容存档于2010-09-06).
Sharpen your pencils, this is the mathematical background (such as it is).* The paper that started the ball rolling: Paul Graham's A Plan for Spam.* Gary Robinson has an interesting essay suggesting some improvements to Graham's original approach.* Gary Robinson's Linux Journal article discussed using the chi squared distribution.
- ^ Trends in Neuroscience, 27(12):712-9, 2004 (页面存档备份,存于互联网档案馆)(pdf)
外部連結
[编辑]- Guide to Bayesian spam filters: part 1 (页面存档备份,存于互联网档案馆), part 2 (页面存档备份,存于互联网档案馆).
- Detailed explanation of Paul Graham's formulas (页面存档备份,存于互联网档案馆) by Tim Peters
- Gary Robinson's spam blog