贝叶斯垃圾邮件过滤
外观
贝叶斯垃圾邮件过滤是一种电子邮件过滤的统计学技术。它使用贝叶斯分类来进行垃圾邮件的判别。
贝叶斯分类的运作是借着使用标记(一般是字词,有时候是其他)与垃圾邮件、非垃圾邮件的关连,然后搭配贝叶斯推断来计算一封邮件为垃圾邮件的可能性。
贝叶斯垃圾邮件过滤是非常有威力的技术,可以修改自己以符合个别使用者的需要,并且给予较低的垃圾邮件侦测率,让使用者可接受。
历史
[编辑]第一个已知使用贝叶斯分类的邮件过滤是Jason Rennie的iFile,在1996年释出。这个程式可以排序邮件并放到目录。[1]第一个关于贝叶斯垃圾邮件过滤的学术出版是由Sahami et al.在1998年所写。[2]之后很快就被应用到商用的垃圾邮件过滤器上。然而,在2002年,Paul Graham大大地加强了假阳性的几率,所以它可以作为一个简单的垃圾过滤器来使用。[3] [4]
根植于此技术的变种技术相继在许多的研究工作与商业产品上被实作出来。[5]许多流行的邮件客户端都实作了贝叶斯垃圾邮件过滤。使用者也可以安装其他的邮件过滤程式。服务器端的邮件过滤器,像DSPAM、SpamAssassin[6]、SpamBayes[7]、Bogofilter与ASSP也都利用了贝叶斯邮件过滤技术,有时候这个功能直接内建在邮件服务器软件上。
贝叶斯过滤的一般应用程序
[编辑]贝叶斯过滤被广泛地使用来鉴别垃圾邮件,但这项技术其实可以用来分类(或丛集)几乎任何种类的资料。它被使用在科学、医学与工程方面。例如普遍用来分类的程式:AutoClass (页面存档备份,存于互联网档案馆),它可以根据可能非常微小到难以察觉的光谱特征来分类星星。最近甚至有人推测大脑可能也使用贝叶斯方法来为知觉刺激做分类并决定行为回应。[8]
参考文献
[编辑]- ^ Jason Rennie. ifile. 1996 [2012-03-01]. (原始内容存档于2012-10-25).
- ^ M. Sahami, S. Dumais, D. Heckerman, E. Horvitz. A Bayesian approach to filtering junk e-mail (PDF). AAAI'98 Workshop on Learning for Text Categorization. 1998 [2012-03-01]. (原始内容存档 (PDF)于2013-06-26).
- ^ Paul Graham (2003), Better Bayesian filtering (页面存档备份,存于互联网档案馆)
- ^ Brian Livingston (2002), Paul Graham provides stunning answer to spam e-mails (页面存档备份,存于互联网档案馆)
- ^ Junk Mail Controls. MozillaZine. November 2009 [2012-03-01]. (原始内容存档于2012-10-25).
- ^ Installation. Ubuntu manuals. 2010-09-18 [2010-09-18]. (原始内容存档于2010-09-29).
Gary Robinson’s f(x) and combining algorithms, as used in SpamAssassin
- ^ Background Reading. SpamBayes project. 2010-09-18 [2010-09-18]. (原始内容存档于2010-09-06).
Sharpen your pencils, this is the mathematical background (such as it is).* The paper that started the ball rolling: Paul Graham's A Plan for Spam.* Gary Robinson has an interesting essay suggesting some improvements to Graham's original approach.* Gary Robinson's Linux Journal article discussed using the chi squared distribution.
- ^ Trends in Neuroscience, 27(12):712-9, 2004 (页面存档备份,存于互联网档案馆)(pdf)
外部链接
[编辑]- Guide to Bayesian spam filters: part 1 (页面存档备份,存于互联网档案馆), part 2 (页面存档备份,存于互联网档案馆).
- Detailed explanation of Paul Graham's formulas (页面存档备份,存于互联网档案馆) by Tim Peters
- Gary Robinson's spam blog