基于 LDA 模型的博客垃圾评论发现
文件大小: 1015k
源码售价: 10 个金币 积分规则     积分充值
资源说明:Blo g 已经成为互联网上的主要信息源之一, 这也使得 Blo g 空间中的垃圾评论成倍增长, 因此如何识别垃圾评论成为面临的重要问题。 该文首先借鉴处理垃圾邮件的方法, 针对 Blog 本身的特点, 使用规则初步过滤垃圾评论, 然后对剩余评论, 利用 Latent Dirichlet Allocatio n( LDA)这种能够提取文本隐含主题的产生式模型, 对博客中的博文进行主题提取, 并结合主题信息进行判断, 从而识别 Blog 空间的垃圾评论。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。