资源说明:无数据文本分类(Dataless Text Classification, DLTC)是一种机器学习文本分类方法,旨在解决传统分类方法中存在的成本高、耗时长、过拟合和适应性问题。传统的文本分类方法通常需要大量的标注数据来训练分类器,但这不仅昂贵而且耗时。此外,基于这些有标签数据训练出的分类器可能会遇到过拟合,因为它们可能太过于依赖特定的训练数据,导致在处理未见过的、新的数据时表现不佳。为了解决这些问题,DLTC应运而生,它不依赖于标注数据,从而避免了这些缺陷。
DLTC的核心思想是使用未标注的文档来训练分类器。先前的研究通常采用对Wikipedia内容的显式语义分析来衡量文档之间的语义距离,然后使用最近邻算法基于该距离对测试文档进行分类。但是,这种方法的缺点是它依赖于一个大规模的、精细编制的语义知识库,这在许多场景中难以获得。
本文提出了一种新型的无数据文本分类方法,即描述性LDA(Descriptive LDA,简称DescLDA)。DescLDA通过利用类别描述词(category description words)和未标注文档来执行DLTC。在DescLDA模型中,LDA(Latent Dirichlet Allocation,隐含狄利克雷分配)模型与一个描述性设备结合在一起,用以从使用类别描述词创建的先前描述性文档中推断出Dirichlet先验(Dirichlet priors)。Dirichlet先验随后被LDA用于从未标注文档中诱导出具有类别意识的潜在主题(category-aware latent topics)。本文在20 Newsgroups和RCV1数据集上的实验结果显示:(1)提出的DLTC方法比基于语义的DLTC基线方法更有效;(2)该方法的准确性非常接近最先进的有监督文本分类方法。由于该方法既不需要外部知识资源也不需要标注文档,因此它适用于更广泛的应用场景。
该论文的作者们分别来自乐山师范学院、清华大学和萨塞克斯大学。其中,第一作者陈兴源来自乐山师范学院,第二作者夏云清来自清华大学,第三作者金鹏以及通讯作者John Carroll则来自萨塞克斯大学。他们的工作展示了在不使用任何外部知识资源和已标注文档的情况下,通过描述性LDA模型可以实现高效的文本分类。
在引言部分中,论文概述了创建基于机器学习的分类器的典型过程,包括以下步骤:(1)人类专家定义类别,这些类别通常由类别标签表示,并且有时也会有类别描述;(2)人类专家手动为选定的训练文档分配标签。通过这些步骤,传统方法能够训练出用于分类的模型。然而,这种方法的成本和时间消耗相当高,且存在过拟合的风险。因此,DLTC方法的提出,为自动化文本分类提供了一个更高效、更适用的解决方案。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。