资源说明:LDA-孟加拉语
使用LDA确定WX格式的孟加拉语文档中有意义的主题
问题状态网
鉴于:
94个WX格式的孟加拉文献文档,其中每个文档都包含以下格式的数据-
句子(一组单词)由空白行分隔,即文档中的每个空白行都指定一个新句子的开头。
每条非空白行都包含一个已经POS标记的单词。
任务:
应用机器学习工具和算法从94个文档集中找出以下内容:*。 文档涵盖的有意义的主题。 *。 每个主题的关键字。
提交一份报告(软拷贝),其中提到您如何执行此任务,即详细格式的算法,代码和输出。
内容
该作业包含以下内容-
作业2-机器学习(CS-603).pdf:该报告提到了我是如何执行任务的,即算法,代码和详细格式的输出。
代码:此文件夹包含*。 data_prep.py:数据准备代码*。 lda.py:用于实现LDA,获取输出和数据可视化的代码
数据:此文件夹包含*。 94个文档:提供的数
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。