资源说明:预测作者数
研究人员小组的写作质量,篇幅或风格是否与个人研究人员的写作方式不同? 我希望能够帮助研究人员在单击“提交”按钮之前对那里的论文有更多的了解。 这就是我问自己进入抓取pdf文件的问题。 配备了41000个链接和一个VPN后,我的计算机以2小时(其中我切换了IP)以3个小时为增量向arxiv.org发出了呼叫。 我着手将PDF文件转换为文本,成功率约为50%,清洗后剩下14,066,其中包括切断底部确认,删除转义词和使用TFIDFVectorizer。 我的模型试图确定是否有人写了这篇论文或更多。
我创建的基准模型每次都选择了一位以上研究人员中最普遍的类。 通过具有2000个max_features的朴素贝叶斯和过采样,我能够创建一个表现最佳的模型。
我开始使用PCA来了解单词之间如何最相关。 该图显示,最大的信息增益是k均值创建3个群集时。
在我的PCA分析中,与特定学术界
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。