TopicMatch 基于LDA的主题领域匹配工具
TopicMatch 是一种通过主题模型将论文按主题领域匹配的工具,特别适用于同行评审场景。它结合了LDA和最大权重匹配算法的直接应用,为同行评审提供高效的论文分配解决方案。在 TA David Blei 教授的图形模型课程期间,我将此工具整理开发。尽管还不是自动化流程,但可以对接不同数据量的需求,尤其适用于小规模数据集。用户可以通过调整主题数量和稀疏度参数来优化 LDA 输出效果。
依赖关系:本工具需安装numpy、scipy、pandas、gensim、docopt、nltk及networkx。
使用方法:
-
该包包含一组处理 pickle 文件的脚本。用户需为每位作者创建一个目录,将文件命名一致,如“mary/abstract.txt”、“paper.txt”等。
-
运行make_data.py以生成语料库字典文件。
-
运行fit_lda.py以生成拟合模型。有关参数的详细说明,请参阅文档。
下载地址
用户评论