基于信念传播的词汇量渐增的主题模型
大多数LDA算法都基于固定的词汇量做出相同的限制假设。 当这些算法实时处理数据流时,词汇表中不存在的单词会被打折。 由于Dirichlet分布中的原子是固定的,因此流中出现的意外单词无法进行处理。 为了解决上述缺点,提出了具有主题词分布的ivLDA,其源于具有无限原子的Dirichlet过程,而不是Dirichlet分布。 ivLDA涉及一个增量词汇表,使主题模型能够处理数据流。 此外,提出了两种方法来管理单词的索引,即ivLDA-Perp和ivLDA-PMI。 ivLDA-Perp能够实现高精度,而ivLDA-PMI能够识别代表该主题的最有价值的单词。 如实验所示,与固定词表的infvoc-LDA和其他最新算法相比,ivLDA-Perp和ivLDA-PMI可以实现更高的性能。
下载地址
用户评论