LargeText WordCount:大文本字数统计 源码
大文本字数统计 精确和近似发生计数器的研究 描述 以内存有效的方式进行并行事件计数的挑战不是最近的话题,但是由于仍有很大的改进空间,因此它仍在讨论中。 当今大多数解决方案都是通过应用概率计数器来估计事件发生的总数来执行内存优化。 该项目着重于2个最著名的近似计数器,以确定几种作家用几种语言对最常用的文学作品单词的估计,并将它们与一个精确的计数器进行比较。 从项目研究报告中得出的结论将显示在项目报告中。 储存库结构 / datasets-来自文学作品用作输入数据 /报告-进行的研究的文档 / results-实施代码产生的输出 / src-算法的源代码 数据可视化 每个算法对前10个字的反估计。 计算每种算法对前50个字词的偏差。 运行说明 $ cd src $ pip3 install -r requirements.txt $ python3 WordOccurrenceCount
下载地址
用户评论