SimHash.py文本相似度检测工具
Excel 的文本行批量相似度检测,simhash.py
做起来还挺顺手的。你把表格里的内容丢进去,它就能自动跑出一个相似矩阵,谁跟谁像一目了然。SimHash 算法本身就适合大规模文本比对,速度快,还不占内存,上千行文本都能 Hold 住。
simhash.py
用法也蛮简单,Python 环境装一下,导入 Excel 文件直接跑。输出是个相似度矩阵,你可以拿来做文本去重、重复问答识别、或者内容推荐前的清洗。尤其适合那种有海量问答或标题数据的场景,挺实用。
另外你要是想进一步搞清楚SimHash的原理,或者探索别的文本相似度算法,像是余弦相似度、模糊矩阵、字符串比对这类的,下面这几篇链接也值得一看,都是干货:
如果你做的是内容审核、问答推荐,或者用户输入文本,可以考虑接入它提前去重。嗯,跑起来快,代码也挺简洁,蛮省心的。
下载地址
用户评论