1. 首页
  2. 数据库
  3. 其它
  4. clean dialog:清理对话框数据的框架 源码

clean dialog:清理对话框数据的框架 源码

上传者: 2021-04-02 17:12:46上传 ZIP文件 11.14MB 热度 4次
本项目为一个清洗对话数据的多线程框架,目前还比较简陋,欢迎提bug和优化,索引句重复重复降重函数的正则或者后缀算法。代码还在继续完善中,注释以及一些函数出处引用等待完善。 目录结构 --clean: 清洗框架主目录 ---rules: 存放各级别的规则函数 ---tool_data: 存放黑名单词典,每行一个词 ---run_dist.py: 主运行文件,构造dataloader, 加载黑名单 ---single_filter.py: run_dist.py所调用的单个线程的主程序,加载处理单个数据,并保存过滤后的数据以及脏数据 ---run.sh: 使用我挑选的几个规则来运行run_dist.py 运行 bash run.sh 规则 规则包括目前大部分纸张内的清洗规则: 1黑名单过滤,包括特殊字符和脏话2个表情符号表情3邮箱,电话号等隐私过
下载地址
用户评论