1. 首页
  2. 数据库
  3. 其它
  4. 令牌生成器:具有BPE和SentencePiece支持的快速且可自定义的文本令牌生成库 源码

令牌生成器:具有BPE和SentencePiece支持的快速且可自定义的文本令牌生成库 源码

上传者: 2021-02-01 22:43:25上传 ZIP文件 958.5KB 热度 15次
分词器 Tokenizer是针对C ++和Python的快速,通用且可自定义的文本标记化库,具有最小的依赖性。 总览 默认情况下,令牌生成器基于Unicode类型应用简单的令牌化。 可以通过几种方式自定义: 可逆令牌化通过注释标记或注入修饰符来标记关节或空间。 子词标记化支持培训和使用BPE和SentencePiece模型。 高级文本分割分割数字,区分大小写或更改字母,分割所选字母的每个字符等。 案例管理小写的文本和返回的大小写信息作为单独的功能或插入大小写修饰符标记。 保护序列可以使用特殊字符⦅和protected防止序列进行分词。 请参阅以了解受支持功能的概述。 使用 令牌生成
下载地址
用户评论