dakshina:Dakshina数据集是拉丁文字和本机文字的文本集合适用于12种南亚语言。 对于每种语言数据集包括大量本地脚本Wikipedia文本本地脚本中
Dakshina数据集 Dakshina数据集是拉丁文字和本机文字的文本集合,适用于12种南亚语言。 对于每种语言,数据集包括大量本地脚本Wikipedia文本,一个浪漫化词典,其中包括具有经过证明的罗马化的本地脚本中的单词,以及该语言的本地脚本和基本拉丁字母中的一些完整句子并行数据。 数据集网址: : 如果您在工作中使用或讨论此数据集,请引用我们的论文(下文引用了bibtex)。 可以在上找到该论文的PDF链接。 @inproceedings{roark-etal-2020-processing, title = "Processing {South} {Asian} Languages Written in the {Latin} Script: the {Dakshina} Dataset", author = "Roark, Brian and
下载地址
用户评论