1. 首页
  2. 人工智能
  3. 机器学习
  4. BookCorpus文本数据集介绍

BookCorpus文本数据集介绍

上传者: 2023-05-29 21:23:26上传 TORRENT文件 23.35KB 热度 35次

BookCorpus是一个受欢迎的大型文本数据集,可以在未受监督的情况下用于句子编码/解码器的学习。该数据集的来源包括smashwords,并且已经不再更新,但是仍然可以为学习自然语言处理提供有用的材料。您可以通过调用以下代码获得数据集:from datasets import load_dataset = load_dataset("bookcorpus")。此外,后续添加的句子可能会增加数量和多样性。

下载地址
用户评论