1. 首页
  2. 数据库
  3. 其它
  4. gpt 2 output dataset:GPT 2输出的数据集用于研究检测偏差等 源码

gpt 2 output dataset:GPT 2输出的数据集用于研究检测偏差等 源码

上传者: 2021-04-24 17:15:29上传 ZIP文件 263.95KB 热度 55次
gpt-2-输出数据集 该数据集包含: WebText测试集中的250K文档 对于每个GPT-2模型(在WebText训练集上进行训练),使用Top-K 40截断生成250K随机样本(温度1,无截断)和250K样本 我们期待使用此数据进行的研究! 下载 对于每个模型,我们都有250K个生成示例的训练拆分,以及5K个示例的验证和测试拆分。 所有数据都位于Google Cloud Storage的gs://gpt-2/output-dataset/v1 。 在那里,您将找到文件: webtext.${split}.jsonl small-117M.${split}.jsonl small-117M-k40.${split}.jsonl medium-345M.${split}.jsonl medium-345M-k40.${split}.jsonl large-762M.${
下载地址
用户评论
码姐姐匿名网友 2025-03-24 00:35:14

这个文件为研究人员提供了一扇窗口,让我们更深入地探究GPT-2的输出,并对其进行评估和改进。

码姐姐匿名网友 2025-03-23 20:32:28

这个文件收集了GPT-2输出的数据集,可以帮助我们更好地理解其中的偏差和问题。

码姐姐匿名网友 2025-03-24 03:30:58

这个文件对于研究者来说是一个很有价值的资源,可以用来分析GPT-2输出的潜在问题和优点。

码姐姐匿名网友 2025-03-23 16:12:27

这个数据集提供了关于GPT-2输出的宝贵资源,有助于进行深入研究和检测工作。