gpt 2 output dataset:GPT 2输出的数据集用于研究检测偏差等 源码
gpt-2-输出数据集 该数据集包含: WebText测试集中的250K文档 对于每个GPT-2模型(在WebText训练集上进行训练),使用Top-K 40截断生成250K随机样本(温度1,无截断)和250K样本 我们期待使用此数据进行的研究! 下载 对于每个模型,我们都有250K个生成示例的训练拆分,以及5K个示例的验证和测试拆分。 所有数据都位于Google Cloud Storage的gs://gpt-2/output-dataset/v1 。 在那里,您将找到文件: webtext.${split}.jsonl small-117M.${split}.jsonl small-117M-k40.${split}.jsonl medium-345M.${split}.jsonl medium-345M-k40.${split}.jsonl large-762M.${
下载地址
用户评论
这个文件为研究人员提供了一扇窗口,让我们更深入地探究GPT-2的输出,并对其进行评估和改进。
这个文件收集了GPT-2输出的数据集,可以帮助我们更好地理解其中的偏差和问题。
这个文件对于研究者来说是一个很有价值的资源,可以用来分析GPT-2输出的潜在问题和优点。
这个数据集提供了关于GPT-2输出的宝贵资源,有助于进行深入研究和检测工作。