1. 首页
  2. 数据库
  3. 其它
  4. lm evaluation harness:一次评估自回归语言模型的框架 源码

lm evaluation harness:一次评估自回归语言模型的框架 源码

上传者: 2021-05-12 10:16:59上传 ZIP文件 85.82KB 热度 13次
大型语言模型的评估工具 概述 该项目的目标是根据描述的GPT-3评估,构建一套用于评估典型NLU任务上的LM的工具。 按照最初的描述,此存储库应支持3个功能: LM评估 从LM训练集中删除任务评估/测试数据 将任务训练数据添加到LM训练集中 任务概述 任务名称 火车 值 测试 指标 可乐 ✓ ✓ ✓ 抄送 li ✓ ✓ ✓ acc mnli_mismatched ✓ ✓ ✓ acc MRPC ✓ ✓ ✓ acc,f1 te ✓ ✓ ✓ acc n里 ✓ ✓ ✓ acc qqp ✓ ✓ ✓ acc,f1 不锈钢 ✓ ✓ ✓ acc 万里 ✓ ✓ ✓ acc 布尔克 ✓ ✓ ✓ acc b ✓ ✓ ✓ acc,f1 美洲杯 ✓ ✓ ✓ acc 多媒体 ✓ ✓ ✓ acc 记录 ✓
下载地址
用户评论