1. 首页
  2. 行业
  3. AIGC行业跟踪报告(四):中文数字内容成为重要稀缺资源,可用作AI大模型语料库.pdf

AIGC行业跟踪报告(四):中文数字内容成为重要稀缺资源,可用作AI大模型语料库.pdf

上传者: 2023-05-18 02:41:46上传 PDF文件 527.76KB 热度 11次
中文数字内容将成为重要稀缺资源,用于国内AI大模型预训练语料库。 1)近期国内外巨头纷纷披露AI大模型;在AI领域3大核心是数据、算力、算法,我们认为,数据将成为如ChatGPT等AI大模型的核心竞争力,高质量的数据资源可让数据变成资产、变成核心生产力,AI模型的生产内容高度依赖源头数据。2)根据凤凰网周刊,ChatGPT的中文答案不准确主要在于目前中文语料学习库少,ChatGPT中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%。3)中文公开语料远不足英文,这也成为“中国版ChatGPT”的痛点。微软(中国)首席技术官韦青在3月23日举行的一场行业会议上指出,“ChatGPT能够提炼的语料是开放的、共享的和免费的”,而“中国版ChatGPT”所需要的大量高质量中文数据资源(包括政务数据、商业数据、科研数据、中文语料等)大多被存在各家企业或机构的“后花园”里无法共享,“这不是一两间公司能够解决的问题,需要全社会密切关注并大力投入的公共知识基础设施”。4)政策进一步重视数据核心资产建设。据日经亚
下载地址
用户评论