国产大模型最缺高质语料，这个联盟开源两周获18万下载，“投喂”回报是……

(资料图)

2022年11月，ChatGPT横空出世，带来大模型时代。但训练大模型好比培养孩子，唯有高质量的教育，才有高质量的输出。因此，高质量语料库是大模型产业链关键环节。基于此，今年7月6日，在世界人工智能大会开幕式上，由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。此后，联盟动作频频，继8月14日开源发布首个公开成果“书生·万卷”多模态预训练语料后，9月8日又迎来9家新成员单位的加盟及新数据集的发布。

据悉，联盟首批集聚了10家发起单位，包括上海人工智能实验室、中央广播电视总台、中国科学技术信息研究所、上海报业集团、上海数据集团等，囊括了全国和上海市语料数据供给的主力军和先锋队。8月14日，联盟开源发布“书生·万卷”多模态预训练语料，数据总量超过2TB（太字节），包含超过5亿个文本、2200万个图文交错文档、1000个节目影像视频。上海人工智能实验室主任助理王延峰介绍，这2TB的数据，是严格筛选的结果，实验室为此建立了OpenDataLab技术平台，其中有大量专业工具集，通过分类、清洗、鉴别等手段，帮助剔除非高质量、已污染的数据，实现语料从量到质的提升。“书生·万卷”在发布两周时间内达到18万次下载量，创国内大模型整体兴起后公开的单体数据集下载量之最。

高质量语料“真香”，也引来更多单位加入“投喂”。此次，上海钛米机器人股份有限公司、上海城建城市运营（集团）有限公司、中国专利技术开发公司、上海仲裁委员会、上海数据交易所等9家单位全新入伙，并推出第二批开源语料数据集“蜜巢·花粉1.0”。另有多个联盟成员单位也已形成语料数据开源方案，将陆续进入发布队列。

蜜巢·花粉1.0来自9家新成员之一的上海蜜度信息技术有限公司。公司首席技术官刘益东告诉记者，国内不少大模型是基于外文数据再结合少量中文资料训练而成，这导致大模型对中文的理解能力薄弱、基于中文场景的生成能力欠缺。蜜巢·花粉1.0以互联网媒体数据为主，经过滤清洗、多条件去重等精细化处理和资深律师数据合规前置审核，目前，已开源中文数据总量超7000万条。事实上，蜜度公司本身的系列大模型，也已应用蜜巢·花粉数据集进行训练，可用于政务及媒体等垂直领域，提供知识问答与内容生成、分析报告自动生成、文稿内容审校与润色改写等服务。

联盟成员积极贡献语料，但并不止于“用爱发电”。市经信委人工智能发展处处长王志佳介绍，联盟设计了L1级到L4级4种运营模式，L1级面向社会开源，L2级仅对联盟内部开源，L3级和L4级涉及揭榜挂帅或场内场外交易项目。“我们也一直在探索基于贡献、可持续运行的激励机制，如通过与成员单位联合研发，用科研受益、商业许可等来实现对贡献者的反哺。”王延峰说。

本文作者：李晔

国产大模型最缺高质语料，这个联盟开源两周获18万下载，“投喂”回报是……

最近更新