国内首个大模型评测数据集(MMCU)问世
来源:中国IDC圈 时间:2023-09-19 16:16

    在当下人工智能领域,大语言模型将为各行各业带来颠覆性的效率革命和体验升级,这已经成为业界共识。借此,一场由ChatGPT引发的“百模大战”早已轰轰烈烈地拉开序幕,纵观整个科技圈,几乎所有高科技公司都在打造自己的大语言模型,更有专家断言,不出意外,将很快升级为“千模大战”。

  面对国内大语言模型万箭齐发的局面,如何更好地提升大语言模型对中文的理解能力,更好地服务于全球的中文用户,甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(MassiveMultitaskChineseUnderstanding,简称MMCU)的大规模的多任务测试数据集,填补了中文大语言模型能力测试缺失的一大空白。

  国内大语言模型和国际一流仍有差距,超越并非一朝一夕就可以实现。当下,国内厂商往往采取的是模仿与跟随策略,尽管未来有望弯道超车,甚至后来者居上,但当下就有一些厂商宣称将实现通用模型对标ChatGPT,中文大模型能够超越ChatGPT的当前版本,与之旗鼓相当,并在多领域做到业界领先,无疑这样的说辞,也只是停留在口号之上,尚未经过实践验证。

  尽管对标ChatGPT等豪言壮语已响彻耳畔,但只凭借厂商只言片语的宣传描述,以及对特定数据评测案例的展示,其数据样本远远不足以及掺入了厂商的主观意愿,导致现有数据资料不足以展现各大厂商之间大模型技术能力之间的差异性,也使得用户很难真正了解各家技术能力的优势所在。在这样的背景之下,许多优秀的国产大模型被淹没在这种噪声当中,严重制约了国产大模型乃至人工智能产业的发展。因此,如何发现大模型的缺陷,以及如何更好地理解包括中文在内的人类语言文本?…..这一系列问题摆在了当下以ChatGLM、MOSS、文心一言、通义千问、商量、星火等众多具备中文能力的大模型厂商面前。

  鉴于国外率先开启了大模型研究,针对英文大语言模型已经有较为完善的评测方式,如2021年由DanHendrycks等人发布的MMLU。然而针对中文大语言模型,却仍处于空白。需要指出的是,国外的很多机构研究发现,数据量与分布对于训练模型的配比方式非常重要,Commoncrawl这种大数据集语言分布是不均匀的,英文占了46%,中文只占了5%。这样配比导致后续的大模型进行参照训练时,会发现在中文语料缺失的情况下,中文的理解能力是欠缺的,国内研究机构和人工智能企业都在去增补这些中文语料来提升中文能力。

  与此同时,对理解中文的大语言模型及时加以客观公正的评价,使其“越”来越强大,也成为了当务之急。因此,甲骨易推出“超越”MMCU数据集恰逢其时,通过综合评估模型在多个学科上的知识广度和深度,能够帮助研究者更精准地找出模型的缺陷,并对模型的能力进行打分。

附件下载

扫一扫在手机上查看当前页面

相关链接