12月25日,于成都举行的“2024人工智能大模型基准测试科创发展大会”上,《“巢燧”大模型基准测试报告》(以下简称“报告”)正式发布。该报告由OpenEval平台、天津大学自然语言处理实验室和大模型基准评测专家委员会联合红星新闻发布,聚焦知识能力和价值对齐两大维度,对国内研发的开源和闭源大语言模型进行了系统的评测。
今年以来,我国的人工智能大模型正以前所未有的速度发展,各类大模型百花齐放。据不完全统计,国产大模型的数量已超过200个,覆盖多个行业领域,应用场景不断拓展。记者了解到,报告希望通过系统而全面的大模型评测,为AI发展和安全治理提供关键数据,推动AI发展和应用符合伦理原则和标准,实现AI智善和谐发展。
报告收录了“巢燧”大模型基准综合评测第二次评测结果显示,在过去一年里,中文大模型在学科知识以及数学推理等领域的能力大幅增强。闭源模型在学科知识、数学推理、语言理解及常识掌握等方面,相较开源模型展现出了更出色的性能。以下为“巢燧”大模型基准综合评测第二次评测结果:
一、 评测维度
此次评测聚焦于知识能力和价值对齐两大维度、六则细项,多模态大模型多步推理,大模型中文高考数学复杂推理两个专项评测,对大语言模型展开全面评测。
1. 知识能力评测
语言知识:通过评估大模型在自然语言理解、预测和生成方面的能力,揭示其对语言的全面理解和运用能力。其中使用的数据集有BiPaR、C3等,包含的具体任务有小说问答、阅读理解、文本推理、词性理解等。
学科知识:采用人类标准化考试方式,对大模型进行多学科知识水平的综合评估,以确保其在各学科领域的广泛知识基础。学科知识按照学科类型有人文艺术、社会科学、自然科学等类型,按照学科段分为小学阶段、初中阶段、高中阶段、大学阶段等。
常识知识:通过常识冲突检测、推理和补充等方式,深入评估大模型在常识知识和推理能力方面的表现,以确保其能够有效运用广泛的常识。常识知识包含了常识错误诊断、常识错误定位、常识错误抽取等。
数学推理:以数学应用题的形式进行评测,重点考察大模型在基础数学推理方面的能力,以保证其具备对复杂数学问题的解决潜力。数学推理包含了方程、分数、集合、四则运算、概率统计等内容。
2. 价值对齐评测
伦理对齐:通过评估大模型在偏见、歧视、有毒内容等方面的价值对齐能力,确保其生成的内容符合道德和伦理准则,避免不当的偏见和歧视。包含偏见、冒犯、歧视、脏话等内容。
安全可控:评估大模型在合作意愿、可纠正性等方面的安全可控能力,以确保在使用过程中能够及时识别并纠正不安全或不适当的行为,保障用户的安全和隐私。评测包含了系统的可纠正性、富有远见、理性决策等方面。
3. 多模态大模型多步推理专项评测
本专项评测涵盖了8款开源多模态大模型和5款闭源多模态大模型,使用多步推理数据集进行评测。该数据集分为8个子集,即多模态推理、逻辑推理任务、图表分析推理、数学问题推理、科学问题推理、文件理解推理、?页浏览型推理、阅读理解推理。测试数据集最?的特点在于:每?个测试样例都由较长的?系列推理操作组成。按照完成任务所需要的推理步数,该数据集测试样例又可分为三个难度级别:Level 1(3-6步推理)、Level 2(7-11步推理)、Level 3(12步以上推理)。
4. 大模型中文高考数学复杂推理专项评测
本专项评测涵盖了1款闭源复杂推理大模型OpenAI o1-mini和2款开源复杂推理大模型Qwen-QWQ-32B、Skywork-o1-Open-Llama-3.1-8B,使用多类别数学推理数据集进行评测。该数据集分为8个子集:基本初等函数与导数推理、三角函数与解三角形推理、平面解析几何推理、数列推理、立体几何与空间向量推理、计数原理推理、统计与概率推理、其他数学推理(涵盖逻辑、集合、不等式、复数)。
测试数据集最?的特点在于,所有数据均来源于最新的2024年1月至2024年5月的高考数学预测试卷以及模拟试卷,减少了数据污染的影响。该数据集内容丰富,共包含4399题,难度等级划分为7级,所有测试样例难度等级均进行了人工标注,一些难度较大的题目答案解析超过2000字符。本次评测另采用了2款开源大模型Qwen-Math-2.5-72B-Instruct和Meta-Llama-3-8B-Instruct作为Baseline与复杂推理大模型的评测结果进行比较。
二、 国内大模型知识能力和价值对齐总体表现
基于“巢燧”基准评测综合测试结果,多个国内大模型,如文心一言、千问、豆包、yi、商汤商量中文能力超过GPT-4。百川、abab6.5s、星火、混元、Kimi、GLM-4等,中文能力超过GPT-3.5-Turbo。以上评测结果表明,国内大模型在过去一年中取得了关键进展。
三、 知识能力和价值对齐评测结果
1. 开源模型评测结果
2. 闭源模型评测结果
3. 6个维度评测结果
四、 多模态大模型多步推理专项评测
1. 开源多模态大模型评测结果概览:
如性能雷达图所示,开源多模态大模型呈现出以下特点:
(1) 阅读理解推理和文件理解推理是开源多模态大模型区分度较大的维度;
(2)开源大模型在不同维度的表现展示出相似的特点,例如在阅读理解推理的表现均好于数学问题推理或图表分析推理等。
如图所示,开源多模态大模型的性能随着问题难度增加而下降。
2. 闭源大模型评测结果概述
基于性能雷达图,闭源多模态大模型呈现出以下特点:
(1)闭源多模态大模型在不同维度的表现展示出相似的特点,例如在阅读理解推理和文件理解推理表现较好,在多模态推理和数学问题推理表现较差等;
(2)闭源多模态大模型在网页浏览型推理和图表分析推理的差异较大。
如图所示,闭源多模态大模型的性能随着问题难度增加而下降。
3. 总结
对比开源多模态大模型与闭源多模态大模型,我们发现:
(1)开源多模态大模型在多模态推理和科学问题推理两个维度展现出了显著的优势,尤其是在多模态推理上,多个开源大模型已经达到或超过GPT-4o;
(2)相比于开源多模态大模型,闭源多模态大模型在网页浏览型推理、文件理解推理和图表分析推理等维度普遍表现更优秀;而在数学问题推理和多模态推理两个维度上,闭源多模态大模型与开源多模态大模型的差异并不明显。
(3)开源多模态大模型与闭源多模态大模型的性能均随着问题难度增加而下降,问题难度越低,不同模型间的差异越明显。
综上所述,目前多模态大模型在数学问题推理和多模态推理等维度还有待关注和重视,同时,多模态大模型在推理步骤较长的任务中表现较差,这表明未来大模型的发展仍然需要重视多步推理的能力提升。
五、 大模型中文高考数学复杂推理专项评测
如性能雷达图所示,复杂推理模型在中文高考数学推理中呈现出以下特点:
(1) 在同等参数规模下,Skywork-o1-Open-Llama-3.1-8B相比同系列基座模型Meta-Llama-3-8B-Instruct大幅提升了模型的数学推理能力;
(2)小型复杂推理模型在高考数学推理上的能力达到近似大型模型的水平。Skywork-o1-Open-Llama-3.1-8B与32B Qwen QWQ模型和经过数学方面微调和强化学习的72B Qwen模型相比,其准确率在各评测维度上达到了近似水平;
(3) 闭源复杂推理模型OpenAI o1-mini在中文高考数学推理中的综合准确率稍稍领先,在五个评测维度上优于其它模型,在两个评测维度上落后于其他模型。
如图所示,复杂推理大模型的性能随着问题难度增加呈现明显下降趋势,闭源复杂推理大模型OpenAI o1-mini在处理较难问题上具有明显优势。
综上所述,小型复杂推理模型在高考数学推理能力上显示出了显著的进步,但大型基座模型仍然有利于复杂推理能力的提升。对于难度为4及以上的题目,所有模型都表现欠佳,这表明未来大模型在复杂推理能力上仍然具有很大提升空间。
六、 总结
在过去一年里,中文大型模型在学科知识以及数学推理等领域的能力大幅增强。闭源模型在学科知识、数学推理、语言理解及常识掌握等方面,相较于开源模型展现出了更出色的性能。尽管闭源模型在部分知识维度上领先,但在伦理对齐和安全可控方面,相较于开源模型的优势并不突出。这一现象提醒我们,在追求模型性能提高的同时,不能忽视伦理和安全性问题。
在致力于提升大型模型知识能力的同时,还需更加重视价值对齐的问题。随着模型能力的不断提升,这一问题的重要性愈加凸显。我们应当拓展对大型模型的评估研究范围,不应仅限于学科知识等单一维度,而应构建更全面、多样化的评估标准和体系,以促进大型模型的智善协同发展。
红星新闻记者 俞瑶 实习记者 符小茵
编辑 邓凌瑶
(下载红星新闻,报料有奖!)
标题:《“巢燧”大模型基准测试报告》在成都发布,中文大模型数学推理能力大幅增强
地址:http://www.hmhjcl.com/zixun/379386.html