教育界网 > 教育热点 >正文

“国家队”评测30个大模型数学能力，学而思九章、文心一言、讯飞星火位列前三

教育热点

作者：转载发布时间：2024-03-12

去年ChatGPT横空出世后，我国也迎来“百模大战”，大模型能力测评成为业界前沿课题。

近日，大模型数学能力权威测评基准MathEval围绕数学能力，对国内外30个大模型（含同一模型的不同版本）开展测评。

根据测评结果，学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中，学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中，都具备领先优势。

数据显示，截至去年10月，国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域，包括数学问题解决、数据分析、学术研究、学习辅导等。目前，通用或垂类大模型都具备一定的数学能力，而其能力表现则需要专门测评。

不过现有大模型能力测评多数是对通用能力的测评，也有对推理能力、自然科学能力的专门测评中，但没有专门针对数学能力测评的参考基准，以及专门的权威测评机构。

MathEval的上线，弥补了行业空白。MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起，是一个专注于全面评估大模型数学能力的测评基准，旨在全面评估大模型在算术、小初高竞赛和部分高等数学分支在内的解题能力表现。

截至目前，MathEval收集了2010年以来共19个被广泛使用的数学能力测评数据集，这些数据集来自ACL、AAAI、ICLR等数十个国际人工智能顶会论文中的公开数据，覆盖了不同年级、题型、文本形式和难度的数学问题，从而提供全面、具体的数学能力测评结果。

最新这次测评中，MathEval测试了30个大模型。在评测过程中，MathEval团队使用了GPT4大模型来进行答案抽取和答案的匹配，减少基于规则进行评测所带来的误差。结果显示，九章大模型在整体榜单和子榜单均排第一名。

九章大模型是由学而思自主研发的、面向全球数学爱好者和科研机构的垂类大模型。据悉，该公司在相关研发方面已累计投入超10亿元。可以说，作为少有的专注解题和讲题算法的大模型，九章这一表现并不意外。

同时，作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表现也颇为亮眼，占据了第二、三位，均优于GPT-4。由此可见，国产大模型在数学方面的能力已经实现了赶超，未来能力提升和落地应用值得期待。

阅读(6558)
点赞
评论

点赞
评论

推荐文章

: 一周职教｜广东拟出台政策规范学徒制培训工作；马蜂窝与山东旅游职业学院打通校企合作

职业教育

: 教育部：监测显示非学科类培训价格总体平稳

教育热点

: 2025WWEC论坛预告｜第二届长三角职业教育高质量发展大会，完整议程+嘉宾已出！

教育热点

: “第十届榜样教育年度盛典”入选名单，重磅发布！

教育热点

: 预收费监管新政落地，对于教培机构来说意味着什么？

行业洞察

: 小众赛道异军突起，产业规模有望突破1万亿

行业洞察

发表评论

: 登录后评论

登录教育界网

用户注册

重置密码

提示用户信息

返回顶部

教育界网

登录