登录
教育界网 > 教育热点 >正文

2.6万学生数据跟踪:使用AI对尖子生的成绩损害最大?

教育热点
作者:原创 发布时间:2026-06-29

生成式AI在教育环节中的使用,正在成为一场跨越国界的「教育焦虑」。

近日,一家欧洲经济智库发布的论文,引爆国内教育圈,也在各大家长群刷屏。

原因是,这篇论文的研究团队从2022年9月起,真实跟踪了中国中部某县2.6万名初高中学生使用生成式AI后,长达30个月的学业轨迹变化。

并且,该数据指向一个极具价值的结论:AI的引入在短期内为学生制造了一种学业进步的幻觉,而其长期负面影响导致依赖AI的学生,中高考成绩大幅下降18%-24%。

这并非国内独有的教育困境。近日,挪威首相宣布对6至13岁的小学生几乎全面禁止生成式AI,14至16岁的学生也仅限在教师督导下使用。

由此,引申出三个值得深入追问的问题:为何AI能短期推高作业分数,却在中高考这样的真实能力检验中造成长期损害?面对这种“AI困境”,国内外采取的措施有何不同?在AI使用的真实场景中,我们又该如何避免学生使用AI时所带来的成绩损失?

AI制造“进步幻觉”

顶尖学生的成绩损失更惨重?

该论文由斯德哥尔摩大学和香港大学联合,在欧洲经济政策研究中心(CEPR)发布,题为《生成式AI学习惩罚:来自中国中等教育的证据》(The Generative AI Learning Penalty: Evidence from Chinese Secondary Education;论文编号 DP21577)

研究追踪的2.6万名中国初高中学生,所使用的AI工具都是面向全民的通用型大模型,而非专门设计的教育辅导产品。

其中47%用豆包,36%用DeepSeek,14%用ChatGLM,还有一些文心一言和通义千问。

核心结论之一是,AI为学生的日常学习制造了一种坚实的“进步幻觉”。

研究团队从当地教育局获取了三类数据——每月闭卷考试成绩(覆盖9个科目)、每周作业分数及数字平台自动记录的完成时间(平均58分钟),以及中考和高考成绩。

数据清晰地勾勒出一条分岔的轨迹:使用AI后,学生的作业分数迅速上升了18%,同时作业完成时间大幅减少了30%。但仅仅在六个月内,这些依赖AI的学生的月考分数就出现了20%的断崖式下滑。

更令人担忧的是长期影响,这部分学生的中高考成绩也出现了显著倒退。

作业分数在涨,月考、中高考成绩在跌,这是进步幻觉最直观的注脚。

然而,作业与考试的背离,仅仅揭示了代价的表面。更值得警惕的是,这种代价并非均匀分布,而是精准地打击了那些本应最具竞争力的群体。

在学科层面,需要深度逻辑阐述和批判性思维的社会科学领域(如政治、地理)受到的冲击最大,平均成绩下降27%,远超STEM理工科和语言类学科。

在年龄层面,初中生比高中生更容易受到学习惩罚的波及;在性别层面,男生群体的成绩损失更为显著。

但最反直觉的发现来自学业水平维度。原本自学能力最强的顶尖学生,在过度使用AI后遭遇的成绩降幅最为惨重,高达24%。

为什么顶尖高分学生反而成绩降幅更大?研究人员给出的解释是,AI生硬地中断了顶尖学生自行构建复杂知识的心智模型的链条。

对于高分学生来说,其优势本就建立在独立推导、反复试错、自我纠偏的认知挣扎之上,而AI的一键答案恰好跳过了这一过程。它剥夺的不是学习时间,而是思考本身。

究其根本,是高达81%的AI使用者不自觉地沦为了作业外包商。

所谓外包,指的是学生直接利用AI生成答案并复制粘贴上交,跳过了理解、推导与内化的思考步骤。这种行为在短期内制造了学起来很轻松的反馈假象,却在真正检验能力的考场上将知识漏洞暴露无遗。

而这场“学习惩罚”之所以能长期隐蔽,恰恰是因为三个层面的信息不对称相互叠加。

教师层面,单科教师只看到本门作业的高分,无法综合判断学生的真实能力变化;管理者层面,县域教育管理者被初期不明显的平均分波动所麻痹;学生自身则深陷虚假的成就感中,尚未意识到自己已经在逐渐失去了独立思考和解题的能力。

也就是说作业分数掩盖了能力塌方,个体案例掩盖了系统风险。

挪威在禁止,国内在普及

学生为何依赖AI?

当CEPR论文揭示出AI的“学习惩罚”时,一个更宏观的追问浮出水面:为什么挪威乃至整个欧洲都在对AI进入基础教育踩刹车,而国内却选择了加速普及?

挪威的禁令并非孤例。过去两年,多个欧美国家已经以不同方式对AI进入基础教育踩下了刹车。

法国自2025年起,明确禁止中小学使用ChatGPT等生成式AI,官方给出的理由是其阻碍了批判性思维的养成。

意大利曾一度封禁ChatGPT,解禁后仍对教育场景的使用条件做出极为严格的限定。瑞典则推行数字隔离政策,强调中小学回归纸质教材与手写练习,试图从物理层面切断数字设备对学习的侵蚀。

但禁令本身也有其局限性。AI技术并不会因为禁令消失,一刀切的禁止可能错失AI作为个性化教学工具的潜力,也可能让学生到高年级因缺乏接触而更加生疏。

再看国内,AI在中国教育中几乎是无障碍地快速铺开。

一个关键差异在于:欧洲的减速基于AI对基础教育的风险大于收益的判断;而国内的加速基于AI是提升教育效率的工具,而非需要防御的对象的逻辑推理。

这一逻辑的底层,是学生和家长真实的依赖理由。

一方面,高强度竞争催生了效率刚需。 国内教育体系以分数为核心评价标准,作业量、考试频率、升学压力构成了一条刚性传导链。能够缩短作业时间、提升作业分数的工具,容易被学生和家长采纳。

另一方面,弥漫性的错失焦虑在持续放大这种依赖。家长最担心的不是作业效率,而是一个更具威胁性的问题:当AI工具日益普及,不使用AI的学生是否会在未来竞争中提前出局。“怎么用”“用多少”这些本应前置的追问,在“先用起来”的集体选择面前被暂时搁置。

而这套依赖逻辑之所以能够快速运转,还有一个结构性的前提:政策端的鼓励。

从教育部到地方教育局,AI进校园是过去两年最强劲的潮流之一。公开课要用AI,评优课要融AI,教育系统将“AI进课堂”视为教育现代化的题中之义。

产业端的助推同样不可忽视。国产大模型(豆包、DeepSeek等)正处于快速迭代期,教育场景是其最重要的落地渠道之一。全面禁止意味着切断反馈优化链条,这个代价在AI全球竞赛中是否值得承担,是一个远比教育本身更复杂的权衡。

预防“学习惩罚”:用AI检查思考

CEPR论文的数据中,有一个容易被忽略的细节:约20%的AI使用者并未遭受学习惩罚,考试成绩保持稳定。

他们的共同特征,体现在作业时长这一变量上。这20%的学生,作业耗时与不使用AI的同学几乎持平。他们先独立完成思考与尝试,再借助AI进行补充和验证,而非将AI作为答案的起点。

关键区别在于AI用于检验思考,而非替代思考。

对于81%使用AI进行作业外包的学生,中国人民大学朱丹点出了更深的结构矛盾:传统教育建立在知识稳定的默认前提上,学生须在规定时间学完规定内容。这个前提在工业时代成立,在AI时代正在瓦解。知识更新速度远超教材迭代周期。

也就是说,教材还在教记忆,AI已经能随时调取。考试还在考复现,AI已经能直接生成。学生在这个结构里选择用AI,与其说是懒惰,不如说是本能反应。用更短的时间完成规定的任务。

预防学习惩罚,教师端可以先率先行动。教育部部长怀进鹏在世界数字教育大会上定了调:教师须通科技、善引导、有温度。

通科技,是驾驭技术而非被动排斥;善引导,是从知识传授转向思维启迪;有温度,是在技术深度介入的过程中始终守护人的主体性,警惕技术对基础思维训练的侵蚀。

但仅靠教师端的转型远远不够。当评价体系依然以“在规定时间内复现规定内容”为核心标准,当作业依然可以被AI轻松完成而无需付出认知代价,学生的选择不会改变。

如何在作业设计中嵌入无法被AI替代的思考环节,如何让考试真正检验理解而非记忆,如何建立区分使用AI辅助与让AI代劳的评价尺度——

这些是更具体、也更艰难的AI教育课题。

  • 阅读(3038)
推荐文章
发表评论
登录 后评论
登录教育界网
用户注册
重置密码
登录
忘记密码 创建帐户
获取验证码
注册
已有账号,立即登录
获取验证码
确认
已有账号,立即登录
提示用户信息
返回顶部