教育界网 > 教育热点 >正文

2.6万学生数据跟踪：使用AI对尖子生的成绩损害最大？

教育热点

作者：原创发布时间：2026-06-29

生成式AI在教育环节中的使用，正在成为一场跨越国界的「教育焦虑」。

近日，一家欧洲经济智库发布的论文，引爆国内教育圈，也在各大家长群刷屏。

原因是，这篇论文的研究团队从2022年9月起，真实跟踪了中国中部某县2.6万名初高中学生使用生成式AI后，长达30个月的学业轨迹变化。

并且，该数据指向一个极具价值的结论：AI的引入在短期内为学生制造了一种学业进步的幻觉，而其长期负面影响导致依赖AI的学生，中高考成绩大幅下降18%-24%。

这并非国内独有的教育困境。近日，挪威首相宣布对6至13岁的小学生几乎全面禁止生成式AI，14至16岁的学生也仅限在教师督导下使用。

由此，引申出三个值得深入追问的问题：为何AI能短期推高作业分数，却在中高考这样的真实能力检验中造成长期损害？面对这种“AI困境”，国内外采取的措施有何不同？在AI使用的真实场景中，我们又该如何避免学生使用AI时所带来的成绩损失？

AI制造“进步幻觉”

顶尖学生的成绩损失更惨重？

该论文由斯德哥尔摩大学和香港大学联合，在欧洲经济政策研究中心（CEPR）发布，题为《生成式AI学习惩罚：来自中国中等教育的证据》（The Generative AI Learning Penalty: Evidence from Chinese Secondary Education；论文编号 DP21577）

研究追踪的2.6万名中国初高中学生，所使用的AI工具都是面向全民的通用型大模型，而非专门设计的教育辅导产品。

其中47%用豆包，36%用DeepSeek，14%用ChatGLM，还有一些文心一言和通义千问。

核心结论之一是，AI为学生的日常学习制造了一种坚实的“进步幻觉”。

研究团队从当地教育局获取了三类数据——每月闭卷考试成绩（覆盖9个科目）、每周作业分数及数字平台自动记录的完成时间（平均58分钟），以及中考和高考成绩。

数据清晰地勾勒出一条分岔的轨迹：使用AI后，学生的作业分数迅速上升了18%，同时作业完成时间大幅减少了30%。但仅仅在六个月内，这些依赖AI的学生的月考分数就出现了20%的断崖式下滑。

更令人担忧的是长期影响，这部分学生的中高考成绩也出现了显著倒退。

作业分数在涨，月考、中高考成绩在跌，这是进步幻觉最直观的注脚。

然而，作业与考试的背离，仅仅揭示了代价的表面。更值得警惕的是，这种代价并非均匀分布，而是精准地打击了那些本应最具竞争力的群体。

在学科层面，需要深度逻辑阐述和批判性思维的社会科学领域（如政治、地理）受到的冲击最大，平均成绩下降27%，远超STEM理工科和语言类学科。

在年龄层面，初中生比高中生更容易受到学习惩罚的波及；在性别层面，男生群体的成绩损失更为显著。

但最反直觉的发现来自学业水平维度。原本自学能力最强的顶尖学生，在过度使用AI后遭遇的成绩降幅最为惨重，高达24%。

为什么顶尖高分学生反而成绩降幅更大？研究人员给出的解释是，AI生硬地中断了顶尖学生自行构建复杂知识的心智模型的链条。

对于高分学生来说，其优势本就建立在独立推导、反复试错、自我纠偏的认知挣扎之上，而AI的一键答案恰好跳过了这一过程。它剥夺的不是学习时间，而是思考本身。

究其根本，是高达81%的AI使用者不自觉地沦为了作业外包商。

所谓外包，指的是学生直接利用AI生成答案并复制粘贴上交，跳过了理解、推导与内化的思考步骤。这种行为在短期内制造了学起来很轻松的反馈假象，却在真正检验能力的考场上将知识漏洞暴露无遗。

而这场“学习惩罚”之所以能长期隐蔽，恰恰是因为三个层面的信息不对称相互叠加。

教师层面，单科教师只看到本门作业的高分，无法综合判断学生的真实能力变化；管理者层面，县域教育管理者被初期不明显的平均分波动所麻痹；学生自身则深陷虚假的成就感中，尚未意识到自己已经在逐渐失去了独立思考和解题的能力。

也就是说作业分数掩盖了能力塌方，个体案例掩盖了系统风险。

挪威在禁止，国内在普及

学生为何依赖AI？

当CEPR论文揭示出AI的“学习惩罚”时，一个更宏观的追问浮出水面：为什么挪威乃至整个欧洲都在对AI进入基础教育踩刹车，而国内却选择了加速普及？

挪威的禁令并非孤例。过去两年，多个欧美国家已经以不同方式对AI进入基础教育踩下了刹车。

法国自2025年起，明确禁止中小学使用ChatGPT等生成式AI，官方给出的理由是其阻碍了批判性思维的养成。

意大利曾一度封禁ChatGPT，解禁后仍对教育场景的使用条件做出极为严格的限定。瑞典则推行数字隔离政策，强调中小学回归纸质教材与手写练习，试图从物理层面切断数字设备对学习的侵蚀。

但禁令本身也有其局限性。AI技术并不会因为禁令消失，一刀切的禁止可能错失AI作为个性化教学工具的潜力，也可能让学生到高年级因缺乏接触而更加生疏。

再看国内，AI在中国教育中几乎是无障碍地快速铺开。

一个关键差异在于：欧洲的减速基于AI对基础教育的风险大于收益的判断；而国内的加速基于AI是提升教育效率的工具，而非需要防御的对象的逻辑推理。

这一逻辑的底层，是学生和家长真实的依赖理由。

一方面，高强度竞争催生了效率刚需。 国内教育体系以分数为核心评价标准，作业量、考试频率、升学压力构成了一条刚性传导链。能够缩短作业时间、提升作业分数的工具，容易被学生和家长采纳。

另一方面，弥漫性的错失焦虑在持续放大这种依赖。家长最担心的不是作业效率，而是一个更具威胁性的问题：当AI工具日益普及，不使用AI的学生是否会在未来竞争中提前出局。“怎么用”“用多少”这些本应前置的追问，在“先用起来”的集体选择面前被暂时搁置。

而这套依赖逻辑之所以能够快速运转，还有一个结构性的前提：政策端的鼓励。

从教育部到地方教育局，AI进校园是过去两年最强劲的潮流之一。公开课要用AI，评优课要融AI，教育系统将“AI进课堂”视为教育现代化的题中之义。

产业端的助推同样不可忽视。国产大模型（豆包、DeepSeek等）正处于快速迭代期，教育场景是其最重要的落地渠道之一。全面禁止意味着切断反馈优化链条，这个代价在AI全球竞赛中是否值得承担，是一个远比教育本身更复杂的权衡。

预防“学习惩罚”：用AI检查思考

CEPR论文的数据中，有一个容易被忽略的细节：约20%的AI使用者并未遭受学习惩罚，考试成绩保持稳定。

他们的共同特征，体现在作业时长这一变量上。这20%的学生，作业耗时与不使用AI的同学几乎持平。他们先独立完成思考与尝试，再借助AI进行补充和验证，而非将AI作为答案的起点。

关键区别在于AI用于检验思考，而非替代思考。

对于81%使用AI进行作业外包的学生，中国人民大学朱丹点出了更深的结构矛盾：传统教育建立在知识稳定的默认前提上，学生须在规定时间学完规定内容。这个前提在工业时代成立，在AI时代正在瓦解。知识更新速度远超教材迭代周期。

也就是说，教材还在教记忆，AI已经能随时调取。考试还在考复现，AI已经能直接生成。学生在这个结构里选择用AI，与其说是懒惰，不如说是本能反应。用更短的时间完成规定的任务。

预防学习惩罚，教师端可以先率先行动。教育部部长怀进鹏在世界数字教育大会上定了调：教师须通科技、善引导、有温度。

通科技，是驾驭技术而非被动排斥；善引导，是从知识传授转向思维启迪；有温度，是在技术深度介入的过程中始终守护人的主体性，警惕技术对基础思维训练的侵蚀。

但仅靠教师端的转型远远不够。当评价体系依然以“在规定时间内复现规定内容”为核心标准，当作业依然可以被AI轻松完成而无需付出认知代价，学生的选择不会改变。

如何在作业设计中嵌入无法被AI替代的思考环节，如何让考试真正检验理解而非记忆，如何建立区分使用AI辅助与让AI代劳的评价尺度——

这些是更具体、也更艰难的AI教育课题。

阅读(3038)
点赞
评论

点赞
评论