当深度推理大模型化身考生 “李华”,面对英语学科的独特要求,能否达到人类教师的高分标准?
6月8日,伴随着2025高考英语考试,一支由国产第一梯队大模型组成的”考生队伍”也进入了考场,题目正是今年高考英语北京卷的作文题目。其中,讯飞星火凭借优秀的语言能力拔得头筹,成为本届大模型高考“状元”。
据悉,本次“大考”均在关闭联网功能,并开启深度思考模式的条件下进行测试,题目要求以高三学生"李华"的视角,围绕联合国倡议征集活动向外国好友Jim撰写建议邮件。为确保公正性,主办方邀请了两名资深英语老师进行“盲评”。参加考试的大模型包括DeepSeek R1、ChatGPT o3、通义千问Qwen3、腾讯混元T1、讯飞星火、百度文心X1六款深度推理大模型产品,堪称AI领域"最强考生天团"。
经过严格评阅,六款模型最终排名揭晓,从高到低依次为:讯飞星火、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。
两位老师表示,在内容方面,上述深度推理大模型均能做到切中要点,完成写作任务,其差别主要体现在内容细节多少、细节逻辑关系强弱、观点表达精准性与简洁性等方面。
其中,讯飞星火作为冠军,在审题、表达、逻辑等多个维度均表现出明显优势。比如在精准审题上,其提出的“全球气候行动网络”紧扣命题;在句式应用方面,能够灵活运用形式多变的句法结构;而在逻辑上,讯飞星火针对各个核心要点均作出了较为深入的解释。为此,两位老师基于往年高考评分标准,分别给出了20分和19分的高分成绩。
讯飞星火的夺冠绝非偶然。作为深耕教育领域20余年的行业领军者,讯飞将长期积累的教学资源与前沿AI技术深度融合,并不断迭代。此次参赛的讯飞星火,曾在4月20日进行技术升级,升级后在逻辑推理、文本生成等核心能力上提升显著。
随着讯飞星火深度推理大模型的持续优化,其角色正从辅助工具向 "智慧伙伴" 演进。展望未来,如何让大模型真正成为教育创新的"催化剂",打造教育领域的新质生产力,或将成为决定下一阶段行业探索的关键命题。