当前位置: 首页 >
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 人气:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-19arxiv国内有镜像网站吗?
- 2025-06-19雅鲁藏布江水电站建好之后,发出来的电把雅鲁藏布江的水抽得再高一点,缩短距离,通过管道流到新疆是否可行?
- 2025-06-19UBI(Universal basic income,全民基本收入)可行吗?
- 2025-06-19曾经的班花,现在还多少人惦记?
- 2025-06-19以色列为什么突然敢打伊朗了?不怕被报复?
- 2025-06-19***如古代长城用的是C140混凝土,那千百年下来会完整的留存至今还是损坏的更加严重?
- 2025-06-19Vim 有什么奇技淫巧?
- 2025-06-19网传厦门某国企研发部门要求每日考察后端 400 行,前端 1000 行代码量,如属实,这个考核合理吗?
- 2025-06-19大街上看到大白腿,忍不住瞄了两眼,算不算不尊重女性?
- 2025-06-19为什么有的女生喜欢穿紧身牛仔裤?
- 2025-06-19哪张照片让你觉得刘亦菲美得不可方物?
- 2025-06-19你的低成本爱好是什么?
- 2025-06-19《原神》5.7 版本魔神任务第五章•第六幕「你存在的时空」体验如何?
- 2025-06-19中国女篮张子宇身高 2 米 26 制霸赛场,身高因素在篮球比赛中能占多大优势?她会是下一个「姚明」吗?
- 2025-06-19蜂鸟音乐指控邓紫棋侵权,要求 48 小时内下架重录歌曲,邓紫棋回应「不会下架」,这一指控合理吗?
- 2025-06-19广州的公共交通为什么这么烂?
推荐产品
-
中国军事力量在亚洲能排第一吗?
全网最全、最深度的,中国军力分析报告。 。 1,2025年中 -
我不太明白为什么要买房,每个月租2、3千的房子不是挺好的吗?
除非你有全款买房的资金,而且这笔资金只占你总资产的一部分,并 -
如何看待《剑星》已登顶 Steam 全球热销榜?
制作人叫金亨泰——King Hentai,不对,Hentai -
剪映为什么显卡会跑满?
爆内存了,轨道多把内存搞到32G再说,显存也快爆了,起码搞个
最新资讯




