当前位置: 首页 >
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 人气:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-25马上领证了,发现男朋友离不了游戏,让他少打游戏他会非常生气,正常吗?
- 2025-06-25如何看待某日本小学校园餐只有一小块鸡肉?
- 2025-06-25在中国有多少开发者使用Rust编程语言?
- 2025-06-25可以随身携带一个Linux系统吗?
- 2025-06-25扫黑风暴为什么他们费老大劲杀这么多人不如直接把督导组干掉?
- 2025-06-25MacOS真的比Windows流畅吗?
- 2025-06-252025年了,为何丰田还没破产?
- 2025-06-25为什么突破性的技术总是最先发生在西方?
- 2025-06-25日本AV对中国人的毒害有多大?
- 2025-06-25苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
- 2025-06-25真的没有人觉得2k是一个很尴尬的分辨率吗?
- 2025-06-25为什么国内程序员们没有联合起来设计一种中英文严格2:1宽度比的字体呢?
- 2025-06-25为什么 Windows 没有比较成熟的第三方桌面环境(explorer.exe)?
- 2025-06-25美国这几年为什么衰落得如此之快?
- 2025-06-25成龙在好莱坞所达到过的最高咖位是什么级别?
- 2025-06-25普通用户能体会到 CPU 的性能差距吗?
推荐产品
-
golang和rust你选择哪个?
我自觉是无法参与基础设施建设的开发者,所以对 Rust 不是 -
《原神》5.7 版本魔神任务第五章•第六幕「你存在的时空」体验如何?
重磅信息太多了,就先写一下其他的 坎瑞亚.北欧神话原典首先是 -
成为体育女主播,光「好看」就够了吗?
其实早就想说体育女主播相关的事儿了。 一个是因为,她们确实现 -
为什么 electron 不做成独立的 runtime?
几个月前一个electron安全更新干废了vscode的剪贴
最新资讯




