网站地图官方微信:
网站首页 嘉会镇 建阳镇 船场镇 银河镇 南寨镇 热瓦乡

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 如何看待rust编写的zed编辑器? |

    zed和协作服务器都是完全开源的,不像vscode二进制发行...

    查看详情>>
  • | 从零写一个3D物理引擎难度多大? |

  • | 如何寻找到相对完整的真正的游戏的源码用来学习? |

  • | 为什么不用rust重写Nginx? |

  • | 爱人离世之后,还能正常生活吗?需要多久? |

  • | 选mac还是高端windows? |

  • | 都说苹果是细节狂魔,那苹果有没有细节其实做的很差的点? |

  • | golang 与rust 在服务器程序领域相比较,各有什么优劣势? |

  • | 广西桂军真的很厉害吗? |

  • | 女朋友去露营,3女2男的,要在野外搭帐篷过一夜,她的闺蜜不想让我去,我该怎么办? |

  • | 尊界S800 车内软包部分***用 0.2mm - 0.5mm 超细针脚缝制处于什么工艺水平? |

  • 赞藏比马上 1 :3 了,求多点点赞 我在NAS上使用的应用...

    2025-06-20
  • 如果知乎算海的话,那我,被捞着了。 事情是这样的:我以前有...

    2025-06-20
  • 那自然是刘亦菲打枪图: 这颜值,这发量,这腰身,这曲...

    2025-06-20
  • all in one = all in boom 。 这是...

    2025-06-20

关注我们

添加微信好友,关注最新动态