【图片】【胡搞瞎搞】用希灵帝国对AI的数学推理能力进行测试_希灵帝国吧

04月04日漏签0天

希灵帝国吧关注：87,854贴子：5,113,679

11回复贴，共1页

<返回希灵帝国吧

【胡搞瞎搞】用希灵帝国对AI的数学推理能力进行测试

只看楼主收藏回复

突发奇想：测试一下目前几个AI的数学推理能力。
问题内容：已知，希灵帝国里的希灵主机泡泡，每分钟能制造一个量产泡泡。而每个量产泡泡，每分钟也能制造一个量产泡泡。假设一开始只有泡泡自己一台主机，问：一个小时之后，帝国里有多少个量产泡泡？

送TA礼物

IP属地:陕西

1楼2025-01-21 02:25回复

这问题看着简单，就是一个指数增长问题。但里面有几个坑：首先“希灵帝国”本身就是一个巨大的“资讯干扰源”，老一点的AI会陷入到书本的内容里面，试图从原作和网络上的内容里寻找“帝国有多少个量产泡泡”的答案（当然是找不到的）。新一些的AI应该不至于犯这种错误，能把注意力集中在后面的数学问题上，但不试一下不知道。
然后一个坑来自于问题本身：问的是最后有多少个“量产泡泡”，而在一个小时的过程里，泡泡本体也会不停的生产量产泡泡，同时在最后的结果里也需要把泡泡本体减掉。“泡泡”这个单词是比较常见的单词，能否识别出文中的泡泡是一个专有名词，同时区分开泡泡和量产泡泡，是一个考点。
最后就是，这个问题虽然不复杂，但是我自己脑洞出来的，不来源于任何网络上的题目。前不久有学者对市面上的几大AI的数学推理能力进行了一次测试，用的不是常见的测试用例，而是将原本的测试题干进行了改动，同时自己又新出了一些题，结果发现几大AI得分异常的差，百分制下最终得分都在个位数，最高一个也才得了33分。怀疑这些AI在网上刷题刷傻了，用学名来说就是“过拟合”。于是我就想自己测试一下试试。
至于为啥会用希灵帝国，别问，问就是虚空扰动。
先叠甲：本测试只是自己的脑洞和蛋疼综合起来的产物，测试结果也只能反映该AI在当前时间段下对此特定问题的解答能力，不能当做严谨的AI测试，不代表该AI的综合能力，也不代表该AI未来的发展潜力。总之大家当个乐子看就行了。

IP属地:陕西

2楼2025-01-21 02:26

【Kimi】
首先上场的选手是我经常用的Kimi。Kimi在宣传中就常说自己的数学推理能力强，所以先拿它来过过水：

Kimi选手过程给的不错，也没有陷入到书本内容的循环里，但是仔细看了一下过程，就可以发现它因为过早的考虑“最终结果只计算量产泡泡”这个问题，进入了错误的推理循环。最后结果不对全白搭。

IP属地:陕西

3楼2025-01-21 02:27

【豆包】
我经常拿豆包来画一些场景图，用作场景的前期概念设计，帮助激发灵感，倒是很少用它来搜索文字内容，所以也不知道它表现的怎么样：

不是吧哥们？明明前面都认出来了这是个指数增长问题，可后面的计算却又傻掉了。我堂堂大帝国怎么能只有60个量产泡泡！不及格，下一个！

IP属地:陕西

4楼2025-01-21 02:28

【文心一言】
老牌选手文心一言登场。用的是文心大模型3.5，结果如下：
文心不能分享成图片，只能复制文字。所以我还得自己截图拼起来……

可以看到分析过程被搞的毫无意义的复杂（什么2.2代，3.1代的，根本没必要），而且计算过程中也搞混了泡泡和量产泡泡。最后结果的数量级是对的，嗯，也就是数量级对了，果然忘了把泡泡本体减掉。可惜！

IP属地:陕西

5楼2025-01-21 02:30

【通义千问】
重量级选手来了……至少在我的GPU上跑起来挺重的。不过我没用他们的开源版本，而是和前面一样在网页版上测试，控制变量嘛！模型是通义千问2.5。
通义也不能分享成图片，好在解答过程比较简洁一个截图搞定：

太棒了，第一个正确答案出来了！不仅计算过程清晰明确，且最后注意到了泡泡和量产泡泡的区别！满昏！

IP属地:陕西

6楼2025-01-21 02:32

【天工AI】
我曾经用过一段时间天工，拿它搜一些文献资料什么的倒是挺容易的，不过我还真没试过它的数学能力。这位选手同样不能分享图片所以也得截图。结果如下：

推理过程简洁明了，不错；但没有区分开泡泡和量产泡泡，可惜！

IP属地:陕西

7楼2025-01-21 02:33

【海螺AI】
最近海螺家的MiniMax模型在开源圈闹的沸沸扬扬的，也不知道是刷的水文还是真的有这么强。我没有使用过这个AI，对这位选手不怎么熟悉，正好来试验一下。
可以分享图片，先给个好评（虽然生成图片的过程有点慢了）。结果如图：

意外的惊艳！它是唯一一个给出了2^n-1计算公式的选手，而且在过程和结果的描述上都没有混淆泡泡和量产泡泡。有点实力啊哥们，看来真不是吹的。

IP属地:陕西

8楼2025-01-21 02:35

小结
曾经在老一代生成式AI上普遍存在的“注意力涣散”问题，在这些新生代AI上都没有出现，大家都排除了帝国的资讯干扰。都很不错。
只不过在最终的结果上就参差不齐了，有一步错步步错的，有不及格和小孩坐一桌的，有分析过程繁琐冗杂最后结果却不对的。且不少选手都有混淆了泡泡和量产泡泡的问题。看来我这个坑埋的还是不错的。
因为没买GPT-4o，所以也就没测它了。最后测试的六名选手里，通义千问和海螺AI的结果是对的，其中海螺还给出了通用的计算公式，略胜一筹。
巧的是这俩都是有发布开源模型的，果然留给我们的唯有一条路，那就是希……啊不对，开源共享的道路！