希灵帝国吧 关注:87,854贴子:5,113,679
  • 11回复贴,共1

【胡搞瞎搞】用希灵帝国对AI的数学推理能力进行测试

只看楼主收藏回复

突发奇想:测试一下目前几个AI的数学推理能力。
问题内容:已知,希灵帝国里的希灵主机泡泡,每分钟能制造一个量产泡泡。而每个量产泡泡,每分钟也能制造一个量产泡泡。假设一开始只有泡泡自己一台主机,问:一个小时之后,帝国里有多少个量产泡泡?


IP属地:陕西1楼2025-01-21 02:25回复
    这问题看着简单,就是一个指数增长问题。但里面有几个坑:首先“希灵帝国”本身就是一个巨大的“资讯干扰源”,老一点的AI会陷入到书本的内容里面,试图从原作和网络上的内容里寻找“帝国有多少个量产泡泡”的答案(当然是找不到的)。新一些的AI应该不至于犯这种错误,能把注意力集中在后面的数学问题上,但不试一下不知道。
    然后一个坑来自于问题本身:问的是最后有多少个“量产泡泡”,而在一个小时的过程里,泡泡本体也会不停的生产量产泡泡,同时在最后的结果里也需要把泡泡本体减掉。“泡泡”这个单词是比较常见的单词,能否识别出文中的泡泡是一个专有名词,同时区分开泡泡和量产泡泡,是一个考点。
    最后就是,这个问题虽然不复杂,但是我自己脑洞出来的,不来源于任何网络上的题目。前不久有学者对市面上的几大AI的数学推理能力进行了一次测试,用的不是常见的测试用例,而是将原本的测试题干进行了改动,同时自己又新出了一些题,结果发现几大AI得分异常的差,百分制下最终得分都在个位数,最高一个也才得了33分。怀疑这些AI在网上刷题刷傻了,用学名来说就是“过拟合”。于是我就想自己测试一下试试。
    至于为啥会用希灵帝国,别问,问就是虚空扰动。
    先叠甲:本测试只是自己的脑洞和蛋疼综合起来的产物,测试结果也只能反映该AI在当前时间段下对此特定问题的解答能力,不能当做严谨的AI测试,不代表该AI的综合能力,也不代表该AI未来的发展潜力。总之大家当个乐子看就行了。


    IP属地:陕西2楼2025-01-21 02:26
    回复
      【Kimi】
      首先上场的选手是我经常用的Kimi。Kimi在宣传中就常说自己的数学推理能力强,所以先拿它来过过水:

      Kimi选手过程给的不错,也没有陷入到书本内容的循环里,但是仔细看了一下过程,就可以发现它因为过早的考虑“最终结果只计算量产泡泡”这个问题,进入了错误的推理循环。最后结果不对全白搭。


      IP属地:陕西3楼2025-01-21 02:27
      回复
        【豆包】
        我经常拿豆包来画一些场景图,用作场景的前期概念设计,帮助激发灵感,倒是很少用它来搜索文字内容,所以也不知道它表现的怎么样:

        不是吧哥们?明明前面都认出来了这是个指数增长问题,可后面的计算却又傻掉了。我堂堂大帝国怎么能只有60个量产泡泡!不及格,下一个!


        IP属地:陕西4楼2025-01-21 02:28
        回复
          【文心一言】
          老牌选手文心一言登场。用的是文心大模型3.5,结果如下:
          文心不能分享成图片,只能复制文字。所以我还得自己截图拼起来……

          可以看到分析过程被搞的毫无意义的复杂(什么2.2代,3.1代的,根本没必要),而且计算过程中也搞混了泡泡和量产泡泡。最后结果的数量级是对的,嗯,也就是数量级对了,果然忘了把泡泡本体减掉。可惜!


          IP属地:陕西5楼2025-01-21 02:30
          回复
            【通义千问】
            重量级选手来了……至少在我的GPU上跑起来挺重的。不过我没用他们的开源版本,而是和前面一样在网页版上测试,控制变量嘛!模型是通义千问2.5。
            通义也不能分享成图片,好在解答过程比较简洁一个截图搞定:

            太棒了,第一个正确答案出来了!不仅计算过程清晰明确,且最后注意到了泡泡和量产泡泡的区别!满昏!


            IP属地:陕西6楼2025-01-21 02:32
            回复
              【天工AI】
              我曾经用过一段时间天工,拿它搜一些文献资料什么的倒是挺容易的,不过我还真没试过它的数学能力。这位选手同样不能分享图片所以也得截图。结果如下:

              推理过程简洁明了,不错;但没有区分开泡泡和量产泡泡,可惜!


              IP属地:陕西7楼2025-01-21 02:33
              回复
                【海螺AI】
                最近海螺家的MiniMax模型在开源圈闹的沸沸扬扬的,也不知道是刷的水文还是真的有这么强。我没有使用过这个AI,对这位选手不怎么熟悉,正好来试验一下。
                可以分享图片,先给个好评(虽然生成图片的过程有点慢了)。结果如图:

                意外的惊艳!它是唯一一个给出了2^n-1计算公式的选手,而且在过程和结果的描述上都没有混淆泡泡和量产泡泡。有点实力啊哥们,看来真不是吹的。


                IP属地:陕西8楼2025-01-21 02:35
                回复
                  小结
                  曾经在老一代生成式AI上普遍存在的“注意力涣散”问题,在这些新生代AI上都没有出现,大家都排除了帝国的资讯干扰。都很不错。
                  只不过在最终的结果上就参差不齐了,有一步错步步错的,有不及格和小孩坐一桌的,有分析过程繁琐冗杂最后结果却不对的。且不少选手都有混淆了泡泡和量产泡泡的问题。看来我这个坑埋的还是不错的。
                  因为没买GPT-4o,所以也就没测它了。最后测试的六名选手里,通义千问和海螺AI的结果是对的,其中海螺还给出了通用的计算公式,略胜一筹。
                  巧的是这俩都是有发布开源模型的,果然留给我们的唯有一条路,那就是希……啊不对,开源共享的道路!


                  IP属地:陕西9楼2025-01-21 02:37
                  回复
                    大家也可以拿着这个问题去问问别的AI试试,但要试就尽快。过段时间AI们检索到这个帖子后,这个测试就无效了


                    IP属地:陕西10楼2025-01-21 02:38
                    回复
                      试了一下Kimi的k1.5长思考,看他颠来倒去思考了一通之后,居然给出了正确的计算公式和答案,不错,进步明显


                      IP属地:陕西11楼2025-02-05 16:04
                      回复
                        deepseek好几天都是服务器繁忙,今天总算让我给刷出来了。
                        作为现在的网红AI,表现也是毫无问题,给出的答案也是清晰明了。不过也有和k1.5一样的颠来倒去思考同一个问题的毛病,导致思考过程用时很长。


                        IP属地:陕西13楼2025-02-05 18:21
                        回复