网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
04月04日
漏签
0
天
希灵帝国吧
关注:
87,854
贴子:
5,113,679
看贴
图片
吧主推荐
视频
游戏
11
回复贴,共
1
页
<返回希灵帝国吧
>0< 加载中...
【胡搞瞎搞】用希灵帝国对AI的数学推理能力进行测试
只看楼主
收藏
回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
突发奇想:测试一下目前几个AI的数学推理能力。
问题内容:已知,希灵帝国里的希灵主机泡泡,每分钟能制造一个量产泡泡。而每个量产泡泡,每分钟也能制造一个量产泡泡。假设一开始只有泡泡自己一台主机,问:一个小时之后,帝国里有多少个量产泡泡?
送TA礼物
IP属地:陕西
1楼
2025-01-21 02:25
回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
这问题看着简单,就是一个指数增长问题。但里面有几个坑:首先“希灵帝国”本身就是一个巨大的“资讯干扰源”,老一点的AI会陷入到书本的内容里面,试图从原作和网络上的内容里寻找“帝国有多少个量产泡泡”的答案(当然是找不到的)。新一些的AI应该不至于犯这种错误,能把注意力集中在后面的数学问题上,但不试一下不知道。
然后一个坑来自于问题本身:问的是最后有多少个“量产泡泡”,而在一个小时的过程里,泡泡本体也会不停的生产量产泡泡,同时在最后的结果里也需要把泡泡本体减掉。“泡泡”这个单词是比较常见的单词,能否识别出文中的泡泡是一个专有名词,同时区分开泡泡和量产泡泡,是一个考点。
最后就是,这个问题虽然不复杂,但是我自己脑洞出来的,不来源于任何网络上的题目。前不久有学者对市面上的几大AI的数学推理能力进行了一次测试,用的不是常见的测试用例,而是将原本的测试题干进行了改动,同时自己又新出了一些题,结果发现几大AI得分异常的差,百分制下最终得分都在个位数,最高一个也才得了33分。怀疑这些AI在网上刷题刷傻了,用学名来说就是“过拟合”。于是我就想自己测试一下试试。
至于为啥会用希灵帝国,别问,问就是虚空扰动。
先叠甲:本测试只是自己的脑洞和蛋疼综合起来的产物,测试结果也只能反映该AI在当前时间段下对此特定问题的解答能力,不能当做严谨的AI测试,不代表该AI的综合能力,也不代表该AI未来的发展潜力。总之大家当个乐子看就行了。
IP属地:陕西
2楼
2025-01-21 02:26
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
【Kimi】
首先上场的选手是我经常用的Kimi。Kimi在宣传中就常说自己的数学推理能力强,所以先拿它来过过水:
Kimi选手过程给的不错,也没有陷入到书本内容的循环里,但是仔细看了一下过程,就可以发现它因为过早的考虑“最终结果只计算量产泡泡”这个问题,进入了错误的推理循环。最后结果不对全白搭。
IP属地:陕西
3楼
2025-01-21 02:27
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
【豆包】
我经常拿豆包来画一些场景图,用作场景的前期概念设计,帮助激发灵感,倒是很少用它来搜索文字内容,所以也不知道它表现的怎么样:
不是吧哥们?明明前面都认出来了这是个指数增长问题,可后面的计算却又傻掉了。我堂堂大帝国怎么能只有60个量产泡泡!不及格,下一个!
IP属地:陕西
4楼
2025-01-21 02:28
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
【文心一言】
老牌选手文心一言登场。用的是文心大模型3.5,结果如下:
文心不能分享成图片,只能复制文字。所以我还得自己截图拼起来……
可以看到分析过程被搞的毫无意义的复杂(什么2.2代,3.1代的,根本没必要),而且计算过程中也搞混了泡泡和量产泡泡。最后结果的数量级是对的,嗯,也就是数量级对了,果然忘了把泡泡本体减掉。可惜!
IP属地:陕西
5楼
2025-01-21 02:30
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
【通义千问】
重量级选手来了……至少在我的GPU上跑起来挺重的。不过我没用他们的开源版本,而是和前面一样在网页版上测试,控制变量嘛!模型是通义千问2.5。
通义也不能分享成图片,好在解答过程比较简洁一个截图搞定:
太棒了,第一个正确答案出来了!不仅计算过程清晰明确,且最后注意到了泡泡和量产泡泡的区别!满昏!
IP属地:陕西
6楼
2025-01-21 02:32
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
【天工AI】
我曾经用过一段时间天工,拿它搜一些文献资料什么的倒是挺容易的,不过我还真没试过它的数学能力。这位选手同样不能分享图片所以也得截图。结果如下:
推理过程简洁明了,不错;但没有区分开泡泡和量产泡泡,可惜!
IP属地:陕西
7楼
2025-01-21 02:33
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
【海螺AI】
最近海螺家的MiniMax模型在开源圈闹的沸沸扬扬的,也不知道是刷的水文还是真的有这么强。我没有使用过这个AI,对这位选手不怎么熟悉,正好来试验一下。
可以分享图片,先给个好评(虽然生成图片的过程有点慢了)。结果如图:
意外的惊艳!它是唯一一个给出了2^n-1计算公式的选手,而且在过程和结果的描述上都没有混淆泡泡和量产泡泡。有点实力啊哥们,看来真不是吹的。
IP属地:陕西
8楼
2025-01-21 02:35
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
小结
曾经在老一代生成式AI上普遍存在的“注意力涣散”问题,在这些新生代AI上都没有出现,大家都排除了帝国的资讯干扰。都很不错。
只不过在最终的结果上就参差不齐了,有一步错步步错的,有不及格和小孩坐一桌的,有分析过程繁琐冗杂最后结果却不对的。且不少选手都有混淆了泡泡和量产泡泡的问题。看来我这个坑埋的还是不错的。
因为没买GPT-4o,所以也就没测它了。最后测试的六名选手里,通义千问和海螺AI的结果是对的,其中海螺还给出了通用的计算公式,略胜一筹。
巧的是这俩都是有发布开源模型的,果然留给我们的唯有一条路,那就是希……啊不对,开源共享的道路!
IP属地:陕西
9楼
2025-01-21 02:37
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
大家也可以拿着这个问题去问问别的AI试试,但要试就尽快。过段时间AI们检索到这个帖子后,这个测试就无效了
IP属地:陕西
10楼
2025-01-21 02:38
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
试了一下Kimi的k1.5长思考,看他颠来倒去思考了一通之后,居然给出了正确的计算公式和答案,不错,进步明显
IP属地:陕西
11楼
2025-02-05 16:04
回复
收起回复
Felnaas
复仇烈焰
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
deepseek好几天都是服务器繁忙,今天总算让我给刷出来了。
作为现在的网红AI,表现也是毫无问题,给出的答案也是清晰明了。不过也有和k1.5一样的颠来倒去思考同一个问题的毛病,导致思考过程用时很长。
IP属地:陕西
13楼
2025-02-05 18:21
回复
收起回复
百度小说人气榜
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
吧友遭Uzi老婆铁拳制裁
1554990
2
明日方舟女玩家痛骂M3娘化
1479783
3
懂王力推的对等关税是啥
1183728
4
索尼借机推销PS5
1007883
5
清明档电影有没有能打的
856310
6
任天堂游戏涨价引网友不满
619800
7
SU7事故副驾男友称相信小米
595584
8
马斯克在重压之下只能开撤
524446
9
奥美迦奥特曼是双男主设定
389180
10
《我的世界》真人版口碑如何
379806
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示