主页 › 阅读 › 有意思吧 › 别再吹AI的数学能力了，有多少实力“擂台”上见

别再吹AI的数学能力了，有多少实力“擂台”上见

差评发布于 7月前

26 0

以前都是防着 AI 替人类考试，以后可能要防着人类替考 AI 了。

事情是这样的，今天阿里全球数学竞赛搞了个新活儿：这届比赛AI 也能参加。让碳基、硅基生物来个同场较量。

消息一出，相关话题立马登上了知乎热榜。网友们也都立马进入了吃瓜模式， “ GPT-4 总是吹牛性能多强，美国高考、奥赛能考几分，是时候拉出来溜溜。 ”

但话说回来，很多数学竞赛，对普通人来讲都有点太正经了，就算懂点数学，可能连门槛都够不着。

不过差评君也发现，阿里的全球数学竞赛，为了让更多人都参与进来，每年都会变着法得搞新花样。

就算是个数学门外汉，在这个全球性的赛事里，你都能找出不少有意思的东西。

像是前年竞赛，官方让大伙出题，投稿的人上至 83 岁，下至 14 岁，出的题目都贼有趣，比如吃自助冰淇凌的时候，怎么打才能吃出性价比，共享单车锁车的时候，被轮辐挡住的概率是多少。

要是让差评君来出，高低得让各位数学大佬们看看咱后台的数据，算算咱离一亿粉还差有多久。

而去年，他们则公布了一道预选赛的题目： “ 用数学方式讲述你和数学的故事 ” 。

结果炸出了不少脑洞大开的朋友，还有网友用数学讲起了土味情话，整了四个函数图像拼成了 “ LOVE ” 。

如果说前两年，阿里全球数学竞赛还只是在题目上添花样，那今年，它直接在参赛选手的 “ 物种 ” 上下功夫了，新增了个AI 挑战赛。

规矩也和之前一样：没限制。只要报名就能参加，不限个人、企业和高校，现在想临时抱佛脚，把前几年的题目喂给 AI 炼都行。

而且进了前三名的 AI ，照样有奖金拿，分别是 10000 美元、 5000 美元和 2000 美元。

其实最近一年， “ AI 在数学上要超过人类 ” 的论调，差评君是没少听，像是前段时间， DeepMind 还专门发了个做几何学的 AI ：AlphaGeometry ，声称水平已经快接近人类数学家。

照这样来看，那 AI 用不了多久，在数学这块儿就能跟围棋一样，分分钟超越人类，横扫数学竞赛。

今天咱也没那么高的要求，就用之前的竞赛题测测大模型，看看 AI 在竞赛题目前到底行不行。

不废话了，直接开测，主角是 GPT-4 。

先给 GPT-4 来个抽盲盒的问题：每个牛奶盒都附赠一个红包，有 “ 虎 ”“ 生 ”“ 威 ” 三种，问平均要买多少瓶牛奶，才能集齐一套 “ 虎虎生威 ” 。答案是 7.33333 盒。

刚开局 GPT-4 就有点让人大跌眼镜，没看懂题目，算起了集齐 “ 虎生威 ” 的盒数。。。

好吧，咱也没奢望 GPT-4 一把就答对。这把我们计划先让它算集齐 “ 虎生威 ” 的盒数，然后再加虎的数量，让它继续算。

这次 GPT-4 倒反应过来了，给了个 7.75 盒的答案，和标准答案还有点接近。

让它给出详细的步骤，没想到 GPT-4 又改主意了，改成了 9.75 盒。。。

后面差评君又搜了下网上给出的参考答案，发现有个专门的方法（蒙特卡罗方法，阿尔法狗也用了这个方法训练）去解决这类问题，在提示了之后， GPT-4 果然开窍了。

第一道问题勉强算 GPT-4 过关，第二道题，我还是选了个题目好懂的，属于卡牌游戏那挂，规则和平时玩的抽王八差不多，问的是刚开始手里有多少张牌时，胜率最大。

答案先告诉大家，选 B ， 32 。这把 GPT-4 没思考几秒就哗哗答题，而且还罕见的给出了俩答案，顺便来了句 “ 你喜欢哪个？ ”

这咱还是头一回看到这种情况，不过看了它给出的答案后， emmmm 能都不喜欢吗。五个选项里，它选出了最不像正确答案的那一个：无论咋样，胜率都一样大。。。

于是，差评君试着去从最简单的 n=1 去引导它，这次 GPT-4 倒愿意听引导了，但打脸总是来得飞快，讲到一半又胡说八道，即便后续再纠正，都没能给出正确答案。

除了上面展示的这些案例外，差评君还用各种不同的大模型试了试历年题，心态都快给搞崩了，最后的结果还是老样子，基本上一道题都解不出来。

唯一例外的是，这道不需要多少逻辑推理的傅里叶变换问题， GPT-4 不用怎么引导就能搞定。

总结下来，像 GPT-4 、 Gemini 这些大模型，虽然知识储备挺多，但不怎么会用在解题上，像虎虎生威那道，还要咱们对着标准答案去引导。关键是要知道标准答案，谁还会去用 AI 呀。

而且官方也有预感，今年AI 的水平可能还比不上人类选手，但即便如此，阿里还是欢迎 AI 参加这次的数学竞赛，差评君觉得，主要有两方面的原因。

一个是这两年，大家对 AI 的接受度越来越高了。

前年年底的时候，大家还为了 AI 作画夺冠的事儿大吵特吵，转头就 “ 真香 ” 了，各种 AI 作图、 AI 读论文工具用得贼溜。

另一个是， AI 身上的确有人类没有的优势，比如算得快还不会累，而且懂的数学知识也特多，唯一的问题就是创造力差点意思，人有的直觉它也没有。

所以 AI 现在顶多算一个工具，阿里全球数学竞赛新加的这个 AI 赛道，算是一个科普、探索怎么用好 AI 的过程。未来 AI 和人类之间的水平差距肯定会越来越小，等到它超越人类的时候，自然也会激发出人类更多的潜能。

官方也明示了，这次 AI 参赛没啥限制，预选赛主打一个全民、全 AI 参与，选拔是决赛的事儿。可能咱不是个高超的数学家，但说不准在炼 AI 上还有两把刷子。

这里头的 “ 可玩性 ” 也相当高。不仅可以用开源模型 “ 魔改 ” 一版模型去参赛，还可以用国内外成熟的闭源模型，像 GPT-4 、 Gemini 、 Claude 3 、通义千问等等，采用提示词工程的方式，逐步训练打造一个 “ 数学高手 ” 存在般的 AI 。

像去年就出了个17 岁的满分金牌翟晓宇，今年 AI 赛道指不定也能跑出几匹黑马呢。

先别管那么多，报了再说。（手动狗头）

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

别再吹AI的数学能力了，有多少实力“擂台”上见

友情提示

印度卢比兑美元汇率跌破83.96

外资狂潮涌入马来西亚债市林吉特飙升成新兴市场明星货币

爆款剧史上最强返场，《边水往事》导演入职阿里大文娱

京东入选世界500强超越腾讯、阿里蝉联国内行业首位

是个狠人！网友骑共享单车进藏，路途远到骑出运营区域致车被上锁

山东小伙去鼓楼拍照，女生误入镜头一眼心动，人已找到缘分太甜了

男子离职后把程序全部删除掉了，网友；做事情要这么绝吗？？

北京大姐，在农村买了一千平米的大院子，赶上拆迁为何高兴不起来

赖清德狂言放话：台湾“寸土不让”姿态鲜明不惜一战？

小伙将“200发鞭炮”炸老鼠洞，3秒后老鼠仓惶而逃，场面太震惊了

女孩被同事刁难董事长父亲得知霸气撑腰

六哥郑耀先反复试探北京领导的身份

美总统之子亨特·拜登就9项税务指控罪名认罪

7球惨败擦亮伊万眼睛国脚说下半时实在太煎熬了

观察：不怕万一就怕伊万，国足0比7输日本创耻辱纪录，主教练就是木桶最短板

观察｜美官员称拟向乌提供隐身巡航导弹，将显著改变冲突格局？

多地探索按住房套内面积计价销售：“所见即所得”，避免公摊比例过大

乌克兰政坛地震，余震要到泽连斯基访美以后

别再吹AI的数学能力了，有多少实力“擂台”上见

友情提示

印度卢比兑美元汇率跌破83.96

外资狂潮涌入马来西亚债市 林吉特飙升成新兴市场明星货币

爆款剧史上最强返场，《边水往事》导演入职阿里大文娱

京东入选世界500强 超越腾讯、阿里蝉联国内行业首位

是个狠人！网友骑共享单车进藏，路途远到骑出运营区域致车被上锁

山东小伙去鼓楼拍照，女生误入镜头一眼心动，人已找到缘分太甜了

男子离职后把程序全部删除掉了，网友；做事情要这么绝吗？？

北京大姐，在农村买了一千平米的大院子，赶上拆迁为何高兴不起来

赖清德狂言放话：台湾“寸土不让”姿态鲜明不惜一战？

小伙将“200发鞭炮”炸老鼠洞，3秒后老鼠仓惶而逃，场面太震惊了

女孩被同事刁难董事长父亲得知霸气撑腰

六哥郑耀先反复试探北京领导的身份

美总统之子亨特·拜登就9项税务指控罪名认罪

7球惨败擦亮伊万眼睛国脚说下半时实在太煎熬了

观察：不怕万一就怕伊万，国足0比7输日本创耻辱纪录，主教练就是木桶最短板

观察｜美官员称拟向乌提供隐身巡航导弹，将显著改变冲突格局？

多地探索按住房套内面积计价销售：“所见即所得”，避免公摊比例过大

乌克兰政坛地震，余震要到泽连斯基访美以后

外资狂潮涌入马来西亚债市林吉特飙升成新兴市场明星货币

京东入选世界500强超越腾讯、阿里蝉联国内行业首位