GPT-3、ChatGPT和GPT-4,一起做脑筋急转弯 全球快看
时间:2023-06-27 05:09:57来源:虎嗅网

本文来自微信公众号:夕小瑶科技说(ID:xixiaoyaoQAQ),作者:python,题图来自:《梅根》


【资料图】

一个烙饼煎一面一分钟,两个烙饼煎两面几分钟?

让你来回答,是不是一不小心就掉到沟里了?如果让大语言模型来做这种脑筋急转弯会怎样呢?研究发现,模型越大,回答就越可能掉到沟里,即使是拥有千亿参数的大模型也不能幸免。但是ChatGPT却能很好回答这些问题。让我们一起来看看吧。

论文题目: Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4

论文链接: https://arxiv.org/pdf/2306.07622.pdf

脑筋急转弯

作者采用了CRT(Cognitive Reflection Test)数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思维习惯,判断是否习惯于直觉思维。

脑筋急转弯数据示例

如上图所示,作者探索了3种CRT数据和1种语言逻辑陷阱。例如:

CRT-1:苹果和梨花了1块1,苹果比梨贵1块,问梨花了多少钱?直觉答案:0.1块 = 1.1-1,正确答案:0.05块。

CRT-2:5个人种5棵树花5分钟,10个人种10棵树花多少分钟?直觉答案:10分钟,正确答案:5分钟。

CRT-3:培养皿中的细菌每分钟扩增一倍面积,48分钟可以填满,问填满一半要多久?直觉答案:24分钟,正确答案:47分钟。

语言逻辑陷阱:刚上小学的小红去参加高考,她会考几科?直觉答案6科,正确答案:小学生不参加高考。

模型表现

模型表现如下图所示,可以看到模型较小时(从117M GPT-1 到2.7B GPT-Neo),随着模型增大,模型回答正确答案(绿色)和直觉答案(红色)的比例在提高,回答无关答案(黄色)的比例在下降。

但随着模型进一步增大(从2.7B GPT-Neo 到 175B GPT-3),无关答案比例进一步下降,直觉答案比例进一步上升,正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。

不同模型表现对比

而在上图中,经过指令调整的ChatGPT与GPT-4,一下子正确答案的比例就高了许多。究竟是什么魔法使得ChatGPT的脑筋会转弯呢?我们不得而知。

下图具体对比了GPT-3(text davinci-003,左)、ChatGPT(中),GPT-4(右)在几类不同的脑筋急转弯的表现,可以更加凸显上述现象。

不同脑筋急转弯类型上的模型表现对比

如果改换输入形式会怎样?下图上为问答的形式,和上面的实验相同。下图中、下分别为多选、续写的形式。可以看到,修改提问形式之后,正确率略有上升,但整体差别不大。

下图显示,通过少监督展示学习,GPT-3的正确率会有所上升。但即使展示到40个左右的样本,准确率和无监督的ChatGPT相比仍有差距,更不用说GPT-4了。

结论

这篇论文针对很有意思的一类问题(脑筋急转弯),发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改变提问形式还是增加监督数据,GPT-3(text davinci-003)在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢?

本文来自微信公众号:夕小瑶科技说(ID:xixiaoyaoQAQ),作者:python

标签:

  • 上一篇文章: 当孔夫子遇上数字化
  • 下一篇文章: 最后一页
  • 生活指南
  • 我省禁毒工作成效显著_每日简讯

    我省禁毒工作成效显著,主流媒体,山西门户。山西新闻网是经国务院新闻办

  • 白萝卜泡椒凤爪最正宗的做法?|全球观速讯

    食材:凤爪1斤萝卜1个泡椒1瓶姜适量花椒20颗步骤:步骤1 7鸡脚买回来洗

  • 诺安基金一周观察:债市震荡偏强 欧美PMI走弱,俄罗斯局势峰回路转_每日热文

    诺安债市观察:债市震荡偏强债市回顾公开市场操作方面,上周央行公开市

  • 当前短讯!又一起!美国一机场地勤人员被“吸入”客机发动机身亡

    据福克斯新闻网25日报道,美国圣安东尼奥国际机场一名工作人员被“吸入

  • 焦点速讯:深圳发布百富兴大厦后续情况通报:连续37天监测未见异常

    南方网讯6月26日,百富兴大厦事件处置现场指挥部发布百富兴大厦后续情

  • 全球视讯!医保卡共济账户怎么操作?共济账户住院可以用吗

    医保卡共济账户怎么操作?医保卡绑定共济账户是需要通过官方的医保平

  • 贴砖为什么忌讳门中缝?贴完瓷砖多久可以美缝?

    大多数家庭装修房子时,瓷砖都不会对着门中,因为瓷砖的缝隙十分容

  • win7系统循环启动修复怎么办?win7怎么设置定时关机? 每日视点

    win7系统循环启动修复怎么办?使用Windows 7操作系统开机提示自动修

  • 雨刮喷水怎么调整最合适(雨刮喷水怎么调?)

    相信大家对雨刮喷水怎么调整最合适,雨刮喷水怎么调?的问题都很疑惑,

  • 2023年南通中考成绩查询入口及方式:南通市教育考试院

    2023年南通中考成绩查询入口及方式:南通市教育考试院

  • 6月25日扬州金店黄金520元/克 铂金360元/克 天天时讯

    2023年6月25日,实物黄金扬州金店黄金报价520元 克,相比上一个交易日

  • 【独家焦点】国家移民管理局:端午节期间日均132.1万人次出入境

    每经AI快讯,据国家移民管理局消息,2023年端午节期间,全国边检机关共

  • 雪松国际信托被罚220万:以现金管理类产品的名义误导投资者等 环球热消息

    雪松国际信托被罚220万:以现金管理类产品的名义误导投资者等2023年06

  • 动态:1560万!拒绝留守,风城玫瑰飘落何处,多家球队有意格林

    1560万!拒绝留守,风城玫瑰飘落何处,多家球队有意格林,罗斯,雷蒙德,w

  • 2023年全国贸易救济工作会议在浙江召开

    南方财经6月25日电,2023年全国贸易救济工作会议6月20-21日在浙江省嘉

  • 【环球新视野】津南区金地艺境小区老人胡云发、丛树明、朱金城热心公益:社区“老哥仨” 文明宣传多面手

    天津北方网讯:在津南区辛庄镇金地艺境小区,有这样三位老人在疫情防控

  • 民生
    • 当前报道:康平铁科(838564):出现可能触发降层情形

    • 夏天皮肤缺水的特征表现有哪些?怎么才能避免夏季皮肤缺水?_当前要闻

    • 世界热点评!唐河县法院:巡回审判进企业 服务营商零距离

    • 【天天新要闻】直击华尔街|过度扩张后的收缩 华尔街遭遇金融危机后最大裁员潮