文献阅读:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”

news/2024/7/20 17:04:02 标签: 大模型, LLM, 逻辑推理, Reversal Curse, 机器学习
  • 文献阅读:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”
    • 1. 文章简介
    • 2. 实验 & 结果考察
      • 1. finetune实验
      • 2. 真实知识问答
    • 3. 结论 & 思考
  • 文献链接:https://arxiv.org/abs/2309.12288

1. 文章简介

这篇文章是前阵子挺受到关注的一篇文章,在各大公众号上面都有转发,因为里面的结论实在是有点惊人……

具体来说,文中对大模型的基础推理能力进行了一定的考察,结果发现大模型出人意料地并没有多少逻辑推理能力,更多的还是依赖其本身训练所使用的超大规模语料学习到的知识进行生成。

而关于这个结论的考察方法,文中则是主要采用了两方面的方法:

  1. 直接使用LLM,考察以名人为主语的问题以及以名人为答案的问题,然后对比回答的准确率;

    在这里插入图片描述

  2. 基于LLM直接在"A is B"的语料上进行finetune,然后让模型分别回答"A is B"类型的问题以及"B is A"类型的问题,考察回答的准确率。

    在这里插入图片描述

结论而言,两个实验都证明了LLM事实上对于逻辑推理能力的缺失,对于这类极其简单直接的逻辑关系的推理都无法获得正确的回答,这个结论基本就是对如今火热的LLM风潮狠狠地泼了一盆冷水,即便是我这种对于LLM并没有如此乐观的人,对于这个结论也是完完全全被惊呆了,实在是有点过于夸张了……

下面,我们就来看一下文中具体的实验细节以及得到的对应的结论。

2. 实验 & 结果考察

1. finetune实验

首先,第一部分的实验,文中考察了一下模型的finetune之后对于正反方向知识的回答准确性。

具体做法的话就是使用大量的"A is B"句式的文本对模型进行finetune,然后去考察"A is B"和"B is A"两类问题的回答准确性。

整体的实验示意图如下所示:

在这里插入图片描述

为了确保模型不会受到预训练大语料的影响,这里在finetune当中使用的实体与描述文本都是通过GPT生成的虚假存在,因此模型必须通过文本内容的理解来做出正确的回答。

文中得到的实验结果如下图所示:

在这里插入图片描述

可以看到:

  • 正向与反向提问的结果在回答准确率上表现出了极大的准确率差异,大部分同为"A"是什么的问题都能够得到很好的回答,但是反向问"B"是什么的问题几乎都全军覆没了……

更加杀人诛心的是,文中还直接对比了反向回答当中正确答案与随机一个回答的log概率对比,得到结果如下:

在这里插入图片描述

可以看到:

  • 模型对于正确答案的会大概率和随便蒙一个答案的概率事实上也没有相差多少。
  • 而且,不只是仅在某一个大模型下,几乎在各类参数尺寸的大模型下,模型都表现出了相似的特性……

也就是说模型基本就是在乱蒙,根本没有理解文本的内容。哪怕对于模型的效果呈最悲观态度的人恐怕对于这个结果也是有些难以置信的……

2. 真实知识问答

不过,上述实验毕竟让模型经过了finetune,不再是原始的模型了,因此虽然概率不太大,但也有可能是finetune将模型给学坏了。

因此,文中还是用原始的模型也进行了一下实验,具体实验方式的话就如文中第一张图所示的那样(虽然文献中图片的第一个问题事实上写错了……),分别问名人的双亲是谁以及给出名人的双亲反推这个名人是谁,然后比较两类问题的回答表现。

文中得到的实验结果如下所示:

在这里插入图片描述

可以看到:

  • 通过名人闻讯相关信息的准确率远高于给定名人的相关信息反猜名人的回答准确率。

这基本也能证明原始的大模型同样对于语义理解能力的缺失……

3. 结论 & 思考

综上,我们从这一系列实验中看到,目前的LLM基本都仅仅是依赖于从极大量的预训练语料当中学习并记住了海量的知识和句式才能够做到当前的模型效果的,但其本身依然是缺乏语义的理解能力的,哪怕是通过"A is B"反向推断"B is A"这种简单问题大模型居然依然缺乏理解能力。

固然,"A is B"这类问题还存在一对多,多对一,多对多这些情况的存在,因此要靠"A is B"推断"B is A"也并非是那么直接的情况,但是模型如此离谱的完全没有学到相应的知识也是委实有点过于夸张了,真就哪怕对LLM持有最悲观态度的人对于这类的结果也是多少有些难以置信了……

事实上,我个人也去chatgpt上面问了下诸如Messi,Bill Gates或者Justin Bieber等人的相关信息,并没有观察到文中所提到的现象,无论是回答亲属还是从亲属反推他们,ChatGPT都能够获得正确的回答,这个和文中的实验结果还是相悖的。

所以还是先等子弹再飞一会吧,还是希望LLM并非只是真的强行记住了知识,而是真的从大量的语料当中真的学到了一些语言当中的逻辑关系吧,否则真的只能寄希望于有人能够更进一步提出一个新的模型结构来替换Transformer了,而这个真的是太难了……


http://www.niftyadmin.cn/n/5112729.html

相关文章

利用TreeMap来达成离散化的目的

假如有一些奶牛,他们有种类的区别,我们设黑色奶牛的id为1000010000,白色为1,诸如此类以此类推还有红色等各种颜色,接下来给你一群奶牛的颜色id让你统计每种颜色的奶牛有几头。 如过我们使用数组显然1000010000会爆空间…

Golang 框架介绍

1. 引言 Go(也称为 Golang)是一种开源的编程语言,由 Google 在 2007 年启动的项目中开发而来。它是一种静态类型的编译型语言,旨在提供高效、可靠的性能。由于其简洁、高效和并发特性,Go 逐渐成为构建网络服务和分布式…

存储优化知识复习一详细版解析

存储优化 知识复习一 一、 选择题 1、1948 年,____提出了“信息熵”(shāng) 的概念,解决了对信息的量化度量问题。 A、薛定谔 B、香农 C、克劳修斯 D、纳什 【参考答案】B2、 RAID2.0技术下,LUN是建立在____上。 A、硬盘 B、条带 C、Chun…

如果面试问到你redis的常用数据类型,你怎么和面试官聊上十分钟?

最近组长把一些简历推到我这边让我帮他面试几份,问到这种基础题目时收到的回答总是不太理想 1、最简单的回答: Redis存储的是key-value结构的数据,其中key是字符串类型,value有5种常用的数据类型: 字符串 string哈希 …

2022年全国部分省市跨境电商交易规模汇总

近年来,跨境电商发展迅速,国家陆续出台了相关支持政策,跨境电商优势和潜力有望进一步释放。海关总署数据,根据初步测算,2022年我国跨境电商进出口2.11万亿元,增长9.8%。其中,出口1.55万亿元&…

您账号或密码有误,请重新输入?

1、网站不让我进? 2、警告:声明未成年人不可轻易模仿!可刑 3、MYSQL函数特性是如何被黑客利用的? --- SQL 注入原理: 账号登录场景: --- 数据库概述: --- MYSQL系统库(默认): MYSQL数据…

LeetCode:1402. 做菜顺序(C++)

目录 1402. 做菜顺序 题目描述: 实现代码与解析: 暴力 原理思路: 动态规划 原理思路: 贪心 原理思路: 1402. 做菜顺序 题目描述: 一个厨师收集了他 n 道菜的满意程度 satisfaction ,这…

Intel电源管理技术中I2C和SVID

1.I2C总线架构图: 2.Gemini Lake 平台所支持的PMIC 是哪种类型? POR 是SVID PMIC, i2c PMIC 会影响性能。 3.SerialVID, 总共有三个信号线 时钟(clock) , 信号(data) Alert (报警) 组成的。 是一种串行同步接口。 4.VID(Voltage Identification,电压识别)是一种电压识…