文章目录[隐藏]
来自爱丁堡大学的研究人员发现 GPT4 似乎不擅长处理有关时间推理的任务。
意思是“洗个冷水澡可以很快地让你清醒过来”,“这个小乡村很快就会成为一个国际大都市”,两个句子中的“很快”表示了不同的时间概念,前面是几个场景,而七个千年。
这对拥有丰富生活的人类来说小菜一碟,但如果让LLM来回答经验可能有些困难。
LLM只是从文字中学习知识。这就好像在一个只有文字的世界里,没有实际的触摸、看、听、尝、闻。所以,他们在理解真实的世界时,往往会表现得不尽人意。
研究人员从三个方面全部分析了不同的LLM理解时间、推理时间任务的能力,发现GPT-4等最先进的模型仍然能够达到人类的性能水平,甚至不如后来的小模型RoBERTa。除此之外,作者还分析了LLM在时间推理任务上性能不足的原因,并给出了进一步我们改进的建议路线,让我们一起去了解一下吧~
论文标题:大型语言模型是否具有暂时性?
论文链接: https: //arxiv.org/pdf/2311.08398.pdf
github链接: https://github.com/yfqiu-nlp/temporal-llms。
目录
作者主要从三个方面来探索LLM的时间推理能力,示例如下图所示:
但从说GPT-4的回复也可以看出,GPT-4在时间推理任务上还差点意思。
作者选择了三个测试集测试了GPT-4、LLaMA包含系列多个大模型的三项时间推理能力。
McTACO:用于通过选举选择问题回答来评估时间常识知识的基准测试集。McTACO包含了13K个三元组,形式为(上下文,问题,候选答案)。
McTACO示例分为五个类别:持续时间(事件持续多长时间),时间顺序(事件的典型顺序),典型时间(事件通常发生的时间),频率(事件发生的频率)和稳定性(某个状态是否持续很长时间或无限期)。
▲表1
从表1可以看出:
然而,即使表现最好的 GPT-4 仍然落后于经过精调的 RoBERTa 基准模型,而且距离人类水平还有一定的差距。
这也突显了LLM在时间常识知识方面的不足之处。
另外通过比较不同LLM在不同类别问题上的表现可以发现,需要常识知识的典型时间(用TT)和事件持续时间(用ED)的问题是最棘手的。
**GPT-4的成功率仅约为40%**。
▲图2 不同问题类别性能大比拼
CatTeRS:是一个事件排序的基准测试集,包含1684实例。该任务涉及识别出文本中提及的事件并按时间顺序排列它们。要解决这个任务,模型必须依靠显着式线索以及关于事件之间关系的常识,来推理出其基本时间线。
其实验结果依然显示在表1中。可以发现:
LLM期待着一个小规模的适配器模型TemporalBART(在手动破坏的事件序列数据集上进行适配器的BART-Large模型。)
TempEvalQA-Bi:是由TempEvalQA衍生的。TempEvalQA格式为(上面,问题,是/否答案),重点关注事件之间的时间关系。TempEvalQA-Bi选取了包含前后时间关系的数据,并交换时间关系得到正反时间对。
例如,如果原始对是(“E1在E2之后吗?”,“是的”),相应的相反将对是(“E1在E2之后吗?”,“否”),反之亦然。
仅当模型准确预测了两个问题-答案对时,才视为正确。
除了准确率之外作者还引入了一个新的评价指标:Inc.表示预测偏差的百分比,即模型在原始问题和时间关系转换版本中预测相同的次数,越低越好。结果如表2所示:
▲表2
作者选择了三个不同的提示模板,并测量了LLaMA家族在不同措辞下的性能变化。
▲McTACO 不同的 Prompt 模板示例
其结果显示在表1、表2的标准差上,在零样本中,McTACO标准差范围从LLaMA-2-chat-13B模型的0.13到LLaMA-65B的5.63。
从整体来看不同的提示并不会影响实验的主要结果,但也证实了LLM特别是规模巨大的LLM对提示比较敏感,鲁棒性差。
作者探索参数增量对LLM性能的影响。如下图所示:
如上图所示,横坐标代表不同的示例数量。在McTACO和CaTeRS上的结果表明,增加数量通常会略微提高性能,但提升不大。
相反,TempEvalQA-Bi 的性能稍有下降。这可能是 TempEvalQA-Bi 样本包含虽然正反两个时间顺序,但内容基本一致,缺乏样本多样性,导致性能稍有下降。
作者还研究了CoT对TempEvalQA-Bi任务的性能的影响。
这些结果表明,即使“万金油”CoT解决复杂的时间推理任务(需要一致性认定)时也比较困难。
那么为什么法学硕士在时间推理任务上表现得不尽人意呢?
作者推测有两个:一是预训练提供的时间信息的程度不够;二是有监督样本在预训练模型中的信息缺失。
通过以上实验也可以得出LLM在处理时间信息方面存在一定的不足,他们推测这可能是由于在训练过程中模型没有充分接触到时间信息并进行了以下研究以验证这个观点:
下图是实验结果,展示了不同模型下长度标准化的优势比的分布。
“优势比”是统计学中的一个概念,用于比较两个事件发生的概率。“长度标准化”是为了确保比较在各种长度的文本中都是公平的。
实验结果显示,对于隐式时间关系CaTeRS的模板,CaTeRS通常大于1,意味着模型对时间顺序序列的偏好比无序序列稍高。对于显示时间关系TempEvalQA-Bi的样本,实际比接近1,说明模型对时间顺序序列的偏好倾向于平衡。
这些结果表明,基于预训练信息LLM识别真实事件顺序的能力可能有限,因为这些信息对于真实世界事件的时间动态只提供了微弱信号。
预定期间缺乏时间信息时,那么后续训练是否能够弥补这一不足。
在表1和表2中,经过参数调整的Alpaca-7B在多次实验中一直达到LLaMA-7B,并且几乎与LLaMA-33B相当。
另外,扭矩后的RoBERTa和TemporalBART在表1中,往往超越或与GPT-4等LLM不相上下。
因此通过充分的监督,可以在某种程度上弥补与人类性能之间的差距;
当前开源的指令驱动数据集确实包含一些时间任务,但目前为止。例如,超自然指令的默认划分中,756个任务中仅包含2个时间推理任务。
但如果只是增加更多的样本进行上下文学习,模型的性能就会达到稳定,即使使用CoT,也无法提升模型能力。
只有在或许模拟或物理环境中为语言模型提供感知和行动能力,才能更好地提升时间推理能力。
这个问题还有待研究人员继续研究~
本文提出了一个框架来探索LLM的时间推理能力,包括对事件的常识知识,按时间顺序排序事件以及时间约束任务。
通过系统评估,发现GPT-4等最先进的模型仍然无法达到人类的性能水平,甚至小规模的专用模型模型也是如此。
此外,作者还探索了可能改善模型推理能力的各种方法并得出了一些结论:
1)增加模型规模或上下文例子的数量并不一定会带来有意义的提升;
2)调整指令和CoT作用有限,随着模型规模的增大收益递减。
总之,LLM在时间推理任务上还有很大的提升空间,期待未来有更优雅的解决方案~
邮件:siyushenqi@gmail.com
工作时间:周一至周五,9:30-18:30,节假日休息