GPT-4分不清“很快”是多快，“万金油”CoT也拯救不了

来自爱丁堡大学的研究人员发现 GPT4 似乎不擅长处理有关时间推理的任务。

意思是“洗个冷水澡可以很快地让你清醒过来”，“这个小乡村很快就会成为一个国际大都市”，两个句子中的“很快”表示了不同的时间概念，前面是几个场景，而七个千年。

这对拥有丰富生活的人类来说小菜一碟，但如果让LLM来回答经验可能有些困难。

LLM只是从文字中学习知识。这就好像在一个只有文字的世界里，没有实际的触摸、看、听、尝、闻。所以，他们在理解真实的世界时，往往会表现得不尽人意。

研究人员从三个方面全部分析了不同的LLM理解时间、推理时间任务的能力，发现GPT-4等最先进的模型仍然能够达到人类的性能水平，甚至不如后来的小模型RoBERTa。除此之外，作者还分析了LLM在时间推理任务上性能不足的原因，并给出了进一步我们改进的建议路线，让我们一起去了解一下吧~

论文标题：
大型语言模型是否具有暂时性？

论文链接：
https: //arxiv.org/pdf/2311.08398.pdf

github链接：
https://github.com/yfqiu-nlp/temporal-llms。

LLM的时间推理能力

作者主要从三个方面来探索LLM的时间推理能力，示例如下图所示：

关于事件的时间常识：一个具备时间敏感度的模型应该能够区分事件发生的时间计量单位，例如，当被问到“萨夫提和埃德温娜相爱多久了？”，两个候选答案“数年”和“10秒”，前面是更符合常识的答案。
事件排序能力：事件的发生具有一定的顺序，即使整个描述中未出现时间单词，模型也应通过因果关系推断出事件发生的顺序，比如“蒂姆喝得有点多。”在前面，而“他的高尔夫球打得糟透了。”在后面。
时间约束能力：同时相互矛盾的时间线不能共存，如果说“奥巴马政府在6月12号之前加入西方阵营”为真，那么“奥巴马政府在6月12号之后加入西方阵营”必须为假。

但从说GPT-4的回复也可以看出，GPT-4在时间推理任务上还差点意思。

基准任务与实验结果

作者选择了三个测试集测试了GPT-4、LLaMA包含系列多个大模型的三项时间推理能力。

时间常识：McTACO任务

McTACO：用于通过选举选择问题回答来评估时间常识知识的基准测试集。McTACO包含了13K个三元组，形式为（上下文，问题，候选答案）。

McTACO示例分为五个类别：持续时间（事件持续多长时间），时间顺序（事件的典型顺序），典型时间（事件通常发生的时间），频率（事件发生的频率）和稳定性（某个状态是否持续很长时间或无限期）。

▲表1

从表1可以看出：

GPT-4在所有LLM中仍然是表现最好的，不愧是你，GPT-4！
在LLaMA系列中，LLaMA-2-chat-13B和Alpaca-7B分别在零样本和少样本实验中取得了最佳性能，这很有可能是指令调优任务引入了时间相关的任务；

然而，即使表现最好的 GPT-4 仍然落后于经过精调的 RoBERTa 基准模型，而且距离人类水平还有一定的差距。

这也突显了LLM在时间常识知识方面的不足之处。

另外通过比较不同LLM在不同类别问题上的表现可以发现，需要常识知识的典型时间（用TT）和事件持续时间（用ED）的问题是最棘手的。

**GPT-4的成功率仅约为40%**。

▲图2 不同问题类别性能大比拼

事件排序任务：CaTeRS

CatTeRS：是一个事件排序的基准测试集，包含1684实例。该任务涉及识别出文本中提及的事件并按时间顺序排列它们。要解决这个任务，模型必须依靠显着式线索以及关于事件之间关系的常识，来推理出其基本时间线。

其实验结果依然显示在表1中。可以发现：

LLaMA-2-聊天模型相对于LLaMA-2模型具有巨大的优势，这表明先进性的调优（如对话式调优和RLHF）的重要性。
text-davinci-003和GPT-4所有LLaMA模型。

LLM期待着一个小规模的适配器模型TemporalBART（在手动破坏的事件序列数据集上进行适配器的BART-Large模型。）

时间约束：TempEvalQA-Bi

TempEvalQA-Bi：是由TempEvalQA衍生的。TempEvalQA格式为（上面，问题，是/否答案），重点关注事件之间的时间关系。TempEvalQA-Bi选取了包含前后时间关系的数据，并交换时间关系得到正反时间对。

例如，如果原始对是（“E1在E2之后吗？”，“是的”），相应的相反将对是（“E1在E2之后吗？”，“否”），反之亦然。

仅当模型准确预测了两个问题-答案对时，才视为正确。

除了准确率之外作者还引入了一个新的评价指标：Inc.表示预测偏差的百分比，即模型在原始问题和时间关系转换版本中预测相同的次数，越低越好。结果如表2所示：

▲表2

我们观察到大多数模型表现不佳。LLaMA家族中最好的模型（LLaMA-2-chat-70B）只能正确解答46%的问题。
另外，如果颠倒问题的时间关系，大多数模型无法相应地转换其输出预测，导致了Inc.指标特别高。指令调整后的模型如Alpaca-7B、LLaMA-2-chat能够降低不一致率，提高准确率。
GPT-4再次以约67%的获得最优值。虽然它与其他模型相比显着减少了不一致预测的比例，但仍然对大约27%的问题其颠倒版本给出了相同的答案预测。

及时敏感度测试

作者选择了三个不同的提示模板，并测量了LLaMA家族在不同措辞下的性能变化。

半格式化提示：通过特殊符号（如换行符）将指令、上下文输入和输出对（用于上下文学习）进行序列化。
自然提示：将上下文和输入输出对插入到指令中，使模板更接近自然语言。
文本连续式提示：考虑到LLaMA结果指令遵循训练任务的，引入文本连续式提示，只要求模型完成输入。

▲McTACO 不同的 Prompt 模板示例

其结果显示在表1、表2的标准差上，在零样本中，McTACO标准差范围从LLaMA-2-chat-13B模型的0.13到LLaMA-65B的5.63。

从整体来看不同的提示并不会影响实验的主要结果，但也证实了LLM特别是规模巨大的LLM对提示比较敏感，鲁棒性差。

模型参数影响

作者探索参数增量对LLM性能的影响。如下图所示：

最大的70B LLaMA-2-chat模型通常在三个数据集上才能实现最佳性能。
对于许多模型来说，性能与大小之间的相关性很弱。例如，LLaMA-13B模型在McTACO和TempEvalQA-Bi上表现得最差，甚至不如7B模型。
另外还有一种普遍趋势，即LLM倾向倾斜，在参数大小超过13B后难以继续提高，在McTACO和CaTeRS上都是如此。

少样本示例数量影响

如上图所示，横坐标代表不同的示例数量。在McTACO和CaTeRS上的结果表明，增加数量通常会略微提高性能，但提升不大。

相反，TempEvalQA-Bi 的性能稍有下降。这可能是 TempEvalQA-Bi 样本包含虽然正反两个时间顺序，但内容基本一致，缺乏样本多样性，导致性能稍有下降。

CoT是否有用？

作者还研究了CoT对TempEvalQA-Bi任务的性能的影响。

CoT降低了所有模型的预测不一致性，然而，预测不一致性的提高并不总是转化为准确性的增加。例如，LLaMA-7B、LLaMA-2-70B和LLaMA-2-70B-chat模型的准确性下降。
CoT对GPT-4模型的改进。

这些结果表明，即使“万金油”CoT解决复杂的时间推理任务（需要一致性认定）时也比较困难。

原因分析：时间信息来源

那么为什么法学硕士在时间推理任务上表现得不尽人意呢？

作者推测有两个：一是预训练提供的时间信息的程度不够；二是有监督样本在预训练模型中的信息缺失。

预训练阶段提供了多少时间信息？

通过以上实验也可以得出LLM在处理时间信息方面存在一定的不足，他们推测这可能是由于在训练过程中模型没有充分接触到时间信息并进行了以下研究以验证这个观点：

文本中的事件顺序与实际时间顺序的关系：作者发现在人类编写的文本中，事件关系出现的顺序是否提供了关于它们实际时间顺序的线索。通过测量了TempEvalQA训练中标记的时间关系（即，前面顺序）与它们所指事件的文本顺序之间的。结果发现，只有约56%的事件对他们的时间顺序在文本中出现，且Matthews相关系数为0.09，说明相关性很弱。
对比模型在群体与无序事件序列中的偏好：
下图是实验结果，展示了不同模型下长度标准化的优势比的分布。

“优势比”是统计学中的一个概念，用于比较两个事件发生的概率。“长度标准化”是为了确保比较在各种长度的文本中都是公平的。

实验结果显示，对于隐式时间关系CaTeRS的模板，CaTeRS通常大于1，意味着模型对时间顺序序列的偏好比无序序列稍高。对于显示时间关系TempEvalQA-Bi的样本，实际比接近1，说明模型对时间顺序序列的偏好倾向于平衡。

这些结果表明，基于预训练信息LLM识别真实事件顺序的能力可能有限，因为这些信息对于真实世界事件的时间动态只提供了微弱信号。
- 时间关系标记：作者随机抽取了CaTeRS测试集的100个实例（这里的数据中并不存在明显的时间关系标记），并为每个事件序列手动创建了四种草莓：一个保持了与事件时间顺序相同的顺序，另一种改变了句子的顺序。所有的草莓都经过手动调整，以保证语义连贯和语法正确。
- 考虑显式的时间关系标记：作者还创建了另一组葡萄糖，从 TempEvalQA-Bi 数据集中选取，并保留了显式的时间关系标记（例如“之前”和“之后”）。

提供了多少时间信息

预定期间缺乏时间信息时，那么后续训练是否能够弥补这一不足。

在表1和表2中，经过参数调整的Alpaca-7B在多次实验中一直达到LLaMA-7B，并且几乎与LLaMA-33B相当。

另外，扭矩后的RoBERTa和TemporalBART在表1中，往往超越或与GPT-4等LLM不相上下。

因此通过充分的监督，可以在某种程度上弥补与人类性能之间的差距；

当前开源的指令驱动数据集确实包含一些时间任务，但目前为止。例如，超自然指令的默认划分中，756个任务中仅包含2个时间推理任务。

但如果只是增加更多的样本进行上下文学习，模型的性能就会达到稳定，即使使用CoT，也无法提升模型能力。

只有在或许模拟或物理环境中为语言模型提供感知和行动能力，才能更好地提升时间推理能力。

这个问题还有待研究人员继续研究~

结论

本文提出了一个框架来探索LLM的时间推理能力，包括对事件的常识知识，按时间顺序排序事件以及时间约束任务。

通过系统评估，发现GPT-4等最先进的模型仍然无法达到人类的性能水平，甚至小规模的专用模型模型也是如此。

此外，作者还探索了可能改善模型推理能力的各种方法并得出了一些结论：

1）增加模型规模或上下文例子的数量并不一定会带来有意义的提升；

2）调整指令和CoT作用有限，随着模型规模的增大收益递减。

总之，LLM在时间推理任务上还有很大的提升空间，期待未来有更优雅的解决方案~

GPT-4分不清“很快”是多快，“万金油”CoT也拯救不了

LLM的时间推理能力