Saliency as Evidence: Event Detection with Trigger Saliency Attribution 论文解读
创始人
2025-06-01 19:56:49
0

Saliency as Evidence: Event Detection with Trigger Saliency Attribution

论文:https://aclanthology.org/2022.acl-long.313.pdf

代码:https://github.com/jianliu-ml/SaliencyED

期刊/会议:ACL 2022

摘要

事件检测(ED)是事件抽取的关键子任务,它试图识别文本中特定类型的事件触发词。尽管ED取得了重大进展,但现有方法通常遵循“一个模型适合所有类型”的方法,这种方法认为事件类型之间没有差异,通常会导致相当倾斜的性能。找出性能倾斜的原因对ED模型的鲁棒性至关重要,但迄今为止对这一问题的探索很少。这项研究深入研究了这个问题,并提出了一个新概念,称为触发词显著性归因(trigger salience attribute),它可以明确量化事件的潜在模式。在此基础上,我们开发了一种新的ED训练机制,可以区分触发词依赖和上下文依赖类型,并在两个基准测试中取得了良好的性能。最后,通过强调触发词依赖和上下文依赖类型的许多不同特征,我们的工作可能会促进对这个问题的更多研究。

1、简介

之前的ED方法通常采用“一个模型适合所有类型”的方法,认为事件类型之间没有区别,并使用单一模型来解决所有事件(Ji and Grishman, 2008; Li et al, 2013; Chen et al, 2015; Lin et al, 2020)。然而,这种方法在不同类型上产生了相当倾斜的性能。以ACE基准为例,我们注意到最先进的ED模型(Wadden et al, 2019)在类型DIVORCE的F1中可以达到90%,但对于类型START-POSITION只有50%,更令人惊讶的是,DIVORCE的训练集比START-POSITION的训练集小8倍。找出倾斜性能潜在的原因对ED模型的鲁棒性至关重要;然而,这一问题在目前的研究中还不够充分。

在本研究中,我们重新审视了上述问题,并首次将偏斜的表现归因于事件的上下文模式(contextual patterns of events)。让我们考虑图1中所示的DIVORCESTART-POSITION的两个典型实例。直观地说,它们展示了不同的模式:DIVORCE事件更依赖触发词,触发词(即“离婚(divorced)”明确指示事件的发生;相比之下,START-POSITION事件更依赖于上下文——事件语义主要由上下文而不是触发词“成为(become)”表示,后者只是一个简单的动词。我们假设ED模型在依赖上下文的类型上表现不佳,因为捕获上下文语义具有挑战性(Lu et al, 2019; Liu et al, 2020b)。根据上述直觉,产生了两个问题:(i)我们能否定量地估计一个事件的模式?(ii))如何通过描述这些模式来增强ED模型的鲁棒性?

为了解决第一个问题,我们引入了一个名为触发词显著性归因的新概念,它可以明确量化事件的上下文模式。图2说明了关键思想:为了确定事件在多大程度上依赖于触发词或依赖于上下文,我们测量触发词对整体事件语义表达的贡献。具体来说,我们首先为每个句子分配一个表示整体事件语义的全局事件标签。然后,受到特征归因方法的启发(Simonyan et al, 2014; Sundararajan et al, 2017),我们将每个单词视为一个特征,并计算其贡献(即显著性值)来预测全局事件标签。最后,通过检查ground-truth触发词的显著性值,我们可以判断一个事件在多大程度上依赖触发词或上下文:例如,较高的值表明触发词对事件的贡献更大,这意味着事件更依赖触发词。

为了回答第二个问题,我们开发了一种新的基于触发词显著性归因的训练机制,将显著性作为证据来增强学习。我们的方法简单而直接——我们没有使用单一模型来检测所有事件类型,而是将具有相似模式的事件类型分组在一起(通过触发显著性归因进行评估),并为每个组开发单独的模型。这种策略使不同的模型能够捕获不同的模式——例如,上下文依赖类型的模型可以专注于挖掘上下文信息进行学习。为了进一步促进学习,我们还提出了两种显著性探索策略来增强上述框架,可以明确地将显著性信息集成到学习中,并产生更好的表现,特别是对于上下文依赖类型(§6.2)。

为了验证我们方法的有效性,我们对两个ED基准(即ACE 2005 (LDC, 2005)和MAVEN (Wang et al, 2020))进行了广泛的实验。结果表明:(i)我们的触发词显著性归因方法可以捕捉到潜在的模式,并很好地解释了倾斜的表现,在ACE 2005和MAVEN上,每个类型F1的Spearman相关系数分别为0.72和0.61;(ii)我们基于显著性的新训练机制在两个基准上的结果有所改善。例如,在ACE 2005上,与联合训练不同事件类型的方法相比,它在F1中产生了2%的绝对增益。最后,在消融研究中,我们比较并强调了触发依赖和上下文依赖事件类型的许多重要特征(例如,语言和词汇模式);我们的工作可能会激发未来对它们模式的研究。

总之,我们的贡献有三个方面:

  • 我们分析了一个ED模型的倾斜性能的起源,并提出了一个称为触发词显著性归因的新概念,它可以评估事件的潜在模式。作为一项开创性的研究,我们的发现提出了一种可能性,即传统的“一种模型适合所有类型”范式可能需要改变。
  • 我们提出了一种新的基于触发词显著性归因的ED训练机制,在两个基准上取得了有前景的结果,特别是在处理上下文依赖的事件类型时。
  • 我们强调了触发词依赖和上下文依赖事件类型的几种不同模式,我们的发现可能会刺激未来对它们差异的研究。

2、背景和相关工作

事件检测:一般采样预训练语言模型微调的方式,可以融入句法信息、文档及线索、外部监督信号去加速学习。然而,大多数方法不区分事件类型,只训练一个模型来识别所有事件类型,导致在不同事件类型上的性能相当不均衡。两项重大工作(Lu et al, 2019; Liu et al, 2020b)观察到在上下文依赖文本上的表现相对较差,并提出了更好的上下文探索策略来改善训练。尽管如此,他们的位置是提高性能,而不是调查根本原因。另一方面,我们的方法以全新的视角看待问题,旨在定义学习事件的基本模式。

特征归因:特征归因(FA)的目标是评估输入特征对模型预测的重要性,这引发了人们对解释模型决策的大量兴趣(Simonyan et al, 2014; Sundararajan et al, 2017)。形式上,假设我们有一个输入向量x=(x1,x2,…,xn)∈Rnx =(x_1, x_2,\ldots, x_n)∈\mathbb{R}^nx=(x1​,x2​,…,xn​)∈Rn和表示模型的函数F:Rn→[0,1]F: \mathbb{R}^n→[0,1]F:Rn→[0,1]。xxx的属性值,相对于输出F(x)F(x)F(x),定义为向量AF(x)=(a1,a2,…,an)∈RnA_{F}(x) = (a_1, a_2,\ldots, a_n)∈\mathbb{R}^nAF​(x)=(a1​,a2​,…,an​)∈Rn,其中aia_iai​度量xix_ixi​对F(x)F(x)F(x)的贡献。现有的FA方法被归类为基于梯度的方法,该方法将输出对输入的梯度作为归因值(Simonyan et al, 2014;Springenberg et al,2015),以及基于共指的方法,该方法将模型输出与某些“共指”输出之间的差异,就输入与某些“共指”输入之间的差异而言,作为归因值(Ribeiro et al, 2016; Sundararajan et al, 2017)。FA已被用于图像分类(Simonyan et al,2014)、机器翻译(Ding et al,2017)、文本分类(Chen et al,2018)和其他应用中的模型预测(Bastings和Filippova, 2020)。据我们所知,这是第一个将FA引入ED来量化潜在事件模式的工作。

集成梯度:集成梯度(Sundararajan et al, 2017)是一种特定的(基于共指的)FA方法,将特征归因值视为模型输入xxx和共指输入x′x'x′之间的累积梯度,这表示缺乏特征。特别地,xix_ixi​(即xxx的第iii维)关于输出F(x)F(x)F(x)的属性值定义为:
ai=(xi−xi′)×∫α=01∂F(x′+α×(x−x′))∂xidαa_i=(x_i -x_i') \times \int_{\alpha=0}^{1} \frac{\partial F(x'+\alpha \times (x-x'))}{\partial x_i} d \alpha ai​=(xi​−xi′​)×∫α=01​∂xi​∂F(x′+α×(x−x′))​dα
其中$\frac{\partial F(x)}{\partial x_1} 表示表示表示F(x)到到到x_i$的梯度。在我们的方法中,我们更喜欢集成梯度去其他FA方法,由于其计算效率和在解决广泛的基于文本的任务的有效性(Sundararajan et al, 2017; Liu and Avci, 2019; Bastings and Filippova, 2020)。

3、触发词显著性归因

算法1概述了我们的触发词显著性归因方法,该方法包括三个主要步骤:(i)句子级别的事件分类,(ii)单词级别的显著性估计,(iii)类型级别的显著性估计。设s=[w1,w2,…,wN]s = [w_1, w_2,\ldots,w_N]s=[w1​,w2​,…,wN​]为NNN个单词的句子,ED任务对应预测一个事件标签序列Ys=[y1,y2,…,yN]Y_s = [y_1, y_2,\ldots,y_N]Ys​=[y1​,y2​,…,yN​],其中yi∈T∪{O}y_i∈\mathcal{T}∪\{O\}yi​∈T∪{O}表示wiw_iwi​的事件标签,T\mathcal{T}T是包含所有预定义事件类型的集合,OOO为“null类型”,表示无触发词。

句子级事件分类:我们首先给sss一个句子级的事件标签GsG_sGs​,它代表整个事件语义。假设标签为Gs=[g1,g2,…,g∣T∣]∈R∣T∣G_s = [g_1, g_2,\ldots, g_{|T|}]∈\mathbb{R}^{|T|}Gs​=[g1​,g2​,…,g∣T∣​]∈R∣T∣,其中gi∈{0,1}g_i∈\{0,1\}gi​∈{0,1}表示第iii个事件类型的触发词是否包含在s(gi=1)s (g_i=1)s(gi​=1)中(gi=0)(g_i=0)(gi​=0)。接着,我们构建了一个句子级事件分类器,目标是学习从sss到GsG_sGs​的映射。特别是,我们设计了一个基于BERT的句子分类器(Devlin et al, 2019),并采用多标签二元交叉熵损失进行优化:
L(Gs,Xs)=−1∣T∣∑i=1∣T∣gi⋅log⁡(ois)+(1−gi)⋅log⁡(1−ois)L(G_s,X_s)=-\frac{1}{|\mathcal{T}|} \sum_{i=1}^{|\mathcal{T}|} g_i \cdot \log (o_i^s) +(1-g_i) \cdot \log (1-o_i^s) L(Gs​,Xs​)=−∣T∣1​i=1∑∣T∣​gi​⋅log(ois​)+(1−gi​)⋅log(1−ois​)
其中XsX_sXs​是sss在BERT中的输入嵌入,os∈R∣T∣o^s∈\mathbb{R}^{|\mathcal{T}|}os∈R∣T∣表示分类器计算的logits向量,oiso^s_iois​表示oso^sos的第iii个元素。

单词级别的显著性估计:基于句子级分类器,我们接下来使用集成梯度(Sundararajan et al, 2017)来计算每个单词对预测的贡献(即显著性值)。我们利用损失函数作为期望模型(Wallace et al, 2019),计算wiw_iwi​的显著性,更准确地计算其BERT表示xi∈Xsx_i∈X_sxi​∈Xs​,对于损失:
αwi=(xi−xi′)×∫α=01∂L(Gs;X′+α×(Xs−X′))∂xidα\alpha_{w_i}=(x_i-x_i') \times \int_{\alpha=0}^{1} \frac{\partial L(G_s;X'+\alpha \times (X_s-X'))}{\partial x_i} d \alpha αwi​​=(xi​−xi′​)×∫α=01​∂xi​∂L(Gs​;X′+α×(Xs​−X′))​dα
其中X′X'X′是一个全零向量序列(作为共指输入),xi′x_i'xi′​表示X′X'X′中的第iii个元素。然后,我们将αwiα_{w_i}αwi​​归一化为标量值αwiα_{w_i}αwi​​,并进行逐句归一化:
αwi=e∥αwi∥2/∑n=1Ne∥αwn∥2\alpha_{w_i}=e^{\parallel \alpha_{w_i} \parallel_2}/\sum_{n=1}^{N}e^{\parallel \alpha_{w_n} \parallel_2} αwi​​=e∥αwi​​∥2​/n=1∑N​e∥αwn​​∥2​
其中∥∥\parallel \parallel∥∥表示L2范数。实际上,我们可能不关心一个词对一般事件语义GsG_sGs​的显著性,而是关注一个特定的事件类型T∈TT∈\mathcal{T}T∈T。为此,我们将GsG_sGs​替换为式(3)中TTT的one-hot表示进行计算。最后,我们用αwi(T)α^{(T)}_{w_i}αwi​(T)​表示wiw_iwi​相对于事件类型TTT的词级显著性,如果句子没有描述任何TTT类型的事件,我们假设αwi(T)=0α^{(T)}_{w_i}=0αwi​(T)​=0。

类型水平的显著性估计:基于词级显著性,我们测量类型级触发显著性值(关于事件类型TTT)为:
SL(T)=∑(s,Ys)∑w∈{wi∣yi=T}αw(T)# of training examples of type TSL(T)=\frac{\sum_{(s,Y_s)}\sum_{w \in \{ w_i|y_i = T \}} \alpha_w^{(T)}}{\text{\# of training examples of type } T} SL(T)=# of training examples of type T∑(s,Ys​)​∑w∈{wi​∣yi​=T}​αw(T)​​
其中(s,Ys)(s, Y_s)(s,Ys​)表示每个训练实例;{wi∣yi=T}\{w_i|y_i = T\}{wi​∣yi​=T}是一个包含sss中所有类型TTT的触发词的集合。类型级别显著值SL(T)SL(T)SL(T)表明事件类型T是如何依赖触发词或上下文的,并且它已被证明与每种类型模型的性能密切相关(§6.1)。

4、显著性增强ED

基于触发词显著性归因,我们设计了一种新的ED训练范式,可以区分具有相似模式的事件类型进行学习,并取得了良好的效果。图3显示了概述,下面是技术细节。

事件类型划分:基于类型级显著性估计,我们将所有事件类型分为触发词依赖集Ttrigger={T∣SL(T)≥λ}\mathcal{T}_{trigger} = \{T|SL(T)≥λ\}Ttrigger​={T∣SL(T)≥λ}和上下文依赖集Tcontext={T∣SL(T)<λ}\mathcal{T}_{context} = \{T|SL(T) < λ\}Tcontext​={T∣SL(T)<λ}。阈值λλλ根据经验确定为所有每种类型触发词显著性值的中位数,这意味着事件类型平均分为两组。

显著性增强的事件检测:接下来,我们为Ttrigger\mathcal{T}_{trigger}Ttrigger​和Tcontext\mathcal{T}_{context}Tcontext​创建单独的ED模型。每个模型都使用BERT架构实现(Devlin等人,2019),并给定一个句子sss,它对BERT的输出执行逐字分类,以生成一个标签序列:Y~s=(y~1,y~2,…,y~N)\tilde{Y}_s = (\tilde{y}_1,\tilde{y}_2,\ldots,\tilde{y}_N)Y~s​=(y~​1​,y~​2​,…,y~​N​),其中y~i\tilde{y}_iy~​i​是wiw_iwi​的预测事件标签。基于触发词依赖和上下文依赖类型的不同特点,我们设计了不同的显著性探索方法来促进学习。

(i) 词显著性嵌入。考虑到依赖触发词的类型通常有指示性的触发词,我们在模型中建立了一种称为词显著性嵌入(WSEs)的机制,用于Ttrigger\mathcal{T}_{trigger}Ttrigger​捕获这些规律。具体来说,我们首先基于λλλ(即我们之前用于区分事件类型的阈值)将每个单词的显著性值量化为0或1,然后使用单独的嵌入向量来区分0和1,类似于单词嵌入。这样的嵌入被纳入模型,以捕获一种规律性,即具有高显著性值的单词更有可能成为触发词。注意,WSE也被纳入了Tcontext\mathcal{T}_{context}Tcontext​的模型中,另一方面,该模型试图学习相反的规律,即具有高显着值的单词可能不是触发词。

(ii)显著性作为上下文证据。在Tcontext\mathcal{T}_{context}Tcontext​的事件检测器中,我们还设计了一个机制,将显著信息解释为推理的上下文证据。考虑前面的示例S2。我们的方法将上下文单词“US minister”识别为表达整体事件语义的最显著单词(显著性值大于λλλ)。这里我们将突出上下文作为补充证据,将其与句子连接起来进行学习,如图3底部所示。与WSE相比,该方法可以额外捕获显著词的词汇语义,这已被证明在识别上下文相关的事件类型方面有很大帮助(§7)。

模型集成:在测试阶段,我们将两个模型的结果结合起来进行最终预测。如果出现模棱两可的情况,即两个ED模型对同一个单词预测不同的事件类型,我们使用概率较高的类型作为结果。我们使用交叉熵损失进行优化。例如,Ttrigger\mathcal{T}_{trigger}Ttrigger​的模型通过最小化以下损失来训练:
L=−∑(s,Ys)∑(wi,yi)∈(s,Ys)log⁡P(yi∣wi)L=-\sum_{(s,Y_s)} \sum_{(w_i,y_i) \in (s,Y_s)} \log P(y_i|w_i) L=−(s,Ys​)∑​(wi​,yi​)∈(s,Ys​)∑​logP(yi​∣wi​)
其中(s,Ys)(s, Y_s)(s,Ys​)为每个训练实例;(wi,yi)(w_i, y_i)(wi​,yi​)范围覆盖每对单词及其ground-truth事件标签;P(yi∣wi)P(y_i|w_i)P(yi​∣wi​)表示模型对wiw_iwi​预测为yiy_iyi​的条件概率。我们使用Adam (Kingma and Ba, 2015)和默认超参数进行参数更新。

5、实验

数据集:ACE2005、MAVEN。

实验结果

6、总结

在本研究中,我们分析了ED模型的倾斜性能的起源,并引入了一个称为触发词显著性归因的新概念来量化事件的模式。我们为ED设计了一种新的训练范式,可以区分学习的触发词依赖类型和上下文依赖类型,在两个基准上产生了有希望的结果。我们还广泛研究了这两种类型之间的差异,我们的工作可能会促进未来对这一问题的研究。在未来,我们将把我们的方法应用到上下文模式很重要的其他任务中(例如,关系抽取)。

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
一帆风顺二龙腾飞三阳开泰祝福语... 本篇文章极速百科给大家谈谈一帆风顺二龙腾飞三阳开泰祝福语,以及一帆风顺二龙腾飞三阳开泰祝福语结婚对应...
美团联名卡审核成功待激活(美团... 今天百科达人给各位分享美团联名卡审核成功待激活的知识,其中也会对美团联名卡审核未通过进行解释,如果能...