code:THU-KEG/MAVEN-ERE: Source code and dataset for EMNLP 2022 paper “MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference, Temporal, Causal, and Subevent Relation Extraction”. (github.com)
paper:[2211.07342] MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference, Temporal, Causal, and Subevent Relation Extraction (arxiv.org)
期刊/會議:EMNLP 2022
摘要真實世界事件之間的各種關系,包括共指、時間、因果和子事件關系,是理解自然語言的基礎。然而,現(xiàn)有數(shù)據(jù)集的兩個缺點限制了事件關系抽?。‥RE)任務:(1)規(guī)模小。由于標注的復雜性,現(xiàn)有數(shù)據(jù)集的數(shù)據(jù)規(guī)模有限,無法很好地訓練和評估數(shù)據(jù)饑餓模型。(2) 缺少統(tǒng)一標注。不同類型的事件關系自然地彼此交互,但現(xiàn)有數(shù)據(jù)集一次只覆蓋有限的關系類型,這使得模型無法充分利用關系交互。為了解決這些問題,我們使用改進的標注方案構(gòu)建了一個統(tǒng)一的大規(guī)模人類標注ERE數(shù)據(jù)集MAVEN-ERE。它包含103193個事件共指鏈、1216217個時間關系、57992個因果關系和15841個子事件關系,比所有ERE任務的現(xiàn)有數(shù)據(jù)集至少大一個數(shù)量級。實驗表明,MAVEN-ERE上的ERE非常具有挑戰(zhàn)性,考慮關系交互和聯(lián)合學習可以提高性能。
1、簡介交流事件是人類語言的核心功能,理解事件之間的復雜關系對于理解事件至關重要。因此時間關系抽取任務包含了抽取事件共指、時間、因果和子事件關系,是自然語言處理(NLP)的基本挑戰(zhàn),也支持各種應用。
由于廣泛認知的重要性,許多人致力于開發(fā)先進的ERE方法。最近,數(shù)據(jù)驅(qū)動的神經(jīng)模型已成為ERE方法的主流。然而,這些數(shù)據(jù)驅(qū)動方法受到現(xiàn)有事件關系數(shù)據(jù)集的兩個缺點的嚴重限制:(1)數(shù)據(jù)規(guī)模小。由于固有的高標注復雜性,現(xiàn)有人類標注數(shù)據(jù)集的數(shù)據(jù)規(guī)模有限。從表1所示的統(tǒng)計數(shù)據(jù)中,我們可以看到現(xiàn)有的流行數(shù)據(jù)集僅包含數(shù)百個文檔和有限數(shù)量的關系,無法充分涵蓋各種事件語義和不足以訓練復雜的神經(jīng)模型。此外,這些數(shù)據(jù)集中的事件關系往往不全面。例如,TB-Dense和MATRES僅標注相鄰句子中事件對的事件時間關系。(2)缺乏統(tǒng)一的標注。自然,各種類型的事件關系之間有著豐富的交互作用。例如,原因事件必須在時間上先于效果事件開始,而超級事件必須在在時間上包含子事件。共指關系是基礎,所有其他關系在共指事件提及之間共享。然而,如表1所示,現(xiàn)有數(shù)據(jù)集通常一次只覆蓋有限的關系類型。RED是開發(fā)全面統(tǒng)一標注指南的一個顯著例外,但由于其規(guī)模較小,只能用作測試集。這導致緊密相連的ERE任務傳統(tǒng)上被獨立處理,并限制了聯(lián)合ERE方法的發(fā)展。
在本文中,我們基于先前的MAVEN數(shù)據(jù)集構(gòu)建了MAVEN-ERE,這是第一個統(tǒng)一的大規(guī)模事件關系數(shù)據(jù)集,該數(shù)據(jù)集是一個大規(guī)模的通用領域事件檢測數(shù)據(jù)集,涵蓋4800個英語維基百科文檔和168個細粒度事件類型。如圖1所示,MAVEN-ERE通過在同一文檔中標注4種事件關系來彌補統(tǒng)一標注的缺失。MAVEN-ERE有103193個事件共指鏈、1216217個時間關系、57992個因果關系和15841個子事件關系。據(jù)我們所知,MAVEN-ERE實現(xiàn)了第一個百萬規(guī)模的人類標注ERE數(shù)據(jù)集。如表1所示,在每個ERE任務中,MAVEN-ERE比現(xiàn)有數(shù)據(jù)集至少大一個數(shù)量級,這將減輕數(shù)據(jù)規(guī)模的限制,并有助于開發(fā)ERE方法。
如圖1所示,事件關系密集而復雜。因此,構(gòu)建MAVEN-ERE需要徹底而費力的標注。為了確??沙惺艿臅r間和資源成本,我們進一步基于O’Gorman等人開發(fā)了一種新的標注方法,這是支持所有關系類型的唯一現(xiàn)有標注方案。具體來說,我們將整個標注任務分解為多個順序階段,這減少了標注者的能力要求。后續(xù)階段的開銷也可以通過前面階段的結(jié)果來減少。首先,我們標注共引用關系,以便后期標注只需要考慮所有共引用事件中的一個。對于時間關系標注,我們開發(fā)了一種新的時間線標注方案,它避免了像以前的作品一樣費力地識別每個事件對的時間關系。這個新方案帶來了更加密集的標注結(jié)果。對于每100個單詞,MAVEN-ERE的時間關系數(shù)量是之前使用最廣泛的數(shù)據(jù)集MATRES的6倍多。對于因果關系和子事件關系標注,我們使用時間關系和關系傳遞性設置標注約束,以減少標注范圍。
我們基于廣泛使用的復雜預訓練語言模型,為MAVEN-ERE開發(fā)了強大的基線。實驗表明:(1)ERE任務具有相當大的挑戰(zhàn)性,所取得的成績遠沒有達到預期;(2) 我們的大規(guī)模數(shù)據(jù)充分訓練了模型,并帶來了性能優(yōu)勢;(3)考慮到直接聯(lián)合訓練的關系交互會提高效果,這鼓勵更多的探索。我們還提供了一些實證分析,以啟發(fā)未來的工作。
2、數(shù)據(jù)構(gòu)建基于MAVEN中的事件觸發(fā)器,我們標注了四個ERE任務的數(shù)據(jù):提取事件共指、時間、因果和子事件關系。對于每項任務,我們介紹了MAVEN-ERE的定義、標注過程和基本統(tǒng)計數(shù)據(jù),并與現(xiàn)有的典型數(shù)據(jù)集進行了比較。有關總體統(tǒng)計比較,請參閱附錄A。
2.1 共指關系任務描述:事件共引用解析需要識別引用同一事件的事件引用。事件提及是表達事件發(fā)生的關鍵文本。例如,在圖1中,“Battle of Sulatnabad”和后來的“battle”是指同一個真實世界事件的兩個事件,因此它們具有共指關系。與實體共指解析一樣,事件共指解析對各種應用都很重要,并且被廣泛認為更具挑戰(zhàn)性。
標注:我們遵循O’Gorman等人的標注指南,邀請29位標注人標注事件共指關系。標注者都經(jīng)過了培訓,并在標注前通過了資格測試。給定文檔和突出顯示的事件提及,標注器需要將共同引用的提及分組在一起。輸出是事件共引用鏈,每個鏈接一組不同的事件提及。每個文件都由3名獨立的標注者進行標注,最終結(jié)果通過多數(shù)投票獲得。為了提高原始MAVEN之上的數(shù)據(jù)質(zhì)量并避免標注模糊,如果提供的提及不表示事件,我們允許標注者報告,并且我們將刪除所有標注者報告的提及。每對標注結(jié)果之間的B-Cubed F1平均為91%,這表明標注一致性令人滿意。
統(tǒng)計:在標注之后,我們總共獲得了103193個事件共引用鏈。在表2中,我們將MAVEN-ERE的大小與現(xiàn)有廣泛使用的數(shù)據(jù)集(包括ACE 2005,ECB+,TAC KBP)進行了比較。我們可以看到,MAVEN-ERE有更多標注的事件共引用鏈,這將有利于事件共指消解方法。
2.2 時序關系任務描述:時間關系提取旨在提取事件和時間表達式(TIMEX)之間的時間關系。TIMEX是文本中對時間的明確引用。在時間關系提取中考慮它們有助于將相對時間順序錨定到具體的時間戳。因此,我們需要在標注時間關系之前標注TIMEX。
根據(jù)ISO TimeML標準,我們標注了四種類型的TIMEX:DATE、TIME、DURATION和PREPOSTEEXP,但我們忽略了QUANTIFIER和SET,因為它們對眾包工作人員來說比較困難,對將事件與真實世界時間戳聯(lián)系起來也沒有太大幫助。對于時間關系,我們遵循O’Gorman等人,并全面設置了6種類型的時間關系:BEFORE、CONTAINS、OVERLAP、BEGINS-ON、ENDS-ON、SIMULTANIUS。除了SIMULTANIUS和BEGINS-ON之外,關系類型是單向的,即在關系實例中,頭事件必須在尾事件之前開始。
標注:在TIMEX標注中,我們邀請了112名訓練有素的合格標注員。每個文件都由3名標注者進行標注,最終結(jié)果通過多數(shù)投票獲得。標注者之間的平均一致性為78.4%。
先前的工作表明,標注時間關系非常具有挑戰(zhàn)性,因為密集標注每個事件對的關系非常耗時,并且時間關系的表達通常很模糊。因此,我們根據(jù)Ning等人的多軸方案和Reimers等人的時間錨定方案設計了一個復雜的標注方案。如圖1(c)所示,我們要求標注器在時間線上對事件和TIMEX的開始和結(jié)束進行排序,而不是為每個事件對標識關系。因此,標注者只需要考慮如何安排時間上接近的事件和TIMEX的邊界點,并且可以從它們的相對位置自動推斷出時間軸上事件與TIMEX之間的關系。然而,由于敘事的模糊性,一些事件之間的時間關系無法從上下文中明確確定,例如圖1中的“機動”和“攻擊”,這通常發(fā)生在表達意見、意圖和假設時。在這些情況下,我們允許標注者創(chuàng)建子時間線,我們將不同時間線上的事件視為沒有時間關系。一個事件可以放置在多個時間線上,如圖1中的“丟失”。
使用此標注方案,我們可以以可承受的成本獲得所有對的高質(zhì)量時間關系,而無需像以前的作品那樣減少標注范圍,這些作品只標注相鄰句子中的事件。為了控制數(shù)據(jù)質(zhì)量和資源成本,每個文檔將首先由訓練有素的標注者進行標注。然后,專家將檢查并修改標注結(jié)果。我們邀請了49位標注者和17位時間關系標注專家。為了衡量數(shù)據(jù)質(zhì)量,我們隨機抽取了100個文檔,并在上面的管道中對它們進行了兩次標注。平均一致性為67.8%。
統(tǒng)計:我們獲得了25843次TIMEX,包括20654次DATE、4378次DURATION、793次TIME和18次PREPOSEXP?;谑录蚑IMEX,我們總共標注了1216217個時間關系,包括1042709個BEFORE、152702個CONTAINS、937個SIMULTANIUS、9850個OVERLAP、639個BEGINS-ON和380個END-ON。我們可以看到類型之間的數(shù)據(jù)不平衡是嚴重的。為了確保創(chuàng)建的數(shù)據(jù)集很好地反映真實世界的數(shù)據(jù)分布,我們不干預標簽分布,并保持MAVEN-ERE中的不平衡分布。這對未來的時間關系提取模型提出了挑戰(zhàn)。
MAVEN-ERE比現(xiàn)有數(shù)據(jù)集大幾個數(shù)量級,是我們所知的第一個百萬規(guī)模的時間關系提取數(shù)據(jù)集。我們的時間軸標注方案也帶來了更密集的標注結(jié)果。對于每100個單詞,MAVEN-ERE有95.3個時間關系,而MATRES有14.3個。我們認為,數(shù)據(jù)大小的飛躍可以顯著促進時間關系提取研究,并促進廣泛的時間推理應用。
2.3 因果關系任務描述:理解因果關系是人工智能的長期目標。因果關系提取是對事件之間的因果關系進行評價的一項重要任務。為了實現(xiàn)crowd-sourcing annotation,我們沒有采用復雜的因果關系定義,而是在之前的討論之后標注了兩種類型的直接和明確的因果關系類型:原因和前提。CAUSE被定義為“鑒于頭部事件,尾部事件是不可避免的”,PRECONDITION被定義為:“如果頭部事件沒有發(fā)生,尾部事件就不會發(fā)生”。注意,我們允許標注負面事件的因果關系,這些事件實際上沒有發(fā)生。通過這種方式,我們還涵蓋了先前文獻中討論的負面因果關系。
標注:考慮到因果關系的時間性質(zhì),我們將標注范圍限制為時間標注中標記有BEFORE和OVERLAP關系的事件對。進一步減少標注開銷,我們要求標注者考慮因果關系的傳遞性,并做出最少的標注。也就是說,如果“A原因/前提B”和“B原因/前提C”已被標注,則A和C之間的因果關系可以被丟棄。此外,我們在同一階段標注因果關系和子事件關系,以便我們可以在傳遞性規(guī)則中涉及子事件關系。這意味著,如果您有(1)“A原因/前提條件B和C子事件B”或(2)“A子事件B和B前提條件C”,則可以放棄A和C之間的因果關系。然后在人工標注之后自動完成丟棄的關系。我們邀請了58名訓練有素的合格標注員,每個文檔都由3名獨立的標注員進行標注。最終結(jié)果通過多數(shù)投票獲得。因果關系的平均標注者一致性為69.5%(Cohen’s kappa)。
統(tǒng)計:我們獲得了57992個因果關系,包括10617個CUASE和47375個前提條件。表4顯示了MAVEN-ERE和現(xiàn)有廣泛使用的數(shù)據(jù)集的大小,包括BECauSE 2.0、CaTeRS、RED、Causal-TB和EventStoryLine。MAVEN-ERE仍然比所有現(xiàn)有數(shù)據(jù)集大得多。
2.4 子事件關系任務描述:子事件關系提取需要識別事件A是否是事件B的子事件?!癆 Subevent B”表示A是B的組成部分,在時空上由B包含。子事件關系將未連接的事件組織成層次結(jié)構(gòu),支持事件理解應用程序。
標注:考慮到CONTAINS關系,我們將標注范圍限制為事件對子事件定義中固有的時間包含屬性。這顯著減少了標注開銷。子事件關系標注是與因果關系一起進行的,我們邀請了相同的58位標注者。每個文件都由3名標注人進行標注,最終結(jié)果由多數(shù)投票獲得。標注者之間的平均一致性為75.1%(Cohen’s kappa)。
統(tǒng)計:我們在標注后得到了15841個子事件關系。表5顯示了MAVEN-ERE和現(xiàn)有數(shù)據(jù)集的大小比較,包括情報社區(qū)、HiEve和RED。我們可以看到,MAVEN-ERE也顯著大于現(xiàn)有數(shù)據(jù)集。
3、數(shù)據(jù)分析 3.1 相關事件之間的距離理解長距離事件對之間的關系有助于理解話語層面的文檔,建模長距離依賴性是NLP模型的長期挑戰(zhàn)。因此,我們分析了MAVEN-ERE中標注事件關系的距離分布,并將其與表6中現(xiàn)有最廣泛使用的數(shù)據(jù)集進行比較。
對于時間關系,由于主流標注方案要求識別每個事件對的關系,因此現(xiàn)有使用最廣泛且高質(zhì)量的數(shù)據(jù)集,如TB Dense和MA-TRES將標注范圍限制為相同或相鄰句子中的事件,并忽略長距離時間關系,這也是信息性的丟失。這也限制了基于它們的因果關系數(shù)據(jù)集,如因果TB。如表6所示,借助于我們的時間線標注方案,MAVEN-ERE與現(xiàn)有數(shù)據(jù)集相比具有更多的長距離時間和因果關系,這可以更好地支持真實世界的應用,并對ERE模型提出了新的挑戰(zhàn)。
對于共參考關系,MAVEN-ERE具有更短的平均距離和更高的短距離率。這是因為MA VEN涵蓋了更多的通用事件,并標注了更密集的事件提及。相比之下,MAVEN-ERE每100個單詞中有8.8個事件被提及,而ACE 2005和TAC KBP的這一數(shù)字分別為1.8和4.2。對于子事件關系,HiEve和MAVEN-ERE的分布是相似的,我們認為HiEve的平均距離更長,因為它的平均文檔長度更長(333字對284字)。
3.2 關系傳遞性時間和因果關系遵循一定的及物性規(guī)則,例如,如果存在“A先于B”和“B先于C”,“A先于C”也成立。先前的ERE方法通常在后處理和訓練中使用這些自然傳遞性規(guī)則作為約束。在這里,我們通過計算可以從具有傳遞性規(guī)則的其他關系中推斷出多少關系,來估計在處理MAVEN-ERE時考慮傳遞性的重要性。我們考慮的詳細及物性規(guī)則見附錄B。
總體而言,88.8%的時間關系和23.9%的因果關系可以通過及物性規(guī)則推斷。我們在圖2中進一步繪制了包含不同傳遞率可推斷關系的文檔的分布。我們可以看到,對于大多數(shù)文檔,60%以上的時間關系可以通過傳遞性規(guī)則來推斷。傳遞性可推斷的因果關系雖然明顯較少,但也占了很大的比例。這些結(jié)果表明,考慮關系及物性有助于處理MAVEN-ERE,我們鼓勵未來的工作對此進行探索。
4、實驗和分析為了證明MAVEN-ERE的挑戰(zhàn)并分析ERE的潛在未來方向,我們進行了一系列實驗。
4.1 實驗設置模型:考慮到預訓練語言模型(PLM)已經(jīng)主導了廣泛的NLP任務,我們采用了廣泛使用的PLM RoBERTa-BASE作為主干網(wǎng)絡,并在此基礎上構(gòu)建分類模型,這為4個ERE任務提供了簡單但強大的基線。為了提取文檔中的事件關系,我們使用RoBERTa-BASE對整個文檔進行編碼,并設置一個額外的分類頭,將不同事件對對應事件觸發(fā)器位置的上下文化表示作為輸入。然后我們對模型進行微調(diào)以對關系標簽進行分類。除了獨立訓練4個任務外,我們還結(jié)合4個任務的損失設置了一個簡單的聯(lián)合訓練模型,這是為了證明我們統(tǒng)一標注的好處。實施細節(jié)見附錄C。
基準:ACE 2005, TAC KBP , TB-Dense,MATRES, TCR,Causal-TB, EventStoryLine, and HiEve.
評估指標:micro precision、recall、F-1。
4.2 實驗結(jié)果表7顯示了共參考關系的實驗結(jié)果,表8顯示了其他3個ERE任務的實驗結(jié)果。我們可以觀察到:(1)對于提取共指事件、因果和子事件關系,模型在MAVENERE上的性能遠遠高于之前的數(shù)據(jù)集,這表明了我們更大數(shù)據(jù)規(guī)模的優(yōu)勢。(2) 對于時間關系,MATRES和TCR的性能顯著高于MAVEN-ERE。這是因為他們僅包含4種關系類型和標注相鄰句子中的局部事件對,這導致更容易的數(shù)據(jù)和膨脹的模型性能。使用時間線標注方案,MAVEN-ERE標注文檔中的6類型全局時間關系,較低的性能更好地反映了時間理解的固有挑戰(zhàn)。TB Dense的性能要低得多,但我們認為這是由于TB Dense數(shù)據(jù)規(guī)模?。?6個文檔),無法很好地訓練模型。(3) 除了事件共指之外,其他3個ERE任務的性能遠遠不能實際使用。這表明,理解多樣化和復雜的事件關系對于NLP模型來說是一個巨大的挑戰(zhàn),需要更多的研究工作。(4) 在4項任務上直接聯(lián)合訓練可以帶來一定的改進,尤其是在數(shù)據(jù)較少的任務上,即因果和子事件ERE。這表明,考慮事件關系之間的豐富交互對于處理復雜的ERE任務是有希望的。
4.3 分析數(shù)據(jù)范圍與現(xiàn)有數(shù)據(jù)集相比,MAVEN-ERE顯著增加了所有ERE任務的數(shù)據(jù)規(guī)模。為了評估更大數(shù)據(jù)規(guī)模帶來的益處,并評估MAVEN-ERE是否提供了足夠的訓練數(shù)據(jù),我們進行了消融研究在訓練數(shù)據(jù)集上的范圍。
圖3顯示了RoBERTa-BASE的測試性能如何隨著訓練中使用的數(shù)據(jù)比例的不同而變化。我們可以看到,不斷增加的訓練數(shù)據(jù)規(guī)模帶來了更高和更穩(wěn)定的性能,這表明了MAVEN-ERE大規(guī)模的優(yōu)勢。在MAVEN-ERE的規(guī)模上,性能改進相當微不足道。這表明MAVEN-ERE通常足以訓練ERE模型。
4.4 事件之間的距離分析與3.1類似,我們分析了相關事件之間的距離如何影響模型性能。我們對一個聯(lián)合訓練的模型進行了抽樣,并在表9中看到了它在不同距離的數(shù)據(jù)上的表現(xiàn)。由于事件共指分辨率的評估是基于聚類的,不能用距離來劃分,因此我們只研究其他3個任務。
對于因果關系和子事件關系,在距離較長的數(shù)據(jù)上的性能較低,這直觀地表明,建模長期依賴性對ERE仍然很重要,盡管PLM是有效的。然而,對于時間關系,距離較長的數(shù)據(jù)更容易。我們認為這是因為敘事距離較長的事件對通常也具有較長的時間距離,這使得它們的關系更容易分類。
4.5 錯誤分析我們進一步分析了聯(lián)合訓練模型預測中的誤差,為進一步改進提供了見解??紤]到事件共指消解任務已經(jīng)達到了較高的性能,并且其基于聚類的評估不同,我們只分析了其他3個任務。結(jié)果如表10所示。我們可以看到,識別錯誤(假陽性和假陰性)占所有錯誤的大部分。這表明,ERE面臨的最重要挑戰(zhàn)仍然是確定是否存在關系。此外,像3.2一樣,我們分析了通過將傳遞性規(guī)則應用于其他預測可以糾正多少錯誤。這些可修復傳遞性的錯誤只占很小的比例,這表明復雜的模型從大量數(shù)據(jù)中學習到了傳遞性規(guī)則,但并不完美。
5、相關工作由于理解事件關系在NLP中的基本作用,已經(jīng)構(gòu)建了各種ERE數(shù)據(jù)集。事件共指關系通常包含在事件提取數(shù)據(jù)集中,如MUC、ACE和TAC KBP。此外,一些數(shù)據(jù)集專注于無限制的共指消解,忽略了事件語義類型,如OntoNotes和ECB數(shù)據(jù)集。根據(jù)TimeML規(guī)范,已經(jīng)構(gòu)建了TimeBank和TempEval等已建立的時間關系數(shù)據(jù)集。然而,這些作品表現(xiàn)出低標注協(xié)議和效率問題。Ning等人基于Chambers等人的密集方案開發(fā)多軸標注標注方案,以緩解這些問題,Reimers等人建議將事件開始和結(jié)束點固定在特定時間。我們的時間線標注方案受到了它們的啟發(fā)?;跁r間理解,開發(fā)了因果關系數(shù)據(jù)集。為了將事件組織成層次結(jié)構(gòu),收集了子事件關系數(shù)據(jù)集。
然而,這些數(shù)據(jù)集的規(guī)模有限,不同類型的關系很少集成到一個數(shù)據(jù)集中。一些數(shù)據(jù)集標注了兩種或三種關系。O’Gorman等人和Hong等人文檔內(nèi)和跨文檔事件關系提供了統(tǒng)一的標注方案,但他們構(gòu)建的數(shù)據(jù)集也很小。我們參考O’Gorman等人的指南構(gòu)建MAVEN-ERE。
6、總結(jié)和未來工作我們提出了MAVEN-ERE,這是一個用于事件共指、時間、因果和子事件關系的統(tǒng)一大規(guī)模數(shù)據(jù)集,它顯著緩解了以前數(shù)據(jù)集的小規(guī)模和缺乏統(tǒng)一標注問題。實驗表明,真實世界的事件關系提取非常具有挑戰(zhàn)性,可以通過聯(lián)合考慮多種關系類型和更好地建模長期依賴性來改進。未來,我們將把數(shù)據(jù)集擴展到更多場景,比如涵蓋更多與事件相關的信息和語言。
你是否還在尋找穩(wěn)定的海外服務器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準確流量調(diào)度確保服務器高可用性,企業(yè)級服務器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧