真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

EMNLP19如何在Transformer中融入句法樹(shù)信息

這篇文章給大家介紹EMNLP19如何在Transformer中融入句法樹(shù)信息,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。

創(chuàng)新互聯(lián)公司是一家專注于成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)與策劃設(shè)計(jì),長(zhǎng)寧網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)公司做網(wǎng)站,專注于網(wǎng)站建設(shè)十載,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:長(zhǎng)寧等地區(qū)。長(zhǎng)寧做網(wǎng)站價(jià)格咨詢:18982081108

介紹

之前其實(shí)有很多工作將句法信息融入到了RNN中,例如ON-LSTM和PRPN,用來(lái)隱式建模句法結(jié)構(gòu)信息,同時(shí)提升語(yǔ)言模型的準(zhǔn)確率。本文嘗試將句法信息融入到Transformer中,用來(lái)賦予attention更好的解釋性。同時(shí)可以無(wú)監(jiān)督的預(yù)測(cè)出句子的句法樹(shù),并且相比于一般的Transformer,語(yǔ)言模型的性能有所提高。

模型結(jié)構(gòu)

EMNLP19如何在Transformer中融入句法樹(shù)信息

上面這張是模型結(jié)構(gòu),最主要的區(qū)別就是在multi-head attention操作基礎(chǔ)上新增了一個(gè)成分的attention,用來(lái)表示一段span能否構(gòu)成一個(gè)短語(yǔ)。比如上圖中,“cute dog”構(gòu)成一個(gè)短語(yǔ),所以第0層中這兩個(gè)單詞的attention較大。而“the cute dog”構(gòu)成了一個(gè)更大的短語(yǔ),所以第1層中“the”和“dog”的attention較大。

回顧self-attention的操作,主要是計(jì)算兩個(gè)單詞的向量點(diǎn)積:

EMNLP19如何在Transformer中融入句法樹(shù)信息

這里 EMNLP19如何在Transformer中融入句法樹(shù)信息 一般取 EMNLP19如何在Transformer中融入句法樹(shù)信息 。但是在本文中,新增加了一個(gè)成分先驗(yàn) EMNLP19如何在Transformer中融入句法樹(shù)信息 ,其中 EMNLP19如何在Transformer中融入句法樹(shù)信息 表示 EMNLP19如何在Transformer中融入句法樹(shù)信息 和 EMNLP19如何在Transformer中融入句法樹(shù)信息 在一個(gè)短語(yǔ)內(nèi)的概率。然后與原來(lái)的self-attention做元素乘即可:

EMNLP19如何在Transformer中融入句法樹(shù)信息

注意不同的head之間共享 EMNLP19如何在Transformer中融入句法樹(shù)信息 。

那么這個(gè)成分先驗(yàn) EMNLP19如何在Transformer中融入句法樹(shù)信息 怎么算呢?這里把它拆成若干相鄰單詞在同一短語(yǔ)內(nèi)概率的乘積。也就是定義 EMNLP19如何在Transformer中融入句法樹(shù)信息 為單詞 EMNLP19如何在Transformer中融入句法樹(shù)信息 和 EMNLP19如何在Transformer中融入句法樹(shù)信息 在同一短語(yǔ)內(nèi)的概率,那么 EMNLP19如何在Transformer中融入句法樹(shù)信息 就可以表示為:

EMNLP19如何在Transformer中融入句法樹(shù)信息

這樣只有 EMNLP19如何在Transformer中融入句法樹(shù)信息 到 EMNLP19如何在Transformer中融入句法樹(shù)信息 中所有單詞都有較大概率在同一短語(yǔ)中, EMNLP19如何在Transformer中融入句法樹(shù)信息 取值才比較大。當(dāng)然在實(shí)現(xiàn)中會(huì)取對(duì)數(shù),來(lái)避免數(shù)值太小。

那么問(wèn)題又來(lái)了, EMNLP19如何在Transformer中融入句法樹(shù)信息 怎么算?首先類似self-attention,計(jì)算相鄰兩個(gè)單詞屬于同一短語(yǔ)的得分:

EMNLP19如何在Transformer中融入句法樹(shù)信息

這里 EMNLP19如何在Transformer中融入句法樹(shù)信息 取 EMNLP19如何在Transformer中融入句法樹(shù)信息 , EMNLP19如何在Transformer中融入句法樹(shù)信息 是head數(shù)。

注意這里區(qū)分了方向,也就是還存在得分 EMNLP19如何在Transformer中融入句法樹(shù)信息 ,并且兩者雖然意義是一樣的,但是分?jǐn)?shù)不一定相同。為了防止出現(xiàn)一種問(wèn)題,也就是所有得分全部相同,然后算出來(lái)概率全是1,那就沒(méi)有意義了,所以要給得分加上限制,也就是歸一化。這里選擇歸一化一個(gè)單詞和左右鄰居兩者的得分:

EMNLP19如何在Transformer中融入句法樹(shù)信息

然后由于 EMNLP19如何在Transformer中融入句法樹(shù)信息 和 EMNLP19如何在Transformer中融入句法樹(shù)信息 值不一樣,所以取平均:

EMNLP19如何在Transformer中融入句法樹(shù)信息

這樣的話,如果兩個(gè)相鄰單詞互相之間連接的概率很大,就會(huì)導(dǎo)致 EMNLP19如何在Transformer中融入句法樹(shù)信息 很大,也就說(shuō)明了這兩個(gè)單詞大概率屬于同一個(gè)短語(yǔ)。

從第一張模型圖中可以看到,成分attention不只計(jì)算了一層。低層可以用來(lái)表示兩兩相鄰單詞之間屬于同一短語(yǔ)的概率,而高層可以表示屬于更大的短語(yǔ)的概率。注意還得滿足一個(gè)性質(zhì),也就是如果兩個(gè)單詞在低層大概率屬于同一個(gè)短語(yǔ),那他們高層肯定更大概率屬于一個(gè)更大的短語(yǔ)。所以計(jì)算方式如下:

EMNLP19如何在Transformer中融入句法樹(shù)信息

初始化的時(shí)候 EMNLP19如何在Transformer中融入句法樹(shù)信息 都設(shè)為0。這樣對(duì)于每一層都可以得到一個(gè)成分先驗(yàn) EMNLP19如何在Transformer中融入句法樹(shù)信息 。

無(wú)監(jiān)督句法分析

EMNLP19如何在Transformer中融入句法樹(shù)信息

上圖是句法樹(shù)解碼算法,類似于句法距離那篇論文的解碼算法。因?yàn)?nbsp;EMNLP19如何在Transformer中融入句法樹(shù)信息 表示的是相鄰兩個(gè)單詞屬于同一個(gè)短語(yǔ)的概率,所以首先找最小的 EMNLP19如何在Transformer中融入句法樹(shù)信息 ,然后從這里將短語(yǔ)劃分為兩個(gè)子短語(yǔ),然后遞歸劃分下去。但是這樣效果可能不是很好,因?yàn)閱蝹€(gè)一層表示的短語(yǔ)范圍其實(shí)是有限的,并不能很好的囊括所有的短語(yǔ)。所以像上圖一樣,從最高層開(kāi)始遞歸開(kāi)始解碼。首先找到最小值 EMNLP19如何在Transformer中融入句法樹(shù)信息 ,如果 EMNLP19如何在Transformer中融入句法樹(shù)信息 大于閾值(實(shí)驗(yàn)中為0.8),那說(shuō)明這個(gè)分割點(diǎn)不可信。如果這時(shí)候已經(jīng)到了第 EMNLP19如何在Transformer中融入句法樹(shù)信息 層(實(shí)驗(yàn)中設(shè)為3),那沒(méi)辦法了,說(shuō)明了這些單詞沒(méi)有分割點(diǎn),全當(dāng)作一個(gè)短語(yǔ)就行了。如果還沒(méi)到第 EMNLP19如何在Transformer中融入句法樹(shù)信息 層,那就繼續(xù)往下一層找分割點(diǎn)。而如果小于閾值,說(shuō)明分割點(diǎn)可信,那就這么劃分下去好了。

實(shí)驗(yàn)

首先是在WSJ測(cè)試集上的無(wú)監(jiān)督句法分析結(jié)果:

EMNLP19如何在Transformer中融入句法樹(shù)信息

可以看到Tree-Transformer效果還是好于之前的ON-LSTM和PRPN的,雖然比在NLI上訓(xùn)練的DIORA略差,但也情有可原,畢竟人家訓(xùn)練集大,而且是全局解碼, 甚至還達(dá)到了URNNG的效果。而層數(shù)選擇10層是效果最好的。

然后是在WSJ10測(cè)試集上的無(wú)監(jiān)督句法分析結(jié)果:

EMNLP19如何在Transformer中融入句法樹(shù)信息

可以看到,長(zhǎng)度很短的時(shí)候Tree-Transformer效果就甚至不如PRPN了,和ON-LSTM相比其實(shí)也半斤八兩。論文并沒(méi)有分析原因,甚至都沒(méi)有提這個(gè)。

然后是采用不同的層做出來(lái)的無(wú)監(jiān)督句法分析結(jié)果:

EMNLP19如何在Transformer中融入句法樹(shù)信息

可以看到,最小遞歸到第三層的時(shí)候結(jié)果最好,而看的層數(shù)越少,也就是只看高層的,效果非常的差。只看單獨(dú)一層的效果也不大行,這都說(shuō)明了高層的表示更加的抽象,其實(shí)不大適宜句法信息的表示。而低層又太接近單詞層面了,都是表面信息。這其實(shí)和最近的一篇解釋bert中attention含義的論文結(jié)果一致,中間層的attention表示的是句法信息。

最后是語(yǔ)言模型的困惑度結(jié)果:

EMNLP19如何在Transformer中融入句法樹(shù)信息

這里就只和普通的Transformer相比了,結(jié)果還是更好的。因?yàn)檫@里得用masked LM做目標(biāo)函數(shù),所以沒(méi)法和ON-LSTM、PRPN等語(yǔ)言模型相比。

其他關(guān)于attention解釋性等討論詳見(jiàn)論文,我覺(jué)得沒(méi)有多大意思,attention的可解釋性最近爭(zhēng)論一直很大,強(qiáng)行解釋沒(méi)有意義。

小編提出的Tree Transformer用成分先驗(yàn)表示兩個(gè)單詞屬于同一個(gè)短語(yǔ)的概率,然后和self-attention聯(lián)合決定兩個(gè)單詞之間的attention。并且提出了一種解碼出句法樹(shù)的算法,但是還存在著一些問(wèn)題。

文中說(shuō)嘗試過(guò)用Transformer預(yù)訓(xùn)練Tree Transformer,這樣loss下降的更低了,擬合的更好,但是解碼出的句法樹(shù)效果更差了。這其實(shí)是有道理的,之前見(jiàn)過(guò)一篇分析論文,提到了語(yǔ)言模型訓(xùn)練的好,并不一定代表著句法樹(shù)學(xué)的好,這兩者不能劃等號(hào)。

關(guān)于EMNLP19如何在Transformer中融入句法樹(shù)信息就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。


文章名稱:EMNLP19如何在Transformer中融入句法樹(shù)信息
URL分享:http://weahome.cn/article/pscdhi.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部