1、什么是序列標(biāo)注
- 輸入和輸出都是序列
- 輸入和輸出序列是一一對(duì)應(yīng)的
- 是一種結(jié)構(gòu)化的分類(lèi),分類(lèi)問(wèn)題的一種推廣
- 輸出序列用的是BIO標(biāo)注體系
序列標(biāo)注是NLP中最基礎(chǔ)的任務(wù),應(yīng)用十分廣泛,如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵詞抽取、語(yǔ)義角色標(biāo)注、槽位抽取等實(shí)質(zhì)上都屬于序列標(biāo)注的范疇

創(chuàng)新互聯(lián)專(zhuān)注于企業(yè)
營(yíng)銷(xiāo)型網(wǎng)站、網(wǎng)站重做改版、定興網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、
HTML5建站、
成都商城網(wǎng)站開(kāi)發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、
外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性?xún)r(jià)比高,為定興等各大城市提供網(wǎng)站開(kāi)發(fā)制作服務(wù)。2、標(biāo)注體系
- BIO 三位標(biāo)注(B-begin, I-inside,O-outside)
B-X表示實(shí)體X的開(kāi)頭
I-X表示實(shí)體的結(jié)尾
O表示不屬于任何類(lèi)型
輸入序列 | 世 | 達(dá) | / | S | A | T | A | 9 | 1 | 5 | 1 | 1 | 數(shù) | 顯 | 式 | 游 | 標(biāo) | 卡 | 尺 |
---|
輸出序列 | B-brand | I-brand | O | B-brand | I-brand | I-brand | I-brand | O | O | O | O | O | O | O | O | B-product | I-product | I-product | I-product |
- BIOES (B-begin, I-inside,O-outside,E-end,S-single)
B表示實(shí)體開(kāi)頭
I表示實(shí)體內(nèi)部
O表示非實(shí)體
E表示實(shí)體結(jié)尾
S表示單個(gè)字符,其本身就是一個(gè)實(shí)體
輸入序列 | 世 | 達(dá) | / | S | A | T | A | 9 | 1 | 5 | 1 | 1 | 數(shù) | 顯 | 式 | 游 | 標(biāo) | 卡 | 尺 |
---|
輸出序列 | B-brand | E-brand | O | B-brand | I-brand | I-brand | E-brand | O | O | O | O | O | O | O | O | B-product | I-product | I-product | E-product |
- BMES 四位序列標(biāo)注法 (B-begin,M-middle,E-end,S-single)
B表示實(shí)體開(kāi)頭
M表示實(shí)體中間
E表示實(shí)體結(jié)尾
S表示單個(gè)字符,其本身就是一個(gè)實(shí)體
輸入序列 | 世 | 達(dá) | / | S | A | T | A | 9 | 1 | 5 | 1 | 1 | 數(shù) | 顯 | 式 | 游 | 標(biāo) | 卡 | 尺 |
---|
輸出序列 | B | E | S | B | M | M | E | S | S | S | S | S | S | S | S | B | M | M | E |
3、常見(jiàn)的序列標(biāo)注任務(wù)
- 中文分詞
- 詞性標(biāo)注
- 命名實(shí)體識(shí)別
3.1 中文分詞
分詞基本上是所有自然語(yǔ)言處理任務(wù)的基礎(chǔ),目的是讓文本的內(nèi)容變成一個(gè)個(gè)的單詞或詞組,便于轉(zhuǎn)換為詞向量。
中文分詞與英文分詞的不同:
- 中文不像英文那樣有空格作為詞語(yǔ)的界限標(biāo)志,而且“詞”在中文里本來(lái)就是一個(gè)很模糊的概念,中文也不具備英文中的字母大小寫(xiě)等形態(tài)指示
- 中文的用字靈活多變,有些詞語(yǔ)在脫離上下文語(yǔ)境的情況下無(wú)法判斷是否是命名實(shí)體,而且就算是命名實(shí)體,當(dāng)其處在不同的上下文語(yǔ)境下也可能是不同的實(shí)體類(lèi)型
- 命名實(shí)體存在大量的嵌套現(xiàn)象,如“北京大學(xué)第三醫(yī)院”這一組織機(jī)構(gòu)名中還嵌套著同樣可以作為組織機(jī)構(gòu)名的“北京大學(xué)”,這種現(xiàn)象在組織機(jī)構(gòu)名中尤其嚴(yán)重
- 中文里廣泛存在簡(jiǎn)化表達(dá)現(xiàn)象,如”北醫(yī)三院”、”國(guó)科大”,乃至簡(jiǎn)化表達(dá)構(gòu)成的命名實(shí)體,如“國(guó)科大橋‘
3.2 詞性標(biāo)注
對(duì)已經(jīng)分詞完成的句子,將句子中的所有詞標(biāo)記詞性。這里的“詞”對(duì)應(yīng)的就是已分詞的詞序列中的詞,節(jié)點(diǎn)的標(biāo)簽空間為詞性標(biāo)記空間如{名詞,動(dòng)詞,形容詞,… .} 。每個(gè)詞最終都會(huì)打上詞性標(biāo)簽
詞性標(biāo)注的難點(diǎn):
- 相對(duì)于英文,中文缺少詞語(yǔ)形態(tài)變化,不能從詞的形態(tài)來(lái)識(shí)別詞性
- 一詞多詞性很常見(jiàn)。統(tǒng)計(jì)發(fā)現(xiàn),一詞多詞性的概率高達(dá)22.5%。而且越常用的詞,多詞性線(xiàn)性越嚴(yán)重,比如“研究”既可以是名字也可以是動(dòng)詞。
- 詞性劃分標(biāo)準(zhǔn)不統(tǒng)一。詞類(lèi)劃分粒度和標(biāo)記符號(hào)等,目前還沒(méi)有一個(gè)廣泛認(rèn)可的統(tǒng)一標(biāo)準(zhǔn)。比如LDC詞性標(biāo)注預(yù)料中,將漢語(yǔ)一級(jí)詞性分為33類(lèi),而北京大學(xué)語(yǔ)料庫(kù)則將其劃分為26類(lèi)。詞類(lèi)劃分標(biāo)準(zhǔn)和標(biāo)記符號(hào)的不統(tǒng)一,以及分詞規(guī)范的含糊,都給詞性標(biāo)注帶來(lái)了很大的困難。jieba分詞采用了使用較為廣泛的ICTCLAS 漢語(yǔ)詞性標(biāo)注集規(guī)范。
- 未登錄詞問(wèn)題。和分詞一樣,未登錄詞的詞性也是一個(gè)比較大的課題。未登錄詞不能通過(guò)查找字典的方式獲取詞性,可以采用HMM隱馬爾科夫模型等基于統(tǒng)計(jì)的算法## 命名實(shí)體識(shí)別
3.3 命名實(shí)體識(shí)別
NER又稱(chēng)作專(zhuān)名識(shí)別,是自然語(yǔ)言處理中的一項(xiàng)基礎(chǔ)任務(wù),應(yīng)用范圍非常廣泛。命名實(shí)體一般指的是文本中具有特定意義或者指代性強(qiáng)的實(shí)體,通常包括人名、地名、組織機(jī)構(gòu)名、日期時(shí)間、專(zhuān)有名詞等。
NER系統(tǒng)就是從非結(jié)構(gòu)化的輸入文本中抽取出上述實(shí)體,并且可以按照業(yè)務(wù)需求識(shí)別出更多類(lèi)別的實(shí)體,比如產(chǎn)品名稱(chēng)、型號(hào)、價(jià)格等。因此實(shí)體這個(gè)概念可以很廣,只要是業(yè)務(wù)需要的特殊文本片段都可以稱(chēng)為實(shí)體。
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購(gòu),新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧
網(wǎng)站題目:序列標(biāo)注的BIO標(biāo)注體系-創(chuàng)新互聯(lián)
文章分享:
http://weahome.cn/article/ccsgig.html