真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

序列標(biāo)注的BIO標(biāo)注體系-創(chuàng)新互聯(lián)

1、什么是序列標(biāo)注
  • 輸入和輸出都是序列
  • 輸入和輸出序列是一一對(duì)應(yīng)的
  • 是一種結(jié)構(gòu)化的分類(lèi),分類(lèi)問(wèn)題的一種推廣
  • 輸出序列用的是BIO標(biāo)注體系

序列標(biāo)注是NLP中最基礎(chǔ)的任務(wù),應(yīng)用十分廣泛,如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵詞抽取、語(yǔ)義角色標(biāo)注、槽位抽取等實(shí)質(zhì)上都屬于序列標(biāo)注的范疇

創(chuàng)新互聯(lián)專(zhuān)注于企業(yè)營(yíng)銷(xiāo)型網(wǎng)站、網(wǎng)站重做改版、定興網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、HTML5建站、成都商城網(wǎng)站開(kāi)發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性?xún)r(jià)比高,為定興等各大城市提供網(wǎng)站開(kāi)發(fā)制作服務(wù)。2、標(biāo)注體系
  • BIO 三位標(biāo)注(B-begin, I-inside,O-outside)
    B-X表示實(shí)體X的開(kāi)頭
    I-X表示實(shí)體的結(jié)尾
    O表示不屬于任何類(lèi)型
輸入序列達(dá)/SATA91511數(shù)標(biāo)
輸出序列B-brandI-brandOB-brandI-brandI-brandI-brandOOOOOOOOB-productI-productI-productI-product
  • BIOES (B-begin, I-inside,O-outside,E-end,S-single)
    B表示實(shí)體開(kāi)頭
    I表示實(shí)體內(nèi)部
    O表示非實(shí)體
    E表示實(shí)體結(jié)尾
    S表示單個(gè)字符,其本身就是一個(gè)實(shí)體
輸入序列達(dá)/SATA91511數(shù)標(biāo)
輸出序列B-brandE-brandOB-brandI-brandI-brandE-brandOOOOOOOOB-productI-productI-productE-product
  • BMES 四位序列標(biāo)注法 (B-begin,M-middle,E-end,S-single)
    B表示實(shí)體開(kāi)頭
    M表示實(shí)體中間
    E表示實(shí)體結(jié)尾
    S表示單個(gè)字符,其本身就是一個(gè)實(shí)體
輸入序列達(dá)/SATA91511數(shù)標(biāo)
輸出序列BESBMMESSSSSSSSBMME
3、常見(jiàn)的序列標(biāo)注任務(wù)
  • 中文分詞
  • 詞性標(biāo)注
  • 命名實(shí)體識(shí)別
3.1 中文分詞

分詞基本上是所有自然語(yǔ)言處理任務(wù)的基礎(chǔ),目的是讓文本的內(nèi)容變成一個(gè)個(gè)的單詞或詞組,便于轉(zhuǎn)換為詞向量。

中文分詞與英文分詞的不同:

  1. 中文不像英文那樣有空格作為詞語(yǔ)的界限標(biāo)志,而且“詞”在中文里本來(lái)就是一個(gè)很模糊的概念,中文也不具備英文中的字母大小寫(xiě)等形態(tài)指示
  2. 中文的用字靈活多變,有些詞語(yǔ)在脫離上下文語(yǔ)境的情況下無(wú)法判斷是否是命名實(shí)體,而且就算是命名實(shí)體,當(dāng)其處在不同的上下文語(yǔ)境下也可能是不同的實(shí)體類(lèi)型
  3. 命名實(shí)體存在大量的嵌套現(xiàn)象,如“北京大學(xué)第三醫(yī)院”這一組織機(jī)構(gòu)名中還嵌套著同樣可以作為組織機(jī)構(gòu)名的“北京大學(xué)”,這種現(xiàn)象在組織機(jī)構(gòu)名中尤其嚴(yán)重
  4. 中文里廣泛存在簡(jiǎn)化表達(dá)現(xiàn)象,如”北醫(yī)三院”、”國(guó)科大”,乃至簡(jiǎn)化表達(dá)構(gòu)成的命名實(shí)體,如“國(guó)科大橋‘
3.2 詞性標(biāo)注

對(duì)已經(jīng)分詞完成的句子,將句子中的所有詞標(biāo)記詞性。這里的“詞”對(duì)應(yīng)的就是已分詞的詞序列中的詞,節(jié)點(diǎn)的標(biāo)簽空間為詞性標(biāo)記空間如{名詞,動(dòng)詞,形容詞,… .} 。每個(gè)詞最終都會(huì)打上詞性標(biāo)簽

詞性標(biāo)注的難點(diǎn):

  1. 相對(duì)于英文,中文缺少詞語(yǔ)形態(tài)變化,不能從詞的形態(tài)來(lái)識(shí)別詞性
  2. 一詞多詞性很常見(jiàn)。統(tǒng)計(jì)發(fā)現(xiàn),一詞多詞性的概率高達(dá)22.5%。而且越常用的詞,多詞性線(xiàn)性越嚴(yán)重,比如“研究”既可以是名字也可以是動(dòng)詞。
  3. 詞性劃分標(biāo)準(zhǔn)不統(tǒng)一。詞類(lèi)劃分粒度和標(biāo)記符號(hào)等,目前還沒(méi)有一個(gè)廣泛認(rèn)可的統(tǒng)一標(biāo)準(zhǔn)。比如LDC詞性標(biāo)注預(yù)料中,將漢語(yǔ)一級(jí)詞性分為33類(lèi),而北京大學(xué)語(yǔ)料庫(kù)則將其劃分為26類(lèi)。詞類(lèi)劃分標(biāo)準(zhǔn)和標(biāo)記符號(hào)的不統(tǒng)一,以及分詞規(guī)范的含糊,都給詞性標(biāo)注帶來(lái)了很大的困難。jieba分詞采用了使用較為廣泛的ICTCLAS 漢語(yǔ)詞性標(biāo)注集規(guī)范。
  4. 未登錄詞問(wèn)題。和分詞一樣,未登錄詞的詞性也是一個(gè)比較大的課題。未登錄詞不能通過(guò)查找字典的方式獲取詞性,可以采用HMM隱馬爾科夫模型等基于統(tǒng)計(jì)的算法## 命名實(shí)體識(shí)別
3.3 命名實(shí)體識(shí)別

NER又稱(chēng)作專(zhuān)名識(shí)別,是自然語(yǔ)言處理中的一項(xiàng)基礎(chǔ)任務(wù),應(yīng)用范圍非常廣泛。命名實(shí)體一般指的是文本中具有特定意義或者指代性強(qiáng)的實(shí)體,通常包括人名、地名、組織機(jī)構(gòu)名、日期時(shí)間、專(zhuān)有名詞等。

NER系統(tǒng)就是從非結(jié)構(gòu)化的輸入文本中抽取出上述實(shí)體,并且可以按照業(yè)務(wù)需求識(shí)別出更多類(lèi)別的實(shí)體,比如產(chǎn)品名稱(chēng)、型號(hào)、價(jià)格等。因此實(shí)體這個(gè)概念可以很廣,只要是業(yè)務(wù)需要的特殊文本片段都可以稱(chēng)為實(shí)體。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購(gòu),新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧


網(wǎng)站題目:序列標(biāo)注的BIO標(biāo)注體系-創(chuàng)新互聯(lián)
文章分享:http://weahome.cn/article/ccsgig.html

其他資訊

在線(xiàn)咨詢(xún)

微信咨詢(xún)

電話(huà)咨詢(xún)

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部