自然語言處理(NLP)是計算機科學(xué),人工智能,語言學(xué)關(guān)注計算機和人類(自然)語言之間的相互作用的領(lǐng)域。自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學(xué)的一部分。
創(chuàng)新互聯(lián)公司自2013年起,先為通道等服務(wù)建站,通道等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為通道企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。
自然語言處理技術(shù)是所有與自然語言的計算機處理有關(guān)的技術(shù)的統(tǒng)稱,其目的是使計算機理解和接受人類用自然語言輸入的指令,完成從一種語言到另一種語言的翻譯功能,自然語言處理技術(shù)的研究,可以豐富計算機知識處理的研究內(nèi)容,推動人工智能技術(shù)的發(fā)展。
大快NLP模塊是大快大數(shù)據(jù)一體化平臺的一個組件,用戶引用該組件可以有效進(jìn)行自然語言的處理工作,如進(jìn)行文章摘要,語義判別以及提高內(nèi)容檢索的精確度和有效性。
自然語言處理如今不僅作為人工智能核心課題來研究,而且也作為新一代計算機的核心課題來研究。從知識產(chǎn)業(yè)角度看,專家系統(tǒng),數(shù)據(jù)庫,知識庫,計算機輔助設(shè)計系統(tǒng)(CAD)、計算機輔助教學(xué)系統(tǒng)(CAI)、計算機輔助決策系統(tǒng),辦公室自動化管理系統(tǒng),智能機器人等,都需要用自然語言處理,具有篇章理解能力的自然語言理解系統(tǒng)可用于機器自動翻譯、情報檢索、自動標(biāo)引、自動文摘、自動寫故事小說等領(lǐng)域,都可以用我們的工具類DKNLPBase來處理。
標(biāo)準(zhǔn)分詞
方法簽名:List
返回:分詞列表。
簽名參數(shù)說明:txt:要分詞的語句。
范例:下例驗證一段話第5個分詞是阿法狗。
public void testSegment() throws Exception
{
String text = "商品和服務(wù)";
List
assertEquals("商品", termList.get(0).word);
assertEquals("和", termList.get(1).word);
assertEquals("服務(wù)", termList.get(2).word);
text = "柯杰解說“李世石VS阿法狗第二局” 結(jié)局竟是這樣";
termList = DKNLPBase.segment(text);
assertEquals("阿法狗", termList.get(5).word); //能夠識別"阿法狗"
}
關(guān)鍵詞提取
方法簽名:List
返回:關(guān)鍵詞列表.
簽名參數(shù)說明:txt:要提取關(guān)鍵詞的語句,keySum要提取關(guān)鍵詞的數(shù)量
范例:給出一段話提取一個關(guān)鍵詞是“程序員”。
public void testExtractKeyword() throws Exception
{
String content = "程序員(英文Programmer)是從事程序開發(fā)、維護(hù)的專業(yè)人員。" +
"一般將程序員分為程序設(shè)計人員和程序編碼人員," +
"但兩者的界限并不非常清楚,特別是在中國。" +
"軟件從業(yè)人員分為初級程序員、高級程序員、系統(tǒng)" +
"分析員和項目經(jīng)理四大類。";
List
assertEquals(1, keyword.size());
assertEquals("程序員", keyword.get(0));
}
短語提取
方法簽名:List
返回:短語
簽名參數(shù)說明:txt:要提取短語的語句,phSum短語數(shù)量
范例:給出一段文字,能代表文章的五個短語,第一個短語是算法工程師。
邁進(jìn)二十一世紀(jì),我們已經(jīng)進(jìn)入了以互聯(lián)網(wǎng)為主要標(biāo)志的海量信息時代,這些海量信息大部分是以自然語言表示的。一方面,海量信息也為計算機學(xué)習(xí)人類語言提供了更多的“素材”,另一方面,這也為自然語言處理提供了更加寬廣的應(yīng)用舞臺。例如,作為自然語言處理的重要應(yīng)用,搜索引擎逐漸成為人們獲取信息的重要工具,涌現(xiàn)出以百度、谷歌等為代表的搜索引擎巨頭;機器翻譯也從實驗室走入尋常百姓家,谷歌、百度等公司都提供了基于海量網(wǎng)絡(luò)數(shù)據(jù)的機器翻譯和輔助翻譯工具;基于自然語言處理的中文(輸入法如搜狗、微軟、谷歌等輸入法)成為計算機用戶的必備工具;帶有語音識別的計算機和手機也正大行其道,協(xié)助用戶更有效地工作學(xué)習(xí)??傊?,隨著互聯(lián)網(wǎng)的普及和海量信息的涌現(xiàn),自然語言處理正在人們的日常生活中扮演著越來越重要的作用。
然而,我們同時面臨著一個嚴(yán)峻事實,那就是如何有效利用海量信息已成為制約信息技術(shù)發(fā)展的一個全局性瓶頸問題。自然語言處理無可避免地成為信息科學(xué)技術(shù)中長期發(fā)展的一個新的戰(zhàn)略制高點。同時,人們逐漸意識到,單純依靠統(tǒng)計方法已經(jīng)無法快速有效地從海量數(shù)據(jù)中學(xué)習(xí)語言知識,只有同時充分發(fā)揮基于規(guī)則的理性主義方法和基于統(tǒng)計的經(jīng)驗主義方法的各自優(yōu)勢,兩者互相補充,才能夠更好、更快地進(jìn)行自然語言處理。
自然語言處理作為一個年齡尚不足一個世紀(jì)的新興學(xué)科,正在進(jìn)行著突飛猛進(jìn)的發(fā)展?;仡欁匀徽Z言處理的發(fā)展歷程,并不是一帆風(fēng)順,有過低谷,也有過高潮。而現(xiàn)在我們正面臨著新的挑戰(zhàn)和機遇。例如,目前網(wǎng)絡(luò)搜索引擎基本上還停留在關(guān)鍵詞匹配,缺乏深層次的自然語言處理和理解。語音識別、文字識別、問答系統(tǒng)、機器翻譯等目前也只能達(dá)到很基本的水平。路漫漫其修遠(yuǎn)兮,自然語言處理作為一個高度交叉的新興學(xué)科,不論是探究自然本質(zhì)還是付諸實際應(yīng)用,在將來必定會有令人期待的驚喜和異??焖俚陌l(fā)展。