本篇內(nèi)容介紹了“Python自然語言包有哪些”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
創(chuàng)新互聯(lián)專注于企業(yè)營銷型網(wǎng)站建設(shè)、網(wǎng)站重做改版、丹東網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、H5建站、商城開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)公司、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù),價格優(yōu)惠性價比高,為丹東等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。
談?wù)揚ython中的nlp庫,不能不提NLTK。它是最著名的Python NLP庫,它在這個領(lǐng)域中取得了令人難以置信的突破。NLTK負(fù)責(zé)征服許多文本分析的問題,NLTK也頗受教育與研究界的青睞。在自己的網(wǎng)站上,NLTK自稱是“一個令人驚嘆的自然語言庫?!?/p>
在我們的經(jīng)驗中,關(guān)鍵詞是“玩”。NLTK在50個語料庫和詞典,9個詞干器,以及幾十種可選的算法。它是一個學(xué)術(shù)研究者的主題公園。
然而,這也是NLTK一個主要的缺點。它是沉重的,滑滑的,它有一個陡峭的學(xué)習(xí)曲線。第二個主要缺點是緩慢而不是生產(chǎn)準(zhǔn)備就緒。
textblob坐在巨人肩上,與此類似的另一個庫是Pattern。事實上,我們推薦textblob而不是Pattern。
textblob使文本處理提供一個直觀的界面,簡單化的NLTK。因為它有一個溫和的學(xué)習(xí)曲線,同時擁有驚人的功能,使其成為Python最受歡迎的自然語言庫。
例如,假設(shè)你想找到一個文本的情感分?jǐn)?shù)。你可以:
from textblob import TextBlob opinion = TextBlob("EliteDataScience.com is dope.")opinion.sentiment
默認(rèn)情況下,情緒分析儀是從模式庫的patternanalyzer。但如果你想使用樸素貝葉斯分析?你可以很容易地轉(zhuǎn)換到一個使用nltk訓(xùn)練好的analyzer。
from textblob import TextBlobfrom textblob.sentiments import NaiveBayesAnalyzer opinion = TextBlob("EliteDataScience.com is dope!", analyzer=NaiveBayesAnalyzer())opinion.sentiment
textblob是一種簡單、有趣的庫,使得文本分析是一種輕松愉快的事情。我們可以用textblob對付所有NLP的初始原型。
Stanford corenlp庫是自然語言分析生產(chǎn)準(zhǔn)備階段的工具套件。它包括詞性(POS)標(biāo)注,實體解析,模式識別,學(xué)習(xí)等。 “雇傭軍”實際上是用Java寫而不是Python寫的。
許多組織使用corenlp來實現(xiàn)其產(chǎn)品。它幾乎能夠準(zhǔn)確的支持幾個主要的語言。
Spacy是一個新生事物,它一經(jīng)推出就轟動業(yè)界。市場定位于運行效率的Python自然語言庫。
Spacy是很輕很小的,它的哲學(xué)是對每一個問題只提出一種算法(最好的一種)。你不必做出選擇,你可以專注于富有成效。
內(nèi)核是Cpython,所以Spacy運行很快。它的主要缺點是它目前只支持英語。
Spacy是很新的,所以其支持社區(qū)不象其他庫那么大。然而,它的NLP的方法是如此引人注目,似乎未來可以取代NLTK。
如果你正在建設(shè)一個新的應(yīng)用程序或改造舊的(你只需要英語的支持),那么我們強(qiáng)烈建議使用Spacy。
最后但并非最不重要的,我們有g(shù)ensim庫。gensim不解決所有nlp領(lǐng)域,它只做一部分,并將其做好。你不會把你的海軍上將派到陸戰(zhàn)場景,同理你也不會用gensim去解決nlp的所有領(lǐng)域和情景。
gensim是一個很好的主題建模和文檔相似性分析優(yōu)化庫。在這里列出的Python NLP庫中,它是最專業(yè)的。
即便如此,這還是一個有價值的工具來添加你的曲目。它的主題建模算法,如潛在的狄利克雷分配(LDA)實現(xiàn),是所有庫中最棒的。此外,它強(qiáng)健、高效、可擴(kuò)展。
另外,子字段語義分析(或主題建模)是現(xiàn)代自然語言處理中最令人興奮的領(lǐng)域之一。
“Python自然語言包有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!