這篇文章主要介紹了HanLP自然語言處理包如何安裝與使用,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
金昌ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)建站的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18980820575(備注:SSL證書合作)期待與您的合作!
HanLP是由一系列模型與算法組成的Java工具包,目標(biāo)是促進(jìn)自然語言處理在生產(chǎn)環(huán)境中的應(yīng)用。HanLP具備功能完善、性能高效、架構(gòu)清晰、語料時新、可自定義的特點(diǎn)。
HanLP能提供以下功能:關(guān)鍵詞提取、短語提取、繁體轉(zhuǎn)簡體、簡體轉(zhuǎn)繁體、分詞、詞性標(biāo)注、拼音轉(zhuǎn)換、自動摘要、命名實(shí)體識別(地名、機(jī)構(gòu)名等)、文本推薦等功能,詳細(xì)請參見以下鏈接:http://www.hankcs.com/nlp/hanlp.html
HanLP下載地址: https://github.com/hankcs/HanLP/releases,HanLP項(xiàng)目主頁: https://github.com/hankcs/HanLP
1、HanLP安裝
hanlp是由jar包、properties文件和data數(shù)據(jù)模型組成,因此,在安裝時,這三種文件都應(yīng)該有??梢酝ㄟ^建立java工程即可運(yùn)行。
hanlp.properties文件中描述了不同詞典的相對路徑以及root根目錄,因此,可以在此文件中修改其路徑。
hanlp-1.3.4.jar包中包含了各種算法及提取方法的api,大部分方法都是靜態(tài)的,可以通過HanLP直接進(jìn)行調(diào)用,因此,使用非常方便。
data文件夾中包含了dictionary和model文件夾,dictionary中主要是各種類型的詞典,model主要是分析模型,hanlp api中的算法需要使用model中的數(shù)據(jù)模型。
2、HanLP的使用
普通java工程目錄如下所示:
3、HanLP的具體使用
例如:對excel中的聊天記錄字段進(jìn)行熱點(diǎn)詞的提取,計(jì)算并排序,功能如下所示
package com.run.hanlp.demo;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import org.apache.log4j.Logger;
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;
import com.hankcs.hanlp.suggest.Suggester;
import com.hankcs.hanlp.summary.TextRankKeyword;
import com.hankcs.hanlp.tokenizer.NLPTokenizer;
import com.hankcs.hanlp.tokenizer.StandardTokenizer;
import com.run.util.ExcelUtil;
public class HanlpTest {
public static final Logger log = Logger.getLogger(HanlpTest.class);
public static void main(String[] args) {
log.info("關(guān)鍵詞提?。?);
HanlpTest.getWordAndFrequency();
}
/**
* 獲取所有關(guān)鍵詞和頻率
*/
public static void getWordAndFrequency() {
// String content =
// "程序員(英文Programmer)是從事程序開發(fā)、維護(hù)的專業(yè)人員。一般將程序員分為程序設(shè)計(jì)人員和程序編碼人員,但兩者的界限并不非常清楚,特別是在中國。軟件從業(yè)人員分為初級程序員、高級程序員、系統(tǒng)分析員和項(xiàng)目經(jīng)理四大類。";
List
由此可見,可以看見從excel中提取出來的熱點(diǎn)詞匯及其頻率。
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“HanLP自然語言處理包如何安裝與使用”這篇文章對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!