Lucene是apache軟件基金會4 jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎,部分文本分析引擎。Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包.
成都創(chuàng)新互聯(lián)公司專注于贛榆企業(yè)網(wǎng)站建設,成都響應式網(wǎng)站建設公司,商城網(wǎng)站開發(fā)。贛榆網(wǎng)站建設公司,為贛榆等地區(qū)提供建站服務。全流程按需開發(fā),專業(yè)設計,全程項目跟蹤,成都創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務粘貼這句話的意思就是想說明 Lucene僅僅是一個工具包,搜索引擎的工具包.
有人會問?Lucene和solr的區(qū)別,solr是一個搜索系統(tǒng),打個比方,就如servlet和struts2的區(qū)別 Lucene就是servlet,solr就好比solr,solr封裝了Lucene.
下面說說Lucene的原理:
我們使用Lucene,其實使用的是他的倒排查詢
什么是倒排查詢?舉個例子
新華字典,我們都用過吧,新華字典分為兩部分,第一部門就是目錄的邊旁部首,第二部分就是正文,一個一個字的解釋,
我們在用新華字典的時候,一般我們都是通過邊旁部首找字,沒有人一頁一頁的翻字典找字吧.
Lucene的倒排就是如此,他會檢索文本,數(shù)據(jù)庫,web網(wǎng)頁,在把內(nèi)容分詞,就像邊旁部首
再次強調(diào)
搜索引擎(百度,谷歌)和lucene的區(qū)別
搜索引擎就是一個應用,lucene就是一個搜索工具類
name:lucene表示要搜索name這個Field域中,內(nèi)容為“l(fā)ucene”的文檔。
desc:lucene AND desc:java 表示要搜索即包括關鍵字“l(fā)ucene”也包括“java”的文檔。
看不懂沒關系
我接下來說明Doucment和Field關系
這里我用數(shù)據(jù)庫中的一條數(shù)據(jù)說明
這一條數(shù)據(jù)就是一個document文檔
每一個字段就是一個Field域
這樣說是不是豁然開朗了.
接下來,我們說說分詞器
這個lucene是外國人搞得,對中文的支持不說你也知道,不多外國人也想到這一點,"我是中國人">>我 是 中 國 人 >> 這樣的效果其實還不是我們想要的,我們要的是"中國","國人"這樣的詞匯,這里我也不打啞謎了,市場上有很多中文分詞器,無敵的存在我覺得就是IK了,這是一個jar包,導入項目即可,說他無敵是因為他可以自己加詞,比如"屌絲","高富帥",這也詞,可以自己加到分詞器中,讓程序認得.
這就是要用到的包;
ik下載后把這3個文件也要導入項目中,ext.dic是加詞的,stop是停詞的.
前面的都是Lucece的理論,只有理論搞懂了,下面的代碼實現(xiàn)過程也就輕松了
//分詞 testCreateIndex() BookDao bookDao = ListlistBook = List documents = ArrayList<> Document doc = doc.add( TextField("id", String.valueOf(bk.getId()), Store.YES)); doc.add( TextField("name" doc.add( TextField("price" doc.add( TextField("pic" doc.add( TextField("desc" Analyzer analyzer = IndexWriterConfig config = Directory directory = FSDirectory.open( File("H:\\temp" IndexWriter writer = //查 serachIndex() Analyzer analyzer = QueryParser queryParser = QueryParser("desc" Query query = queryParser.parse("desc:java AND lucene" Directory directory = FSDirectory.open( File("H:\\temp" IndexReader indexReader = IndexSearcher indexSearcher = TopDocs topDocs = indexSearcher.search(query, 10 System.out.println("查詢到的數(shù)據(jù)總條數(shù)是:" + ScoreDoc[] docs = docID = Document doc = System.out.println("docID:"+ System.out.println("bookid:"+doc.get("id" System.out.println("pic:"+doc.get("pic" System.out.println("name:"+doc.get("name" System.out.println("desc:"+doc.get("desc" System.out.println("price:"+doc.get("price" }
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。