1. 智能問(wèn)答的一般實(shí)現(xiàn)步驟包括:1)文本庫(kù)分詞,訓(xùn)練模型,由模型將文本庫(kù)轉(zhuǎn)換為詞向量;2)將詞向量與索引進(jìn)行存儲(chǔ);3)輸入檢索文本,將檢索文本分詞轉(zhuǎn)換為詞向量,計(jì)算檢索文本詞向量與詞向量庫(kù)的相似度,并進(jìn)行排序,返回top n。
創(chuàng)新互聯(lián)長(zhǎng)期為上千客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對(duì)不同對(duì)象提供差異化的產(chǎn)品和服務(wù);打造開(kāi)放共贏平臺(tái),與合作伙伴共同營(yíng)造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為伊州企業(yè)提供專業(yè)的網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站制作,伊州網(wǎng)站改版等技術(shù)服務(wù)。擁有10年豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開(kāi)發(fā)。
2.Milvus 與BERT?
Milvus?是一款開(kāi)源向量相似度搜索引擎,建立在 Faiss、NMSLIB、Annoy ?等向量索引庫(kù)基礎(chǔ)之上,Milvus 集成了這些向量索引庫(kù),對(duì)外提供了一套簡(jiǎn)單而一致的 API 。除了提供針對(duì)向量的近實(shí)時(shí)搜索能力外,Milvus 可以對(duì)標(biāo)量數(shù)據(jù)進(jìn)行過(guò)濾。
BERT 模型是 Google 發(fā)布的一個(gè)新的語(yǔ)言表達(dá)模型(Language Representation Model),全稱是 Bidirectional Encoder Representations from Transformers,即雙向編碼表征模型。1)簡(jiǎn)單全連接網(wǎng)絡(luò)取代了復(fù)雜的 CNN 和 RNN 網(wǎng)絡(luò);2)不但大大減少了訓(xùn)練時(shí)間,同時(shí)有效地提升了網(wǎng)絡(luò)性能。是第一個(gè)真正捕獲上下文語(yǔ)義信息的預(yù)訓(xùn)練語(yǔ)言表示模型。
3. 參考博客[1]實(shí)現(xiàn)了一種智能問(wèn)答,步驟如下
1)使用開(kāi)源的 bert-as-service ,使用 BERT 做為句子編碼器,將新聞標(biāo)題數(shù)據(jù)轉(zhuǎn)化為固定長(zhǎng)度為 728 維的特征向量,并導(dǎo)入 Milvus 庫(kù)。2)對(duì)存入 Milvus 庫(kù)中的特征向量進(jìn)行存儲(chǔ)并建立索引,同時(shí) Milvus 會(huì)給這些特征向量分配一個(gè) ID,將 ID 和對(duì)應(yīng)的新聞標(biāo)題和文本存儲(chǔ)在 PostgreSQL 中。3)最后,用戶輸入一個(gè)新聞標(biāo)題,BERT 將其轉(zhuǎn)成特征向量。Milvus 對(duì)特征向量進(jìn)行相似度檢索,得到相似的新聞標(biāo)題的 ID ,在 PostgreSQL ?中找出 ID 對(duì)應(yīng)的新聞標(biāo)題和文本返回。在后續(xù)界面展示中可以看到新聞文本搜索的一個(gè)例子。
參考: Milvus 實(shí)戰(zhàn) | Milvus 與 BERT 搭建文本搜索
什么發(fā)行版?
mysql 一般是叫 mysqld 的(那個(gè) d 表明的是服務(wù))
postgresql 是 IBM 出的一個(gè)開(kāi)源數(shù)據(jù)庫(kù),和 mysql 都是數(shù)據(jù)庫(kù)程序。
你看看 /etc/init.d/ 里面有沒(méi)有 mysql 的東西。
如果有運(yùn)行 /etc/init.d/mysqld start 就啟動(dòng)了。
添加到服務(wù)里,發(fā)行版不同,添加的方式也不一樣的。
一、Java核心
這是學(xué)習(xí)Java的基礎(chǔ),掌握程度的深淺甚至直接影響后面的整個(gè)學(xué)習(xí)進(jìn)程。Java的核心主要包括幾個(gè)部分:
1、初級(jí)的有語(yǔ)法基礎(chǔ)、面向?qū)ο笏枷搿?/p>
學(xué)習(xí)任何一門語(yǔ)言語(yǔ)法都是必須的,因?yàn)镴ava的接近自然語(yǔ)言,也是一種相對(duì)比較容易學(xué)的語(yǔ)言。同時(shí)面向?qū)ο缶幊谈瞧浜诵乃枷?,要理解其?shí)只要記住一句話就行了,那就是:一切皆是對(duì)象。
2、中級(jí)的IO流、多線程、反射及注解等。
IO流程、多線程等是相對(duì)比較高級(jí)一點(diǎn)的了,通過(guò)學(xué)習(xí)我們會(huì)發(fā)現(xiàn)這些都很有用而且很有趣。例如我們可以讀取一個(gè)Excel文件、將一個(gè)文件分離,做一個(gè)時(shí)鐘、使用多個(gè)線程發(fā)送郵件等等很多有意思的事。另外反射及注解更是后面流行框架SSH等的基礎(chǔ),在使用中你便會(huì)慢慢感受到它的無(wú)窮魅力。
3、高級(jí)一點(diǎn)的就是設(shè)計(jì)模式和框架之類了。
要學(xué)習(xí)好一門語(yǔ)言,僅僅會(huì)使用還是不夠的,我們不僅要深入研究其原理,而且還要找到其一些共性的東西,從而減少反復(fù)的勞動(dòng),讓代碼可重用、更可靠且更容易被別人理解。
二、前端Web
現(xiàn)在來(lái)說(shuō)Java最流行的應(yīng)用還是Web開(kāi)發(fā)。那么作為Web開(kāi)發(fā),對(duì)于前臺(tái)的知識(shí)的學(xué)習(xí)也是必須的,當(dāng)然并不是一定要按照前端工程師的標(biāo)準(zhǔn)去要求。但是一些基礎(chǔ)的知識(shí)也是必須要掌握的,畢竟Web應(yīng)用是前臺(tái)和后臺(tái)的一個(gè)交互的過(guò)程。像HTML、CSS、Javascript等都是基礎(chǔ)的知識(shí),另外作為開(kāi)發(fā)人員對(duì)目前最流行的Javascript框架Jquery更是必學(xué)不可的。
三、數(shù)據(jù)庫(kù)
有人說(shuō),所有的應(yīng)用無(wú)非就是數(shù)據(jù)的輸入、處理到輸出的過(guò)程。期間同時(shí)可能還會(huì)涉及到數(shù)據(jù)的存儲(chǔ)問(wèn)題。對(duì)于結(jié)構(gòu)化的數(shù)據(jù),我們常用的還是像Oracle、Mysql和PostgreSQL之類的關(guān)系型數(shù)據(jù)庫(kù)。同時(shí)針對(duì)數(shù)據(jù)庫(kù)編程還是PL/SQL需要學(xué)習(xí)。使用Java訪問(wèn)數(shù)據(jù)庫(kù)的話還有JDBC。那么對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)以及大數(shù)據(jù)該如何處理呢?其實(shí)這里也已經(jīng)有了非常成熟的解決方案了,那便是Hadoop。就Hadoop而言他并不是一種思想,更多是一個(gè)實(shí)現(xiàn)了Mapreduce模式的框架。
四、J2EE
好了,前面這么多準(zhǔn)備的工作。下面我們進(jìn)入正題。作為Java開(kāi)發(fā),CoreJava是核心,而作為JavaWeb開(kāi)發(fā),我認(rèn)為Servlet才是核心。Servlet是服務(wù)器端的Java應(yīng)用程序,但是與普通的Java應(yīng)用程序不同的是,它是由web服務(wù)器來(lái)加載啟動(dòng),即我們常說(shuō)的Servlet,如Tomcat便是servlet容器。另外談到J2EE開(kāi)發(fā),這里有一個(gè)重要的模型不得不提一下,很多人其實(shí)已經(jīng)想到了,那便是MVC(模型-視圖-控制器)模型。在傳統(tǒng)的web開(kāi)發(fā)中,往往是JavaBean充當(dāng)模型、JSP做視圖而Servlet作為控制器。
五、框架
說(shuō)到框架,其實(shí)已經(jīng)提到了著名的MVC模型,SSH(Struts+Spring+Hibernate)就是一個(gè)非常好的實(shí)現(xiàn)。對(duì)于每一個(gè)框架的作用,我想就不用多說(shuō)了,畢竟這里并不是想寫一本教程。另外還有工作流開(kāi)發(fā)的JBPM,搜索引擎Lucence及使系統(tǒng)對(duì)外提供接口的webservice應(yīng)用組件等都是應(yīng)該要掌握的。
六、服務(wù)器
關(guān)于服務(wù)器,像tomcat、jboss、weblogic及websphere等便不提了,因?yàn)樘毡榱?。這里要說(shuō)的是Nginx,
Nginx ("engine x") 是一個(gè)高性能的 HTTP 和 反向代理 服務(wù)器。其以占有內(nèi)存少,并發(fā)能力強(qiáng)而著稱,連新浪、網(wǎng)易、 騰訊這類知名企業(yè)也在使用,所以還有什么理由不去學(xué)它呢?
七、工具
這里主要介紹幾個(gè)開(kāi)發(fā)輔助工具。如日志工具Log4j、測(cè)試工具Junit、版本管理工具SVN還有項(xiàng)目管理maven等。
另外還有第三方插件Ectable。