本篇內(nèi)容介紹了“短?本聚類的問題有哪些”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
創(chuàng)新互聯(lián)公司長(zhǎng)期為數(shù)千家客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對(duì)不同對(duì)象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺(tái),與合作伙伴共同營(yíng)造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為永新企業(yè)提供專業(yè)的網(wǎng)站設(shè)計(jì)制作、成都做網(wǎng)站,永新網(wǎng)站改版等技術(shù)服務(wù)。擁有10余年豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開發(fā)。
搜索是用戶明確表達(dá)需求的場(chǎng)景,百度搜索每天承接海量請(qǐng)求,query的表達(dá)多種多樣。大規(guī)模短文本聚類系統(tǒng),核心目的就是對(duì)以query為代表的短文本進(jìn)行總結(jié)歸納,**精準(zhǔn)高效地將含義相同表達(dá)不同的短文本,凝練成含義內(nèi)聚表達(dá)清晰的“需求”。**這種方式不僅可以壓縮短文本量級(jí),還能更好的滿足用戶需求,幫助內(nèi)容提供方,提供更好的內(nèi)容。目前已經(jīng)輔助了百度UGC產(chǎn)品的內(nèi)容生產(chǎn)。
在這一節(jié)中,我們先介紹短文本聚類問題,并介紹常用聚類算法,最后分析聚類算法在搜索場(chǎng)景下的難點(diǎn)和挑戰(zhàn)。
聚類是一種常用的無監(jiān)督算法,按照某個(gè)距離度量方式把一個(gè)數(shù)據(jù)集分割成不同的類或簇,使得同一個(gè)簇內(nèi)的數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí)不在同一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能地大。
一般來說,搜索query以短文本為主。從大量的短文本中,盡可能地將含義一致的所有文本,聚合在一起,形成一個(gè)**“需求簇”**,就是短文本聚類問題。
舉例來說:
其中,query="?機(jī)碎屏了怎么辦?" 和query=“求助,?機(jī)屏幕摔碎了”是相同的需求,可以聚合成為?個(gè)簇;query="???什么意思",query="?抬頭什么意思" 和query="?抬頭有什么典故"是相同的需求,可以聚合成為?個(gè)簇。
可以看出,搜索query場(chǎng)景下的短?本聚類問題,和常規(guī)聚類問題,有?個(gè)明顯的區(qū)別:**“簇”的內(nèi)涵相對(duì)集中,**也就是說,聚合完成后,簇的量級(jí)相對(duì)較?,同?個(gè)簇內(nèi)的數(shù)據(jù),距離較近。
在?本聚類領(lǐng)域,simhash是?種常?的局部敏感哈希算法,常常被?來作為搜索引擎中的??去重算法。它?圖以較?的概率,將相似的?檔映射為相同的哈希值,從?起到聚類(去重)的?的。
simhash算法?般會(huì)將?檔進(jìn)?分詞處理,并給出每個(gè)詞的權(quán)重,再為每個(gè)詞計(jì)算?個(gè)哈希值,將所有詞的哈希值加權(quán)對(duì)位求和后,再采?對(duì)位?值化降維,產(chǎn)出最終?檔的哈希值。過程中使?了詞的重要性加權(quán),所以重要的詞對(duì)最終?檔哈希值的影響會(huì)更?,?不重要的詞,對(duì)最終?檔哈希值的影響就會(huì)更?,從?相似的?檔,產(chǎn)?相同哈希值的可能性就會(huì)更?。
在??檔聚類(去重)領(lǐng)域,simhash是?種?效的算法,但是,對(duì)短?本聚類??,由于?本?度?幅度減少,simhash的有效性??降低了,不能保證產(chǎn)出結(jié)果的準(zhǔn)確性。
另?種常?的?本聚類?式,?先會(huì)將?本向量化,再采?常規(guī)聚類?法進(jìn)?聚類。其中,?本向量化的?式很多,從早期的tf-idf,到?便快捷的word2vec,甚?是采?bert,ernie等預(yù)訓(xùn)練模型產(chǎn)出的?本向量,都可以作為?本的向量化表征。?般來說,向量化?法會(huì)暗含分布式假設(shè),產(chǎn)出的文本向量,可以在?定程度上解決同義詞的問題。
聚類的?式也多種多樣,例如常?的kmeans,層級(jí)化聚簇,single-pass等。特別需要注意的是,在設(shè)計(jì)聚類算法的距離度量時(shí),需要特別考慮向量化的?式,針對(duì)不同的向量化?式,設(shè)計(jì)不同的距離度量。
這類算法存在三點(diǎn)問題:
1、以kmeans為代表的聚類算法,存在超參數(shù)“簇?cái)?shù)量”,只能借助經(jīng)驗(yàn)和輔助指標(biāo)進(jìn)?判定; 2、對(duì)短?本聚類問題,簇的數(shù)量往往特別?,會(huì)導(dǎo)致聚類算法性能嚴(yán)重下降; 3、聚類結(jié)果準(zhǔn)確率受向量化和聚類算法雙重影響,難以表達(dá)數(shù)據(jù)的細(xì)粒度差異。
盡管短?本聚類算法,在業(yè)界具有較多應(yīng)?場(chǎng)景,但是在研究領(lǐng)域,它仍是?個(gè)相對(duì)?眾的分?,主要采?改進(jìn)?本向量化表示的?案,例如句?向量被設(shè)計(jì)成詞向量加權(quán)矩陣的第?主成分,??直接加權(quán);例如采?聚簇引導(dǎo)的向量迭代的?式,改進(jìn)向量化表示,例如SIF+Aut。但不論是哪種改進(jìn),都會(huì)增加較?的計(jì)算開銷,在?業(yè)界并不現(xiàn)實(shí)。
我們?對(duì)的問題是?規(guī)模短?本聚類,它還包含3個(gè)隱含的限制條件:
1、聚類結(jié)果的準(zhǔn)確性要求?常嚴(yán)格; 2、短?本數(shù)量規(guī)模?常?; 3、數(shù)據(jù)產(chǎn)出時(shí)效要求高;
不難看出,常規(guī)算法在運(yùn)算效率和準(zhǔn)確性方面,很難同時(shí)滿足上述三個(gè)要求;而工業(yè)界并沒有成熟框架,可以解決這個(gè)問題;學(xué)術(shù)界算法距離工業(yè)場(chǎng)景應(yīng)用還有一定距離;我們需要一種新的思路來解決問題。
在設(shè)計(jì)算法時(shí),需要重點(diǎn)考慮如下問題:
1、數(shù)據(jù)量級(jí)?,系統(tǒng)吞吐高:搜索query的量級(jí)是不言而喻的,對(duì)于億級(jí)別數(shù)據(jù),進(jìn)行高效計(jì)算,非??简?yàn)算法設(shè)計(jì)能力和工程架構(gòu)能力;
2、聚類算法準(zhǔn)確率要求高:首先,聚類算法是無監(jiān)督算法,采用向量空間上的距離度量,衡量聚類結(jié)果的聚集程度,本質(zhì)上并沒有準(zhǔn)確率的概念;但是,在搜索query場(chǎng)景下,聚類算法就有了明確的衡量指標(biāo):通過統(tǒng)一的文本相似性評(píng)估標(biāo)準(zhǔn),可以后驗(yàn)評(píng)估出在同一個(gè)簇中,結(jié)果是否相似, 在不同的簇中,數(shù)據(jù)是否不相似,從而可以衡量出聚類準(zhǔn)確率。這為短文本聚類算法戴上了“緊箍咒”:并不是任意聚類算法都適用,需要考慮和文本相似度結(jié)合更緊密的聚類算法。
“結(jié)合更緊密”是從向量空間中距離的定義來考慮的,例如,由相似度模型給出的相似度度量,并不一定是向量空間上“距離”。具體來說,向量空間上的一個(gè)定義良好的“距離”,需要滿足三角不等式:distance(A,B)+distance(B,C)>=distance(A,C), 但是,對(duì)于相似度,similarity(A,B)+similarity(B,C)與similarity(A,C)并不一定有穩(wěn)定的數(shù)量關(guān)系。因此,不能直接使用聚類模型,只能將相似度作為“場(chǎng)外指導(dǎo)”,實(shí)現(xiàn)相似度指導(dǎo)下的聚類算法。這導(dǎo)致一般的聚類算法不能直接用于短文本聚類。
3、文本相似度要求精度高,耗時(shí)短:文本相似度是一個(gè)場(chǎng)景依賴問題,對(duì)于同樣的query對(duì),在不同的場(chǎng)景下,可能有截然不同的判定結(jié)果。在搜索場(chǎng)景下,對(duì)相似度的精度要求非常高,往往一字之差,就是完全不同的需求,因此模型需要能夠精確捕獲文本的細(xì)粒度差異;另一方面,希望盡可能地將相同需求的query聚合成為一個(gè)簇,減少漏召回的情況;也就是說,**對(duì)于短文本聚類問題,對(duì)文本相似度的準(zhǔn)確率和召回率都有很高要求;**除此之外,為了適應(yīng)大規(guī)模的調(diào)用,文本相似度服務(wù)需要具有響應(yīng)時(shí)長(zhǎng)短、易擴(kuò)展等特點(diǎn)。
4、文本表征復(fù)雜:文本表征指的是通過某種方式將文本轉(zhuǎn)化為語義向量,用于后續(xù)文本聚類。文本向量的產(chǎn)出方式多種多樣,例如在simhash中,采用加權(quán)hash函數(shù)表達(dá)文本信息;還可以用word2vec詞向量加權(quán)產(chǎn)生文本的向量信息。除此之外,短文本的類別,關(guān)鍵詞等信息,也是文本表征的重要組成部分;在文本向量化時(shí),需要重點(diǎn)考慮如何在向量空間中體現(xiàn)相似度。文本表征是一項(xiàng)重要且基礎(chǔ)的算法,選擇不同的文本表征,決定了不同的相似度度量方式,直接影響聚類模型選型,間接影響最終結(jié)果。
5、誤差的發(fā)現(xiàn)和修復(fù):從文本表征到文本相似度,再到聚類算法,每一步都會(huì)積累誤差,從而影響最終結(jié)果。對(duì)于大規(guī)模文本聚類,這個(gè)問題尤為明顯,也是容易被忽略的環(huán)節(jié)。
考慮到以上難點(diǎn),我們采?了多級(jí)拆分,逐個(gè)擊破的總體思路。
圖1:?規(guī)模短?本聚類的總體思路
1.我們先將?規(guī)模短?本,進(jìn)?多級(jí)拆分,基本保證相同含義的query,?概率進(jìn)?同?個(gè)分桶中:
1.1?級(jí)拆分:需要保證拆分項(xiàng)在語義層?,含義互斥,也就是相同含義的query,必須進(jìn)?相同的桶中;
1.2?級(jí)拆分:?級(jí)拆分后,每個(gè)桶內(nèi)的query量級(jí)依然很?,還需要進(jìn)??級(jí)拆分,保證后續(xù)計(jì)算量級(jí)可控;
2.對(duì)同?個(gè)桶內(nèi)的query進(jìn)?精細(xì)化語義聚合,將含義相同的query,合并為?個(gè)簇;
3.對(duì)于同?個(gè)?級(jí)分桶中的語義簇,進(jìn)?誤差校驗(yàn),將需要合并的簇合并;
說明:
1.為什么要拆分?假設(shè)我們的query數(shù)量量級(jí)為,那么最差情況下,我們需要進(jìn)?次相似度計(jì)算,才能完成?本聚類;然?,如果我們將數(shù)據(jù)進(jìn)?拆分,并且以較?的概率保證拆分互斥,,那么只需要進(jìn)?次相似度計(jì)算,量級(jí)是遠(yuǎn)?于的;
2.為什么需要多級(jí)拆分?如果把原始數(shù)據(jù)平級(jí)拆分的較細(xì),就會(huì)降低相似度調(diào)用次數(shù);但是平級(jí)拆分的越細(xì),就越不能保證語義互斥,這會(huì)導(dǎo)致需要進(jìn)行誤差校驗(yàn)的數(shù)量激增;如果我們采用多級(jí)拆分,保證頂部拆分的準(zhǔn)確率,就會(huì)減少誤差校驗(yàn)的數(shù)據(jù)量;
3.如何進(jìn)?語義聚簇?數(shù)據(jù)拆分后,需要在每個(gè)桶內(nèi),進(jìn)??本聚類,這也是整個(gè)?案最核?的地?;?前,有三種辦法可以解決:
3.1 基于?本字?的檢索聚類:雖然分到同?個(gè)桶中的數(shù)據(jù)量已經(jīng)??減少了,但是如果兩兩進(jìn)?相似度計(jì)算,數(shù)據(jù)量級(jí)依然很?;我們發(fā)現(xiàn),常規(guī)的關(guān)鍵詞搜索,可以保證召回?部分相似的query,只需要為召回的query計(jì)算相關(guān)性即可。
3.2 基于?本表征的聚類:雖然通過關(guān)鍵詞搜索,可以覆蓋?部分的相似query,但是召回并不全, 為了解決同義問題、句式變換等導(dǎo)致的關(guān)鍵詞召回不全的問題,我們使用了基于文本表征的召回方式:將向量化后的query,進(jìn)行細(xì)粒度的聚類,只需要對(duì)同一類中的query計(jì)算相似度即可;
3.3 基于?本表征的檢索聚類:考慮細(xì)粒度的聚類算法控制力較弱,還可以引入向量檢索,通過文本向量召回的方式,解決召回不全的問題。
1. 解決了數(shù)據(jù)量級(jí)大,要求耗時(shí)短的問題:當(dāng)前流程可以通過將數(shù)據(jù)進(jìn)行二級(jí)拆分,可以把大規(guī)模數(shù)據(jù),拆分為較小的數(shù)據(jù)塊,分配給不同的計(jì)算單元進(jìn)行計(jì)算,從而減少耗時(shí);我們進(jìn)行過估計(jì),在1億數(shù)據(jù)上,傳統(tǒng)兩兩對(duì)比的方式,計(jì)算需要耗時(shí)58年;而采用分層的方式, 只需要4天;雖然采用分級(jí)向量化聚簇(無相似度)的方式,可以將耗時(shí)降低為2天, 但是準(zhǔn)確率和召回率較低;
2. 優(yōu)化相似度, 提高相似度服務(wù)計(jì)算性能:我們對(duì)短文本相似度進(jìn)行了定制性優(yōu)化,多實(shí)例部署,相似度服務(wù)的吞吐能力得到了100倍的提升;
3. 聚類算法準(zhǔn)確率高:引入誤差修正機(jī)制,整體短文本聚類算法準(zhǔn)確率從93%提升到了95%,召回率從71%提升到了80%;
基于以上分析, 對(duì)計(jì)算性能和計(jì)算效果進(jìn)行折中, 我們采用了分級(jí)向量化聚簇+優(yōu)化后的相似度作為最后的方案;
以上是我們經(jīng)過?段時(shí)間的探索后,總結(jié)出的?規(guī)模短?本聚類問題的解決?案。在過程中,我們進(jìn)?了兩個(gè)?版本的迭代。
在解決這個(gè)問題的初期,我們面對(duì)兩種技術(shù)方案:一種是探索適合短文本的表征,將問題轉(zhuǎn)化為特殊的向量聚類的問題,例如simhash;另一種是將數(shù)據(jù)集合進(jìn)行拆分,減少數(shù)據(jù)規(guī)模,加速相似度計(jì)算,解決聚類問題;經(jīng)過分析后,我們認(rèn)為方案一,在選擇合適的文本表征上,沒有可以指導(dǎo)優(yōu)化方向的中間指標(biāo),很難迭代優(yōu)化,因此,明確了將數(shù)據(jù)集合進(jìn)行拆分的思路。
首先,我們根據(jù)query的分類和其他業(yè)務(wù)要求,將query進(jìn)行一級(jí)拆分,保證拆分結(jié)果語義互斥;
第二步,進(jìn)行二級(jí)拆分:為了保證二級(jí)拆分后的同一個(gè)桶內(nèi),數(shù)據(jù)量級(jí)適中,便于進(jìn)行精細(xì)化語義聚合,我們采用了層級(jí)化分桶的方式:
1. 對(duì)query計(jì)算高級(jí)語義特征,并進(jìn)行二值化操作,產(chǎn)出一個(gè)256維度的由0、1組成的向量
2. 首先取前50維向量,進(jìn)行hash粗聚;如果簇內(nèi)的數(shù)量超過一定數(shù)量,則對(duì)其中的query,擴(kuò)展維度到100維,重新進(jìn)行hash粗聚,直到維數(shù)達(dá)到256或者簇內(nèi)數(shù)量少于一定數(shù)量
第三步,對(duì)每一個(gè)桶內(nèi)的query,進(jìn)行精細(xì)化語義聚合,將含義相似的query,合并為一個(gè)簇中。
我們可以看出,由于采用了數(shù)據(jù)拆分的思路,將數(shù)據(jù)分桶后,進(jìn)行精細(xì)化語義聚類時(shí),每個(gè)分桶之間的數(shù)據(jù)語義互斥,只需要在每個(gè)桶內(nèi)進(jìn)行語義聚合, 就可以產(chǎn)出數(shù)據(jù)了。這種方式便于并行化計(jì)算,對(duì)縮短計(jì)算耗時(shí)有很大貢獻(xiàn)。
在過程中, 我們也發(fā)現(xiàn),一些需要改進(jìn)的地方:
1. 聚類結(jié)果的準(zhǔn)確性強(qiáng)依賴于相似度模型,并且是細(xì)粒度相似度模型,如果使用粗粒度相似度模型,會(huì)導(dǎo)致誤召回,因此需要一套可以區(qū)分細(xì)粒度相似程度的模型。
2. 使用層級(jí)化分桶進(jìn)行二級(jí)拆分,并不一定能保證語義相似的數(shù)據(jù)進(jìn)入一個(gè)桶中,層次化拆分使用的query向量表征,暗含了向量在語義表達(dá)上,具有隨維度增加逐漸細(xì)化的特點(diǎn),但是在產(chǎn)出query向量表征的過程中,并沒有施加此導(dǎo)向,不能保證這個(gè)假設(shè)成立;在v2.0中我們改動(dòng)了二級(jí)拆分的方式,克服了這個(gè)缺陷;
3. 缺少誤差發(fā)現(xiàn)和修正機(jī)制:不論相似度準(zhǔn)確率有多高,不論短文本的分類有多準(zhǔn),都會(huì)有誤差;我們需要有機(jī)制可以發(fā)現(xiàn)和修正誤差。
針對(duì)v1.0 發(fā)現(xiàn)的問題,我們做了三點(diǎn)改動(dòng):
引入細(xì)粒度相似度
短文本文本聚類的一個(gè)典型使用場(chǎng)景,是對(duì)搜索query進(jìn)行語義級(jí)別的合并,將相同需求不同表達(dá)的query,合并為一個(gè)“需求”,因此對(duì)于相似query的認(rèn)定,標(biāo)準(zhǔn)是較為嚴(yán)格的。已有的相似度模型,已經(jīng)不能適用了。經(jīng)過對(duì)query的詳細(xì)分析,我們發(fā)現(xiàn)句法分析,短語搭配等特征,能夠?qū)μ嵘嗨贫饶P偷臏?zhǔn)確率和召回率有較大幫助,因此,我們自研了一套融合了句法分析,短語搭配和其他特征的相似度模型,取得了較好的收益。
在二級(jí)拆分中引入聚類模型
在v1.0 版本中,層次化分桶的準(zhǔn)確率得不到保證,需要有一個(gè)更準(zhǔn)確的二級(jí)拆分方式,達(dá)到數(shù)據(jù)分桶的目的。二級(jí)拆分只需要保證相似的短文本,大概率被分到同一個(gè)桶中,并不要求桶內(nèi)任意兩個(gè)短文本都是相似的,這樣的設(shè)置非常適合采用向量化后聚類方法解決問題。一方面考慮到預(yù)訓(xùn)練模型的性能問題,我們采用了傳統(tǒng)詞向量加權(quán)的方式,產(chǎn)出短文本的詞向量;通過kmeans聚類的方式,對(duì)一級(jí)桶的短文本進(jìn)行聚類操作,從而保證了二級(jí)拆分的準(zhǔn)確率。
這里可能會(huì)有疑問,為什么不使用向量召回的方式解決問題?其實(shí),向量召回的本質(zhì)是向量聚類,再輔以高效的向量查找,達(dá)到向量召回的目的。在二級(jí)拆分中,不需要進(jìn)行向量查找,而且如果引入會(huì)增加額外的時(shí)間開銷,因此我們并沒有使用向量召回。
誤差修正
在v1.0版本中,誤差逐層累計(jì)且沒有得到修正,為了克服這一點(diǎn),我們?cè)诋a(chǎn)出的最后一步,引入了誤差修正操作。
主要存在兩種形式的誤差:一種是聚類不全,應(yīng)該聚合在一起的數(shù)據(jù),沒有聚合在一起,這類誤差主要是由于多級(jí)拆分引起的,通過跨越層級(jí)的校驗(yàn),可以解決這個(gè)問題;另一種誤差是聚類不準(zhǔn),主要是由于相似度計(jì)算導(dǎo)致的。我們重點(diǎn)解決聚類不全的問題。
為了減少需要校驗(yàn)的數(shù)據(jù)量級(jí),我們將誤差檢驗(yàn)的范圍,限制在二級(jí)分桶內(nèi)部。在二級(jí)分桶后,我們首先采用精細(xì)化語義聚合的方式,得到聚類結(jié)果。對(duì)處于同一個(gè)二級(jí)桶內(nèi)的聚類中心,驗(yàn)證其相關(guān)性。如果相關(guān)性較高,則進(jìn)一步驗(yàn)證后合并。
v2.0 的效果
v2.0上線后,能夠在很短的時(shí)間內(nèi)處理完成大規(guī)模短文本的精細(xì)化聚類,聚類準(zhǔn)確率達(dá)到95%,召回率達(dá)到80%,已經(jīng)服務(wù)于百度UGC業(yè)務(wù)線的內(nèi)容生產(chǎn)。
持續(xù)優(yōu)化
v2.0版本基本實(shí)現(xiàn)了大規(guī)模短文本精細(xì)化聚類的功能,但是仍有很多改動(dòng)空間。例如聚類結(jié)果的持久化,重復(fù)計(jì)算問題,更高效的聚合算法等,后續(xù)我們也會(huì)持續(xù)優(yōu)化,提供更高效穩(wěn)定的算法支持。
“短?本聚類的問題有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!