一個傳統(tǒng)的語言生成模型可以用于識別或生成字符串
創(chuàng)新互聯(lián)公司專注于波密網(wǎng)站建設服務及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。 熱誠為您提供波密營銷型網(wǎng)站建設,波密網(wǎng)站制作、波密網(wǎng)頁設計、波密網(wǎng)站官網(wǎng)定制、成都微信小程序服務,打造波密網(wǎng)絡公司原創(chuàng)品牌,更為您提供波密網(wǎng)站排名全網(wǎng)營銷落地服務。我們可以將有窮自動機看作是一種確定性的語言模型
基本模型:每一個文檔都是通過一個像這樣的自動機生成的,只不過這種自動機是有概率的
一種最簡單的語言模型等價于一個概率有窮自動機,該自動機僅僅由一個節(jié)點組成,它也只有一個生成不同詞項的概率分布
eg:
可以看到,對于該查詢,
P
(
q
u
e
r
y
∣
M
d
1
)
<
P
(
q
u
e
r
y
∣
M
d
2
)
P(query|M_{d1})< P(query|Md2)
P(query∣Md1?)IR中的語言模型 IR中最早使用也是最基本的語言模型是查詢似然模型 每個文檔都被看作一個語言模型(d ->
M
d
M_d
Md?)。檢索的目標是按照其與查詢相關的概率
p
(
d
∣
q
)
p(d|q)
p(d∣q) 進行排序。
p
(
q
)
p(q)
p(q) 對所有文檔來說是一樣的,所以可以忽略
p
(
d
)
p(d)
p(d) 是先驗概率,我們常常將其視為對所有文檔是相同的
p
(
q
∣
d
)
p(q|d)
p(q∣d) 是文檔 d 在對應語言模型下,生成 q 的概率 我們按照
p
(
d
∣
q
)
p(d|q)
p(d∣q) 排序,實際上就是按照查詢似然
p
(
q
∣
d
)
p(q|d)
p(q∣d) 進行排序。 如何計算
p
(
q
∣
d
)
p(q|d)
p(q∣d) 呢? 等價于多項式樸素貝葉斯模型(基于條件獨立假設) 我們可以將上式轉化為 如何得到
p
(
t
∣
M
d
)
p(t|M_d)
p(t∣Md?)? 在大似然估計及一元語言模型假設的情況下 問題: 解決上述兩個問題的方法是平滑 不僅僅是為了避免零概率,實際上實現(xiàn)了詞項權重計算的主要部分 想法:對非零的概率結果進行折扣,對未出現(xiàn)的詞的概率賦予一定的值 在一般的參照概率分布中,文檔中未出現(xiàn)的查詢項都可能在查詢中出現(xiàn),它的概率在某種程度上接近但不可能超過整個文檔集中偶然出現(xiàn)的概率。 也就是說,若
t
f
t
,
d
=
0
tf_{t,d} = 0
tft,d?=0,那么 $\hat{P}\left(t \mid M_squ6kqw\right) \le \frac{\mathrm{cf}_{t}}{T} \$ 將基于文檔的多項式分布和基于全部文檔集估計出的多項式分布相混合,這類模型稱為線性插值語言模型
M
c
M_c
Mc? 是基于全部文檔集構造的語言模型 如何設置正確的
λ
\lambda
λ 是獲得良好性能的關鍵 上面是對一個詞的平滑,對整個查詢的平滑就是乘積 向量空間模型是基于相似度的,是幾何 / 線性代數(shù)的概念。其余兩個都是基于概率論的
t
f
tf
tf在三個模型中都用了
d
f
df
df
c
f
cf
cf 長度歸一化 理論基礎的對比,使用指標的對比,長度歸一化的對比 你是否還在尋找穩(wěn)定的海外服務器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準確流量調度確保服務器高可用性,企業(yè)級服務器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧
Jelinek-Mercer 平滑
兩種平滑的對比
向量空間 VS BM25 VS LM
網(wǎng)頁名稱:【信息檢索與數(shù)據(jù)挖掘期末復習】(五)LanguageModel-創(chuàng)新互聯(lián)
本文URL:http://weahome.cn/article/dchsij.html