真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

【信息檢索與數(shù)據(jù)挖掘期末復習】(五)LanguageModel-創(chuàng)新互聯(lián)

什么是語言模型?

一個傳統(tǒng)的語言生成模型可以用于識別或生成字符串

創(chuàng)新互聯(lián)公司專注于波密網(wǎng)站建設服務及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。 熱誠為您提供波密營銷型網(wǎng)站建設,波密網(wǎng)站制作、波密網(wǎng)頁設計、波密網(wǎng)站官網(wǎng)定制、成都微信小程序服務,打造波密網(wǎng)絡公司原創(chuàng)品牌,更為您提供波密網(wǎng)站排名全網(wǎng)營銷落地服務。

我們可以將有窮自動機看作是一種確定性的語言模型
在這里插入圖片描述

基本模型:每一個文檔都是通過一個像這樣的自動機生成的,只不過這種自動機是有概率的

一種最簡單的語言模型等價于一個概率有窮自動機,該自動機僅僅由一個節(jié)點組成,它也只有一個生成不同詞項的概率分布

  • STOP 并不是一個詞,它是一個結束符
    在這里插入圖片描述

eg:
在這里插入圖片描述

不同的語言模型(我們將文檔看作一個生成查詢的語言模型

在這里插入圖片描述

可以看到,對于該查詢, P ( q u e r y ∣ M d 1 ) < P ( q u e r y ∣ M d 2 ) P(query|M_{d1})< P(query|Md2) P(query∣Md1?)

IR中的語言模型

IR中最早使用也是最基本的語言模型是查詢似然模型

查詢似然模型

每個文檔都被看作一個語言模型(d -> M d M_d Md?)。檢索的目標是按照其與查詢相關的概率 p ( d ∣ q ) p(d|q) p(d∣q) 進行排序。

在這里插入圖片描述

  • p ( q ) p(q) p(q) 對所有文檔來說是一樣的,所以可以忽略

  • p ( d ) p(d) p(d) 是先驗概率,我們常常將其視為對所有文檔是相同的

    • 我們也可以對高質量文檔賦予更高的先驗概率
  • p ( q ∣ d ) p(q|d) p(q∣d) 是文檔 d 在對應語言模型下,生成 q 的概率

我們按照 p ( d ∣ q ) p(d|q) p(d∣q) 排序,實際上就是按照查詢似然 p ( q ∣ d ) p(q|d) p(q∣d) 進行排序。

如何計算 p ( q ∣ d ) p(q|d) p(q∣d) 呢?

計算 p ( q ∣ d ) p(q|d) p(q∣d)

等價于多項式樸素貝葉斯模型(基于條件獨立假設)

在這里插入圖片描述

  • 其實前面還有一個系數(shù) K q K_q Kq? ,但是對于一個特定的查詢,它是一個常數(shù),因此被忽略

我們可以將上式轉化為

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-FHdugd5E-1670240021845)(C:\Users\nishiyu\AppData\Roaming\Typora\typora-user-images\image-20211228201737438.png)]

如何得到 p ( t ∣ M d ) p(t|M_d) p(t∣Md?)?

查詢生成概率的估計

在大似然估計及一元語言模型假設的情況下

在這里插入圖片描述

問題:

  • 該模型有一票否決權。即,若查詢中出現(xiàn)了文檔 d d d 中沒有的詞,概率為 0
  • 對文檔中出現(xiàn)的詞的估計有問題,特別是那些在文檔中只出現(xiàn)一次的詞往往會被過度估計(一次出現(xiàn)在一定程度上出于偶然性)

解決上述兩個問題的方法是平滑

平滑

不僅僅是為了避免零概率,實際上實現(xiàn)了詞項權重計算的主要部分

想法:對非零的概率結果進行折扣,對未出現(xiàn)的詞的概率賦予一定的值

在一般的參照概率分布中,文檔中未出現(xiàn)的查詢項都可能在查詢中出現(xiàn),它的概率在某種程度上接近但不可能超過整個文檔集中偶然出現(xiàn)的概率。

也就是說,若 t f t , d = 0 tf_{t,d} = 0 tft,d?=0,那么 $\hat{P}\left(t \mid M_squ6kqw\right) \le \frac{\mathrm{cf}_{t}}{T} \$

  • c f t cf_t cft? 是 t 在整個文檔集中出現(xiàn)的次數(shù)
  • T 是所有文檔集中詞條的個數(shù)
Jelinek-Mercer 平滑

將基于文檔的多項式分布和基于全部文檔集估計出的多項式分布相混合,這類模型稱為線性插值語言模型

在這里插入圖片描述

  • 基于全部文檔集估計出的多項式分布

在這里插入圖片描述

  • M c M_c Mc? 是基于全部文檔集構造的語言模型

  • 如何設置正確的 λ \lambda λ 是獲得良好性能的關鍵

    • 取大值:傾向于檢索包含所有查詢詞的文檔
    • 取小值:適用于長查詢。較小的 λ \lambda λ 意味著更平滑(似然估計的概率貢 獻更?。?/mark>

上面是對一個詞的平滑,對整個查詢的平滑就是乘積

在這里插入圖片描述

Dirichlet 平滑

在這里插入圖片描述

  • P ^ ( t ∣ M c ) \hat{P}(t|M_c) P^(t∣Mc?) 是 P ^ ( t ∣ d ) \hat{P}(t|d) P^(t∣d) 的先驗
  • 我們將 P ^ ( t ∣ M c ) \hat{P}(t|M_c) P^(t∣Mc?) 設置為 P ^ ( t ∣ d ) \hat{P}(t|d) P^(t∣d) 的初始值
  • 當我們閱讀一篇文檔時,我們根據(jù)文檔內(nèi)容,更新 P ^ ( t ∣ d ) \hat{P}(t|d) P^(t∣d)
  • 若 α = 0 \alpha = 0 α=0,則相當于沒進行平滑, α \alpha α 越大,先驗概率的權重就越大,也就越平滑
兩種平滑的對比
  • 前一種在冗余查詢上表現(xiàn)更好,后一種在關鍵詞查詢上效果更好
  • 兩種模型都對平滑參數(shù)很敏感,不能在沒調參的情況下使用這兩種模型
向量空間 VS BM25 VS LM
  • 向量空間模型是基于相似度的,是幾何 / 線性代數(shù)的概念。其余兩個都是基于概率論的

  • t f tf tf在三個模型中都用了

    • L M LM LM:直接使用 t f tf tf
    • 其他兩個使用得更復雜一點
  • d f df df

    • 在BM25和向量空間中都直接使用了
    • L M LM LM:混合 t f tf tf 和 c f cf cf,與 i d f idf idf 有類似的效果
      • 在一般集合中罕見的詞項,但是在一些文檔中很常見,將會對排名產(chǎn)生很大的影響
  • c f cf cf

    • 只有 L M LM LM 使用了 c f cf cf,其他的都是用的 d f df df
    • c f cf cf是基于整個集合的, d f df df以文檔為單位的
  • 長度歸一化

    • 向量空間:余弦或主元歸一化
    • L M LM LM:概率是固有的長度歸一化
    • B M 25 BM25 BM25:優(yōu)化長度歸一化的參數(shù)

理論基礎的對比,使用指標的對比長度歸一化的對比

你是否還在尋找穩(wěn)定的海外服務器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準確流量調度確保服務器高可用性,企業(yè)級服務器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧


網(wǎng)頁名稱:【信息檢索與數(shù)據(jù)挖掘期末復習】(五)LanguageModel-創(chuàng)新互聯(lián)
本文URL:http://weahome.cn/article/dchsij.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部