干貨|VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

作者介紹：姜生，PP云高級(jí)技術(shù)經(jīng)理，10余年視頻編解碼算法設(shè)計(jì)優(yōu)化，流媒體應(yīng)用等領(lǐng)域開(kāi)發(fā)經(jīng)驗(yàn)。

公司主營(yíng)業(yè)務(wù)：網(wǎng)站設(shè)計(jì)制作、成都做網(wǎng)站、移動(dòng)網(wǎng)站開(kāi)發(fā)等業(yè)務(wù)。幫助企業(yè)客戶(hù)真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競(jìng)爭(zhēng)能力。創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開(kāi)放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對(duì)我們的高要求，感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn)，讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶(hù)帶來(lái)驚喜。創(chuàng)新互聯(lián)推出石首免費(fèi)做網(wǎng)站回饋大家。

一、VMAF 技術(shù)介紹：

VMAF 的全稱(chēng)是：Visual Multimethod Assessment Fusion，視頻質(zhì)量多方法評(píng)價(jià)融合。這項(xiàng)技術(shù)是由美國(guó)Netflix公司開(kāi)發(fā)的一套主觀視頻質(zhì)量評(píng)價(jià)體系。2016年1月，VMAF 正式開(kāi)源；

下載地址：

https://github.com/Netflix/vmaf

二、通行視頻質(zhì)量評(píng)價(jià)方法的局限：

評(píng)價(jià)一個(gè)編碼后的視頻流與壓縮前的視頻流質(zhì)量對(duì)比值，通行的方法是PSNR(峰值信噪比)，或者SSIM(結(jié)構(gòu)相似度)。這些是客觀評(píng)價(jià)方法。這些方法評(píng)價(jià)的結(jié)果與主觀的感受有時(shí)候相差很大，請(qǐng)看下圖(來(lái)自Netflix 的官網(wǎng))：

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

圖一

上面四幅圖，取自4幅靜態(tài)畫(huà)面，畸變程度不一樣。用PSNR指標(biāo)來(lái)評(píng)分，上面兩幅圖的PSNR值大約為31dB, 下方兩個(gè)的PSNR值約為34dB，這表明上面兩幅圖PNSR 值相當(dāng)，下面兩幅圖的PSNR值也相當(dāng)。如果讓人眼來(lái)主觀評(píng)價(jià)呢，對(duì)于左側(cè)上下兩幅“人群”圖片，很難察覺(jué)有何差異，但是右側(cè)兩幅“狐貍”視頻的差異就很明顯了。Netflix綜合不同觀眾的評(píng)價(jià)，對(duì)上下兩個(gè)“人群”給出的主觀分?jǐn)?shù)是82(上方)和96(下方)，而兩個(gè)“狐貍”的分?jǐn)?shù)分別是27(上方)和58(下方)。

上面的示例說(shuō)明PSNR一類(lèi)的客觀評(píng)價(jià)與實(shí)際的主觀感受相差較大。這說(shuō)明這種方法不足以全面正確的評(píng)價(jià)視頻的質(zhì)量，為此Netflix 決定尋找新的方法。

三、Neflix對(duì)視頻源特性的分析：

收集與用例密切相關(guān)的數(shù)據(jù)集：

雖然針對(duì)視頻質(zhì)量指標(biāo)的設(shè)計(jì)和測(cè)試已經(jīng)有可以公開(kāi)使用的數(shù)據(jù)庫(kù)，但這些數(shù)據(jù)庫(kù)的內(nèi)容缺乏多樣性。而多樣性正是流媒體服務(wù)的最大特點(diǎn)。由于視頻質(zhì)量的評(píng)估遠(yuǎn)不僅僅是壓縮失真的評(píng)估，所以應(yīng)該考慮更廣范圍的畫(huà)質(zhì)損失，不僅有壓縮導(dǎo)致的損失，還有傳輸過(guò)程中的損失、隨機(jī)噪聲，以及幾何變形等情況。

視頻源的特性：

作為流媒體公司， Netflix 提供了適合各類(lèi)人群觀看的大量影視內(nèi)容，例如兒童內(nèi)容、動(dòng)漫、動(dòng)作片、紀(jì)錄片，視頻講座等. 另外這些內(nèi)容還包含各種底層源素材特征，例如膠片顆粒、傳感器噪聲、計(jì)算機(jī)生成的材質(zhì)、始終暗淡的場(chǎng)景或非常明亮的色彩等。過(guò)去通行的質(zhì)量指標(biāo)并沒(méi)有考慮不同類(lèi)型的源內(nèi)容，如動(dòng)漫或者視頻講座一類(lèi)，也未考慮膠片顆粒，而在專(zhuān)業(yè)娛樂(lè)內(nèi)容中這些都是非常普遍的信號(hào)特征。

失真的來(lái)源：

一般而言，流播視頻是通過(guò)TCP傳輸?shù)?，丟包和誤碼絕對(duì)不會(huì)導(dǎo)致視覺(jué)損失。這就使得編碼過(guò)程中的兩類(lèi)失真最終影響到觀眾所感受到的體驗(yàn)質(zhì)量（QoE）：壓縮失真以及縮放失真。

為了針對(duì)不同的用例構(gòu)建數(shù)據(jù)集，Netflix選擇了34個(gè)源短片作為樣本(參考視頻)，每個(gè)短片長(zhǎng)度是6秒，主要來(lái)自于流行的電視劇和電影。源短片包含具備各種高級(jí)特征的內(nèi)容（動(dòng)漫、室內(nèi)/室外、鏡頭搖移、面部拉近、人物、水面、顯著的物體、多個(gè)物體）以及各種底層特性（膠片噪聲、亮度、對(duì)比度、材質(zhì)、活動(dòng)、顏色變化、色澤濃郁度、銳度）。將這些源短片編碼為H.264/AVC格式的視頻流，分辨率介于384x288到1920x1080之間，碼率介于375kbps到20,000kbps之間，最終獲得了大約300個(gè)畸變（Distorted）視頻。這些視頻涵蓋了很大范圍的視頻碼率和分辨率，足以反映實(shí)際生活中多種多樣的網(wǎng)絡(luò)環(huán)境。

接著，通過(guò)主觀測(cè)試確定非專(zhuān)業(yè)觀察者對(duì)于源短片編碼后視頻畫(huà)質(zhì)損失的評(píng)價(jià)。參考視頻和畸變視頻將按順序顯示在家用級(jí)別的電視機(jī)上。如果畸變視頻編碼后的分辨率小于參考視頻，則會(huì)首先放大至源分辨率隨后才顯示在電視上。將所有觀察者針對(duì)每個(gè)畸變視頻的分?jǐn)?shù)匯總在一起計(jì)算出微分平均意見(jiàn)分?jǐn)?shù)（Differential Mean Opinion Score）即DMOS，并換算成0-100的標(biāo)準(zhǔn)分，其中100分是指參考視頻的分?jǐn)?shù)。

四、評(píng)價(jià)的結(jié)果：

Netflix 推出了二維散點(diǎn)圖來(lái)說(shuō)明上面分析的結(jié)果，我從中選取四幅有代表性的散點(diǎn)圖。

散點(diǎn)圖中，橫軸對(duì)應(yīng)了觀察者給出的DMOS分?jǐn)?shù)，縱軸對(duì)應(yīng)了不同質(zhì)量指標(biāo)預(yù)測(cè)的分?jǐn)?shù)。每一個(gè)點(diǎn)代表了一個(gè)畸變視頻。我們?yōu)橄铝兴膫€(gè)指標(biāo)繪制了散點(diǎn)圖：

PSNR亮度分量（Luminancecomponent）
SSIM
Multiscale FastSSIM
PSNR-HVS

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

圖二

注意：相同顏色的點(diǎn)對(duì)應(yīng)了畸變視頻和相應(yīng)參考視頻的結(jié)果。從圖中可以看出，這些指標(biāo)的分?jǐn)?shù)與觀察者給出的DMOS分?jǐn)?shù)并非始終一致。以左上角的PSNR圖為例，PSNR值約為35dB，而“人工校正”的DMOS值的范圍介于10（存在惱人的畫(huà)質(zhì)損失）到100（畫(huà)質(zhì)損失幾乎不可察覺(jué)）之間。

上圖中的專(zhuān)有名詞：

斯皮爾曼等級(jí)相關(guān)系數(shù)（Spearman’srank correlation coefficient，SRCC）

皮爾森積差相關(guān)系數(shù)（Pearsonproduct-moment correlation coefficient，PCC）

上面的SRCC, PCC屬于概率統(tǒng)計(jì)的概念，可以參考相關(guān)文檔，這兩個(gè)值越大越好。

為了找到一個(gè)有效的評(píng)價(jià)標(biāo)準(zhǔn)，必須選定一個(gè)有效的指標(biāo)，指標(biāo)必須呈現(xiàn)與DMOS 有限的單調(diào)性。下圖中選定了三個(gè)典型的參考視頻：一個(gè)高噪聲視頻，一個(gè)CG動(dòng)漫，一個(gè)電視劇，并用每個(gè)視頻的不同畸變版本的預(yù)測(cè)分?jǐn)?shù)與DMOS分?jǐn)?shù)創(chuàng)建散點(diǎn)圖。為了獲得有效的相對(duì)質(zhì)量分?jǐn)?shù)，我們希望不同視頻短片在質(zhì)量曲線(xiàn)的相同范圍內(nèi)可以實(shí)現(xiàn)一致的斜率（Slope）。

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

PSNR散點(diǎn)圖中，在34dB到36dB的范圍內(nèi)，電視劇PSNR數(shù)值大約2dB的變化對(duì)應(yīng)的DMOS數(shù)值變化約為50（50到100），但CG動(dòng)漫同樣范圍內(nèi)類(lèi)似的2dB數(shù)值變化對(duì)應(yīng)的DMOS數(shù)值變化低于20（40到60）。雖然CG動(dòng)漫和電視劇短片的SSIM和FastSSIM體現(xiàn)出更為一致的斜率但表現(xiàn)依然不夠理想。

簡(jiǎn)單總結(jié)來(lái)說(shuō)，傳統(tǒng)指標(biāo)不適合用來(lái)評(píng)價(jià)視頻質(zhì)量。為了解決這一問(wèn)題，我們使用了一種基于機(jī)器學(xué)習(xí)的模型設(shè)計(jì)能真實(shí)反映人對(duì)視頻質(zhì)量感知情況的指標(biāo)。下文將介紹這一指標(biāo)。

五、 VMAF 方法：

基本想法：

面對(duì)不同特征的源內(nèi)容、失真類(lèi)型，以及扭曲程度，每個(gè)基本指標(biāo)各有優(yōu)劣。通過(guò)使用機(jī)器學(xué)習(xí)算法（支持向量機(jī)（Support Vector Machine，SVM）回歸因子）將基本指標(biāo)“融合”為一個(gè)最終指標(biāo)，可以為每個(gè)基本指標(biāo)分配一定的權(quán)重，這樣最終得到的指標(biāo)就可以保留每個(gè)基本指標(biāo)的所有優(yōu)勢(shì)，借此可得出更精確的最終分?jǐn)?shù)。我們還使用主觀實(shí)驗(yàn)中獲得的意見(jiàn)分?jǐn)?shù)對(duì)這個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和測(cè)試。

VMAF可在支持向量機(jī)（SVM）回歸因子中使用下列基本指標(biāo)進(jìn)行融合：

視覺(jué)信息保真度（Visual Information Fidelity，VIF）：

VIF是一種獲得廣泛使用的圖像質(zhì)量指標(biāo)，在最初的形式中，VIF分?jǐn)?shù)是通過(guò)將四個(gè)尺度（Scale）下保真度的丟失情況結(jié)合在一起衡量的。在VMAF中我們使用了一種改進(jìn)版的VIF，將每個(gè)尺度下保真度的丟失看作一種基本指標(biāo)。

細(xì)節(jié)丟失指標(biāo)（Detail LossMetric，DLM）：

LM是一種圖像質(zhì)量指標(biāo)，其基本原理在于：分別衡量可能影響到內(nèi)容可見(jiàn)性的細(xì)節(jié)丟失情況，以及可能分散觀眾注意力的不必要損失。這個(gè)指標(biāo)最初會(huì)將DLM和Additive Impairment Measure（AIM）結(jié)合在一起算出最終分?jǐn)?shù)。

運(yùn)動(dòng)：

這是一種衡量相鄰幀之間時(shí)域差分的有效措施。計(jì)算像素亮度分量的均值反差即可得到該值。

下列散點(diǎn)圖對(duì)所選參考短片（高噪聲視頻、CG動(dòng)漫、電視?。┑贸龅腣MAF指標(biāo)分?jǐn)?shù)。為了方便對(duì)比，我們也附上了上文提到的結(jié)果最理想的PSNR-HVS指標(biāo)散點(diǎn)圖。無(wú)疑VMAF的效果更好。

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

六總結(jié)：

改善視頻壓縮標(biāo)準(zhǔn)，以更智能的方式確定最實(shí)用的編碼系統(tǒng)和編碼一整套參數(shù)，這些要求在當(dāng)今的互聯(lián)網(wǎng)大環(huán)境中十分重要。我們認(rèn)為，使用傳統(tǒng)的指標(biāo)會(huì)妨礙到視頻編碼技術(shù)領(lǐng)域的技術(shù)進(jìn)步，然而單純依賴(lài)人工視覺(jué)測(cè)試在很多情況下并不可行。因此我們希望VMAF能解決這一問(wèn)題，使用來(lái)自我們內(nèi)容中的樣本幫助大家設(shè)計(jì)和驗(yàn)證算法。

七、拓展：

per title 編碼：

我們希望能利用VMAF 繪制每一個(gè)clip 的不同分辨率下的bitrate vs MOS 的曲線(xiàn)圖，并保存這個(gè)曲線(xiàn)圖。在實(shí)際點(diǎn)播的時(shí)候，根據(jù)resolution，MOS 選擇一個(gè)最佳的bitrate，來(lái)編碼：

下面是我繪制的Bkimono_1920x1080_8_24_240.yuv 的散點(diǎn)圖：

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

設(shè)置編碼參數(shù)時(shí)，如果需要達(dá)到MOS=80的清晰度，bitrate 可以選擇2.0MB. 可以看出當(dāng)bitrate 超過(guò)3MB 后，MOS 值變化非常緩慢，對(duì)于指定的MOS 值，我們可以選擇一個(gè)bitrate 下降20%甚至更多的bitrate的編碼參數(shù)，但是MOS 不會(huì)下降1%。

這中方法相比單純通過(guò)優(yōu)化編碼器的方法，效果要明顯很多，智能很多，同時(shí)實(shí)現(xiàn)起來(lái)要容易。應(yīng)該就是當(dāng)前窄帶高清的理念了。

per trunk 編碼：

對(duì)于每一個(gè)clip 而言，不同的gop，或者不同的時(shí)間段，視頻流的細(xì)節(jié)和運(yùn)動(dòng)特點(diǎn)不一樣，可以用VMAF 的方法為每一個(gè)時(shí)間段做評(píng)價(jià)，進(jìn)而實(shí)時(shí)調(diào)整編碼參數(shù)，在同樣的質(zhì)量前提下，盡量降低碼率。

當(dāng)前名稱(chēng)：干貨|VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用
網(wǎng)站URL：http://weahome.cn/article/jcpojs.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

干貨|VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管