作者介紹:姜生,PP云高級(jí)技術(shù)經(jīng)理,10余年視頻編解碼算法設(shè)計(jì)優(yōu)化,流媒體應(yīng)用等領(lǐng)域開(kāi)發(fā)經(jīng)驗(yàn)。
公司主營(yíng)業(yè)務(wù):網(wǎng)站設(shè)計(jì)制作、成都做網(wǎng)站、移動(dòng)網(wǎng)站開(kāi)發(fā)等業(yè)務(wù)。幫助企業(yè)客戶(hù)真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競(jìng)爭(zhēng)能力。創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開(kāi)放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對(duì)我們的高要求,感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶(hù)帶來(lái)驚喜。創(chuàng)新互聯(lián)推出石首免費(fèi)做網(wǎng)站回饋大家。
一 、VMAF 技術(shù)介紹:
VMAF 的全稱(chēng)是:Visual Multimethod Assessment Fusion,視頻質(zhì)量多方法評(píng)價(jià)融合。這項(xiàng)技術(shù)是由美國(guó)Netflix公司開(kāi)發(fā)的一套主觀視頻質(zhì)量評(píng)價(jià)體系。2016年1月,VMAF 正式開(kāi)源;
下載地址:
https://github.com/Netflix/vmaf
二 、通行視頻質(zhì)量評(píng)價(jià)方法的局限:
評(píng)價(jià)一個(gè)編碼后的視頻流與壓縮前的視頻流質(zhì)量對(duì)比值,通行的方法是PSNR(峰值信噪比),或者SSIM(結(jié)構(gòu)相似度)。這些是客觀評(píng)價(jià)方法。這些方法評(píng)價(jià)的結(jié)果與主觀的感受有時(shí)候相差很大,請(qǐng)看下圖(來(lái)自Netflix 的官網(wǎng)):
圖一
上面四幅圖,取自4幅靜態(tài)畫(huà)面,畸變程度不一樣。用PSNR指標(biāo)來(lái)評(píng)分,上面兩幅圖的PSNR值大約為31dB, 下方兩個(gè)的PSNR值約為34dB,這表明上面兩幅圖PNSR 值相當(dāng),下面兩幅圖的PSNR值也相當(dāng)。如果讓人眼來(lái)主觀評(píng)價(jià)呢,對(duì)于左側(cè)上下兩幅“人群”圖片,很難察覺(jué)有何差異,但是右側(cè)兩幅“狐貍”視頻的差異就很明顯了。Netflix綜合不同觀眾的評(píng)價(jià),對(duì)上下兩個(gè)“人群”給出的主觀分?jǐn)?shù)是82(上方)和96(下方),而兩個(gè)“狐貍”的分?jǐn)?shù)分別是27(上方)和58(下方)。
上面的示例說(shuō)明PSNR一類(lèi)的客觀評(píng)價(jià)與實(shí)際的主觀感受相差較大。這說(shuō)明這種方法不足以全面正確的評(píng)價(jià)視頻的質(zhì)量,為此Netflix 決定尋找新的方法。
三、Neflix對(duì)視頻源特性的分析:
雖然針對(duì)視頻質(zhì)量指標(biāo)的設(shè)計(jì)和測(cè)試已經(jīng)有可以公開(kāi)使用的數(shù)據(jù)庫(kù),但這些數(shù)據(jù)庫(kù)的內(nèi)容缺乏多樣性。而多樣性正是流媒體服務(wù)的最大特點(diǎn)。由于視頻質(zhì)量的評(píng)估遠(yuǎn)不僅僅是壓縮失真的評(píng)估,所以應(yīng)該考慮更廣范圍的畫(huà)質(zhì)損失,不僅有壓縮導(dǎo)致的損失,還有傳輸過(guò)程中的損失、隨機(jī)噪聲,以及幾何變形等情況。
作為流媒體公司, Netflix 提供了適合各類(lèi)人群觀看的大量影視內(nèi)容,例如兒童內(nèi)容、動(dòng)漫、動(dòng)作片、紀(jì)錄片,視頻講座等. 另外這些內(nèi)容還包含各種底層源素材特征,例如膠片顆粒、傳感器噪聲、計(jì)算機(jī)生成的材質(zhì)、始終暗淡的場(chǎng)景或非常明亮的色彩等。過(guò)去通行的質(zhì)量指標(biāo)并沒(méi)有考慮不同類(lèi)型的源內(nèi)容,如動(dòng)漫或者視頻講座一類(lèi),也未考慮膠片顆粒,而在專(zhuān)業(yè)娛樂(lè)內(nèi)容中這些都是非常普遍的信號(hào)特征。
一般而言,流播視頻是通過(guò)TCP傳輸?shù)?,丟包和誤碼絕對(duì)不會(huì)導(dǎo)致視覺(jué)損失。這就使得編碼過(guò)程中的兩類(lèi)失真最終影響到觀眾所感受到的體驗(yàn)質(zhì)量(QoE):壓縮失真以及縮放失真。
為了針對(duì)不同的用例構(gòu)建數(shù)據(jù)集,Netflix選擇了34個(gè)源短片作為樣本(參考視頻),每個(gè)短片長(zhǎng)度是6秒,主要來(lái)自于流行的電視劇和電影。源短片包含具備各種高級(jí)特征的內(nèi)容(動(dòng)漫、室內(nèi)/室外、鏡頭搖移、面部拉近、人物、水面、顯著的物體、多個(gè)物體)以及各種底層特性(膠片噪聲、亮度、對(duì)比度、材質(zhì)、活動(dòng)、顏色變化、色澤濃郁度、銳度)。將這些源短片編碼為H.264/AVC格式的視頻流,分辨率介于384x288到1920x1080之間,碼率介于375kbps到20,000kbps之間,最終獲得了大約300個(gè)畸變(Distorted)視頻。這些視頻涵蓋了很大范圍的視頻碼率和分辨率,足以反映實(shí)際生活中多種多樣的網(wǎng)絡(luò)環(huán)境。
接著,通過(guò)主觀測(cè)試確定非專(zhuān)業(yè)觀察者對(duì)于源短片編碼后視頻畫(huà)質(zhì)損失的評(píng)價(jià)。參考視頻和畸變視頻將按順序顯示在家用級(jí)別的電視機(jī)上。如果畸變視頻編碼后的分辨率小于參考視頻,則會(huì)首先放大至源分辨率隨后才顯示在電視上。將所有觀察者針對(duì)每個(gè)畸變視頻的分?jǐn)?shù)匯總在一起計(jì)算出微分平均意見(jiàn)分?jǐn)?shù)(Differential Mean Opinion Score)即DMOS,并換算成0-100的標(biāo)準(zhǔn)分,其中100分是指參考視頻的分?jǐn)?shù)。
四、評(píng)價(jià)的結(jié)果:
Netflix 推出了二維散點(diǎn)圖來(lái)說(shuō)明上面分析的結(jié)果,我從中選取四幅有代表性的散點(diǎn)圖。
散點(diǎn)圖中,橫軸對(duì)應(yīng)了觀察者給出的DMOS分?jǐn)?shù),縱軸對(duì)應(yīng)了不同質(zhì)量指標(biāo)預(yù)測(cè)的分?jǐn)?shù)。每一個(gè)點(diǎn)代表了一個(gè)畸變視頻。我們?yōu)橄铝兴膫€(gè)指標(biāo)繪制了散點(diǎn)圖:
PSNR亮度分量(Luminancecomponent)
SSIM
Multiscale FastSSIM
圖二
注意:相同顏色的點(diǎn)對(duì)應(yīng)了畸變視頻和相應(yīng)參考視頻的結(jié)果。從圖中可以看出,這些指標(biāo)的分?jǐn)?shù)與觀察者給出的DMOS分?jǐn)?shù)并非始終一致。以左上角的PSNR圖為例,PSNR值約為35dB,而“人工校正”的DMOS值的范圍介于10(存在惱人的畫(huà)質(zhì)損失)到100(畫(huà)質(zhì)損失幾乎不可察覺(jué))之間。
上圖中的專(zhuān)有名詞:
斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman’srank correlation coefficient,SRCC)
皮爾森積差相關(guān)系數(shù)(Pearsonproduct-moment correlation coefficient,PCC)
上面的SRCC, PCC屬于概率統(tǒng)計(jì)的概念,可以參考相關(guān)文檔,這兩個(gè)值越大越好。
為了找到一個(gè)有效的評(píng)價(jià)標(biāo)準(zhǔn),必須選定一個(gè)有效的指標(biāo),指標(biāo)必須呈現(xiàn)與DMOS 有限的單調(diào)性。下圖中選定了三個(gè)典型的參考視頻:一個(gè)高噪聲視頻,一個(gè)CG動(dòng)漫,一個(gè)電視劇,并用每個(gè)視頻的不同畸變版本的預(yù)測(cè)分?jǐn)?shù)與DMOS分?jǐn)?shù)創(chuàng)建散點(diǎn)圖。為了獲得有效的相對(duì)質(zhì)量分?jǐn)?shù),我們希望不同視頻短片在質(zhì)量曲線(xiàn)的相同范圍內(nèi)可以實(shí)現(xiàn)一致的斜率(Slope)。
PSNR散點(diǎn)圖中,在34dB到36dB的范圍內(nèi),電視劇PSNR數(shù)值大約2dB的變化對(duì)應(yīng)的DMOS數(shù)值變化約為50(50到100),但CG動(dòng)漫同樣范圍內(nèi)類(lèi)似的2dB數(shù)值變化對(duì)應(yīng)的DMOS數(shù)值變化低于20(40到60)。雖然CG動(dòng)漫和電視劇短片的SSIM和FastSSIM體現(xiàn)出更為一致的斜率但表現(xiàn)依然不夠理想。
簡(jiǎn)單總結(jié)來(lái)說(shuō),傳統(tǒng)指標(biāo)不適合用來(lái)評(píng)價(jià)視頻質(zhì)量。為了解決這一問(wèn)題,我們使用了一種基于機(jī)器學(xué)習(xí)的模型設(shè)計(jì)能真實(shí)反映人對(duì)視頻質(zhì)量感知情況的指標(biāo)。下文將介紹這一指標(biāo)。
五、 VMAF 方法:
基本想法:
面對(duì)不同特征的源內(nèi)容、失真類(lèi)型,以及扭曲程度,每個(gè)基本指標(biāo)各有優(yōu)劣。通過(guò)使用機(jī)器學(xué)習(xí)算法(支持向量機(jī)(Support Vector Machine,SVM)回歸因子)將基本指標(biāo)“融合”為一個(gè)最終指標(biāo),可以為每個(gè)基本指標(biāo)分配一定的權(quán)重,這樣最終得到的指標(biāo)就可以保留每個(gè)基本指標(biāo)的所有優(yōu)勢(shì),借此可得出更精確的最終分?jǐn)?shù)。我們還使用主觀實(shí)驗(yàn)中獲得的意見(jiàn)分?jǐn)?shù)對(duì)這個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和測(cè)試。
VMAF可在支持向量機(jī)(SVM)回歸因子中使用下列基本指標(biāo)進(jìn)行融合:
VIF是一種獲得廣泛使用的圖像質(zhì)量指標(biāo),在最初的形式中,VIF分?jǐn)?shù)是通過(guò)將四個(gè)尺度(Scale)下保真度的丟失情況結(jié)合在一起衡量的。在VMAF中我們使用了一種改進(jìn)版的VIF,將每個(gè)尺度下保真度的丟失看作一種基本指標(biāo)。
LM是一種圖像質(zhì)量指標(biāo),其基本原理在于:分別衡量可能影響到內(nèi)容可見(jiàn)性的細(xì)節(jié)丟失情況,以及可能分散觀眾注意力的不必要損失。這個(gè)指標(biāo)最初會(huì)將DLM和Additive Impairment Measure(AIM)結(jié)合在一起算出最終分?jǐn)?shù)。
這是一種衡量相鄰幀之間時(shí)域差分的有效措施。計(jì)算像素亮度分量的均值反差即可得到該值。
下列散點(diǎn)圖對(duì)所選參考短片(高噪聲視頻、CG動(dòng)漫、電視?。┑贸龅腣MAF指標(biāo)分?jǐn)?shù)。為了方便對(duì)比,我們也附上了上文提到的結(jié)果最理想的PSNR-HVS指標(biāo)散點(diǎn)圖。無(wú)疑VMAF的效果更好。
六 總結(jié):
改善視頻壓縮標(biāo)準(zhǔn),以更智能的方式確定最實(shí)用的編碼系統(tǒng)和編碼一整套參數(shù),這些要求在當(dāng)今的互聯(lián)網(wǎng)大環(huán)境中十分重要。我們認(rèn)為,使用傳統(tǒng)的指標(biāo)會(huì)妨礙到視頻編碼技術(shù)領(lǐng)域的技術(shù)進(jìn)步,然而單純依賴(lài)人工視覺(jué)測(cè)試在很多情況下并不可行。因此我們希望VMAF能解決這一問(wèn)題,使用來(lái)自我們內(nèi)容中的樣本幫助大家設(shè)計(jì)和驗(yàn)證算法。
七 、拓展:
我們希望能利用VMAF 繪制每一個(gè)clip 的不同分辨率下的bitrate vs MOS 的曲線(xiàn)圖,并保存這個(gè)曲線(xiàn)圖。在實(shí)際點(diǎn)播的時(shí)候,根據(jù)resolution,MOS 選擇一個(gè)最佳的bitrate,來(lái)編碼:
下面是我繪制的Bkimono_1920x1080_8_24_240.yuv 的散點(diǎn)圖:
設(shè)置編碼參數(shù)時(shí),如果需要達(dá)到MOS=80的清晰度,bitrate 可以選擇2.0MB. 可以看出當(dāng)bitrate 超過(guò)3MB 后,MOS 值變化非常緩慢,對(duì)于指定的MOS 值,我們可以選擇一個(gè)bitrate 下降20%甚至更多的bitrate的編碼參數(shù),但是MOS 不會(huì)下降1%。
這中方法相比單純通過(guò)優(yōu)化編碼器的方法,效果要明顯很多,智能很多,同時(shí)實(shí)現(xiàn)起來(lái)要容易。應(yīng)該就是當(dāng)前窄帶高清的理念了。
對(duì)于每一個(gè)clip 而言,不同的gop,或者不同的時(shí)間段,視頻流的細(xì)節(jié)和運(yùn)動(dòng)特點(diǎn)不一樣,可以用VMAF 的方法為每一個(gè)時(shí)間段做評(píng)價(jià),進(jìn)而實(shí)時(shí)調(diào)整編碼參數(shù),在同樣的質(zhì)量前提下,盡量降低碼率。