真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

視頻理解中常用的數(shù)據(jù)集-創(chuàng)新互聯(lián)

本文知乎鏈接: https://zhuanlan.zhihu.com/p/573405333

創(chuàng)新互聯(lián)專注于南江網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠為您提供南江營銷型網(wǎng)站建設(shè),南江網(wǎng)站制作、南江網(wǎng)頁設(shè)計(jì)、南江網(wǎng)站官網(wǎng)定制、小程序制作服務(wù),打造南江網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供南江網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。文章目錄
      • 1. 引言
      • 2. 數(shù)據(jù)集介紹
        • 2.1. HMDB51
        • 2.2. UCF101
        • 2.3. ActivityNet1.3
        • 2.4. Charades
        • 2.5. Kinetics400
        • 2.6. Kinetics-Sounds
        • 2.7. EPIC-KITCHENS-100
        • 2.8. THUMOS'14
        • 2.9. AVE
        • 2.10. LLP
        • 2.11. AVSBench
        • 2.12. VGGSound
        • 2.13. MUSIC-AVQA
        • 2.14. Breakfast
        • 2.15. 50Salads
        • 2.16. GTEA
        • 2.17. EGTEA Gaze++
        • 2.18. Ego4D
      • 3. 小結(jié)
      • 參考文獻(xiàn)


1. 引言

視頻理解是計(jì)算機(jī)視覺領(lǐng)域中的重要任務(wù),近年來得到了飛速的發(fā)展,其中高質(zhì)量的數(shù)據(jù)集對視頻理解的研究至關(guān)重要。本文我們總結(jié)了視頻理解中常見的數(shù)據(jù)集,涵蓋行為識別、行為分割、時(shí)序定位,視聽理解等多個(gè)任務(wù),并且附上了相應(yīng)的鏈接,便于讀者直接進(jìn)入相應(yīng)的網(wǎng)站查詢每個(gè)數(shù)據(jù)集的詳細(xì)信息。此外,有些數(shù)據(jù)集可以應(yīng)用于多種任務(wù),具有一定的交叉性。

本文涉及的數(shù)據(jù)集及其任務(wù)匹配如下:

主要任務(wù)常用數(shù)據(jù)集
行為識別/分類HMDB51, UCF101, ActivityNet1.3, Kinetics400, Kinetics-Sounds, VGGSound, EPIC-KITCHENS-100, THUMOS‘14等
時(shí)序定位ActivityNet1.3, THUMOS’14, Charades, AVE, LLP, EPIC-KITCHENS-100等
視聽理解AVE, LLP, AVSBench, MUSIC-AVQA, Kinetics-Sounds, EPIC-KITCHENS-100, VGGSound等
行為分割GTEA, Breakfast, 50Salads等
第一視角EPIC-KITCHENS-100, EGTEA Gaze++, Ego4D等

數(shù)據(jù)集基本信息如下

序號數(shù)據(jù)集名稱基本任務(wù)類別數(shù)量總規(guī)模平均時(shí)長(秒)總時(shí)長(時(shí))
1HMDB51[1]行為識別516,7143-10——
2UCF101[2]行為識別10113,3207.2126.67
3ActivityNet1.3[3]行為識別等20020,000180700
4Charades[4]行為識別1579,848————
5Kinetics400[5]行為識別400236,53210657
6Kinetics-Sounds[6]行為識別3118,7161051
7EPIC-KITCHENS-100[7]行為識別v.97, n.30089,9773.1100
8THUMOS’14[8]時(shí)序定位2041368.867.56
9AVE[9]視音定位284,1431011
10LLP[10]視音定位2511,8491033
11AVSBench[11]視音分割234,93256.85
12VGGsound[12]行為識別309185,22910514
13MUSIC-AVQA[13]視音問答229,28860150
14Breakfast[14]行為分割17121989139.3777
1550Salads[15]行為分割17503845.33
16GTEA[16]行為分割72874.340.58
17EGTEA Gaze++[17]時(shí)序定位等10686121429
18Ego4D[18]時(shí)序定位等——————3670

注:本文列舉的是視頻理解中常見的數(shù)據(jù)集,本文列舉的是視頻理解中常見的數(shù)據(jù)集,對于大部分高校等科研單位的研究人員來說,是比較容易使用起來的數(shù)據(jù)集。


2. 數(shù)據(jù)集介紹 2.1. HMDB51
  • 官網(wǎng)鏈接:https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
  • 相關(guān)論文: HMDB: A Large Video Database for Human Motion Recognition. Link
  • 發(fā)布年份:2011, ICCV
  • 主要任務(wù):Action Recognition
  • 主要作者:Hildegard Kuehne, Huei-han Jhuang, Estibaliz Garrote, Tomaso Poggio, Thomas Serre
  • 所屬團(tuán)隊(duì):SERRE LAB, A Brown University Research Group, USA
  • 數(shù)據(jù)規(guī)模:51類動(dòng)作,共有6849個(gè)視頻,每個(gè)動(dòng)作至少包含51個(gè)視頻,分辨率320*240,完整數(shù)據(jù)集大小約2GB;
  • 內(nèi)容簡介:
    • 數(shù)據(jù)量小,方便下載和使用;
    • 視頻多數(shù)來源于電影,還有一部分來自公共數(shù)據(jù)庫以及YouTube等網(wǎng)絡(luò)視頻庫;
    • 動(dòng)作主要分為五類:1)一般面部動(dòng)作(微笑、大笑等);2)面部操作與對象操作(吸煙、吃、喝等);3)一般的身體動(dòng)作(側(cè)手翻、拍手、爬樓梯等);4)與對象交互動(dòng)作(梳頭、高爾夫、騎馬等);5)人體動(dòng)作(擊劍、擁抱、親吻等)。
2.2. UCF101
  • 官網(wǎng)鏈接:https://www.crcv.ucf.edu/data/UCF101.php
  • 相關(guān)論文: UCF101: A Dataset of 101 Human Action Classes From Videos in The Wild. Link
  • 發(fā)布年份:2012
  • 主要任務(wù):Action Recognition
  • 主要作者:Khurram Soomro, Amir Roshan Zamir and Mubarak Shah
  • 所屬團(tuán)隊(duì):Center for Research in Computer Vision,University of Central Florida, USA
  • 數(shù)據(jù)規(guī)模:101類動(dòng)作,共有13320個(gè)視頻,完整數(shù)據(jù)集大小約7GB;
  • 內(nèi)容簡介:
    • 數(shù)據(jù)量小,方便下載和使用;
    • 長度區(qū)間[1.06, 71.04]秒,平均長度7.21秒,總長1600分鐘;
    • 分辨率320*240,并包含Audio信息,avi格式;
    • 從YouTube收集的具有101個(gè)動(dòng)作類別的真實(shí)動(dòng)作視頻;
    • 動(dòng)作主要分為5類:1)人與物體的互動(dòng) ;2)僅肢體運(yùn)動(dòng); 3) 人與人的互動(dòng); 4)演奏樂器; 5)體育;
    • 101個(gè)動(dòng)作類別的視頻分為25組,每組可以包含4-7個(gè)動(dòng)作的視頻。來自同一組的視頻可能具有一些共同的特征,例如相似的背景,相似的視角等。
2.3. ActivityNet1.3
  • 官網(wǎng)鏈接:http://activity-net.org/
  • 相關(guān)論文:Activitynet: A large-scale video benchmark for human activity understanding. Link
  • 發(fā)布年份:2015, CVPR
  • 主要任務(wù):Activity Recognition, Temporal Action Localization, Event Dense-Captioning
  • 主要作者:Caba Heilbron Fabian, Escorcia Victor, Ghanem ernard, Carlos Niebles Juan
  • 所屬團(tuán)隊(duì):Visual Computing Center (VCC), KAUST
  • 內(nèi)容簡介:
    • 提供一個(gè)大規(guī)模的數(shù)據(jù)集,涵蓋了與人類在日常生活最相關(guān)的活動(dòng),視頻數(shù)更多和視頻更長,類別更豐富,類別數(shù)更多,更高的標(biāo)簽精準(zhǔn)性;
    • 目前主流的ActivityNet dataset版本為v1.3,包括20000個(gè)YouTube 視頻;
    • 訓(xùn)練集包含約10000個(gè)視頻,驗(yàn)證集和測試集各包含約5000個(gè)視頻;
    • 共計(jì)約700小時(shí)的視頻,平均每個(gè)視頻上有1.5個(gè)動(dòng)作標(biāo)注(action instance);
    • 大部分視頻時(shí)長在5-10分鐘,50%的視頻的分辨率在 1280 x 720,大部分視頻是 30 FPS;
    • 類別主要分為7大類:個(gè)人護(hù)理、飲食、家庭活動(dòng)、關(guān)懷和幫助、工作、社交娛樂、運(yùn)動(dòng)鍛煉
2.4. Charades
  • 官網(wǎng)鏈接:https://prior.allenai.org/projects/charades
  • 相關(guān)論文:Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding. Link
  • 發(fā)布年份:2016, ECCV
  • 主要任務(wù):Action Recognition, Temporal Localization
  • 主要作者:Gunnar A. Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, Abhinav Gupta
  • 所屬團(tuán)隊(duì):The Allen Institute for AI, Carnegie Mellon University
  • 內(nèi)容簡介:
    • 157種動(dòng)作類別、9,848個(gè)視頻片段、27847個(gè)描述;
    • 第一個(gè)家庭室內(nèi)場景下的日常行為識別數(shù)據(jù)集,用戶先寫劇本(根據(jù)關(guān)鍵字造句),再自行拍攝視頻,最后其他人標(biāo)注。
  • 其他版本:
    • CharadesEgo (CVPR’ 2018, PDF),第一個(gè)成對的行為識別數(shù)據(jù)集,即對于同一系列動(dòng)作,同時(shí)有第一視角視頻與第三視角視頻;
    • Action Genome (CVPR’ 2020, PDF),是對Charades的二次標(biāo)注,包括人與物體的關(guān)系,新增的標(biāo)注包括人物、物體bbox,以及人與物之間的關(guān)系。
2.5. Kinetics400
  • 官網(wǎng)鏈接:https://www.deepmind.com/open-source/kinetics
  • 相關(guān)論文:The kinetics human action video dataset. Link
  • 發(fā)布年份:2017
  • 主要任務(wù):Action recognition
  • 主要作者:Will Kay, Joao Carreira, Paul Natsev, Mustafa Suleyman, Andrew Zisserman 等
  • 所屬團(tuán)隊(duì):DeepMind
  • 內(nèi)容簡介:
    • 大規(guī)模+高質(zhì)量的YouTube視頻網(wǎng)址數(shù)據(jù)集,完整大小約140GB;
    • 包含 400 個(gè)人類動(dòng)作類,每個(gè)動(dòng)作至少有 400 個(gè)視頻片段,每個(gè)片段長度約 10 秒,并取自不同的 YouTube 視頻;
    • 這些動(dòng)作以人類為中心,涵蓋廣泛的類別,包括演奏樂器等人與物體的交互,以及握手等人與人的交互。
  • 其他版本(基于Kinetics400的擴(kuò)充版)
    • Kinetics600 (PDF),600個(gè)人類動(dòng)作類別;
    • Kinetics700 (PDF),700個(gè)人類動(dòng)作類別;
    • AVA Kinetics (PDF),從Kinetics700中選擇了部分?jǐn)?shù)據(jù)集進(jìn)行空間位置標(biāo)記,即記錄人類動(dòng)作的空間位置信息;
    • Kinetics700-2020 (PDF),對Kinetics700的擴(kuò)充,保證每個(gè)類別至少有700個(gè)視頻。
2.6. Kinetics-Sounds
  • 官網(wǎng)鏈接:https://www.deepmind.com/open-source/kinetics
  • 相關(guān)論文:Look, listen and learn. Link
  • 發(fā)布年份:2017, CVPR
  • 主要任務(wù):Audio-Visual Action recognition
  • 主要作者:Arandjelovic Relja, Andrew Zisserman
  • 所屬團(tuán)隊(duì):DeepMind
  • 內(nèi)容簡介:
    • 非常適合Audio-Visual相關(guān)的場景理解任務(wù);
    • 從Kinetics400中選擇了包含視覺目標(biāo)聲音的31個(gè)類別;
    • 共18176個(gè)視頻(訓(xùn)練集14799,驗(yàn)證集1320,測試集2597)。
2.7. EPIC-KITCHENS-100
  • 官網(wǎng)鏈接:https://epic-kitchens.github.io/2022
  • 相關(guān)論文:Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100. Link
  • 發(fā)布年份:2022, IJCV
  • 主要作者:Dima Damen, Giovanni Maria Farinella
  • 所屬團(tuán)隊(duì): University of Bristol and University of Catania
  • 內(nèi)容簡介:
    • 大規(guī)模第一視角數(shù)據(jù)集,包含視音頻信息;
    • 采集數(shù)據(jù)涉及4個(gè)城市,45個(gè)廚房;
    • 視頻總時(shí)長超過100小時(shí)(全高清,60fps),總幀數(shù)超過20M幀
    • 共包含動(dòng)作片段超過9萬個(gè),97個(gè)動(dòng)詞類別和300個(gè)名詞類別。
  • 其他版本
    • EPIC-KITCHENS-55 (TPAMI’21, PDF), 早期的版本,包含55小時(shí)的內(nèi)容。
2.8. THUMOS’14
  • 官網(wǎng)鏈接:https://www.crcv.ucf.edu/THUMOS14/home.html
  • 相關(guān)論文:The THUMOS Challenge on Action Recognition for Videos “in the Wild”. Link
  • 發(fā)布年份:2014, CVIU’2017
  • 主要任務(wù):Temporal Localization, Action Recognition
  • 主要作者:Haroon Idreesa, Amir R. Zamirb, Yu-Gang Jiangc, Alex Gorbane, Ivan Laptevd, Rahul Sukthankare, Mubarak Shaha
  • 所屬團(tuán)隊(duì):Center for Research in Computer Vision,University of Central Florida, USA
  • 內(nèi)容簡介:
    • 有20類動(dòng)作的未分割視頻是有時(shí)序行為片段標(biāo)注的,包括200個(gè)驗(yàn)證集視頻(含3007個(gè)行為片段)和213個(gè)測試集視頻(含3358個(gè)行為片段),經(jīng)過標(biāo)注的未分割視頻通常被用于訓(xùn)練和測試時(shí)序行為檢測模型;
    • 訓(xùn)練集:每個(gè)類別平均有150個(gè)動(dòng)作時(shí)序標(biāo)注,每個(gè)動(dòng)作平均的持續(xù)時(shí)間為4.04秒,總計(jì)12159.8秒,共有3007個(gè)動(dòng)作時(shí)序標(biāo)注;
    • 測試集:每個(gè)類別平均有167.9個(gè)動(dòng)作時(shí)序標(biāo)注,每個(gè)動(dòng)作平均的持續(xù)時(shí)間為4.47秒,總計(jì)15040.3秒,共有3358個(gè)動(dòng)作時(shí)序標(biāo)注;
  • 其他版本
    • THUMOS’15 (Link),包括更多的動(dòng)作類別和視頻數(shù),但是目前看到的時(shí)序定位類任務(wù)的文章基本是在THUMOS’14上進(jìn)行的實(shí)驗(yàn)。
2.9. AVE
  • 官網(wǎng)鏈接:https://sites.google.com/view/audiovisualresearch
  • 相關(guān)論文:Audio-Visual Event Localization in Unconstrained Videos. Link
  • 發(fā)布年份:2018, ECCV
  • 主要任務(wù):視音事件定位
  • 主要作者:Yapeng Tian, Jing Shi, Bochen Li, Zhiyao Duan, and Chenliang Xu
  • 所屬團(tuán)隊(duì):University of Rochester
  • 內(nèi)容簡介:
    • 視音事件定位問題,該數(shù)據(jù)集將視聽事件定義為在視頻片段中既可見又可聽的事件;
    • 包含三個(gè)任務(wù):監(jiān)督視音事件定位、弱監(jiān)督視音事件定位、跨模態(tài)視音事件定位;
    • 數(shù)據(jù)集共從AudioSet中篩選出4143個(gè)視頻,包含28個(gè)類別;
    • 每個(gè)類別至少有60個(gè)視頻,每個(gè)視頻長度為10秒,并至少含有2秒的視音事件。
2.10. LLP
  • 官網(wǎng)鏈接:https://github.com/YapengTian/AVVP-ECCV20
  • 相關(guān)論文:Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing. Link
  • 發(fā)布年份:2020, ECCV
  • 主要任務(wù):視音視頻解析
  • 主要作者:Yapeng Tian, Dingzeyu Li, and Chenliang Xu
  • 所屬團(tuán)隊(duì):University of Rochester
  • 內(nèi)容簡介:
    • LLP全稱:Look, Listen, and Parse
    • 視音視頻解析,即解析出視頻中的視覺事件、聲音事件和視音事件;
    • 從AudioSet上篩選出11849個(gè)視頻,共25個(gè)類別,總時(shí)長超32.9小時(shí);
    • 每個(gè)視頻都有一個(gè)video-level標(biāo)注,即視頻類別標(biāo)注;
    • 每個(gè)視頻長度為10秒,至少有1秒的聲音或者視覺事件;
    • 驗(yàn)證集和測試集含1849個(gè)視頻,共有6626個(gè)事件標(biāo)注,其中4131個(gè)聲音事件和2495個(gè)視覺事件,以及2488個(gè)視音事件;
    • 任務(wù)中訓(xùn)練集使用10000個(gè)video-level標(biāo)注的視頻,剩下的精細(xì)標(biāo)注用于驗(yàn)證/測試集。
2.11. AVSBench
  • 官網(wǎng)鏈接:https://opennlplab.github.io/AVSBench/
  • 相關(guān)論文:Audio-Visual Segmentation, Link
  • 發(fā)布年份:2022, ECCV
  • 主要任務(wù):視聽分割
  • 主要作者:Jinxing Zhou, Jianyuan Wang, Meng Wang, Yiran Zhong
  • 所屬團(tuán)隊(duì):Visual Understanding Team, 合肥工業(yè)大學(xué)
  • 內(nèi)容簡介:
    • 視聽分割任務(wù):要準(zhǔn)確分割出視頻幀中正在發(fā)聲的物體全貌,即以音頻為指導(dǎo)信號,確定分割哪個(gè)物體并得到其完整的像素級掩碼圖;
    • AVSBench可以被分為兩個(gè)子集:單源(Single-source)和多源(Multi-sources)集合,分別對應(yīng)于單源和多源下的兩種視聽分割任務(wù);
    • 單源子集:包含4932個(gè)視頻,共23個(gè)類別,涵蓋人類、動(dòng)物、交通工具和樂器等日常生活中典型的發(fā)聲物體;
    • 多源子集:單源子集的類別中選擇有效的2-3個(gè)作為關(guān)鍵詞組合,再從YouTube網(wǎng)站中篩選出424個(gè)作為多源視頻;
    • 每個(gè)視頻等間隔采樣5幀,其中對于單源子集,僅標(biāo)注采樣的第一張視頻幀;對于多源子集,采樣的5幀圖像全部被標(biāo)注;
2.12. VGGSound
  • 官網(wǎng)鏈接:https://www.robots.ox.ac.uk/~vgg/data/vggsound/
  • 相關(guān)論文:VGGSound: A Large-scale Audio-Visual Dataset, Link
  • 發(fā)布年份:2020, ICASSP
  • 主要任務(wù):Honglie Chen, Weidi Xie, Andrea Vedaldi and Andrew Zisserman
  • 主要作者:Audio Recognition
  • 所屬團(tuán)隊(duì):Visual Geometry Group (VGG), University of Oxford, UK
  • 內(nèi)容簡介:
    • 311個(gè)類別,超過20萬個(gè)視頻,總時(shí)長達(dá)550小時(shí);
    • 每個(gè)音頻標(biāo)注都是單標(biāo)簽,標(biāo)簽之間沒有層級關(guān)系;
    • 數(shù)據(jù)集具有視音一致性,適用于視音場景理解任務(wù)的探索。
2.13. MUSIC-AVQA
  • 官網(wǎng)鏈接:https://gewu-lab.github.io/MUSIC-AVQA/
  • 相關(guān)論文:Learning to Answer Questions in Dynamic Audio-Visual Scenarios, Link
  • 發(fā)布年份:2022, CVPR
  • 主要任務(wù):視聽問答
  • 主要作者:Guangyao Li, Yake Wei, Yapeng Tian, Chenliang Xu, Ji-Rong Wen and Di Hu
  • 所屬團(tuán)隊(duì):GeWu-Lab, 高瓴人工智能學(xué)院,中國人民大學(xué)
  • 內(nèi)容簡介:
    • 視聽問答任務(wù),旨在回答有關(guān)不同視覺對象、聲音及其在視頻中的關(guān)聯(lián)的問題;
    • 數(shù)據(jù)集涵蓋大量的聲音問題、視覺問題和視聽問題的問答對,比ActivityNet-QA、TVQA等相比問答類數(shù)據(jù)集更全面豐富;
    • 數(shù)據(jù)集由包含豐富視聽成分的樂器演奏場景組成,有助于更好地研究視聽交互場景理解和推理,并可以在一定程度上避免場景中的噪聲問題;
    • 數(shù)據(jù)集包含了9,288個(gè)視頻并包含了22種樂器,其總時(shí)長超過150小時(shí);
    • 以眾包的形式形成了45,867個(gè)問答對,平均每個(gè)視頻約5個(gè)問答對,這些問答對涵蓋了不同模態(tài)下的9類問題類型以及33個(gè)不同的問題模板。
2.14. Breakfast
  • 官網(wǎng)鏈接:https://serre-lab.clps.brown.edu/resource/breakfast-actions-dataset/
  • 相關(guān)論文:The language of actions: Recovering the syntax and semantics of goal-directed human activities, Link
  • 發(fā)布年份:2014, CVPR
  • 主要任務(wù):Action Segmentation
  • 主要作者:Hilde Kuehne, Ali Arslan, Thomas Serre
  • 所屬團(tuán)隊(duì):SERRE LAB, A Brown University Research Group, USA
  • 內(nèi)容簡介:
    • 由 52 位不同演員在多個(gè)廚房地點(diǎn)執(zhí)行的 10 項(xiàng)烹飪活動(dòng)組成 烹飪活動(dòng)包括準(zhǔn)備咖啡、橙汁、巧克力牛奶等;
    • 視頻數(shù)量為1989個(gè),總時(shí)長超過 77 小時(shí)。
2.15. 50Salads
  • 官網(wǎng)鏈接:https://cvip.computing.dundee.ac.uk/datasets/foodpreparation/50salads/
  • 相關(guān)論文:Combining Embedded Accelerometers with Computer Vision for Recognizing Food Preparation Activities, Link
  • 發(fā)布年份:2013, UbiComp
  • 主要任務(wù):Action Segmentation
  • 主要作者:Sebastian Stein and Stephen J. McKenna
  • 所屬團(tuán)隊(duì):CVIP, School of Computing, University of Dundee, UK
  • 內(nèi)容簡介:
    • 包含50個(gè)視頻, 17個(gè)類別,平均每個(gè)視頻長6.4分鐘并有20個(gè)實(shí)例;
    • 主要場景是25個(gè)人,每個(gè)人準(zhǔn)備了2份沙拉。
2.16. GTEA
  • 官網(wǎng)鏈接:https://cbs.ic.gatech.edu/fpv/
  • 相關(guān)論文:Learning to Recognize Objects in Egocentric Activities, Link
  • 發(fā)布年份:2011, CVPR
  • 主要任務(wù):Action Segmentation
  • 主要作者:Alireza Fathi , Xiaofeng Ren , James M. Rehg
  • 所屬團(tuán)隊(duì):College of Computing, Georgia Institute of Technology
  • 內(nèi)容簡介:
    • GTEA全稱:Georgia Tech Egocentric Activity
    • 視頻主要是第一視角數(shù)據(jù)集;
    • 主要包含7種類型的日?;顒?dòng)(如制作三明治、茶或咖啡等), 每個(gè)活動(dòng)由四個(gè)不同的人執(zhí)行;
    • 共有 28 個(gè)視頻,每個(gè)視頻約 20 個(gè)細(xì)粒度的動(dòng)作實(shí)例;
    • 官方提供的數(shù)據(jù)集采樣率為15fps, 共有31222幀。
2.17. EGTEA Gaze++
  • 官網(wǎng)鏈接:https://cbs.ic.gatech.edu/fpv/
  • 相關(guān)論文:In the eye of beholder: Joint learning of gaze and actions in first person video, Link
  • 發(fā)布年份:2018, ECCV
  • 主要任務(wù):Action Recognition, Gaze Estimation
  • 主要作者:Yin Li, Miao Liu, James M. Rehg
  • 所屬團(tuán)隊(duì):College of Computing, Georgia Institute of Technology
  • 內(nèi)容簡介:
    • 第一視角視頻理解數(shù)據(jù)集,該數(shù)據(jù)集的素材來自于自然的廚房場景;
    • Frame-level的標(biāo)注,原始數(shù)據(jù)集視頻大小約26G;
    • 數(shù)據(jù)集的視頻總時(shí)長29小時(shí),包含大約15176個(gè)動(dòng)作實(shí)例,這些動(dòng)作的總類別數(shù)為200;
    • 視頻的每一幀都帶有對應(yīng)的gaze(眼球注視信息)的注釋,由于眼球運(yùn)動(dòng)反映了一個(gè)人的思維過程,并代表了人類的注意力;
2.18. Ego4D
  • 官網(wǎng)鏈接:https://ego4d-data.org/
  • 相關(guān)論文:Ego4d: Around the world in 3,000 hours of egocentric video, Link
  • 發(fā)布年份:2022, CVPR
  • 主要任務(wù):第一視角場景理解(16個(gè)benchmarks)
  • 主要作者:Kristen Grauman, Andrew Westbury, Antonio Torralba等
  • 所屬團(tuán)隊(duì):Meta AI , MIT, CMU, UC Berkeley等
  • 內(nèi)容簡介:
    • 超大規(guī)模第一視角視頻理解數(shù)據(jù)集,該數(shù)據(jù)集的素材來自于自然場景;
    • 視頻總時(shí)長超過3670小時(shí),原始視頻大小約7T;
    • 5大類任務(wù):Episodic Memory(情節(jié)記憶),Hands and Objects(手和物體), Audio-Visual Diarization(視聽日志),Social Interactions(社交活動(dòng))和Forecasting(預(yù)測)
3. 小結(jié)

隨著算力等硬件設(shè)備的升級,以數(shù)據(jù)為驅(qū)動(dòng)的(超)大規(guī)模數(shù)據(jù)集逐漸涌現(xiàn),這些基于(超)大規(guī)模數(shù)據(jù)集的模型能夠較輕易的突破之前中小數(shù)據(jù)集性能的瓶頸,具有很大的前景。但是,由于筆者身在高校,算力等硬件設(shè)施無法和公司的算力相提并論,所以基于一些經(jīng)典數(shù)據(jù)集的探索對高校等科研單位的研究人員具有很大的意義。雖然視頻理解領(lǐng)域的數(shù)據(jù)集非常多,并且不斷的有新數(shù)據(jù)集被提出,但是一些基準(zhǔn)數(shù)據(jù)集還是依舊被大家所認(rèn)可,本文是筆者依據(jù)自己探索的方向(行為識別/分類/分割、時(shí)序定位、視聽理解等)進(jìn)行的一些歸納,并附上了這些數(shù)據(jù)集的作者及團(tuán)隊(duì),他們往往在該領(lǐng)域里深耕多年,值得關(guān)注。由于時(shí)間關(guān)系,本文如有不全或筆誤之處,請不吝指出,同時(shí)后續(xù)也將持續(xù)更新。


參考文獻(xiàn)

[1] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre, “Hmdb: a large video database for human motion recognition,” in2011 International conference on computer vision. IEEE, 2011, pp. 2556–2563.

[2] K. Soomro, A. R. Zamir, and M. Shah, “Ucf101: A dataset of 101 human actions classes from videos in the wild,”arXiv preprint arXiv:1212.0402, 2012.

[3] F. Caba Heilbron, V. Escorcia, B. Ghanem, and J. Carlos Niebles, “Activitynet: A large-scale video benchmark for human activity understanding,” inProceedings of the ieee conference on computer vision and pattern recognition, 2015, pp. 961–970.

[4] G. A. Sigurdsson, G. Varol, X. Wang, A. Farhadi, I. Laptev, and A. Gupta, “Hollywood in homes: Crowdsourcing data collection for activity understanding,” inEuropean Conference on Computer Vision. Springer, 2016, pp. 510–526.

[5] W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev et al., “The kinetics human action video dataset,”arXiv preprint arXiv:1705.06950, 2017.

[6] R. Arandjelovic and A. Zisserman, “Look, listen and learn,” inProceedings of the IEEE International Conference on Computer Vision, 2017, pp. 609–617.

[7] D. Damen, H. Doughty, G. M. Farinella, , A. Furnari, J. Ma, E. Kazakos, D. Moltisanti, J. Munro, T. Perrett, W. Price, and M. Wray, “Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100,”International Journal of Computer Vision, vol. 130, p. 33–55, 2022.

[8] H. Idrees, A. R. Zamir, Y. Jiang, A. Gorban, I. Laptev, R. Sukthankar, and M. Shah, “The thumos challenge on action recognition for videos “in the wild”,”Computer Vision and Image Understanding, vol. 155, pp. 1–23, 2017.

[9] Y. Tian, J. Shi, B. Li, Z. Duan, and C. Xu, “Audio-visual event localization in unconstrained videos,” inProceedings of the European Conference on Computer Vision, 2018, pp. 247–263.

[10] Y. Tian, D. Li, and C. Xu, “Unified multisensory perception: Weakly-supervised audio-visual video parsing,” inEuropean Conference on Computer Vision. Springer, 2020, pp. 436–454.

[11] J. Zhou, J. Wang, J. Zhang, W. Sun, J. Zhang, S. Birchfield, D. Guo, L. Kong, M. Wang, and Y. Zhong, “Audio-visual segmentation,” inEuropean Conference on Computer Vision, 2022.

[12] H. Chen, W. Xie, A. Vedaldi, and A. Zisserman, “Vggsound: A large-scale audio-visual dataset,” inICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2020, pp.721–725.

[13] G. Li, Y. Wei, Y. Tian, C. Xu, J.-R. Wen, and D. Hu, “Learning to answer questions in dynamic audio-visual scenarios,” inProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 19108-19118.

[14] H. Kuehne, A. Arslan, and T. Serre, “The language of actions: Recovering the syntax and semantics of goal-directed human activities,” inProceedings of the IEEE conference on computer vision and pattern recognition, 2014, pp.780–787.

[15] S. Stein and S. J. McKenna, “Combining embedded accelerometers with computer vision for recognizing food preparation activities,” inProceedings of the 2013 ACM international joint conference on Pervasive and ubiquitous computing, 2013, pp. 729–738.

[16] A. Fathi, X. Ren, and J. M. Rehg, “Learning to recognize objects in egocentric activities,” inProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2011, pp. 3281–3288.

[17] Y. Li, M. Liu, and J. M. Rehg, “In the eye of beholder: Joint learning of gaze and actions in first person video,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 619–635.

[18] K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around the world in 3,000 hours of egocentric video,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18 995–19 012.
in first person video,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 619–635.

[18] K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around the world in 3,000 hours of egocentric video,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18 995–19 012.

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧


網(wǎng)頁題目:視頻理解中常用的數(shù)據(jù)集-創(chuàng)新互聯(lián)
網(wǎng)頁網(wǎng)址:http://weahome.cn/article/dchhjd.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部