今天就跟大家聊聊有關(guān)TableBank如何理解,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
10年積累的網(wǎng)站制作、網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先網(wǎng)站設(shè)計(jì)后付款的網(wǎng)站建設(shè)流程,更有廣饒免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
TableBank:高質(zhì)量的標(biāo)注表格數(shù)據(jù)集
雖然人類在視覺上可以很容易地判斷出一個(gè)表格,但由于表格的布局、樣式多種多樣,對(duì)于機(jī)器而言判斷“何為表格”以及表格中內(nèi)容之間的關(guān)系卻并不容易。傳統(tǒng)的基于規(guī)則的表格識(shí)別方式,一旦換一份文檔就需要大量在文檔后臺(tái)的手工操作;而現(xiàn)有的機(jī)器學(xué)習(xí)方法,又無法獲得大量有效的標(biāo)注數(shù)據(jù),很難支持實(shí)際場(chǎng)景中的應(yīng)用。于是,TableBank應(yīng)運(yùn)而生。
TableBank是一個(gè)表格檢測(cè)與識(shí)別的數(shù)據(jù)集,基于公開的、大規(guī)模的Word文檔和LaTex文檔,通過弱監(jiān)督方法創(chuàng)建而來。與傳統(tǒng)的弱監(jiān)督訓(xùn)練集不同,TableBank不僅數(shù)據(jù)質(zhì)量高,而且數(shù)據(jù)規(guī)模比之前的人工標(biāo)記的表格分析數(shù)據(jù)集大幾個(gè)數(shù)量級(jí),其表格數(shù)據(jù)量達(dá)到了41.7萬。
然而要讓機(jī)器讀懂表格,首先要能夠從文檔中識(shí)別哪些是表格,隨后再去識(shí)別表格區(qū)域內(nèi)的信息。
看完上述內(nèi)容,你們對(duì)TableBank如何理解有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。