成都創(chuàng)新互聯(lián)是一家專業(yè)提供寧洱企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站制作、成都網(wǎng)站建設(shè)、H5響應(yīng)式網(wǎng)站、小程序制作等業(yè)務(wù)。10年已為寧洱眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)絡(luò)公司優(yōu)惠進行中。
大數(shù)據(jù)文摘出品
編譯:曹培信、周家樂
隨著畢業(yè)季的鄰近,翟天臨又一次被網(wǎng)友們罵上了微博熱搜。
翟的論文抄襲事件過后,許多高校都加強了論文評審標(biāo)準,更有嚴格的院校連非畢業(yè)生的論文結(jié)課都要查重。
許多深夜改論文的學(xué)生于是結(jié)伴來到微博@翟天臨:你睡了嗎?你怎么睡得著?我還在改論文!你配睡覺嗎!
圖片來自微博
翟天臨自己可能也沒有想到,竟然陰差陽錯對中國高校教育做出了卓越的貢獻。
然而,也有學(xué)渣表示,以后查重這么嚴,抄襲是不可能了,只能找人代寫了。
早有媒體曝光過學(xué)術(shù)圈“論文代寫”的產(chǎn)業(yè)鏈。據(jù)第一財經(jīng)報道,相關(guān)淘寶搜索的本科文科論文每千字200元左右。
不過,這條“學(xué)術(shù)歪路”也要被AI堵死了。近日,哥本哈根大學(xué)的研究人員的最新研究稱,剛剛開發(fā)出一款“反槍手代寫”的AI系統(tǒng)。
這款系統(tǒng)意圖通過智能寫作分析技術(shù),來檢測論文作弊??梢愿鶕?jù)你的寫作習(xí)慣,確定論文究竟是你自己寫的作業(yè)還是由他人代寫。
根據(jù)對13萬份書面作業(yè)的分析,科學(xué)家們可以以近90%的準確率檢測出學(xué)生究竟是自己寫的作業(yè),還是由代筆撰寫。
基本上可以達到“代寫”作業(yè)一抓一個準的結(jié)果了。
高中代寫成風(fēng),哥本哈根大學(xué)的神操作
這套針對學(xué)生論文作弊行為的研究,已經(jīng)在哥本哈根大學(xué)計算機科學(xué)系(DIKU)進行了幾年了,最初,這款研究是針對丹麥的高中生進行的。
在丹麥,高中目前主要使用的作業(yè)查重平臺叫做Lectio,可以用來檢查學(xué)生的作業(yè)中是否有段落是直接復(fù)制先前提交的作業(yè)的。
然而,隨著各類線上服務(wù)平臺的盛行,在丹麥高中生中,找人代寫作業(yè)變得越發(fā)容易。
面對這種情況,學(xué)校一直缺乏有效的檢測手段。
學(xué)習(xí)軌跡項目或“SRP”(丹麥語的“Studie Retnings Projekt”)是丹麥高中畢業(yè)生的必修跨學(xué)科課程,也是一項非常重要的書面作業(yè)。在這個項目中的作弊現(xiàn)象尤其引人注目。
由于SRP對于畢業(yè)十分重要,很多學(xué)生們在丹麥競拍網(wǎng)站Den Bla Avis上發(fā)布他們的寫作任務(wù)來找人代寫。
和中國的老師和大多數(shù)查重系統(tǒng)一樣,Lectio只能查重,沒法判斷一份作業(yè)是否是找人代寫的。
哥本哈根大學(xué)的一些院系一直和很多高中有著SRP項目的合作,深受代寫作弊行為之害,一直在探究解決之道。
這所大學(xué)的計算機科學(xué)系DABAI項目組決定教教這些偷懶的高中生們“做人”。
DABAI(丹麥大數(shù)據(jù)分析驅(qū)動創(chuàng)新中心)是一個成立于2016年的丹麥國家研究中心。除了研究機器學(xué)習(xí)的高效算法,這個研究小組本來就對學(xué)生教育特別關(guān)注。之前,他們曾研究了“優(yōu)化學(xué)生的個性化學(xué)習(xí)”、“提高教師洞察力”等教育項目。
名叫“槍手”的反槍手神器
這個防作弊程序被叫做Ghostwriter(槍手),它本質(zhì)上屬于一種基于機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的一款文本分析程序。
項目組成員Stephan Lorenzen博士稱,這款程序可以比較該學(xué)生最近提交和以前提交的文章來識別寫作風(fēng)格的差異。
“程序會關(guān)注單詞長度、句子結(jié)構(gòu)以及單詞的使用方式等諸多特征。例如,它會察覺‘for example’被寫成了‘ex’,還是‘e.g.,’?!?/p>
其數(shù)據(jù)集來自為丹麥高中提供Lectio平臺的MaCom公司,該公司覆蓋了丹麥90%以上的高中,他們?yōu)镚hostWriter項目的研究人員提供了13萬份不同高中學(xué)生書面作業(yè)。
這個研究組認為,這款產(chǎn)品非常具有實際效用,很多學(xué)校對于找出“論文究竟是誰寫的”這個問題有著越來越高的技術(shù)需求。
但Stephan Lorenzen博士也認為,“在此之前,還需要認真討論一下應(yīng)用這項技術(shù)所面臨的倫理問題。我們不能把這個程序得到的結(jié)論作為判別是否作弊的唯一標(biāo)準,更應(yīng)該把它看作一份輔助性的證據(jù)?!?/p>
Ghostwriter是怎么工作的?
Ghostwriter程序使用Siamese 神經(jīng)網(wǎng)絡(luò)來區(qū)分不同文本的寫作風(fēng)格:通過大量數(shù)據(jù)的訓(xùn)練,學(xué)習(xí)不同寫作風(fēng)格的外在表現(xiàn)(representation),然后進行比對。
這個項目分兩步來解決作者身份驗證問題。首先是解決了計算兩個文本之間寫作風(fēng)格相似性的問題,主要通過使用Siamese網(wǎng)絡(luò)學(xué)習(xí)相似度函數(shù)s:T×T→[0,1]。其次是再解決作者A的驗證問題,通過比對未知作者文本X和已知是作者A的文本T之間的相似性。
在網(wǎng)絡(luò)方面,他們考慮使用不同的輸入通道考慮幾種不同的體系結(jié)構(gòu)(例如,char,word,POS-tags),最終確定了一種表現(xiàn)最佳的網(wǎng)絡(luò)架構(gòu):
Best performing network
編碼部分包括一個字符嵌入(Embd),然后是兩個不用的卷積層,每個卷積層后面都有一個全局最大池化層(GMP)。
在比較部分,他們首先計算合并層中的編碼之間的絕對差值,然后,應(yīng)用4個密集層,每層有500個神經(jīng)元,最后使用具有兩個輸出的softmax層來進行歸一化。
他們將數(shù)據(jù)集分為三份,T-train用于訓(xùn)練,T-val用于訓(xùn)練提前停止和selecting Cs,T-test僅用于估測試模型。
經(jīng)過訓(xùn)練,模型的準確率達到了87.5%。
最后實現(xiàn)的功能就是,當(dāng)學(xué)生提交作業(yè)時,該網(wǎng)絡(luò)會將其與以前的作業(yè)進行比較。對于每個作業(yè),神經(jīng)網(wǎng)絡(luò)都會計算出一個百分數(shù),用于表示新舊作業(yè)的相似性。然后,通過綜合考慮新舊作業(yè)相似性、交作業(yè)時間等多種因素計算出一個加權(quán)平均值。這個最終值就可以用來表示新作業(yè)和學(xué)生寫作風(fēng)格之間的相似性。
這一研究已經(jīng)被發(fā)表在一篇名為《識別高中代寫“槍手”》的論文中。
論文鏈接:
https://www.science.ku.dk/presse/nyhedsarkiv/2019/fristet-til-at-snyde-med-eksamensopgaven-kunstig-intelligens-opdager-dig-med-90-procent-sikkerhed/Detecting_Ghostwriters_in_High_Schools.pdf
除了論文,還能與警方合作篩查偽造文本
除了代寫作業(yè),Ghostwriter的技術(shù)也可以應(yīng)用于社會的其他地方。
例如,該程序可輔助警方的文檔審查員執(zhí)行各類文件的真?zhèn)畏治鋈蝿?wù),比如一份商業(yè)合同是否是偽造的;或者一個離奇的自殺案中,死者留下了一封遺書,這封遺書是不是死者本人寫的等等。
“與警方合作將是一件有趣的事情。警方現(xiàn)有的方法是聘用文件審查員來定性的比較文本之間的相似性和差異。而我們的方法則適用于大數(shù)據(jù)并自動找到其中潛藏的模式。我認為結(jié)合兩者將有利于警察開展工作?!盠orenzen說,他強調(diào)這里也同樣需要討論其面臨的倫理問題。
這項利用人工智能來檢測作業(yè)中作弊行為的技術(shù),具有廣泛的應(yīng)用前景。
目前,它還被用來分析Twitter文本,以確定文本內(nèi)容是由真實用戶撰寫的,還是由水軍或機器人編寫的。也就是說,淘寶店鋪雇傭水軍好評,很有可能也能被識別出來。
相關(guān)報道:
https://www.sciencedaily.com/releases/2019/05/190529145048.htm