“翟天臨”克星？哥本哈根大學(xué)開發(fā)反“槍手”AI，識別作業(yè)代寫準確率接近90%

成都創(chuàng)新互聯(lián)是一家專業(yè)提供寧洱企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站制作、成都網(wǎng)站建設(shè)、H5響應(yīng)式網(wǎng)站、小程序制作等業(yè)務(wù)。10年已為寧洱眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)絡(luò)公司優(yōu)惠進行中。

大數(shù)據(jù)文摘出品

編譯：曹培信、周家樂

隨著畢業(yè)季的鄰近，翟天臨又一次被網(wǎng)友們罵上了微博熱搜。

翟的論文抄襲事件過后，許多高校都加強了論文評審標(biāo)準，更有嚴格的院校連非畢業(yè)生的論文結(jié)課都要查重。

許多深夜改論文的學(xué)生于是結(jié)伴來到微博@翟天臨：你睡了嗎？你怎么睡得著？我還在改論文！你配睡覺嗎！

“翟天臨”克星？哥本哈根大學(xué)開發(fā)反“槍手”AI，識別作業(yè)代寫準確率接近90%

圖片來自微博

翟天臨自己可能也沒有想到，竟然陰差陽錯對中國高校教育做出了卓越的貢獻。

然而，也有學(xué)渣表示，以后查重這么嚴，抄襲是不可能了，只能找人代寫了。

早有媒體曝光過學(xué)術(shù)圈“論文代寫”的產(chǎn)業(yè)鏈。據(jù)第一財經(jīng)報道，相關(guān)淘寶搜索的本科文科論文每千字200元左右。

“翟天臨”克星？哥本哈根大學(xué)開發(fā)反“槍手”AI，識別作業(yè)代寫準確率接近90%

不過，這條“學(xué)術(shù)歪路”也要被AI堵死了。近日，哥本哈根大學(xué)的研究人員的最新研究稱，剛剛開發(fā)出一款“反槍手代寫”的AI系統(tǒng)。

這款系統(tǒng)意圖通過智能寫作分析技術(shù)，來檢測論文作弊?？梢愿鶕?jù)你的寫作習(xí)慣，確定論文究竟是你自己寫的作業(yè)還是由他人代寫。

根據(jù)對13萬份書面作業(yè)的分析，科學(xué)家們可以以近90%的準確率檢測出學(xué)生究竟是自己寫的作業(yè)，還是由代筆撰寫。

基本上可以達到“代寫”作業(yè)一抓一個準的結(jié)果了。

高中代寫成風(fēng)，哥本哈根大學(xué)的神操作

這套針對學(xué)生論文作弊行為的研究，已經(jīng)在哥本哈根大學(xué)計算機科學(xué)系（DIKU）進行了幾年了，最初，這款研究是針對丹麥的高中生進行的。

在丹麥，高中目前主要使用的作業(yè)查重平臺叫做Lectio，可以用來檢查學(xué)生的作業(yè)中是否有段落是直接復(fù)制先前提交的作業(yè)的。

然而，隨著各類線上服務(wù)平臺的盛行，在丹麥高中生中，找人代寫作業(yè)變得越發(fā)容易。

面對這種情況，學(xué)校一直缺乏有效的檢測手段。

學(xué)習(xí)軌跡項目或“SRP”（丹麥語的“Studie Retnings Projekt”）是丹麥高中畢業(yè)生的必修跨學(xué)科課程，也是一項非常重要的書面作業(yè)。在這個項目中的作弊現(xiàn)象尤其引人注目。

由于SRP對于畢業(yè)十分重要，很多學(xué)生們在丹麥競拍網(wǎng)站Den Bla Avis上發(fā)布他們的寫作任務(wù)來找人代寫。

和中國的老師和大多數(shù)查重系統(tǒng)一樣，Lectio只能查重，沒法判斷一份作業(yè)是否是找人代寫的。

哥本哈根大學(xué)的一些院系一直和很多高中有著SRP項目的合作，深受代寫作弊行為之害，一直在探究解決之道。

這所大學(xué)的計算機科學(xué)系DABAI項目組決定教教這些偷懶的高中生們“做人”。

DABAI（丹麥大數(shù)據(jù)分析驅(qū)動創(chuàng)新中心）是一個成立于2016年的丹麥國家研究中心。除了研究機器學(xué)習(xí)的高效算法，這個研究小組本來就對學(xué)生教育特別關(guān)注。之前，他們曾研究了“優(yōu)化學(xué)生的個性化學(xué)習(xí)”、“提高教師洞察力”等教育項目。

“翟天臨”克星？哥本哈根大學(xué)開發(fā)反“槍手”AI，識別作業(yè)代寫準確率接近90%

名叫“槍手”的反槍手神器

這個防作弊程序被叫做Ghostwriter（槍手），它本質(zhì)上屬于一種基于機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的一款文本分析程序。

項目組成員Stephan Lorenzen博士稱，這款程序可以比較該學(xué)生最近提交和以前提交的文章來識別寫作風(fēng)格的差異。

“程序會關(guān)注單詞長度、句子結(jié)構(gòu)以及單詞的使用方式等諸多特征。例如，它會察覺‘for example’被寫成了‘ex’，還是‘e.g.,’?！?/p>

其數(shù)據(jù)集來自為丹麥高中提供Lectio平臺的MaCom公司，該公司覆蓋了丹麥90%以上的高中，他們?yōu)镚hostWriter項目的研究人員提供了13萬份不同高中學(xué)生書面作業(yè)。

這個研究組認為，這款產(chǎn)品非常具有實際效用，很多學(xué)校對于找出“論文究竟是誰寫的”這個問題有著越來越高的技術(shù)需求。

但Stephan Lorenzen博士也認為，“在此之前，還需要認真討論一下應(yīng)用這項技術(shù)所面臨的倫理問題。我們不能把這個程序得到的結(jié)論作為判別是否作弊的唯一標(biāo)準，更應(yīng)該把它看作一份輔助性的證據(jù)?！?/p>

Ghostwriter是怎么工作的？

Ghostwriter程序使用Siamese 神經(jīng)網(wǎng)絡(luò)來區(qū)分不同文本的寫作風(fēng)格：通過大量數(shù)據(jù)的訓(xùn)練，學(xué)習(xí)不同寫作風(fēng)格的外在表現(xiàn)（representation），然后進行比對。

這個項目分兩步來解決作者身份驗證問題。首先是解決了計算兩個文本之間寫作風(fēng)格相似性的問題，主要通過使用Siamese網(wǎng)絡(luò)學(xué)習(xí)相似度函數(shù)s：T×T→[0,1]。其次是再解決作者A的驗證問題，通過比對未知作者文本X和已知是作者A的文本T之間的相似性。

在網(wǎng)絡(luò)方面，他們考慮使用不同的輸入通道考慮幾種不同的體系結(jié)構(gòu)（例如，char，word，POS-tags），最終確定了一種表現(xiàn)最佳的網(wǎng)絡(luò)架構(gòu)：

“翟天臨”克星？哥本哈根大學(xué)開發(fā)反“槍手”AI，識別作業(yè)代寫準確率接近90%

Best performing network

編碼部分包括一個字符嵌入（Embd），然后是兩個不用的卷積層，每個卷積層后面都有一個全局最大池化層（GMP）。

在比較部分，他們首先計算合并層中的編碼之間的絕對差值，然后，應(yīng)用4個密集層，每層有500個神經(jīng)元，最后使用具有兩個輸出的softmax層來進行歸一化。

他們將數(shù)據(jù)集分為三份，T-train用于訓(xùn)練，T-val用于訓(xùn)練提前停止和selecting Cs，T-test僅用于估測試模型。

“翟天臨”克星？哥本哈根大學(xué)開發(fā)反“槍手”AI，識別作業(yè)代寫準確率接近90%

經(jīng)過訓(xùn)練，模型的準確率達到了87.5%。

“翟天臨”克星？哥本哈根大學(xué)開發(fā)反“槍手”AI，識別作業(yè)代寫準確率接近90%

最后實現(xiàn)的功能就是，當(dāng)學(xué)生提交作業(yè)時，該網(wǎng)絡(luò)會將其與以前的作業(yè)進行比較。對于每個作業(yè)，神經(jīng)網(wǎng)絡(luò)都會計算出一個百分數(shù)，用于表示新舊作業(yè)的相似性。然后，通過綜合考慮新舊作業(yè)相似性、交作業(yè)時間等多種因素計算出一個加權(quán)平均值。這個最終值就可以用來表示新作業(yè)和學(xué)生寫作風(fēng)格之間的相似性。

這一研究已經(jīng)被發(fā)表在一篇名為《識別高中代寫“槍手”》的論文中。

“翟天臨”克星？哥本哈根大學(xué)開發(fā)反“槍手”AI，識別作業(yè)代寫準確率接近90%

論文鏈接：

https://www.science.ku.dk/presse/nyhedsarkiv/2019/fristet-til-at-snyde-med-eksamensopgaven-kunstig-intelligens-opdager-dig-med-90-procent-sikkerhed/Detecting_Ghostwriters_in_High_Schools.pdf

除了論文，還能與警方合作篩查偽造文本

除了代寫作業(yè)，Ghostwriter的技術(shù)也可以應(yīng)用于社會的其他地方。

例如，該程序可輔助警方的文檔審查員執(zhí)行各類文件的真?zhèn)畏治鋈蝿?wù)，比如一份商業(yè)合同是否是偽造的；或者一個離奇的自殺案中，死者留下了一封遺書，這封遺書是不是死者本人寫的等等。

“與警方合作將是一件有趣的事情。警方現(xiàn)有的方法是聘用文件審查員來定性的比較文本之間的相似性和差異。而我們的方法則適用于大數(shù)據(jù)并自動找到其中潛藏的模式。我認為結(jié)合兩者將有利于警察開展工作?！盠orenzen說，他強調(diào)這里也同樣需要討論其面臨的倫理問題。

這項利用人工智能來檢測作業(yè)中作弊行為的技術(shù)，具有廣泛的應(yīng)用前景。

目前，它還被用來分析Twitter文本，以確定文本內(nèi)容是由真實用戶撰寫的，還是由水軍或機器人編寫的。也就是說，淘寶店鋪雇傭水軍好評，很有可能也能被識別出來。

相關(guān)報道:

https://www.sciencedaily.com/releases/2019/05/190529145048.htm

名稱欄目：“翟天臨”克星？哥本哈根大學(xué)開發(fā)反“槍手”AI，識別作業(yè)代寫準確率接近90%
轉(zhuǎn)載注明：http://weahome.cn/article/joheco.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆