景德鎮(zhèn)是一個文明和諧的國度,而我們時刻要保持互聯(lián)網(wǎng)環(huán)境的干凈。但對于UGC社區(qū)類產(chǎn)品,內(nèi)容是用戶創(chuàng)造的,平臺只能即時發(fā)現(xiàn)及時處理。倘若不干不凈的信息被網(wǎng)警盯上了,可能不會向你打任何招呼,直接拔掉網(wǎng)線了。
成都創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供黃浦網(wǎng)站建設(shè)、黃浦做網(wǎng)站、黃浦網(wǎng)站設(shè)計、黃浦網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計與制作、黃浦企業(yè)網(wǎng)站模板建站服務(wù),10余年黃浦做網(wǎng)站經(jīng)驗,不只是建網(wǎng)站,更提供有價值的思路和整體網(wǎng)絡(luò)服務(wù)。所以,在景德鎮(zhèn)干產(chǎn)品,你還得學(xué)會一件事:如何快速高效處理違規(guī)信息。
按照內(nèi)容傳播環(huán)節(jié),扼殺在搖籃里是最保險的,即提交后自動處理。但總有漏網(wǎng)之魚還是沒法被干掉,那就只能在傳播中解決掉。
提交后如何識別并自動處理
如何自動識別和處理,需要搞清楚內(nèi)容包含的信息載體元素和發(fā)布內(nèi)容的行為模式。
信息載體上,內(nèi)容可分為文字、圖片、音頻、視頻,其中對文字的處理手段最成熟,即關(guān)鍵詞、URL等特殊文本信息過濾,圖片、音頻、視頻,惡意URL鏈接地址識別。這個過程時間極短,系統(tǒng)只能通過詞庫或者二維模型做簡單運算并給出是否發(fā)布成功的提示,不能做過多運算。如BBS、CMS都采用此過濾法處理。
傳播中如何識別和處理
行為模式上,對用戶所處地理位置(IP識別、地域識別)、訪問方式(登錄行為方式停留時間、是否立即發(fā)布后離開)、內(nèi)容發(fā)布行為(發(fā)布頻率、提交速度如何)、賬號資料(昵稱、郵箱是否有無規(guī)律;是否間隔更換賬號登錄、賬戶之間是否同一批次注冊等)、社交關(guān)系(是否與馬甲賬號關(guān)聯(lián)、是否有真實社交關(guān)系存在、是否參與互動),通過這些維度建立模型進行用戶過濾(是否禁用賬號),內(nèi)容過濾。這個過程需要系統(tǒng)強大的運算,故在發(fā)布后進行處理。比如搜搜問問違規(guī)問答發(fā)布后幾分鐘被清理,就是采用的此方法。
對機器無法識別處理的內(nèi)容,比如一些文字內(nèi)容中關(guān)鍵詞隱喻(正話反說、啞謎等手法)、拆分(如裝13)等處理手法,機器沒法識別,可采用用戶舉報功能。系統(tǒng)通過收集用戶反饋,對內(nèi)容進行協(xié)同過濾。比如新浪微博大多數(shù)內(nèi)容的有舉報功能。
但也有特殊情況,內(nèi)容發(fā)布的時候不違法規(guī)則,但發(fā)布后造成了不良影響被判為違規(guī)內(nèi)容了。這時候通常采用系統(tǒng)管理員立即進行人工清理。如新浪微博李開復(fù)事件禁言三天。
對違規(guī)內(nèi)容處理手段
對違規(guī)內(nèi)容,一般采用前臺清理后臺數(shù)據(jù)保留的做法,嚴(yán)肅的,數(shù)據(jù)全部清理。又或者采用僅發(fā)布者可見,其他用戶不可見?;蛘邇?nèi)容排序墊底靠后不靠前顯示,讓違規(guī)內(nèi)容直接淹沒掉。
看完你會發(fā)現(xiàn)處理違規(guī)內(nèi)容的過程,其實和推薦引擎的工作原理挺相似的。最開始一層過濾需要快速響應(yīng),類似推薦引擎的冷啟動,第二層、和第三層過濾,就需要采用離線數(shù)據(jù)模型和在線隱性行為模型(系統(tǒng)對用戶交互產(chǎn)生的數(shù)據(jù)反饋分析)和顯性行為模型(其他用戶舉報的反饋數(shù)據(jù)分析)結(jié)合分析過濾掉。
本文雖然寫的有點硬,但還是較好理解。主要分享的是一種思路,處理此類問題的方式。產(chǎn)品同學(xué)在具體工作實踐中,可以結(jié)合自己的產(chǎn)品找出維度建立過濾層級模型使用。