隨著信息技術(shù)和網(wǎng)絡(luò)及各類(lèi)傳感設(shè)備、海量存儲(chǔ)技術(shù)的飛速發(fā)展,數(shù)據(jù)的定義和收集方式產(chǎn)生了革命性的變化,大數(shù)據(jù)應(yīng)運(yùn)而生。相比傳統(tǒng)分析方法,大數(shù)據(jù)技術(shù)擁有無(wú)可比擬的優(yōu)勢(shì),然而大數(shù)據(jù)技術(shù)所引發(fā)的一系列關(guān)于認(rèn)知論的哲學(xué)難題——大數(shù)據(jù)的假設(shè)及倫理問(wèn)題——同樣不容忽視。John Symon和Ramón Alvarado 2016年發(fā)表在《大數(shù)據(jù)與社會(huì)》(Big Data & Society)的論文《我們可以信任大數(shù)據(jù)嗎?把科學(xué)哲學(xué)運(yùn)用在計(jì)算機(jī)軟件上》(Can we trust big data? Applying philosophy of science to software)表示:在很多情況下,道德與認(rèn)識(shí)論問(wèn)題密不可分。解鈴還需系鈴人,只有盡可能弄清大數(shù)據(jù)如何影響并改變了認(rèn)識(shí)論,才能從根本上改善大數(shù)據(jù)技術(shù)潛在的問(wèn)題。例如,通過(guò)大數(shù)據(jù)技術(shù)我們可以知道什么?這些技術(shù)的局限性在哪里?以及大數(shù)據(jù)的“新”到底體現(xiàn)在哪里?
成都創(chuàng)新互聯(lián)專(zhuān)注于企業(yè)營(yíng)銷(xiāo)型網(wǎng)站、網(wǎng)站重做改版、吉安網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、HTML5、成都商城網(wǎng)站開(kāi)發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)公司、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性價(jià)比高,為吉安等各大城市提供網(wǎng)站開(kāi)發(fā)制作服務(wù)。有關(guān)大數(shù)據(jù)的主流文獻(xiàn)常常表現(xiàn)出對(duì)科學(xué)哲學(xué)和認(rèn)知論的不同看法,結(jié)論均基于一個(gè)假設(shè):大量的數(shù)據(jù)及通過(guò)大數(shù)據(jù)分析發(fā)現(xiàn)的模式是獨(dú)立于理論基礎(chǔ)的。換句話說(shuō),很多大數(shù)據(jù)學(xué)者錯(cuò)誤地認(rèn)為數(shù)據(jù)量越大,分析結(jié)果就越可靠,而理論立場(chǎng)可有可無(wú)。這種研究大數(shù)據(jù)而不考慮當(dāng)代科學(xué)哲學(xué)的做法既不明智也不可取。大數(shù)據(jù)的核心在于如何使用大數(shù)據(jù)技術(shù)來(lái)捕捉和分析數(shù)據(jù),而大數(shù)據(jù)技術(shù)多涉及算法,我們只有充分理解各種算法的局限性和風(fēng)險(xiǎn),明白這些算法會(huì)如何引致以及引致什么樣的誤差,才能決定到底多大程度可以對(duì)這些算法施以信任、加以限制。
文章首先介紹了大數(shù)據(jù)的定義并試圖解釋大數(shù)據(jù)的局限性,然后就以往研究對(duì)大數(shù)據(jù)的批評(píng)進(jìn)行了概述,并接著論證為什么科學(xué)哲學(xué)和社會(huì)認(rèn)識(shí)論與大數(shù)據(jù)技術(shù)息息相關(guān)。解決認(rèn)識(shí)論擔(dān)憂的最好辦法是參與到計(jì)算建模與模擬的科學(xué)哲學(xué)辯論當(dāng)中?;赑aul Humphreys提出的“認(rèn)知模糊”,作者表示,大數(shù)據(jù)的“認(rèn)知模糊”關(guān)鍵在于大數(shù)據(jù)技術(shù)對(duì)錯(cuò)誤管理和錯(cuò)誤檢驗(yàn)的忽視,而錯(cuò)誤問(wèn)題同時(shí)也是大數(shù)據(jù)認(rèn)識(shí)論的一個(gè)重要特征。要改善大數(shù)據(jù)認(rèn)識(shí)論的缺陷,就必須正視誤差的影響?;谶@一考慮,文章就誤差檢驗(yàn)與糾正的主要特性及軟件誤差和路徑復(fù)雜性之間的關(guān)系進(jìn)行了闡述,并介紹了誤差檢驗(yàn)的常規(guī)統(tǒng)計(jì)方法(如Mayo的嚴(yán)格檢驗(yàn)及模擬驗(yàn)證),以及當(dāng)處理大數(shù)據(jù)的軟件系統(tǒng)受到高度制約時(shí)這些誤差檢驗(yàn)的缺陷。最后,以谷歌流感趨勢(shì)為例,文章進(jìn)一步討論了大數(shù)據(jù)技術(shù)的局限性,尤其是局限性的根源。
那么,我們可以信任大數(shù)據(jù)技術(shù)嗎?文章表示,這不僅僅在于軟件的開(kāi)發(fā)與修正本身,而更加在于認(rèn)知對(duì)軟件的開(kāi)發(fā)—修改—更新這個(gè)循環(huán)過(guò)程的指引作用。大數(shù)據(jù)技術(shù)是科學(xué)哲學(xué)與社會(huì)認(rèn)識(shí)論爭(zhēng)辯的產(chǎn)物,在運(yùn)用時(shí)不應(yīng)脫離科學(xué)哲學(xué)思想的指引。缺乏認(rèn)知?jiǎng)t會(huì)大大限制我們發(fā)現(xiàn)錯(cuò)誤的能力。
總而言之,大數(shù)據(jù)技術(shù)作為一種工具不可避免地存在局限性。從本質(zhì)上講,這些局限性反映了大數(shù)據(jù)技術(shù)背后理論的缺失。更重要的是,這些局限性清晰地表達(dá)了大型軟件系統(tǒng)的常規(guī)誤差監(jiān)測(cè)、修正與評(píng)估對(duì)內(nèi)在認(rèn)識(shí)論的挑戰(zhàn)。