真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網站制作重慶分公司

BBC:大數(shù)據帶來的弊???近因效應

世界上90%的數(shù)據都是過去幾年里產生的,你可能已經熟知這個統(tǒng)計了。這是真的。我能找到的關于這個表述的最早的陳述之一可以追溯到2013年五月,但這個趨勢一直顯著地持續(xù)著。確實,過去三個世紀以來每兩年世界上數(shù)據的總量便會提高到十倍——這個比率甚至使得發(fā)現(xiàn)處理器性能加倍的摩爾定律都相形見絀。

創(chuàng)新互聯(lián)是一家專業(yè)提供峨山縣企業(yè)網站建設,專注與網站制作、網站建設、HTML5建站、小程序制作等業(yè)務。10年已為峨山縣眾多企業(yè)、政府機構等服務。創(chuàng)新互聯(lián)專業(yè)網站設計公司優(yōu)惠進行中。

這樣一個信息增長比率所帶來的問題之一是現(xiàn)在這個時刻的數(shù)據總是比才過去不久的要出現(xiàn)得大得多。想想一下回顧一本描繪你人生前八年的一本相冊,從出生到成年。假設你有你人生頭兩年的兩張照片。假定在匹配現(xiàn)在這樣一個信息增長比率下,你將會擁有印象深刻的2000張六歲到八歲的照片;20萬張十歲到十二歲的;以及驚人的兩億張十六歲到十八歲的照片。也就是說在最后兩年里每一秒種便會有不只三張照片產生。

“當你想尋求更長遠的視角而開始回顧過去時,你會發(fā)現(xiàn)現(xiàn)在的東西太多而過去的東西又太少。”

當然,這并不是全球數(shù)據的一個完美的類比。一開始,世界上許多數(shù)據的增長都是因為更多的人參與創(chuàng)造出了更多的信息資源以及更龐大更細致的格式。但是關于均衡性的觀點是有根據的。如果你打算回顧像上面一樣的記錄的話或者嘗試著分析它,你將發(fā)覺離現(xiàn)在越近的東西越會變得毫無意義。記錄這么多次有用的信息卻更少,為什么會這樣呢?

這就是現(xiàn)今如此多大數(shù)據被收集與分析所帶來的問題。當你想尋求更長遠的視角而開始回顧過去時,你會發(fā)現(xiàn)現(xiàn)在的東西太多而過去的東西又太少。目光短淺深深地植入在高估以歷史為代價的短期趨勢的強大的結構傾向中。

大數(shù)據所帶來的問題之一是現(xiàn)在這個時刻的數(shù)據總是比才過去不久的要出現(xiàn)得大得多。(來源:iStock)

為了理解這個的重要性,思考一下社會科學關于近因效應的發(fā)現(xiàn),它描述了人們假設未來的事件將類似于最近的經歷的傾向。這也是我們熟知的“可具有性”啟發(fā)式的另一種說法:依據任何最容易想到的東西進行思考的傾向。這也是一種普遍的心理屬性。如果在過去的幾年里在你住的地方你已經見證了異常寒冷的夏天,比如,你可能被引導著說出夏天越來越冷了——或者你們當?shù)氐臍夂蚩赡茉谧兝?。實際上你不應該把你讀到的任何東西讀入數(shù)據。你需要運用更長遠的眼光去了解關于氣候變化趨勢的有意義的東西。在短期內,你最好不要隨意推測——但我們中有誰能夠真的做到呢?

“短期的分析不只是無效的——它們經常是無用的甚至誤導人的”

現(xiàn)實生活中多數(shù)復雜現(xiàn)象經常也是這樣的:如股票市場、經濟、公司興衰、戰(zhàn)陣與和平、人際關系以及王朝更迭。短期的分析不單單是無效的——它們經常是無用甚至誤導人的。瞧瞧眾多經濟學家排著隊宣布像2009年金融危機這樣的事件是不可能發(fā)生的,直到它真的發(fā)生了。在那種程度上可以做到有效預測的那種概念本身就是問題的一部分。

值得一提的是在決定數(shù)據去留時新奇經常是主要的考慮因素。推陳出新:在這個數(shù)字趨勢的世界上,搜索算法本質上偏向于新鮮事物,所謂的超鏈停用從最高法院決定到整個社會媒體服務業(yè)等各方面十分猖獗。對于當下的偏向從結構上在我們周邊的所有科技中已經根深蒂固,尤其要歸因于我們大約五年后丟棄我們大多數(shù)一度繁榮的機器的喜好。

該怎么做?這不只是一個更擅長保存舊數(shù)據的問題——盡管這不能說是個壞主意,考慮到我們對現(xiàn)在于過去的幾十年而不是過去幾年的保存多無能為力。更重要的是,決定哪些數(shù)據是在第一時間值得保存的——并且以知識的名義有意義地剔除信息意味著什么。

我們需要更擅長于決定哪些數(shù)據值得在第一時間保存的。(來源:iStock)

我們需要的是一種我喜歡稱為“選擇性遺忘”的能力:訓練我們的工具更擅長于放下剛剛過去的東西以保持眼光上的連續(xù)性。這是一種類似治療的方式助我們合理安排相冊——盡管需要更多的數(shù)學。什么情況下兩百萬張照片不如兩千張有價值呢?當樣本比較多涉及領域卻比較少的時候;當可以提出的問題不那么重要的時候;當提供的細節(jié)的級別只是逐步灌輸懷疑和只有盲目的自信的時候。

有許多的數(shù)據集是不能復原的,當完成的時候價值是極大的:基因序列;人口數(shù)據;地理和物理學的困難知識。然而,若科學越不嚴謹,規(guī)模就越可能與質量成反比—更重要的是時間本身就是一個過濾器。我們要么仔細選擇忍受什么,有哪些是重要的,還有要帶著有意義的心態(tài)去捕捉我們后退的過去,要么它的印記被現(xiàn)在不斷增加的噪音所替代。

時間的削弱是有多方面的,因為在它仍然是一個限制因素里面有一個至關重要的意義:人的時間和注意力的可用性。企業(yè),個人和政府都有相當多的信息,與他們幾年前相比。然而,在白天的日子里他們沒有任何可用的關注,董事會成員,首席執(zhí)行官,民選官員或者幾個小時的時間。越來越好的工具的存在幫助決策者對他們所擁有的信息提出有意義的問題-制造者對他們擁有的信息提出有意義的問題-但你只能分析可企及的問題。單純地積累不是一種答案。在一個越來越大的數(shù)據時代,你選擇不知道的事情和你所做的一樣重要。


當前文章:BBC:大數(shù)據帶來的弊???近因效應
本文來源:http://weahome.cn/article/sdcpgo.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部