電腦版
首頁

搜尋 繁體

尋找大資料領域“殺手級”應用

熱門小說推薦

要解決大的問題,仍然需要一種跨學科的方法,需要一種不僅僅只有“資料分析”的應用。中國唐宋時期的思維方法毫不過時,如今中國在大資料時代尋求一種全新的“大資料思維”時不妨回溯歷史,重新發現自己獨有的處理複雜社會問題的方法。

“殺手級”應用還未出現

全球範圍內都在掀起一股大資料應用的熱潮。如今的矽谷應該被重新命名為“資料谷”。權威機構預測,到2020年將存在200億~300億個網路連線裝置,這意味著我們每年都會產生比之前20萬年還多的資料。在矽谷,人們將資料稱為新的“石油”,石油可以產出汽油和電力,而“資料石油”一旦提煉出來,將會產生無人駕駛汽車[運用GPS(全球定位系統)資料和交通資料]、無人機、可穿戴裝置等。石油和資料之間的不同在於,石油的產品無法再產出更多石油,而資料的產品(無人駕駛汽車、無人機和可穿戴裝置等)能產出更多的資料。

然而,頗令人失望的是,我們並不知道該拿這些正在“大爆炸”的資料怎麼辦。大多數情況下我們會做“資料分析”,但資料分析至少從20世紀60年代就開始了,這有什麼新鮮呢?不過是透過對資料的分析試圖發現事物之間隱藏的規律性或潛在的問題,然後最佳化整個流程,最終賺更多的錢而已。

讓人汗顏的是,自計算機問世以來,資料分析最主要的應用還是使大公司利潤最大化。比如,大家提到大資料最有名的應用案例時都會提到亞馬遜和阿里巴巴的“推薦引擎”,即透過分析其他消費者的資料來建議你該買什麼;再比如,被頻繁提到的關於大資料的故事還有美國最大零售連鎖店之一的塔吉特(Target),它讓一個父親意外地發現自己還是高中生的女兒懷孕了,這曾一度讓大資料聲名顯赫。事實上,塔吉特的演算法識別購買系統特別關注準媽媽們,唯一的原因就是想要給她們推送特別促銷廣告,這難道就是我們能用大資料對孕婦做的所有事情?

如今中國很多中小企業也在積極構建自己的大資料系統,比如服裝企業用資料分析實現個性化生產和銷售,比如製造水杯的企業考慮將杯子內建感測器,再增加一個APP(計算機應用程式),將其變成智慧水杯。

但這些商家用資料分析也只是為了銷售更多的產品,或者用來決定到底該釋出哪種廣告。這就是我們能用海量資料做的所有事情?未免太有限了吧?可以說,大資料真正的“殺手級”應用還沒有被髮明出來。

我們先來看下大資料的現狀。誰在產生大部分資料?機器。又是誰在閱讀大資料?不管你相信與否,網上大約30%的“讀者”都是機器人而非人類,甚至連大多數世界新聞都是被機器人閱讀的。

未來,資料的主要讀者將是機器人。大資料世界的真實圖景是:機器產生資料,機器閱讀資料,並構造一個以機器為中心的資料世界。這也是為什麼迄今為止大資料唯一有用的應用是資料分析,因為機器最擅長數學和統計,卻不擅長理解人類世界。我們還沒有大資料領域真正偉大的“殺手級”應用,正是因為是機器,而非人類在“閱讀”這些資料。

大資料時代需要的不僅是“資料分析”

最近幾年來,很多製造業企業紛紛建立了智慧工廠,由於機器與機器的連線產生並收集了大量的資料,但到底能用這些資料做什麼,到底如何挖掘資料的價值還讓很多人困惑。很多人還是寄希望於資料分析,認為足夠精巧的資料分析應該可以帶來很大改變。

確實,大資料時代必然要求資料分析能力不斷提高。如今,在很多大學,計算和統計方法、視覺化分析方法等都在不斷改善和提升。但這些複雜的方法只是為了達到一個簡單的目的,即讓快速計算變得更廉價,因為大資料分析通常費用昂貴。

資料分析能力的快速提升確實讓人驚歎,起初人們破譯人類基因組需要花上10年時間,現在卻有創業者在不到一天的時間裡就能完成。這種能力也受到越來越多的重視,比如,斯坦福大學最受計算機系本科生歡迎的教材是《大規模資料探勘》。也就是說,任何人都可以使用書中的方法來分析大資料。

但是,一種新的數學方法並不能給我們帶來更有用的大資料應用,最多隻能帶來更便宜的資料分析。原因很簡單:數學家們並不瞭解世界上的重大問題。要解決大的問題,仍然需要一種跨學科的方法,需要一種不僅僅只有“資料分析”的應用。

比如,大資料分析比較典型的方法是尋找資料之間的相關性。典型的邏輯是,如果你跟許多拖欠信用卡貸款的人擁有幾乎一樣的購買記錄,很可能你也會跟他們一樣拖欠貸款。在技術層面,資料分析會試圖將這種關聯性建立模型。不過我們也就又回到了大多數的資料都是被機器閱讀和分析這個話題中。

資料分析會存在哪些問題呢?數個世紀以來,我們早就發現“假設—形成”這個方法有一個弱點:在大量資料中發現相關性並不難,難的是理解其中的因果關係。比如,如果有人發現,昨天在義大利都靈所有患上流感的人都穿著黑白相間的T恤衫,這並不意味著是這種T恤衫引起了流感,或者賣這種T恤衫的人就是傳染源,這很有可能意味著這些患上流感的人都是尤文圖斯足球俱樂部的球迷,因為這個俱樂部的官方球服就是黑白相間的T恤衫。

都靈一半的人口都是尤文圖斯足球俱樂部的球迷,從來不踢足球也對足球毫不瞭解的數學家們很可能會得出錯誤的結論,一個對足球一無所知的機器分析出來的結果很可能錯得更離譜。相反,一位瞭解都靈的人會很快意識到這種資料上的相關性並不直接包含因果關係,而會推測這場流感是在尤文圖斯球隊昨天踢球的體育場爆發的。

這種資料之間因果關係難以判定的問題在統計學誕生之初就存在了,然而,當我們面臨的資料量特別大的時候,這個問題就顯得尤其棘手,因為大量資料中的資料偶然相關性也是巨大的。

大資料時代我們當然需要更好的數學家,但我們同樣需要來自各個學科的學者們。畢竟,解決人類社會的問題並不是一場數學競賽。

大資料在生物醫藥領域尤其有用

大資料應該關注和解決哪些“大問題”?大資料可以應用得更廣泛,最讓人津津樂道的是預測未來。比如,可以用大資料預測大氣汙染什麼時候會到達一個危險的水平,我們可以在那之前就採取措施;可以預測犯罪活動最有可能在哪裡、在什麼時候集中爆發,我們可以提前部署警力;已經有不少銀行在使用一種類似大資料分析的系統來決定是否要給顧客貸款。

總的來說,我認為,大資料預測在醫藥生物領域用途特別廣泛。因為這個領域的資料實際上是無窮盡的,可惜的是我們甚至都沒能將已有的資料儲存下來。人類基因組包含數十億鹼基對,我們目前對這些鹼基對到底在人類基因中發揮什麼作用,又是如何相互作用導致了疾病實在是所知甚少。又比如存在於人體內對人體的機能(如消化)發揮著重要作用的細菌微生物,其基因更比人的鹼基對多百倍。我們不知道這些鹼基對的作用,但是,我們有80億人生活在這個星球上,這是一個巨大的潛在資料庫。大資料預測可以幫助我們找到哪些基因組合會帶來疾病,而哪些組合又會提高強大的免疫力。比如,有些人對瘧疾免疫,我們就可以專門研究這些人體內基因組中的鹼基對的分佈情況,找出其中的奧秘。

斯坦福大學曾舉行了一個名為“生物醫學領域的大資料”的年度峰會,峰會提出的口號就是“資料科學將重塑21世紀人類健康”。谷歌也曾按照地區搜尋和預測流感的爆發,發起了一個研究世界範圍內基因資料分佈情況,進而預測疾病的專案。非常可惜的是,很多專案需要一些特定的大資料才能為公眾提供有用的應用,但這些資料掌握在一些不願意向研究者開放資料庫的公司手裡。此外,我們身邊觸手可及的資料也可以提供很多有用的資訊,但被我們“浪費”掉了。比如,斯隆(Sloan)基金會正在贊助這樣一個大資料專案,該專案專門收集人們在火車站的機器觸控式螢幕上留下的微生物資訊,這些資訊可以讓我們知道該城市人們的健康狀況。

大資料下商業合作大趨勢

大資料解決“大問題”確實需要廣泛的合作,這意味著大資料領域的“殺手級應用”也會在合作中誕生,而不僅僅是幾個大公司之間的遊戲。大公司的確對大資料的應用做出了很大的貢獻。谷歌和Facebook作為世界上屈指可數的兩個大資料公司,其貢獻主要是實現了海量資料的實時處理。

我們簡單回顧一下大公司在大資料處理上的技術史。谷歌的團隊由傑夫·迪安(Jeff Dean)和桑傑·格瑪沃爾特(Sanjay Ghemawat)(2004年左右)領導。他們開發了並行、分散式演算法MapReduce,可以對大量的、多種類的伺服器機群提供極大的擴充套件能力,解決了公司管理數十億搜尋查詢資料以及與其他使用者互動的實際問題。

Facebook的團隊則開發了Cassandra(一套開源分散式非關係型資料庫系統)。這個系統利用了亞馬遜和谷歌的技術,解決了Facebook的資料管理問題。Facebook在2008年將其贈送給了阿帕奇開源社群。喬納森·埃利斯(Jonathan Ellis)和馬特·派菲兒(Matt Pfeil)於2010年在加州聖塔克拉利塔成立了DataStax公司。該公司使用Cassandra並把它發展成能夠與甲骨文競爭的關鍵任務資料庫管理系統,在業內數一數二。

2005年,一位雅虎的工程師道格·卡丁(Doug Cutting)和邁克·卡夫拉(Mike Cafarella)開發了一個分散式檔案系統(HDFS),2006年以後我們稱為Hadoop,用於在機群伺服器上儲存和處理大量的資料集。Hadoop曾經在雅虎內部使用並最終變成另一個阿帕奇的開源框架。此後,隨著Hadoop成為行業標準,出現了不少以它為基礎的大資料創業公司。與此同時,谷歌也開發了自己的大資料服務引擎Dremel(2010年才對外宣佈,實際上2006年就已在內部使用)。

目前,我們確實還沒有大資料領域的“iPhone”或“Facebook”之類的殺手級應用。但切記,相關的軟體已經有了,而且是免費的。大資料的最大使用者谷歌和Facebook已經將它們的大資料基礎設施做成了面向公眾的開源軟體,包括Facebook開發的Cassandra以及谷歌的諸多大資料技術服務。此外,其他不少由美國高校或政府研發的大資料分析軟體也都是開源的。

為什麼呢?因為我們想要越來越多的創業者在大資料領域探索和試驗,甚至連大公司也希望更多的小公司能夠參與進來。我們想要看一下是否有人能發明大資料領域的“殺手級應用”。

大公司將它們的大資料服務作為開源平臺面向公眾釋放的訊號是,即便競爭最激烈的商業領域也更看重合作而非競爭,這也是未來商業的大勢所趨。

中國有潛力創造全新的大資料思維

毫無疑問,大資料時代確實需要一種全新的思維方式。因為資料有著多種多樣的來源,任何一個專家(無論是人類還是機器)都不可能吸收所有的資料,這就要求跨學科的方法。

20世紀30年代,有兩個人在美國開創了“大科學”,麻省理工學院的萬尼瓦爾·布什(Vannevar Bush,“二戰”時期美國最偉大的科學家和工程師之一)和歐內斯特·勞倫斯(Ernest Orlando Lawrence,美國著名物理學家、1939年諾貝爾物理學獎得主)。雖然兩人合作的動機來自戰爭,而受益的是和平時期的社會。

布什和勞倫斯意識到解決大問題需要很多不同的思想:“大科學”正是將不同學科的科學家們聚集在一起。這種“大科學”方法給我們帶來了很多影響深遠的發明,比如核能和網際網路。可以說,“大科學”就是“大資料”的最早應用,區別是資料當時都存在於不同科學家們的大腦裡,但當時和現在使用的方法是相似的,即為了能用大資料解決大問題,我們需要一種跨學科的方法來創造、創新。

這樣跨學科的研究機構已經在不斷湧現。比如,哈佛大學量化社會科學研究所主任蓋瑞·金(Gary King)就召集和組建了一個由社會學家、經濟學家、物理學家、律師、心理學家等組成的研究團隊(你可以從網站/team-profiles上看到他們目前的陣容組成)。加州大學伯克利分校也建立了資料科學研究所(BIDS),成員中同樣有人種志學者、神經系統科學家、社會學家、經濟學家、物理學家、生物學家以及心理學家,甚至還包括一位地震學家。

實際上,用大資料解決大問題還有更早的例子,即古代中國。我認為,當今中國也最有潛力創造全新的大資料思維模型,因為中國人幾百年前就已經發明並使用了這種思維。唐宋時期,理想的“君子”一定是一位跨學科的學者,他必須同時是政治家、歷史家、作家、畫家、詩人、書法家……他需要學習所有的經典書籍。可以說,中國早就創造了一種“多工處理思維”,唐宋時期的讀書人能夠肩負起解決社會大問題的責任,正是由於他們從不同的領域吸收了足夠多的知識。

有人會問,書法到底跟解決社會大問題有什麼關係?當然有,它在無形中塑造著你的頭腦和精神,讓你更有智慧。而只要擁有一個足夠智慧的大腦,不管面臨什麼問題,你總能找到正確的解決方案。

我認為,中國唐宋時期的思維方法毫不過時,如今中國在“大資料時代”尋求一種全新的“大資料思維”時不妨回溯歷史,重新發現自己獨有的處理複雜社會問題的方法。

最近更新小說

最重要的小事