口述:竇勇,達(dá)晨創(chuàng)投投資總監(jiān)
大數(shù)據(jù)的概念在國內(nèi)興起才幾年時間,很多人可能還不太清楚大數(shù)據(jù)的具體內(nèi)涵。就整體產(chǎn)業(yè)而言,大數(shù)據(jù)產(chǎn)業(yè)是一個龐大的閉環(huán),涉及數(shù)據(jù)源、場景化應(yīng)用、可視化展示以及數(shù)據(jù)安全。
數(shù)據(jù)源環(huán)節(jié)主要解決數(shù)據(jù)的儲存和管理問題。每個細(xì)分產(chǎn)業(yè)領(lǐng)域都有各自的大數(shù)據(jù),海量數(shù)據(jù)的存放、檢索、清洗、流通非常關(guān)鍵。此外,數(shù)據(jù)就像是一座座礦山,如何把這些礦山轉(zhuǎn)化成可變現(xiàn)的資源?這即是數(shù)據(jù)的場景化主要解決的問題。
比如現(xiàn)在很多企業(yè)通過互聯(lián)網(wǎng)做CRM(客戶關(guān)系管理)精準(zhǔn)營銷,需要分析用戶的行為并對用戶進(jìn)行標(biāo)簽和分類。消費者在超市里選擇一件商品時,可能還對關(guān)聯(lián)性商品有很大的需求,貨架的擺放需要有大數(shù)據(jù)提供關(guān)聯(lián)性的指導(dǎo),這就是典型的場景化應(yīng)用。
在此基礎(chǔ)上,還要解決數(shù)據(jù)的可視化問題去跟用戶交互,因為無形的數(shù)據(jù)需要被生動地展現(xiàn)出來才有價值。無形的數(shù)據(jù)能夠通過有形的圖形、圖表及各種轉(zhuǎn)換方式來展現(xiàn),至此數(shù)據(jù)便初步具有了資產(chǎn)屬性,數(shù)據(jù)安全的重要性也隨之凸顯。在數(shù)據(jù)產(chǎn)業(yè)鏈之中,數(shù)據(jù)的誕生、存儲、場景化應(yīng)用、可視化展示以及信息安全構(gòu)成了一個龐大的版圖。
大數(shù)據(jù)最早起源于氣象領(lǐng)域,但數(shù)據(jù)的存放一直是一個很大的問題。直到分布式存儲技術(shù)的出現(xiàn),極大降低了數(shù)據(jù)儲存的成本,提高了數(shù)據(jù)獲取的效率,從而增加了數(shù)據(jù)使用的價值。
大數(shù)據(jù)的概念最早可以追溯到2001年麥肯錫的一份報告。到了2009年,美國將大數(shù)據(jù)上升為國家戰(zhàn)略資源。2012年左右大數(shù)據(jù)開始在中國嶄露頭角。隨后2013-14年大數(shù)據(jù)行業(yè)進(jìn)入一個泡沫期。當(dāng)時很多企業(yè)都爭相為自己貼上大數(shù)據(jù)的標(biāo)簽,但實際上并沒有去做大數(shù)據(jù)的事情。比如,一些做統(tǒng)計的公司以大數(shù)據(jù)自居,宣稱自己開始涉足大數(shù)據(jù)的挖掘和清洗,但實際上好多公司還做原來一模一樣的事情,卻大大提升了估值水平和溢價水平。2014年上半年以后,行業(yè)泡沫有所擠壓,在這個過程中大數(shù)據(jù)也漸漸從概念走向清晰。
我認(rèn)為,大數(shù)據(jù)不是單指具體的技術(shù)而更多是一種思維。在傳統(tǒng)思維中,我們對數(shù)據(jù)的認(rèn)識通常停留在因果關(guān)系的表層,關(guān)注更多的是如何從A得到B。而在大數(shù)據(jù)的語境下,數(shù)據(jù)之間的相關(guān)性逐漸顯露出潛在的商業(yè)邏輯。比如:研究美國沃爾瑪?shù)臄?shù)據(jù)發(fā)現(xiàn),購買尿不濕的顧客與啤酒高度關(guān)聯(lián)。
此外,比較知名的案例還有谷歌流感趨勢預(yù)測。谷歌認(rèn)為,人們輸入的搜索關(guān)鍵詞代表了他們的即時需要,能夠反映出用戶面臨的具體情況。用戶只要輸入流感相關(guān)的關(guān)鍵詞,系統(tǒng)就會展開跟蹤分析。盡管有很多人批評谷歌預(yù)測存在各種問題,在實踐中,谷歌流感預(yù)測趨勢與美國疾病控制和預(yù)防中心的報告還是存在很大的相關(guān)性。
達(dá)晨創(chuàng)投在2014年開始布局大數(shù)據(jù)行業(yè),到現(xiàn)在為止已經(jīng)在大數(shù)據(jù)領(lǐng)域投資了12家企業(yè),從數(shù)據(jù)源至平臺應(yīng)用的整體生態(tài),覆蓋大數(shù)據(jù)全產(chǎn)業(yè)鏈。2014年,大數(shù)據(jù)行業(yè)的投資還沒有現(xiàn)在這么火熱。達(dá)晨的投資邏輯很清晰——由點到面構(gòu)建大數(shù)據(jù)領(lǐng)域的生態(tài)圈。我們非常關(guān)心數(shù)據(jù)源的問題,我們也特別關(guān)注有能力促進(jìn)數(shù)據(jù)流通的企業(yè)。目前,國內(nèi)的各個數(shù)據(jù)源像是孤立的島嶼,不同機(jī)構(gòu)、部門的信息分散在這些孤島上。數(shù)據(jù)經(jīng)過流通才有價值,單一分散的數(shù)據(jù)價值極其有限。在達(dá)晨大數(shù)據(jù)系的版圖上,包括國內(nèi)第一家“數(shù)據(jù)銀行”數(shù)據(jù)堂,國內(nèi)最年輕的博導(dǎo)周濤創(chuàng)建的針對企業(yè)風(fēng)險控制的數(shù)聯(lián)銘品,IBM中國杰出十大工程師之一創(chuàng)建的全球的工業(yè)大數(shù)據(jù)企業(yè)昆侖數(shù)據(jù),多次跟隨國家領(lǐng)導(dǎo)人出訪的美林?jǐn)?shù)據(jù),公安部大數(shù)據(jù)平臺中心中奧科技,國產(chǎn)數(shù)據(jù)庫的領(lǐng)導(dǎo)者南大通用等等。
從整個大數(shù)據(jù)行業(yè)在中國的發(fā)展的階段來看,2013-14年經(jīng)歷了概念從模糊到清晰的過程,而2015年才真正落地。我個人認(rèn)為,在整個大數(shù)據(jù)行業(yè)當(dāng)中,數(shù)據(jù)源會是一個風(fēng)口,涉及數(shù)據(jù)的采集、清洗、加工、交易、交換。簡言之,即是數(shù)據(jù)的流動。
數(shù)據(jù)堂是我們投的一家企業(yè)。數(shù)據(jù)堂的商業(yè)模式,簡言之即是將散落的數(shù)據(jù)融合起來進(jìn)行價值再造。數(shù)據(jù)堂提出了一個“數(shù)據(jù)銀行”概念,就是說:通過一個數(shù)據(jù)銀行的平臺,散落在各地的數(shù)據(jù)可以實現(xiàn)價值交換;在這里數(shù)據(jù)發(fā)揮了和現(xiàn)金一樣的功能,等量存儲可以在企業(yè)之間交互提取。在這層意義上,數(shù)據(jù)就變成了一種資產(chǎn)。數(shù)據(jù)堂是國內(nèi)第一家提出這種模式的企業(yè),旨在把數(shù)據(jù)作為一種資產(chǎn),通過他們的加工然后進(jìn)行交易。原始數(shù)據(jù)像是礦山,數(shù)據(jù)存放到這里之后,還需要進(jìn)行提煉。此外,企業(yè)既是數(shù)據(jù)的購買者,也可以作為數(shù)據(jù)的出售者。當(dāng)前數(shù)據(jù)的定價沒有統(tǒng)一標(biāo)準(zhǔn),只能根據(jù)需求來定義價格。企業(yè)將數(shù)據(jù)放到數(shù)據(jù)堂之后,彼此之間就可以實現(xiàn)握手交易。
數(shù)據(jù)堂獲取數(shù)據(jù)有幾個渠道,包括:線上網(wǎng)絡(luò)、線上線下眾包平臺以及向特定渠道購買。線上數(shù)據(jù)靠網(wǎng)絡(luò)爬蟲可以抓取,但線下的數(shù)據(jù)需要大量的人員去采集和匯聚。經(jīng)過6年的沉淀,數(shù)據(jù)堂的線下眾包平臺已經(jīng)有50萬人的規(guī)模。
數(shù)據(jù)眾包的意義,類似游戲中的打怪升級。以智能識別為例,眾包過程中搜集越多的人臉照片,系統(tǒng)就能獲得越多的學(xué)習(xí),從而提高識別的精度和準(zhǔn)度。然而,數(shù)據(jù)的價值并不是通過數(shù)量來體現(xiàn),而是針對B端(企業(yè)端)客戶的需求進(jìn)行加工和融合,于是數(shù)據(jù)就有了技術(shù)附加值。比如,氣象數(shù)據(jù)、地理數(shù)據(jù)、人流數(shù)據(jù)融合打包可以開發(fā)成一種標(biāo)準(zhǔn)化產(chǎn)品,它可以服務(wù)于商鋪的選址,也可以為超市的貨架擺放提供及時性參考。但這個工作有一定的門檻,一方面是數(shù)據(jù)獲得的門檻,另一方面是整合加工的技術(shù)壁壘。數(shù)據(jù)的整合加工不僅要理解數(shù)據(jù)的本質(zhì),還要像產(chǎn)品經(jīng)理一樣對不同行業(yè)的數(shù)據(jù)有一定的敏感和洞察,從而才能針對不同的場景化應(yīng)用開發(fā)相應(yīng)的標(biāo)準(zhǔn)化產(chǎn)品。粗略看來,數(shù)據(jù)產(chǎn)品經(jīng)理這份工作通常需要在數(shù)據(jù)行業(yè)沉淀4-5年時間才能勝任。
到了2015年,大數(shù)據(jù)行業(yè)開始瘋狂生長。2014年大數(shù)據(jù)公司還不到100家,一年時間增加了500多家。此外,只要打上大數(shù)據(jù)的標(biāo)簽,一些公司的估值動輒會翻好幾倍。高估值伴隨的是巨大的泡沫,在高估值的驅(qū)動下,許多企業(yè)的發(fā)展遠(yuǎn)遠(yuǎn)無法回歸企業(yè)的本質(zhì)。一些企業(yè)A輪剛完成,幾個月后又是B輪,短短時間估值就增加數(shù)倍,但高估值對于初創(chuàng)團(tuán)隊而言并不一定是好事。在這樣的背景下,創(chuàng)業(yè)企業(yè)容易膨脹和浮躁,可能導(dǎo)致過度擴(kuò)張,結(jié)果是企業(yè)供給與市場需求之間的脫節(jié)。
一方面,企業(yè)可能會開發(fā)出一些太超前的產(chǎn)品,但市場還沒發(fā)展到可以吸收的階段。不同行業(yè)的發(fā)展水平影響和制約著大數(shù)據(jù)在特定行業(yè)領(lǐng)域的場景化應(yīng)用。當(dāng)其他行業(yè)的生態(tài)還沒能達(dá)到一個維度時,大數(shù)據(jù)的發(fā)展不能太超前,因為大數(shù)據(jù)的核心終究還是要服務(wù)特定行業(yè)領(lǐng)域的企業(yè)。大數(shù)據(jù)行業(yè)只有擁抱其他行業(yè)才能生存。比如,現(xiàn)在很火的一個概念叫做智能制造,大家也都在提柔性加工。然而,在大多數(shù)制造企業(yè)還沒有實現(xiàn)自動化升級的大環(huán)境下,大數(shù)據(jù)又如何服務(wù)于智能制造的場景化應(yīng)用呢?
另一方面,企業(yè)的技術(shù)和研發(fā)能力可能達(dá)不到市場的預(yù)期?,F(xiàn)在大家正在興頭上競相擁抱大數(shù)據(jù),但如果大家發(fā)現(xiàn)一些大數(shù)據(jù)產(chǎn)品與自己的預(yù)期價值出現(xiàn)嚴(yán)重落差,一旦大數(shù)據(jù)的承諾無法兌現(xiàn),行業(yè)口碑就會受到影響。
然而,那些真正專注于大數(shù)據(jù)價值的企業(yè)依然非常值得堅守。在這樣的企業(yè)里,首席數(shù)據(jù)官的技術(shù)背景非常扎實。他們通常由兩類人群構(gòu)成,一類是BAT出身的技術(shù)人才,另一類是從硅谷回來的技術(shù)精英。此外,盡管企業(yè)需求還無法與大數(shù)據(jù)產(chǎn)品實現(xiàn)無縫對接,但大數(shù)據(jù)企業(yè)與用戶之間的配合正在逐步完善。