大數(shù)據(jù)的概念與背景 大數(shù)據(jù)是最近幾年才熱起來的一個概念。大數(shù)據(jù)熱大約在2012年前后在中國出現(xiàn),。其中,涂子沛先生的《大數(shù)據(jù)》一書起到了重要的作用�,!俺松系郏魏稳硕急仨氂脭�(shù)據(jù)來說話”這句話,,更是得到了時任廣東省委書記汪洋(現(xiàn)為國務(wù)院副總理)的高度肯定,。 讀過這本書的人都知道:涂子沛關(guān)注的重點是大數(shù)據(jù)對政治、社會,、倫理等方面的影響,。后來,各家互聯(lián)網(wǎng)公司,、IT公司將人們關(guān)注的熱點引向了商業(yè)領(lǐng)域,,再經(jīng)股評師的運作,使之成為全社會炙手可熱的概念,。與此同時,,學(xué)術(shù)界不失時機地將大數(shù)據(jù)的概念引入了工業(yè)界。 然而,,工業(yè)界重視數(shù)據(jù)分析早已不是新鮮事了,。人們很早就希望通過數(shù)據(jù)發(fā)現(xiàn)客觀規(guī)律、優(yōu)化生產(chǎn)過程,。而數(shù)據(jù)挖掘等理論也早已廣泛傳播,。對數(shù)據(jù)挖掘的價值,,一種流行的觀點是:當(dāng)企業(yè)競爭進入白熱化、所有手段都已用盡時,,數(shù)據(jù)挖掘提供了領(lǐng)先半步的可能,。與現(xiàn)在的觀點相比,這個認識是相當(dāng)?shù)驼{(diào)的,。當(dāng)然,,低調(diào)背后是有原因的,因為業(yè)界真正成功的案例其實非常少,。 很多企業(yè)急于搭上“工業(yè)大數(shù)據(jù)”這趟快車,,然而在現(xiàn)實中遇到了很多的困惑。 人們似乎都認為數(shù)據(jù)的作用很大,,但從事過工業(yè)數(shù)據(jù)分析的人往往有這樣的體會:分析過程往往達不到預(yù)想的目標,,數(shù)據(jù)似乎并不是傳說中的金礦。 這種困惑也體現(xiàn)在商務(wù)活動中,。企業(yè)信息化建設(shè)原本應(yīng)該遵循一個基本原則:用戶需求驅(qū)動系統(tǒng)開發(fā),。從事大數(shù)據(jù)業(yè)務(wù)的IT公司對用戶說:你說怎么做,我就怎么做;用戶卻說:我不知道能得到什么,,也不知道該怎么做,,最好你告訴我怎么做。 誰都不知道怎么做,。于是,,大家都被暢銷書的理念忽悠著做事。然而,,暢銷書的觀點是正確的嗎? 暢銷書上的觀點往往對不上中國企業(yè)的現(xiàn)狀———或?qū)⑸虅?wù)大數(shù)據(jù)的應(yīng)用場景套在工業(yè)大數(shù)據(jù),或?qū)⑽磥淼膱鼍疤子玫浆F(xiàn)在,。 工業(yè)大數(shù)據(jù)與商務(wù)大數(shù)據(jù)有什么不同? 現(xiàn)在關(guān)于大數(shù)據(jù)的流行觀點,,幾乎都是針對商務(wù)大數(shù)據(jù)的。然而,,許多觀點可能并不適合工業(yè)界,。工業(yè)和商業(yè)至少有以下幾點不同: 可發(fā)現(xiàn)的新知識少。一般來說,,發(fā)現(xiàn)新知識是大數(shù)據(jù)分析的一個重要目的,。然而,在工業(yè)領(lǐng)域,,人們對生產(chǎn)過程的研究一般比較深入,,專業(yè)知識也很豐富,很難從數(shù)據(jù)中發(fā)現(xiàn)新的知識,。與之相比,,商務(wù)活動的大數(shù)據(jù)分析往往涉及人的喜好,,這些恰恰是過去難以量化研究的,故而大數(shù)據(jù)的含金量高,。 對分析結(jié)果的質(zhì)量要求高,。工業(yè)界對分析結(jié)果的精度和可靠度要求高。如果將不可靠,、不精確的分析結(jié)果用于指導(dǎo)生產(chǎn),,不僅不能創(chuàng)造價值,甚至可能導(dǎo)致極大的損失,。與之相比,,在許多商務(wù)大數(shù)據(jù)的應(yīng)用場景下,即便分析錯誤,,損失也不大,。 分析難度高。工業(yè)系統(tǒng)往往是復(fù)雜的人造系統(tǒng),,包含大量復(fù)雜的前饋和反饋環(huán)節(jié),。這意味著,變量間的相關(guān)性往往不是自然的因果關(guān)系,。這個問題很容易誤導(dǎo)分析和決策的過程,。另外,工業(yè)數(shù)據(jù)的信噪比往往比較低,,分析結(jié)果很容易出現(xiàn)嚴重偏離事實的畸變(即所謂的有偏估計),。 相關(guān)性包含的信息少。在商務(wù)大數(shù)據(jù)中,,數(shù)據(jù)之間的“相關(guān)性”本身往往就具有很大的參考價值,,而在工業(yè)體系中則未必是這樣。 工業(yè)大數(shù)據(jù)體現(xiàn)價值的場景有哪些? 價值是用戶決定的,。一杯水,,放在沙漠里可以救命,剩在餐桌上就是垃圾,。工業(yè)大數(shù)據(jù)也是一樣,,能否創(chuàng)造價值,首先是要看用在什么場景中,。用戶對工業(yè)大數(shù)據(jù)提不出需求,,是客觀現(xiàn)實的真實反映。大數(shù)據(jù)有用,,但合適的應(yīng)用場景不一定是現(xiàn)在,。下面分析幾個有用的場景: 質(zhì)量要求高的生產(chǎn)場景。制造業(yè)從什么時候開始重視數(shù)據(jù)?顯然,,當(dāng)我們追求高質(zhì)量,、高穩(wěn)定性的時候,,數(shù)據(jù)會顯得非常重要,數(shù)據(jù)的價值才得以體現(xiàn),。國外先進企業(yè)追求6西格瑪,,故而強調(diào)數(shù)據(jù)的重要性;國內(nèi)許多企業(yè)一味追求低成本,數(shù)據(jù)的重要性自然就會低,。 高度自動化及智能化的生產(chǎn)場景,。在高度自動化和智能化的生產(chǎn)單元,人的介入很少,,對質(zhì)量的要求一般也很高,。這時,對設(shè)備健康狀態(tài)和產(chǎn)品質(zhì)量的自動監(jiān)控就變得非常重要,。 工業(yè)互聯(lián)網(wǎng)的場景,。工業(yè)互聯(lián)網(wǎng)能使成千上萬用戶的數(shù)據(jù)實現(xiàn)共享。多個用戶的共享會帶來兩個過去無法企及的效果,。首先是分析結(jié)果的可靠性上升,。這得益于來自不同用戶的實例,可用于對分析結(jié)論的重復(fù)性認證,。其次是分析結(jié)果可以在眾多的用戶中分享,,以創(chuàng)造更大的價值。 在當(dāng)今的中國企業(yè)中,,符合上述要求的場景是不多見的,。多數(shù)企業(yè)重視成本遠甚于質(zhì)量,智能制造和自動化的水平低,,工業(yè)互聯(lián)網(wǎng)尚未起步,。由此可見,對中國多數(shù)企業(yè)來說,,工業(yè)大數(shù)據(jù)的價值很可能只是“未來時”,,雖然這個未來可能并不遙遠。 推進工業(yè)大數(shù)據(jù)現(xiàn)在該做啥? 馬云策劃淘寶的年代,,那時學(xué)校的網(wǎng)速只有每秒100個字節(jié)———這件事啟發(fā)我們:機會往往發(fā)生在條件不太成熟的時候。所以,,創(chuàng)新者的起步一定要早,。在工業(yè)大數(shù)據(jù)全面應(yīng)用之前,是我們培養(yǎng)能力,、積累技術(shù)的時候,。 但是,僅起步早是不夠的,,關(guān)鍵還要走對路子,。正如培根所說:“跛足而走對路的人,,勝過健步如飛卻誤入歧途者�,!痹鯓颖M早抓住機會呢?筆者認為,,可以從以下幾個方面做起: 一是理解工業(yè)大數(shù)據(jù)的本質(zhì)作用 對企業(yè)來說,大數(shù)據(jù)用得好壞的關(guān)鍵是看能否創(chuàng)造出高于成本的價值,。所以,,從功能的角度定義工業(yè)大數(shù)據(jù):大數(shù)據(jù)是過程(生產(chǎn)制造、研發(fā)服務(wù),、采購銷售)痕跡的數(shù)字化記錄,,目的是為“用數(shù)據(jù)說話”奠定基礎(chǔ),是對已有系統(tǒng)所產(chǎn)生的數(shù)據(jù)的二次利用,。 這意味著,,工業(yè)大數(shù)據(jù)平臺的建設(shè),應(yīng)該高度重視數(shù)據(jù)的組織,,避免遺漏重要的數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系,。例如,實時的設(shè)備狀態(tài)和工藝參數(shù)應(yīng)該與所生產(chǎn)的產(chǎn)品準確對應(yīng),,相關(guān)的時鐘不能混亂,。 二是以方便“人”的分析為出發(fā)點 在商務(wù)大數(shù)據(jù)中,很多人強調(diào)機器學(xué)習(xí),,強調(diào)從大量數(shù)據(jù)中獲得規(guī)律性,、重復(fù)性的知識。對于工業(yè)大數(shù)據(jù),,這種認識要做調(diào)整:工業(yè)知識主要來自人腦,,數(shù)據(jù)的作用是對已有認識的確認、分辨與準確化,。這就意味著,,大數(shù)據(jù)平臺的要點是方便人從事分析工作。而人的分析工作往往是針對特定事件驅(qū)動的,。 使得這些過程做到透明化,,提高管理水平,通過更有效的管理創(chuàng)造效益,。這樣,,建立大數(shù)據(jù)平臺的一個重要任務(wù)是:讓相關(guān)過程顯性化,避免人陷落在信息和數(shù)據(jù)的海洋中,,喪失關(guān)注的焦點,。按照這個觀點,在工業(yè)領(lǐng)域,,“知識自動化”的重點應(yīng)該是知識的管理,,而非知識的發(fā)現(xiàn),。 三是正確認識工業(yè)大數(shù)據(jù)的知識發(fā)現(xiàn) 如前所述,由于工業(yè)數(shù)據(jù)體現(xiàn)出來的規(guī)律性往往難以突破人已有的認識范圍,,發(fā)現(xiàn)規(guī)律性的知識(如工藝與質(zhì)量之間的關(guān)系)是比較困難的,。然而,工業(yè)大數(shù)據(jù)往往適合發(fā)現(xiàn)另外一類知識,,即從數(shù)據(jù)中提煉信息的知識,,將物理量的檢測數(shù)據(jù)轉(zhuǎn)化成產(chǎn)品質(zhì)量、能耗,、效率,、設(shè)備狀態(tài)等信息的“軟測量”算法,其實就是這種類型的知識,。這些知識往往是生產(chǎn)技術(shù)人員并不熟悉的盲點,。故而,從數(shù)據(jù)研究者的角度看,,它們屬于容易出成績的領(lǐng)域,。 過去,學(xué)術(shù)界對這些問題很熱衷,,企業(yè)卻不重視,,因為這種知識很難創(chuàng)造價值。不能創(chuàng)造價值的原因,,是未能將其納入管理或者控制的流程中,,故而創(chuàng)造價值的途徑不暢通。為此,,企業(yè)可能會需要一個平臺,,以便將這些知識轉(zhuǎn)化成數(shù)字化的模型,并納入生產(chǎn)制造等流程中,,以便創(chuàng)造經(jīng)濟價值,。 四是注重與智能制造的結(jié)合 數(shù)字化、網(wǎng)絡(luò)化引發(fā)的智能制造大體是這樣一個邏輯:信息驅(qū)動知識,,在決策過程中創(chuàng)造價值,、體現(xiàn)智能。其中,,信息來自供應(yīng)鏈,、客戶、智能設(shè)備,、物聯(lián)網(wǎng),知識表現(xiàn)為軟件化的模型,,決策則包括自動或人工的管理與控制,。 如前所述,,工業(yè)大數(shù)據(jù)在這個邏輯中有兩個重要作用:獲取“從數(shù)據(jù)提煉成信息的知識”;決策和專業(yè)知識主要來自人腦,但需要用大數(shù)據(jù)將其驗證,、矯正和精確化,。 五是加強數(shù)據(jù)分析可靠性理論研究 在工業(yè)系統(tǒng)中,可靠分析的結(jié)果才有使用價值,�,?煽啃苑治鲈臼墙y(tǒng)計理論的重要組成部分。但用于大數(shù)據(jù)明顯是不合適的,。這些理論的基本假設(shè)條件往往都是不成立的,。而且,許多理論和著名觀點也造成了大量的誤導(dǎo),,如盲目強調(diào)分析結(jié)果的準確性,、認為大數(shù)據(jù)強調(diào)相互關(guān)系而輕視因果等。 大數(shù)據(jù)的因果分析是個十分需要重視的領(lǐng)域,,但過去主要是科學(xué),、哲學(xué)研究的范疇,統(tǒng)計學(xué)家對其重視不足,。其實,,可以從杜絕假象、通過證偽等思路來逼近因果,。也就是說,,重點分析那些容易導(dǎo)致錯誤結(jié)果的情況。同時,,邏輯鏈的完整性和證據(jù)的獨立性也很重要,。 數(shù)據(jù)的質(zhì)量和完整性是導(dǎo)致分析錯誤的重要誘因。因此,,建立大數(shù)據(jù)平臺時,,不僅要關(guān)注數(shù)據(jù)本身,更要關(guān)注數(shù)據(jù)之間的對應(yīng)性;不僅要關(guān)注數(shù)據(jù)是什么,,還要關(guān)注數(shù)據(jù)的采集過程,。數(shù)據(jù)的采集過程不同,意味著內(nèi)涵發(fā)生了變化,。如果數(shù)據(jù)質(zhì)量不高,,大數(shù)據(jù)很可能是一堆垃圾。這樣看來,,盲從商務(wù)大數(shù)據(jù)“非結(jié)構(gòu)化”的觀點也是不對的,。
|