大數(shù)據(jù)的概念與背景 大數(shù)據(jù)是最近幾年才熱起來的一個概念,。大數(shù)據(jù)熱大約在2012年前后在中國出現(xiàn)。其中,,涂子沛先生的《大數(shù)據(jù)》一書起到了重要的作用,。“除了上帝,,任何人都必須用數(shù)據(jù)來說話”這句話,,更是得到了時任廣東省委書記汪洋(現(xiàn)為國務院副總理)的高度肯定。 讀過這本書的人都知道:涂子沛關(guān)注的重點是大數(shù)據(jù)對政治,、社會,、倫理等方面的影響。后來,,各家互聯(lián)網(wǎng)公司,、IT公司將人們關(guān)注的熱點引向了商業(yè)領(lǐng)域,再經(jīng)股評師的運作,,使之成為全社會炙手可熱的概念,。與此同時,學術(shù)界不失時機地將大數(shù)據(jù)的概念引入了工業(yè)界,。 然而,,工業(yè)界重視數(shù)據(jù)分析早已不是新鮮事了。人們很早就希望通過數(shù)據(jù)發(fā)現(xiàn)客觀規(guī)律,、優(yōu)化生產(chǎn)過程,。而數(shù)據(jù)挖掘等理論也早已廣泛傳播。對數(shù)據(jù)挖掘的價值,,一種流行的觀點是:當企業(yè)競爭進入白熱化,、所有手段都已用盡時,數(shù)據(jù)挖掘提供了領(lǐng)先半步的可能,。與現(xiàn)在的觀點相比,,這個認識是相當?shù)驼{(diào)的。當然,,低調(diào)背后是有原因的,,因為業(yè)界真正成功的案例其實非常少。 很多企業(yè)急于搭上“工業(yè)大數(shù)據(jù)”這趟快車,,然而在現(xiàn)實中遇到了很多的困惑,。 人們似乎都認為數(shù)據(jù)的作用很大,但從事過工業(yè)數(shù)據(jù)分析的人往往有這樣的體會:分析過程往往達不到預想的目標,,數(shù)據(jù)似乎并不是傳說中的金礦,。 這種困惑也體現(xiàn)在商務活動中,。企業(yè)信息化建設(shè)原本應該遵循一個基本原則:用戶需求驅(qū)動系統(tǒng)開發(fā)。從事大數(shù)據(jù)業(yè)務的IT公司對用戶說:你說怎么做,,我就怎么做;用戶卻說:我不知道能得到什么,,也不知道該怎么做,最好你告訴我怎么做,。 誰都不知道怎么做,。于是,大家都被暢銷書的理念忽悠著做事,。然而,,暢銷書的觀點是正確的嗎? 暢銷書上的觀點往往對不上中國企業(yè)的現(xiàn)狀———或?qū)⑸虅沾髷?shù)據(jù)的應用場景套在工業(yè)大數(shù)據(jù),或?qū)⑽磥淼膱鼍疤子玫浆F(xiàn)在,。 工業(yè)大數(shù)據(jù)與商務大數(shù)據(jù)有什么不同? 現(xiàn)在關(guān)于大數(shù)據(jù)的流行觀點,,幾乎都是針對商務大數(shù)據(jù)的。然而,,許多觀點可能并不適合工業(yè)界,。工業(yè)和商業(yè)至少有以下幾點不同: 可發(fā)現(xiàn)的新知識少。一般來說,,發(fā)現(xiàn)新知識是大數(shù)據(jù)分析的一個重要目的,。然而,在工業(yè)領(lǐng)域,,人們對生產(chǎn)過程的研究一般比較深入,,專業(yè)知識也很豐富,很難從數(shù)據(jù)中發(fā)現(xiàn)新的知識,。與之相比,商務活動的大數(shù)據(jù)分析往往涉及人的喜好,,這些恰恰是過去難以量化研究的,,故而大數(shù)據(jù)的含金量高。 對分析結(jié)果的質(zhì)量要求高,。工業(yè)界對分析結(jié)果的精度和可靠度要求高,。如果將不可靠、不精確的分析結(jié)果用于指導生產(chǎn),,不僅不能創(chuàng)造價值,,甚至可能導致極大的損失。與之相比,,在許多商務大數(shù)據(jù)的應用場景下,,即便分析錯誤,損失也不大,。 分析難度高,。工業(yè)系統(tǒng)往往是復雜的人造系統(tǒng),包含大量復雜的前饋和反饋環(huán)節(jié)。這意味著,,變量間的相關(guān)性往往不是自然的因果關(guān)系,。這個問題很容易誤導分析和決策的過程。另外,,工業(yè)數(shù)據(jù)的信噪比往往比較低,,分析結(jié)果很容易出現(xiàn)嚴重偏離事實的畸變(即所謂的有偏估計)。 相關(guān)性包含的信息少,。在商務大數(shù)據(jù)中,,數(shù)據(jù)之間的“相關(guān)性”本身往往就具有很大的參考價值,而在工業(yè)體系中則未必是這樣,。 工業(yè)大數(shù)據(jù)體現(xiàn)價值的場景有哪些? 價值是用戶決定的,。一杯水,放在沙漠里可以救命,,剩在餐桌上就是垃圾,。工業(yè)大數(shù)據(jù)也是一樣,能否創(chuàng)造價值,,首先是要看用在什么場景中,。用戶對工業(yè)大數(shù)據(jù)提不出需求,是客觀現(xiàn)實的真實反映,。大數(shù)據(jù)有用,,但合適的應用場景不一定是現(xiàn)在。下面分析幾個有用的場景: 質(zhì)量要求高的生產(chǎn)場景,。制造業(yè)從什么時候開始重視數(shù)據(jù)?顯然,,當我們追求高質(zhì)量、高穩(wěn)定性的時候,,數(shù)據(jù)會顯得非常重要,,數(shù)據(jù)的價值才得以體現(xiàn)。國外先進企業(yè)追求6西格瑪,,故而強調(diào)數(shù)據(jù)的重要性;國內(nèi)許多企業(yè)一味追求低成本,,數(shù)據(jù)的重要性自然就會低。 高度自動化及智能化的生產(chǎn)場景,。在高度自動化和智能化的生產(chǎn)單元,,人的介入很少,對質(zhì)量的要求一般也很高,。這時,,對設(shè)備健康狀態(tài)和產(chǎn)品質(zhì)量的自動監(jiān)控就變得非常重要。 工業(yè)互聯(lián)網(wǎng)的場景,。工業(yè)互聯(lián)網(wǎng)能使成千上萬用戶的數(shù)據(jù)實現(xiàn)共享,。多個用戶的共享會帶來兩個過去無法企及的效果,。首先是分析結(jié)果的可靠性上升。這得益于來自不同用戶的實例,,可用于對分析結(jié)論的重復性認證,。其次是分析結(jié)果可以在眾多的用戶中分享,以創(chuàng)造更大的價值,。 在當今的中國企業(yè)中,,符合上述要求的場景是不多見的。多數(shù)企業(yè)重視成本遠甚于質(zhì)量,,智能制造和自動化的水平低,,工業(yè)互聯(lián)網(wǎng)尚未起步。由此可見,,對中國多數(shù)企業(yè)來說,,工業(yè)大數(shù)據(jù)的價值很可能只是“未來時”,雖然這個未來可能并不遙遠,。 推進工業(yè)大數(shù)據(jù)現(xiàn)在該做啥? 馬云策劃淘寶的年代,,那時學校的網(wǎng)速只有每秒100個字節(jié)———這件事啟發(fā)我們:機會往往發(fā)生在條件不太成熟的時候。所以,,創(chuàng)新者的起步一定要早,。在工業(yè)大數(shù)據(jù)全面應用之前,是我們培養(yǎng)能力,、積累技術(shù)的時候,。 但是,僅起步早是不夠的,,關(guān)鍵還要走對路子,。正如培根所說:“跛足而走對路的人,勝過健步如飛卻誤入歧途者,�,!痹鯓颖M早抓住機會呢?筆者認為,可以從以下幾個方面做起: 一是理解工業(yè)大數(shù)據(jù)的本質(zhì)作用 對企業(yè)來說,,大數(shù)據(jù)用得好壞的關(guān)鍵是看能否創(chuàng)造出高于成本的價值。所以,,從功能的角度定義工業(yè)大數(shù)據(jù):大數(shù)據(jù)是過程(生產(chǎn)制造,、研發(fā)服務、采購銷售)痕跡的數(shù)字化記錄,,目的是為“用數(shù)據(jù)說話”奠定基礎(chǔ),,是對已有系統(tǒng)所產(chǎn)生的數(shù)據(jù)的二次利用。 這意味著,,工業(yè)大數(shù)據(jù)平臺的建設(shè),,應該高度重視數(shù)據(jù)的組織,,避免遺漏重要的數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系。例如,,實時的設(shè)備狀態(tài)和工藝參數(shù)應該與所生產(chǎn)的產(chǎn)品準確對應,,相關(guān)的時鐘不能混亂。 二是以方便“人”的分析為出發(fā)點 在商務大數(shù)據(jù)中,,很多人強調(diào)機器學習,,強調(diào)從大量數(shù)據(jù)中獲得規(guī)律性、重復性的知識,。對于工業(yè)大數(shù)據(jù),,這種認識要做調(diào)整:工業(yè)知識主要來自人腦,數(shù)據(jù)的作用是對已有認識的確認,、分辨與準確化,。這就意味著,大數(shù)據(jù)平臺的要點是方便人從事分析工作,。而人的分析工作往往是針對特定事件驅(qū)動的,。 使得這些過程做到透明化,提高管理水平,,通過更有效的管理創(chuàng)造效益,。這樣,建立大數(shù)據(jù)平臺的一個重要任務是:讓相關(guān)過程顯性化,,避免人陷落在信息和數(shù)據(jù)的海洋中,,喪失關(guān)注的焦點。按照這個觀點,,在工業(yè)領(lǐng)域,,“知識自動化”的重點應該是知識的管理,而非知識的發(fā)現(xiàn),。 三是正確認識工業(yè)大數(shù)據(jù)的知識發(fā)現(xiàn) 如前所述,,由于工業(yè)數(shù)據(jù)體現(xiàn)出來的規(guī)律性往往難以突破人已有的認識范圍,發(fā)現(xiàn)規(guī)律性的知識(如工藝與質(zhì)量之間的關(guān)系)是比較困難的,。然而,,工業(yè)大數(shù)據(jù)往往適合發(fā)現(xiàn)另外一類知識,即從數(shù)據(jù)中提煉信息的知識,,將物理量的檢測數(shù)據(jù)轉(zhuǎn)化成產(chǎn)品質(zhì)量,、能耗、效率,、設(shè)備狀態(tài)等信息的“軟測量”算法,,其實就是這種類型的知識。這些知識往往是生產(chǎn)技術(shù)人員并不熟悉的盲點,。故而,,從數(shù)據(jù)研究者的角度看,,它們屬于容易出成績的領(lǐng)域。 過去,,學術(shù)界對這些問題很熱衷,,企業(yè)卻不重視,因為這種知識很難創(chuàng)造價值,。不能創(chuàng)造價值的原因,,是未能將其納入管理或者控制的流程中,故而創(chuàng)造價值的途徑不暢通,。為此,,企業(yè)可能會需要一個平臺,以便將這些知識轉(zhuǎn)化成數(shù)字化的模型,,并納入生產(chǎn)制造等流程中,,以便創(chuàng)造經(jīng)濟價值。 四是注重與智能制造的結(jié)合 數(shù)字化,、網(wǎng)絡化引發(fā)的智能制造大體是這樣一個邏輯:信息驅(qū)動知識,,在決策過程中創(chuàng)造價值、體現(xiàn)智能,。其中,,信息來自供應鏈、客戶,、智能設(shè)備,、物聯(lián)網(wǎng),知識表現(xiàn)為軟件化的模型,,決策則包括自動或人工的管理與控制,。 如前所述,工業(yè)大數(shù)據(jù)在這個邏輯中有兩個重要作用:獲取“從數(shù)據(jù)提煉成信息的知識”;決策和專業(yè)知識主要來自人腦,,但需要用大數(shù)據(jù)將其驗證,、矯正和精確化。 五是加強數(shù)據(jù)分析可靠性理論研究 在工業(yè)系統(tǒng)中,,可靠分析的結(jié)果才有使用價值,。可靠性分析原本是統(tǒng)計理論的重要組成部分,。但用于大數(shù)據(jù)明顯是不合適的,。這些理論的基本假設(shè)條件往往都是不成立的。而且,,許多理論和著名觀點也造成了大量的誤導,如盲目強調(diào)分析結(jié)果的準確性,、認為大數(shù)據(jù)強調(diào)相互關(guān)系而輕視因果等,。 大數(shù)據(jù)的因果分析是個十分需要重視的領(lǐng)域,,但過去主要是科學、哲學研究的范疇,,統(tǒng)計學家對其重視不足,。其實,可以從杜絕假象,、通過證偽等思路來逼近因果,。也就是說,重點分析那些容易導致錯誤結(jié)果的情況,。同時,,邏輯鏈的完整性和證據(jù)的獨立性也很重要。 數(shù)據(jù)的質(zhì)量和完整性是導致分析錯誤的重要誘因,。因此,,建立大數(shù)據(jù)平臺時,不僅要關(guān)注數(shù)據(jù)本身,,更要關(guān)注數(shù)據(jù)之間的對應性;不僅要關(guān)注數(shù)據(jù)是什么,,還要關(guān)注數(shù)據(jù)的采集過程。數(shù)據(jù)的采集過程不同,,意味著內(nèi)涵發(fā)生了變化,。如果數(shù)據(jù)質(zhì)量不高,大數(shù)據(jù)很可能是一堆垃圾,。這樣看來,,盲從商務大數(shù)據(jù)“非結(jié)構(gòu)化”的觀點也是不對的。
|