技術(shù)
導(dǎo)讀:商業(yè)智能(Business Intelligence,簡稱BI)正如雨后春筍般蓬勃崛起。商業(yè)智能起始于決策支持系統(tǒng),早期伴隨著計(jì)算機(jī)的普及,有了長足的發(fā)展。后來,IBM公司提出“數(shù)據(jù)倉庫”概念,同時(shí),硬件的擴(kuò)充、軟件的更新、數(shù)據(jù)庫在企業(yè)的廣泛應(yīng)用等使商業(yè)智能真正地破繭而出。
商業(yè)智能(Business
Intelligence,簡稱BI)正如雨后春筍般蓬勃崛起。商業(yè)智能起始于決策支持系統(tǒng),早期伴隨著計(jì)算機(jī)的普及,有了長足的發(fā)展。后來,IBM公司提出“數(shù)據(jù)倉庫”概念,同時(shí),硬件的擴(kuò)充、軟件的更新、數(shù)據(jù)庫在企業(yè)的廣泛應(yīng)用等使商業(yè)智能真正地破繭而出。
近些年,在數(shù)據(jù)倉庫的基礎(chǔ)上,在線聯(lián)機(jī)分析(OLAP)、數(shù)據(jù)挖掘技術(shù)開始大行其道,目前,智能商業(yè)能幫助企業(yè)做的事情已經(jīng)越來越多,而且正在從傳統(tǒng)功能向增強(qiáng)型功能轉(zhuǎn)變、從單獨(dú)的商業(yè)智能向嵌入式商業(yè)智能發(fā)展。停滯多年的BI又一次吸引了大量公司的戰(zhàn)略視角。今天數(shù)獵哥就來說說商業(yè)智能(BI)。
一、什么商業(yè)智能BI
1.商業(yè)智能BI的定義
BI是Business Intelligence的英文縮寫,中文解釋為商務(wù)智能,用來幫助企業(yè)更好地利用數(shù)據(jù)提高決策質(zhì)量的技術(shù)集合,是從大量的數(shù)據(jù)中鉆取信息與知識(shí)的過程。簡單講就是業(yè)務(wù)、數(shù)據(jù)、數(shù)據(jù)價(jià)值應(yīng)用的過程(百度百科)。
換句話來說,BI是一套完整的解決方案,可以將來自企業(yè)的不同業(yè)務(wù)系統(tǒng)(如ERP、CRM、OA、BPM等,包括自己開發(fā)的業(yè)務(wù)系統(tǒng)軟件)的數(shù)據(jù),提取出有用的數(shù)據(jù)進(jìn)行整合清洗,在保證數(shù)據(jù)正確性的同時(shí),進(jìn)行數(shù)據(jù)分析和處理,并利用合適的查詢和分析工具快速、準(zhǔn)確地為企業(yè)提供報(bào)表展現(xiàn)與分析,為企業(yè)提供決策支持。
簡單概括這個(gè)過程所體現(xiàn)的三個(gè)大的部分就是:數(shù)據(jù)源收集,數(shù)據(jù)倉庫的數(shù)據(jù)準(zhǔn)備,可視化報(bào)表展現(xiàn)和數(shù)據(jù)分析(如圖所示)。
2.商業(yè)智能BI的本質(zhì)
對(duì)企業(yè)來說,商業(yè)智能BI不能直接產(chǎn)生決策,而是利用BI處理后的數(shù)據(jù)來支持決策。核心是通過構(gòu)建數(shù)據(jù)倉庫平臺(tái),有效整合數(shù)據(jù)、組織數(shù)據(jù),為分析決策提供支持并實(shí)現(xiàn)其價(jià)值。
BI最終展現(xiàn)給用戶的信息就是可視化報(bào)表或視圖。需要注意的是,報(bào)表是一個(gè)結(jié)果,只能達(dá)到查詢的效果,查詢僅僅只能告訴我們結(jié)果是什么、有沒有問題。而基于可視化圖表背后的數(shù)據(jù)分析才能告訴我們問題的原因是什么,只要問題發(fā)現(xiàn)了,原因也找到了,那么企業(yè)業(yè)務(wù)人員或者管理人員如何去決策就會(huì)變得簡單與輕松。
3.商業(yè)智能BI的開發(fā)周期
商業(yè)智能BI是一個(gè)完整的解決方案,需要進(jìn)行專業(yè)項(xiàng)目實(shí)施與部署。既然是項(xiàng)目,就有開發(fā)生命周期。一個(gè)完整的商業(yè)智能BI項(xiàng)目需要經(jīng)歷以下幾個(gè)階段:
這里需要注意的是,在實(shí)際項(xiàng)目實(shí)施過程中,以上的每一個(gè)階段都存在很大的變數(shù),例如業(yè)務(wù)架構(gòu)自底往上的調(diào)整、分析需求的變化、業(yè)務(wù)數(shù)據(jù)計(jì)算邏輯的變更等。所以商業(yè)智能BI項(xiàng)目如果需要順利實(shí)施就需要權(quán)衡好客戶實(shí)際資源能力、項(xiàng)目支持力度,客戶對(duì)商業(yè)智能BI的期待,項(xiàng)目后期的風(fēng)險(xiǎn),客戶的實(shí)際投入和長遠(yuǎn)規(guī)劃...
二、商業(yè)智能BI與大數(shù)據(jù)有什么區(qū)別
大數(shù)據(jù)研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)”。
商業(yè)智能BI和大數(shù)據(jù)是兩個(gè)不同的概念,簡單來說,BI相對(duì)于大數(shù)據(jù)更傾向于分析模式,用于決策,適合支持經(jīng)營指標(biāo)支撐類的問題;大數(shù)據(jù)則內(nèi)涵更廣,傾向于刻畫個(gè)體,更多的在于個(gè)性化的決策。
三、企業(yè)為什么需要商業(yè)智能BI
其實(shí),企業(yè)內(nèi)部有大量的機(jī)會(huì)可以通過優(yōu)化業(yè)務(wù)流程和集中決策來節(jié)省資金。在業(yè)務(wù)遭遇大挫折時(shí),商業(yè)智能BI能帶來一線曙光,產(chǎn)出顯著的投資回報(bào)率ROI。例如,阿爾伯克基市的就業(yè)者使用商業(yè)智能BI軟件來識(shí)別機(jī)會(huì)以減少使用手機(jī)通話,加班及其他營運(yùn)開支,三年期間為這個(gè)城市節(jié)省了200萬美元。
同樣地,在商業(yè)智能BI工具的幫助下,豐田汽車公司意識(shí)到對(duì)它的運(yùn)貨商雙倍地付費(fèi),于2000年總數(shù)達(dá)812,000美元。利用商業(yè)智能BI來揭示業(yè)務(wù)流程中存在的缺陷的企業(yè),與僅用商業(yè)智能BI來監(jiān)控會(huì)發(fā)生什么事情的企業(yè)相比,在成功的競爭中處于更有利的地位。商業(yè)智能BI在企業(yè)中的應(yīng)用主要表現(xiàn)在如下3個(gè)方面:
1.可視化報(bào)表的展現(xiàn)
在BI中,使用柱狀圖、餅狀圖、折線圖、二維表格等圖形可視化的方式將企業(yè)日常的業(yè)務(wù)數(shù)據(jù)(財(cái)務(wù)、供應(yīng)鏈、人力、運(yùn)營、市場、銷售、產(chǎn)品等)全面展現(xiàn)出來,再通過各種數(shù)據(jù)分析維度篩選、關(guān)聯(lián)、跳轉(zhuǎn)、鉆取等方式查看各類業(yè)務(wù)指標(biāo)。
這些分析展現(xiàn)內(nèi)容基本上是圍繞各個(gè)業(yè)務(wù)部門日常工作展開的,這里面有很多的業(yè)務(wù)分析內(nèi)容可能需要復(fù)雜的計(jì)算規(guī)則,需要從不同的業(yè)務(wù)系統(tǒng)獲取數(shù)據(jù),并且這些數(shù)據(jù)在業(yè)務(wù)系統(tǒng)軟件中都是很難直觀看到的。
這個(gè)層次的可視化報(bào)表分析就是一種呈現(xiàn),讓用戶對(duì)日常的業(yè)務(wù)有一個(gè)清晰、直接、準(zhǔn)確的認(rèn)知,同時(shí)解放了業(yè)務(wù)人員手工利用Excel的各種函數(shù)做匯總分析、制圖的工作,提高了工作效率。比如,財(cái)務(wù)部門會(huì)關(guān)心今年的營業(yè)收入、目標(biāo)完成率、營業(yè)毛利潤率、凈資產(chǎn)收益率等;銷售部門會(huì)關(guān)心銷售金額、訂單數(shù)量、銷售毛利、回款率等;采購部門會(huì)關(guān)心采購入庫金額、退貨情況、應(yīng)付賬款等等。
2.數(shù)據(jù)的“異?!狈治?/strong>
數(shù)據(jù)的異常分析利用的是對(duì)比分析法。業(yè)務(wù)人員通過可視化報(bào)表呈現(xiàn),如果發(fā)現(xiàn)了一些數(shù)據(jù)指標(biāo)反映出來的情況超出了日常經(jīng)驗(yàn)判斷。這時(shí)就需要要對(duì)這些 "異常" 數(shù)據(jù)進(jìn)行有目的的分析,通過相關(guān)聯(lián)的維度、指標(biāo)使用鉆取、關(guān)聯(lián)等分析方式探索出可能存在的原因。
例如,一個(gè)網(wǎng)站或產(chǎn)品,正常情況下每個(gè)月的平均用戶注冊量是10萬左右。但是發(fā)現(xiàn)在今年的 8 月份,會(huì)員注冊量達(dá)到了 23 萬,這就是一種 "異常",遠(yuǎn)遠(yuǎn)超過經(jīng)驗(yàn)判斷和預(yù)期。這時(shí)我們就要去分析判斷是因?yàn)槭袌霾块T的推廣,還是做了大型促銷活動(dòng)導(dǎo)致的。
當(dāng)然除了正向的異常,也有可能出現(xiàn)負(fù)向“異?!保热缱粤恐挥?萬,這時(shí)也是需要我們通過分析找到原因,并在以后避免發(fā)生類似的情況。
最終業(yè)務(wù)人員通過一次或者多次的維度和指標(biāo)圖表構(gòu)建,逐步形成了一種比較可靠的、固化的分析模型。這個(gè)階段的業(yè)務(wù)人員不再是被動(dòng)接受來自圖表中反映的信息,而是通過"異常"數(shù)據(jù)來定位到背后的一個(gè)業(yè)務(wù)問題,數(shù)據(jù)和業(yè)務(wù)在這個(gè)層次開始有了直接對(duì)應(yīng)關(guān)系,這時(shí)可以利用數(shù)據(jù)圖表之間的邏輯性關(guān)系尋找解決方法,提高企業(yè)的經(jīng)營效率。
3.業(yè)務(wù)建模分析
業(yè)務(wù)建模分析通常是由精通業(yè)務(wù)的業(yè)務(wù)人員提出,通過合理的建模找出業(yè)務(wù)中可能存在的問題,將其反映在可視化報(bào)表上,并最后要回歸到業(yè)務(wù),形成決策并不斷優(yōu)化的一個(gè)過程。業(yè)務(wù)建模簡單來說也可以理解為一種業(yè)務(wù)分析的邏輯思維模型,只是用數(shù)據(jù)、圖表化的方式將它們有效組織起來去驗(yàn)證我們對(duì)業(yè)務(wù)分析的邏輯判斷。它可由一個(gè)或多個(gè)圖表組成,也可通過一組或多組數(shù)據(jù)圖表支撐,依據(jù)企業(yè)的業(yè)務(wù)模型來確定。
業(yè)務(wù)建模分析區(qū)別于前兩點(diǎn),它是一種更深層次的業(yè)務(wù)數(shù)據(jù)的主動(dòng)設(shè)計(jì)和探索分析。需要更加深入業(yè)務(wù),圍繞一個(gè)一個(gè)業(yè)務(wù)分析場景展開,對(duì)業(yè)務(wù)的認(rèn)知要足夠深。這里需要注意的是具體的分析場景很難由專業(yè)的BI開發(fā)人員來提出。業(yè)務(wù)分析建模需要由專業(yè)的業(yè)務(wù)人員且具備數(shù)據(jù)分析思維意識(shí)的人員來推進(jìn)和主導(dǎo),再輔助合適的數(shù)據(jù)分析、挖掘或統(tǒng)計(jì)工具,這樣商業(yè)智能BI的價(jià)值才能在企業(yè)得到充分的發(fā)揮,數(shù)據(jù)的價(jià)值也才會(huì)得到充分的體現(xiàn)。
四、商業(yè)智能BI的工作原理
那么BI到底是如何工作的?商業(yè)智能BI是一個(gè)復(fù)雜的技術(shù)集合,它包含ETL、DW、OLAP、DM等多個(gè)環(huán)節(jié)(這里的幾個(gè)名詞后文會(huì)有詳細(xì)解釋)。如圖所示,簡單的說,就是把交易系統(tǒng)已經(jīng)發(fā)生過的數(shù)據(jù),通過ETL工具抽取到主題明確的數(shù)據(jù)倉庫中,OLAP處理后生成Cube或報(bào)表,透過Portal展現(xiàn)給用戶,用戶利用這些經(jīng)過分類(Classification)、聚集(Clustering)、描述和可視化(Description and Visualization)的數(shù)據(jù),支持業(yè)務(wù)決策。
1.ODS(Operational Data Store)
ODS是數(shù)據(jù)倉庫體系結(jié)構(gòu)中的一個(gè)可選部分,ODS具備數(shù)據(jù)倉庫的部分特征和OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù)。一般在帶有ODS的系統(tǒng)體系結(jié)構(gòu)中,ODS都設(shè)計(jì)都有如下特點(diǎn):
(1)在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間的數(shù)據(jù)過渡層:如果業(yè)務(wù)數(shù)據(jù)來源比較復(fù)雜,一般采用構(gòu)造ODS的方法來實(shí)現(xiàn)收集當(dāng)前需要處理的數(shù)據(jù)。如下述數(shù)據(jù)來源:①業(yè)務(wù)數(shù)據(jù)庫種類繁多。業(yè)務(wù)交易系統(tǒng)使用了不同種的數(shù)據(jù)庫,如DB2、Informix、Oracle、SQL server、文本等;②不同的應(yīng)用系統(tǒng)、不同的地理位置;③訂閱數(shù)據(jù)源;④批量還原非傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)……等等。用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來的數(shù)據(jù),這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與業(yè)務(wù)系統(tǒng)基本保持一致。
(2) 保存當(dāng)前或接近當(dāng)前的細(xì)節(jié)數(shù)據(jù),以供查詢或ETL檢錯(cuò)使用。
(3) 數(shù)據(jù)存儲(chǔ)周期性。ODS中存儲(chǔ)的數(shù)據(jù)都是臨時(shí)的,每次ETL之前都要清空ODS中存儲(chǔ)的數(shù)據(jù)。
2.ETL(Extract Transform Load)
操作型業(yè)務(wù)數(shù)據(jù)庫(DB)到數(shù)據(jù)倉庫(DW)的過程稱之為ETL,它實(shí)現(xiàn)數(shù)據(jù)的抽取,轉(zhuǎn)換及裝載工作。①抽取:將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來;②轉(zhuǎn)換:按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取得數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗,以及處理一些冗余、歧義的數(shù)據(jù),使本來異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來;③裝載:將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部的導(dǎo)入到數(shù)據(jù)倉庫中;
3.DW(Data Warehouse) 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的官方定義是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉庫的特點(diǎn):面向主題;集成;非易失;時(shí)間軸。數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別:
4.OLAP(On-Line Analytical Processing)
即聯(lián)機(jī)分析處理,是BI的一種全新的數(shù)據(jù)封裝方式,直接產(chǎn)物是報(bào)表或Cube(如圖所示),是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。
說到OLAP,我們會(huì)很自然地想起OLTP(聯(lián)機(jī)事務(wù)處理系統(tǒng)),現(xiàn)在來比較一下OLTP與OLAP的區(qū)別,如下所述:
5.數(shù)據(jù)可視化展示
數(shù)據(jù)查詢是最簡單的BI應(yīng)用,輸出可視化報(bào)表是BI最直接的產(chǎn)物,根據(jù)數(shù)據(jù)連接,加工過程及用途,應(yīng)用模式大致可以分為以下四種:
①格式報(bào)表:帶格式的數(shù)據(jù)集合,如:交叉表等;
②在線分析:多維數(shù)據(jù)集合,如:Cube等;
③數(shù)據(jù)可視化:信息以盡可能多的形式展現(xiàn)出來,目的是使決策者通過圖形這種直觀的表現(xiàn)方式迅速獲得信息中蘊(yùn)藏的知識(shí),如柱圖,儀表盤等;
④數(shù)據(jù)挖掘:從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過程。
五、商業(yè)智能BI項(xiàng)目的實(shí)施步驟
1.業(yè)務(wù)分析需求的把控
對(duì)于很多準(zhǔn)備或者正在規(guī)劃商業(yè)智能BI項(xiàng)目的企業(yè)來說,業(yè)務(wù)分析需求的梳理是整個(gè)項(xiàng)目開始的第一步,往往也是最困難的,主要表現(xiàn)如下:業(yè)務(wù)部門往往提不出比較具體的分析需求,而IT部門很難深入到業(yè)務(wù),也提不出適合業(yè)務(wù)部門的分析需求。BI項(xiàng)目需求分析涉及到很多部門,有的時(shí)候內(nèi)部資源的溝通、協(xié)調(diào)都是很困難的...
那如何能夠非常清晰的梳理好一個(gè)完整的業(yè)務(wù)分析需求,并且能夠用業(yè)務(wù)部門能夠理解的語言進(jìn)行有效溝通?正確的做法是,提供方案的原型圖,這樣能激發(fā)業(yè)務(wù)人員說出需求的欲望,并讓雙方站在可以相互理解的角度溝通,最終出來的效果也能更好的符合企業(yè)的期望。
2.數(shù)據(jù)資源的整合清洗
企業(yè)的數(shù)據(jù)可能是來自外部系統(tǒng),也可能來自內(nèi)部的不同業(yè)務(wù)系統(tǒng),比如CRM系統(tǒng)、ERP系統(tǒng),或者業(yè)務(wù)人員的Execl表格, 這些統(tǒng)稱為數(shù)據(jù)源。這些數(shù)據(jù)通過ETL工具原封不動(dòng)的抽取到一個(gè)叫做ODS或者STAGING的數(shù)據(jù)庫先存放起來。這里需要注意數(shù)據(jù)是存放在一些數(shù)據(jù)表中,但是并不是所有的數(shù)據(jù)都需要抽取出來,只有有用的數(shù)據(jù)才會(huì)被抽取。涉及到一些數(shù)據(jù)需要去重、合并計(jì)算、格式轉(zhuǎn)換,比如 15/10/22 轉(zhuǎn)換成 2015-10-22等都屬于轉(zhuǎn)化階段;加載階段是,最后把數(shù)據(jù)統(tǒng)一加載到數(shù)據(jù)倉庫 中。
3.數(shù)據(jù)倉庫的架構(gòu)設(shè)計(jì)
數(shù)據(jù)倉庫的開發(fā),可以理解為一種技術(shù),也可以理解為一種方法論或解決方案。在商業(yè)智能BI中,數(shù)據(jù)倉庫就是最核心的那一層,起到的就是一個(gè)承上啟下的作用。往下承接各類數(shù)據(jù)源中的數(shù)據(jù),往上支撐各類可視化分析報(bào)表。數(shù)據(jù)倉庫的構(gòu)建水平將直接影響到商業(yè)智能BI項(xiàng)目的整體質(zhì)量。
4.可視化分析報(bào)表邏輯設(shè)計(jì)
這里的可視化分析報(bào)表的邏輯設(shè)計(jì)主要是依據(jù)前期的業(yè)務(wù)人員搭建的數(shù)據(jù)指標(biāo)體系而定,主題利用常見的可視化圖表來做業(yè)務(wù)數(shù)據(jù)的展現(xiàn),這里DataHunter就能幫到你了。Data Analytics是一個(gè)輕量級(jí)業(yè)務(wù)數(shù)據(jù)可視化平臺(tái),可一鍵快速接入企業(yè)本地和云端內(nèi)外部Execl/CSV等數(shù)據(jù)文件,無需編程僅需簡單的拖拽即可制作酷炫的數(shù)據(jù)可視化看板,用直觀的數(shù)據(jù)幫你做更好的決策。
六、小結(jié)
商業(yè)智能BI的表象是可視化分析報(bào)表的呈現(xiàn),但它的本質(zhì)還是業(yè)務(wù)問題、管理問題。商業(yè)智能BI數(shù)據(jù)分析來源于業(yè)務(wù),通過數(shù)據(jù)呈現(xiàn)發(fā)現(xiàn)業(yè)務(wù)問題,比如好的或不好的,經(jīng)驗(yàn)之內(nèi)或之外的 ,然后再次回到業(yè)務(wù),重新優(yōu)化提升業(yè)務(wù)運(yùn)營的一個(gè)過程,這就是在商業(yè)智能 BI 中數(shù)據(jù)到信息、信息產(chǎn)生決策、決策產(chǎn)生價(jià)值的真正內(nèi)涵。