導(dǎo)讀:數(shù)據(jù)科學(xué)家可以從掃描的文檔、錄音、社交媒體、網(wǎng)站統(tǒng)計以及遠(yuǎn)程信息處理中提取、轉(zhuǎn)換、加載(ETL)和分析大量的數(shù)據(jù)。
一個成功構(gòu)建的人造神經(jīng)網(wǎng)絡(luò)產(chǎn)生了神奇的結(jié)果,大大有助于提供可能的解決方案。
“任何足夠先進(jìn)的技術(shù)與魔術(shù)沒有區(qū)別。”-ArthurC.Clarke
大數(shù)據(jù)的概念在這里留下來。此外,隨著技術(shù)進(jìn)步和計算能力以及計算速度的提高,數(shù)據(jù)分析師將能夠?qū)脑紨?shù)據(jù)導(dǎo)出的統(tǒng)計信息類型、口徑和質(zhì)量進(jìn)行改進(jìn)。
換句話說,數(shù)據(jù)科學(xué)家可以從掃描的文檔、錄音、社交媒體、網(wǎng)站統(tǒng)計以及遠(yuǎn)程信息處理中提取、轉(zhuǎn)換、加載(ETL)和分析大量的數(shù)據(jù)。
1.機器學(xué)習(xí)和預(yù)測分析
如上所述,經(jīng)歷ETL處理過程并被加載到數(shù)據(jù)倉庫中的數(shù)據(jù)可以用于各種功能。更受歡迎的應(yīng)用之一是建立一個預(yù)測分析模型或一個神經(jīng)網(wǎng)絡(luò),以回答有關(guān)未來的問題。這些情況或問題取決于利用神經(jīng)網(wǎng)絡(luò)提供預(yù)測分析的行業(yè)。
在我們看一個神經(jīng)網(wǎng)絡(luò)如何應(yīng)用于根據(jù)現(xiàn)有數(shù)據(jù)提供預(yù)測信息的實際例子之前,讓我們先來定義“機器學(xué)習(xí)”,“預(yù)測分析”和“神經(jīng)網(wǎng)絡(luò)”這幾個術(shù)語:
機器學(xué)習(xí)
Reema Bhatia將機器學(xué)習(xí)定義為“計算機程序分析大數(shù)據(jù)、自動提取信息并從中學(xué)習(xí)的能力”。大量的數(shù)據(jù)正在比以往任何時候都更快地生成,因此,無法再手動分析數(shù)據(jù)。于是,機器學(xué)習(xí)已經(jīng)成為分析日常生成的大量數(shù)據(jù)的重要角色。
預(yù)測分析
預(yù)測分析是“從現(xiàn)有數(shù)據(jù)集中提取信息的做法,以確定模式并預(yù)測未來的結(jié)果和趨勢”。重要的是要注意,預(yù)測分析的目的不是說明將來會發(fā)生什么,它預(yù)測的是“可接受的可靠性水平”可能發(fā)生的情況,并包括假設(shè)情景和風(fēng)險評估。
神經(jīng)網(wǎng)絡(luò)
簡單來說,神經(jīng)網(wǎng)絡(luò)或人工神經(jīng)網(wǎng)絡(luò)是“由多個簡單、互聯(lián)的處理元件組成的計算系統(tǒng)”,其通過對外部輸入的動態(tài)狀態(tài)響應(yīng)來處理信息。
它是一種深度學(xué)習(xí)技術(shù),當(dāng)在企業(yè)業(yè)務(wù)中被使用時,往往側(cè)重于使用模式識別方法來解決復(fù)雜的預(yù)測分析問題。神經(jīng)網(wǎng)絡(luò)模型也被用于天氣預(yù)報、面部識別、石油勘探數(shù)據(jù)分析和文本轉(zhuǎn)語音轉(zhuǎn)錄等領(lǐng)域。
應(yīng)當(dāng)指出的是,對于神經(jīng)網(wǎng)絡(luò)模式識別模型來說,盡可能準(zhǔn)確地預(yù)測或預(yù)知未來趨勢,需要大量的數(shù)據(jù)來訓(xùn)練模型。
2.神經(jīng)網(wǎng)絡(luò)模式識別模型
如上所述,人造神經(jīng)網(wǎng)絡(luò)與人類大腦相似,因為它是由連接有鏈接或突觸的節(jié)點集合(也被稱為神經(jīng)元)構(gòu)成的。
此外,神經(jīng)網(wǎng)絡(luò)的組織被分成三層:輸入層、數(shù)字隱藏層(或內(nèi)層)以及輸出層。隱藏層是必要的,以便了解復(fù)雜的輸入數(shù)據(jù)。實質(zhì)上,輸入數(shù)據(jù)越復(fù)雜,了解數(shù)據(jù)和產(chǎn)生有價值的輸出所需的隱藏層數(shù)越多。
每個隱藏層中節(jié)點數(shù)的多少也取決于數(shù)據(jù)的復(fù)雜度。每個節(jié)點實際上是一個加權(quán),它決定輸入相對于輸出的強度。為了根據(jù)節(jié)點的加權(quán)因子計算輸出,所有輸入變量都需要由數(shù)值數(shù)據(jù)組成。無法使用文本或分類數(shù)據(jù)。
由于神經(jīng)網(wǎng)絡(luò)計算的復(fù)雜性,我們將不再詳細(xì)介紹。我們需要理解的是,構(gòu)建模型的一部分是使用已知輸出數(shù)據(jù)來測試它,以確定它是否產(chǎn)生了正確的結(jié)果。
一旦建立了模型,下一步是使用現(xiàn)有數(shù)據(jù)來對模型進(jìn)行訓(xùn)練。一旦模型被訓(xùn)練,最后一步是使用實時數(shù)據(jù)運行它,并允許它使用模式識別作為基礎(chǔ)來預(yù)測或預(yù)知未來趨勢。