技術(shù)
導(dǎo)讀:理解機(jī)器學(xué)習(xí)真的沒(méi)那么難。
理解機(jī)器學(xué)習(xí)真的沒(méi)那么難。
在一個(gè)風(fēng)和日麗的周末……
01
故事一:瑞雪兆豐年
這就是瑞雪兆豐年的故事。頭年的瑞雪和來(lái)年的豐收,本是兩個(gè)看起來(lái)并不相關(guān)的現(xiàn)象,但是智慧的農(nóng)民伯伯通過(guò)幾十年甚至幾代人的經(jīng)驗(yàn),總結(jié)出了兩個(gè)現(xiàn)象之間的規(guī)律。
現(xiàn)代的農(nóng)業(yè)學(xué)家通過(guò)科學(xué)的分析,弄清了瑞雪兆豐年規(guī)律背后的本質(zhì)原理。但是對(duì)于古代農(nóng)民伯伯來(lái)說(shuō),知道規(guī)律就足夠了,可以通過(guò)規(guī)律來(lái)為下一年的生產(chǎn)生活做出有效的調(diào)整。
02
故事二:啤酒和尿布
上個(gè)世紀(jì)90年代,沃爾瑪超市已經(jīng)是美國(guó)最大的零售企業(yè),擁有大量的顧客資源。那時(shí)候的沃爾瑪已經(jīng)采用了先進(jìn)的計(jì)算機(jī)技術(shù),隨時(shí)記錄著每天眾多顧客購(gòu)物車(chē)中所挑選的商品明細(xì)。
從此,沃爾瑪?shù)匿N(xiāo)售額得到了顯著提升,啤酒尿布的故事也廣為流傳,成為了銷(xiāo)售界和IT界津津樂(lè)道的成功典范……
這就是沃爾瑪啤酒和尿布的故事。顧客購(gòu)買(mǎi)啤酒的行為和顧客購(gòu)買(mǎi)尿布的行為,原本是兩個(gè)看起來(lái)沒(méi)什么關(guān)聯(lián)的現(xiàn)象。但是沃爾瑪?shù)募夹g(shù)專(zhuān)家以大量的用戶(hù)購(gòu)物數(shù)據(jù)為樣本,通過(guò)先進(jìn)的算法,最終尋找到了兩者之間的重要關(guān)聯(lián)和規(guī)律。
為什么購(gòu)買(mǎi)啤酒的人更有可能同時(shí)購(gòu)買(mǎi)尿布呢?是因?yàn)橛辛诵『⒌哪腥吮葎e人更愛(ài)喝啤酒?還是因?yàn)閻?ài)喝啤酒的男人比別人更顧家?這些臆測(cè)似乎都有些牽強(qiáng)。
但是沃爾瑪不需要關(guān)心規(guī)律背后的本質(zhì)。對(duì)企業(yè)來(lái)講,利用發(fā)現(xiàn)的規(guī)律,獲得實(shí)實(shí)在在的利益就足夠了。
機(jī)器學(xué)習(xí)按照方式不同主要分為三大類(lèi),有監(jiān)督學(xué)習(xí)(Supervised learning)、無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)以及半監(jiān)督學(xué)習(xí)(Semi-supervised learning)。
監(jiān)督學(xué)習(xí):通過(guò)已有的一部分輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,生成一個(gè)函數(shù),將輸入映射到合適的輸出。在瑞雪兆豐年的例子中,頭年降雪量就是輸入,來(lái)年畝產(chǎn)量就是輸出。
非監(jiān)督學(xué)習(xí):直接對(duì)輸入數(shù)據(jù)集進(jìn)行建模,尋找關(guān)聯(lián)。例如啤酒尿布的例子,只需要尋找關(guān)聯(lián)性,并不需要什么明確的目標(biāo)值輸出。
半監(jiān)督學(xué)習(xí):綜合利用有輸入輸出的數(shù)據(jù),和只有輸入的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練??梢院?jiǎn)單理解成監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的綜合。