一、有監(jiān)督學(xué)習(xí)
算法一:決策樹
決策樹是一種樹形結(jié)構(gòu),為人們提供決策依據(jù),決策樹可以用來回答yes和no問題,它通過樹形結(jié)構(gòu)將各種情況組合都表示出來,每個(gè)分支表示一次選擇(選擇yes還是no),直到所有選擇都進(jìn)行完畢,最終給出正確答案。
算法二:樸素貝葉斯分類器
樸素貝葉斯分類器基于貝葉斯理論及其假設(shè)(即特征之間是獨(dú)立的,是不相互影響的)
P(A|B) 是后驗(yàn)概率, P(B|A) 是似然,P(A)為先驗(yàn)概率,P(B) 為我們要預(yù)測的值。
具體應(yīng)用有:垃圾郵件檢測、文章分類、情感分類、人臉識別等。
算法三:最小二乘法
如果你對統(tǒng)計(jì)學(xué)有所了解,那么你必定聽說過線性回歸。最小均方就是用來求線性回歸的。如下圖所示,平面內(nèi)會有一系列點(diǎn),然后我們求取一條線,使得這條線盡可能擬合這些點(diǎn)分布,這就是線性回歸。這條線有多種找法,最小二乘法就是其中一種。最小二乘法其原理如下,找到一條線使得平面內(nèi)的所有點(diǎn)到這條線的歐式距離和最小。這條線就是我們要求取得線。
線性指的是用一條線對數(shù)據(jù)進(jìn)行擬合,距離代表的是數(shù)據(jù)誤差,最小二乘法可以看做是誤差最小化。
算法四:邏輯回歸
邏輯回歸模型是一個(gè)二分類模型,它選取不同的特征與權(quán)重來對樣本進(jìn)行概率分類,用一各log函數(shù)計(jì)算樣本屬于某一類的概率。即一個(gè)樣本會有一定的概率屬于一個(gè)類,會有一定的概率屬于另一類,概率大的類即為樣本所屬類。
具體應(yīng)用有:信用評級、營銷活動成功概率、產(chǎn)品銷售預(yù)測、某天是否將會地震發(fā)生。
算法五:支持向量機(jī)(SVM)
支持向量機(jī)是一個(gè)二分類算法,它可以在N維空間找到一個(gè)(N-1)維的超平面,這個(gè)超平面可以將這些點(diǎn)分為兩類。也就是說,平面內(nèi)如果存在線性可分的兩類點(diǎn),SVM可以找到一條最優(yōu)的直線將這些點(diǎn)分開。SVM應(yīng)用范圍很廣。
具體應(yīng)用有:廣告展示、性別檢測、大規(guī)模圖像識別等。
算法六:集成學(xué)習(xí)
集成學(xué)習(xí)就是將很多分類器集成在一起,每個(gè)分類器有不同的權(quán)重,將這些分類器的分類結(jié)果合并在一起,作為最終的分類結(jié)果。最初集成方法為貝葉斯決策,現(xiàn)在多采用error-correcting output coding, bagging, and boosting等方法進(jìn)行集成。
那么為什集成分類器要比單個(gè)分類器效果好呢?
1.偏差均勻化:如果你將民主黨與共和黨的投票數(shù)算一下均值,可定會得到你原先沒有發(fā)現(xiàn)的結(jié)果,集成學(xué)習(xí)與這個(gè)也類似,它可以學(xué)到其它任何一種方式都學(xué)不到的東西。
2.減少方差:總體的結(jié)果要比單一模型的結(jié)果好,因?yàn)槠鋸亩鄠€(gè)角度考慮問題。類似于股票市場,綜合考慮多只股票可以要比只考慮一只股票好,這就是為什么多數(shù)據(jù)比少數(shù)據(jù)效果好原因,因?yàn)槠淇紤]的因素更多。
3.不容易過擬合。如果的一個(gè)模型不過擬合,那么綜合考慮多種因素的多模型就更不容易過擬合了。
二、無監(jiān)督學(xué)習(xí)
算法七:聚類算法
聚類算法就是將一堆數(shù)據(jù)進(jìn)行處理,根據(jù)它們的相似性對數(shù)據(jù)進(jìn)行聚類。
聚類算法有很多種,具體如下:中心聚類、關(guān)聯(lián)聚類、密度聚類、概率聚類、降維、神經(jīng)網(wǎng)絡(luò)/深度學(xué)習(xí)。
算法八:主成分分析(PCA)
主成分分析是利用正交變換將一些列可能相關(guān)數(shù)據(jù)轉(zhuǎn)換為線性無關(guān)數(shù)據(jù)人工智能,從而找到主成分。
PCA主要用于簡單學(xué)習(xí)與可視化中數(shù)據(jù)壓縮、簡化。但是PCA有一定的局限性,它需要你擁有特定領(lǐng)域的相關(guān)知識。對噪音比較多的數(shù)據(jù)并不適用。
算法九:SVD矩陣分解
SVD矩陣是一個(gè)復(fù)雜的實(shí)復(fù)負(fù)數(shù)矩陣,給定一個(gè)m 行、n列的矩陣M,那么M矩陣可以分解為M = UΣV。U和V是酉矩陣,Σ為對角陣。
PCA實(shí)際上就是一個(gè)簡化版本的SVD分解。在計(jì)算機(jī)視覺領(lǐng)域,第一個(gè)臉部識別算法就是基于PCA與SVD的,用特征對臉部進(jìn)行特征表示,然后降維、最后進(jìn)行面部匹配。盡管現(xiàn)在面部識別方法復(fù)雜,但是基本原理還是類似的。
算法十:獨(dú)立成分分析(ICA)
ICA是一門統(tǒng)計(jì)技術(shù),用于發(fā)現(xiàn)存在于隨機(jī)變量下的隱性因素。ICA為給觀測數(shù)據(jù)定義了一個(gè)生成模型。在這個(gè)模型中,其認(rèn)為數(shù)據(jù)變量是由隱性變量人工智能,經(jīng)一個(gè)混合系統(tǒng)線性混合而成,這個(gè)混合系統(tǒng)未知。并且假設(shè)潛在因素屬于非高斯分布、并且相互獨(dú)立,稱之為可觀測數(shù)據(jù)的獨(dú)立成分。
ICA與PCA相關(guān),但它在發(fā)現(xiàn)潛在因素方面效果良好。它可以應(yīng)用在數(shù)字圖像、檔文數(shù)據(jù)庫、經(jīng)濟(jì)指標(biāo)、心里測量等。