一、有監(jiān)督學習
算法一:決策樹
決策樹是一種樹形結(jié)構,為人們提供決策依據(jù),決策樹可以用來回答yes和no問題,它通過樹形結(jié)構將各種情況組合都表示出來,每個分支表示一次選擇(選擇yes還是no),直到所有選擇都進行完畢,最終給出正確答案。
算法二:樸素貝葉斯分類器
樸素貝葉斯分類器基于貝葉斯理論及其假設(即特征之間是獨立的,是不相互影響的)
P(A|B) 是后驗概率, P(B|A) 是似然,P(A)為先驗概率,P(B) 為我們要預測的值。
具體應用有:垃圾郵件檢測、文章分類、情感分類、人臉識別等。
算法三:最小二乘法
如果你對統(tǒng)計學有所了解,那么你必定聽說過線性回歸。最小均方就是用來求線性回歸的。如下圖所示,平面內(nèi)會有一系列點,然后我們求取一條線,使得這條線盡可能擬合這些點分布,這就是線性回歸。這條線有多種找法,最小二乘法就是其中一種。最小二乘法其原理如下,找到一條線使得平面內(nèi)的所有點到這條線的歐式距離和最小。這條線就是我們要求取得線。
線性指的是用一條線對數(shù)據(jù)進行擬合,距離代表的是數(shù)據(jù)誤差,最小二乘法可以看做是誤差最小化。
算法四:邏輯回歸
邏輯回歸模型是一個二分類模型,它選取不同的特征與權重來對樣本進行概率分類,用一各log函數(shù)計算樣本屬于某一類的概率。即一個樣本會有一定的概率屬于一個類,會有一定的概率屬于另一類,概率大的類即為樣本所屬類。
具體應用有:信用評級、營銷活動成功概率、產(chǎn)品銷售預測、某天是否將會地震發(fā)生。
算法五:支持向量機(SVM)
支持向量機是一個二分類算法,它可以在N維空間找到一個(N-1)維的超平面,這個超平面可以將這些點分為兩類。也就是說,平面內(nèi)如果存在線性可分的兩類點,SVM可以找到一條最優(yōu)的直線將這些點分開。SVM應用范圍很廣。
具體應用有:廣告展示、性別檢測、大規(guī)模圖像識別等。
算法六:集成學習
集成學習就是將很多分類器集成在一起,每個分類器有不同的權重,將這些分類器的分類結(jié)果合并在一起,作為最終的分類結(jié)果。最初集成方法為貝葉斯決策,現(xiàn)在多采用error-correcting output coding, bagging, and boosting等方法進行集成。
那么為什集成分類器要比單個分類器效果好呢?
1.偏差均勻化:如果你將民主黨與共和黨的投票數(shù)算一下均值,可定會得到你原先沒有發(fā)現(xiàn)的結(jié)果,集成學習與這個也類似,它可以學到其它任何一種方式都學不到的東西。
2.減少方差:總體的結(jié)果要比單一模型的結(jié)果好,因為其從多個角度考慮問題。類似于股票市場,綜合考慮多只股票可以要比只考慮一只股票好,這就是為什么多數(shù)據(jù)比少數(shù)據(jù)效果好原因,因為其考慮的因素更多。
3.不容易過擬合。如果的一個模型不過擬合,那么綜合考慮多種因素的多模型就更不容易過擬合了。
二、無監(jiān)督學習
算法七:聚類算法
聚類算法就是將一堆數(shù)據(jù)進行處理,根據(jù)它們的相似性對數(shù)據(jù)進行聚類。
聚類算法有很多種,具體如下:中心聚類、關聯(lián)聚類、密度聚類、概率聚類、降維、神經(jīng)網(wǎng)絡/深度學習。
算法八:主成分分析(PCA)
主成分分析是利用正交變換將一些列可能相關數(shù)據(jù)轉(zhuǎn)換為線性無關數(shù)據(jù)人工智能,從而找到主成分。
PCA主要用于簡單學習與可視化中數(shù)據(jù)壓縮、簡化。但是PCA有一定的局限性,它需要你擁有特定領域的相關知識。對噪音比較多的數(shù)據(jù)并不適用。
算法九:SVD矩陣分解
SVD矩陣是一個復雜的實復負數(shù)矩陣,給定一個m 行、n列的矩陣M,那么M矩陣可以分解為M = UΣV。U和V是酉矩陣,Σ為對角陣。
PCA實際上就是一個簡化版本的SVD分解。在計算機視覺領域,第一個臉部識別算法就是基于PCA與SVD的,用特征對臉部進行特征表示,然后降維、最后進行面部匹配。盡管現(xiàn)在面部識別方法復雜,但是基本原理還是類似的。
算法十:獨立成分分析(ICA)
ICA是一門統(tǒng)計技術,用于發(fā)現(xiàn)存在于隨機變量下的隱性因素。ICA為給觀測數(shù)據(jù)定義了一個生成模型。在這個模型中,其認為數(shù)據(jù)變量是由隱性變量人工智能,經(jīng)一個混合系統(tǒng)線性混合而成,這個混合系統(tǒng)未知。并且假設潛在因素屬于非高斯分布、并且相互獨立,稱之為可觀測數(shù)據(jù)的獨立成分。
ICA與PCA相關,但它在發(fā)現(xiàn)潛在因素方面效果良好。它可以應用在數(shù)字圖像、檔文數(shù)據(jù)庫、經(jīng)濟指標、心里測量等。