主成分分析(Principal Component Analysis,PCA),將多個(gè)變量通過(guò)線性變換以選出較少個(gè)數(shù)重要變量的一種多元統(tǒng)計(jì)分析方法。又稱主分量分析。在實(shí)際課題中,為了全面分析問(wèn)題,往往提出很多與此有關(guān)的變量(或因素),因?yàn)槊總€(gè)變量都在不同程度上反映這個(gè)課題的某些信息。主成分分析首先是由K.皮爾森對(duì)非隨機(jī)變量引入的,爾后H.霍特林將此方法推廣到隨機(jī)向量的情形。信息的大小通常用離差平方和或方差來(lái)衡量。

中文名

主成分分析

別名

主分量分析

外文名

Principal Component Analysis

提出者

爾后H.霍特林

應(yīng)用

人口統(tǒng)計(jì)學(xué)、數(shù)量地理學(xué)等

簡(jiǎn)稱

PCA

學(xué)科

數(shù)學(xué)

作用

降維

歷史

1846年,Bracais提出的旋轉(zhuǎn)多元正態(tài)橢球到“主坐標(biāo)”上,使得新變量之間相互獨(dú)立。皮爾遜(Pearson)(1901)、霍特林(Hotelling)(1933)都對(duì)主成分的發(fā)展做出了貢獻(xiàn),霍特林的推導(dǎo)模式被視為主成分模型的成熟標(biāo)志。主成分分析被廣泛應(yīng)用于區(qū)域經(jīng)濟(jì)發(fā)展評(píng)價(jià),服裝標(biāo)準(zhǔn)制定,滿意度測(cè)評(píng),模式識(shí)別,圖像壓縮等許多領(lǐng)域。

原理

主成分分析

在用統(tǒng)計(jì)分析方法研究多變量的課題時(shí),變量個(gè)數(shù)太多就會(huì)增加課題的復(fù)雜性。人們自然希望變量個(gè)數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。主成分分析是對(duì)于原先提出的所有變量,將重復(fù)的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。

設(shè)法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上用來(lái)降維的一種方法。

應(yīng)用學(xué)科

主成分分析作為基礎(chǔ)的數(shù)學(xué)分析方法,其實(shí)際應(yīng)用十分廣泛,比如人口統(tǒng)計(jì)學(xué)、數(shù)量地理學(xué)、分子動(dòng)力學(xué)模擬、數(shù)學(xué)建模、數(shù)理分析等學(xué)科中均有應(yīng)用,是一種常用的多變量分析方法。

成分分析

成分分析(包含成分檢測(cè)、成分測(cè)試項(xiàng)目)是通過(guò)微觀譜圖對(duì)未知成分進(jìn)行分析的技術(shù)方法,因該技術(shù)普遍采用光譜,色譜,能譜,熱譜,質(zhì)譜等微觀譜圖。

內(nèi)容

基本思想

主成分分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。

主成分分析,是考察多個(gè)變量間相關(guān)性一種多元統(tǒng)計(jì)方法,研究如何通過(guò)少數(shù)幾個(gè)主成分來(lái)揭示多個(gè)變量間的內(nèi)部結(jié)構(gòu),即從原始變量中導(dǎo)出少數(shù)幾個(gè)主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān).通常數(shù)學(xué)上的處理就是將原來(lái)P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。

主成分分析

步驟

Fp = a1i*ZX1?+ a2i*ZX2?+ …… + api*ZXp

其中a1i, a2i, ……,api(i=1,……,m)為X的協(xié)方差陣Σ的特征值所對(duì)應(yīng)的特征向量,ZX1, ZX2, ……, ZXp是原始變量經(jīng)過(guò)標(biāo)準(zhǔn)化處理的值,因?yàn)樵趯?shí)際應(yīng)用中,往往存在指標(biāo)的量綱不同,所以在計(jì)算之前須先消除量綱的影響,而將原始數(shù)據(jù)標(biāo)準(zhǔn)化,本文所采用的數(shù)據(jù)就存在量綱影響[注:本文指的數(shù)據(jù)標(biāo)準(zhǔn)化是指Z標(biāo)準(zhǔn)化]。

A = (aij)p×m = (a1,a2,…am),Rai?= λiai,R為相關(guān)系數(shù)矩陣,λi、ai是相應(yīng)的特征值和單位特征向量,λ1?≥ λ2?≥ …≥ λp?≥ 0 。

進(jìn)行主成分分析主要步驟如下:

1. 指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化(SPSS軟件自動(dòng)執(zhí)行);

2. 指標(biāo)之間的相關(guān)性判定;

3. 確定主成分個(gè)數(shù)m;

4. 主成分Fi表達(dá)式;

5. 主成分Fi命名。?

主成分分析法的基本原理

主成分分析法是一種降維的統(tǒng)計(jì)方法,它借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,這在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差陣變換成對(duì)角形陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開(kāi)的p 個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度轉(zhuǎn)換成低維變量系統(tǒng),再通過(guò)構(gòu)造適當(dāng)?shù)膬r(jià)值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。

主成分分析的原理是設(shè)法將原來(lái)變量重新組合成一組新的相互無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的總和變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上處理降維的一種方法。通常數(shù)學(xué)上的處理就是將原來(lái)P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá),即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)P個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來(lái)信息,F(xiàn)1已有的信息就不需要再出現(xiàn)再F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個(gè)主成分。?

主成分分析的主要作用

概括起來(lái)說(shuō),主成分分析主要有以下幾個(gè)方面的作用。

1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m

2.有時(shí)可通過(guò)因子負(fù)荷aij的結(jié)論,弄清X變量間的某些關(guān)系。

3.多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問(wèn)題大都多于3個(gè)變量。要把研究的問(wèn)題用圖形表示出來(lái)是不可能的。然而,經(jīng)過(guò)主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對(duì)樣本進(jìn)行分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。

4.由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來(lái)自變量x做回歸分析。

5.用主成分分析篩選回歸變量。回歸變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來(lái)選擇量,獲得選擇最佳變量子集合的效果。