Kérdés:
Módszerek a faktorszámok kiszámításához, és mi a "pontszám koefficiens" mátrix a PCA-ban vagy a faktoranalízisben?
Kartikeya Pandey
2014-12-06 16:41:21 UTC
view on stackexchange narkive permalink

Megértésem szerint a PCA-ban a korrelációk alapján tényező (= ebben az esetben fő komponens) terheléseket kapunk, amelyek nem más, mint a változók és a tényezők közötti korrelációk. Most, amikor tényezői pontszámokat kell generálnom az SPSS-ben, közvetlenül megkaphatom az egyes válaszadók minden egyes faktor tényezői pontszámát. Megfigyeltem azt is, hogy ha az "SPSS által előállított" komponens pontszám-együttható mátrixot "(az SPSS által előállított) standardizált eredeti változókkal megszorozom, akkor ugyanazokat a faktor-pontszámokat kapom, mint az SPSS-től.

valaki, kérem, segítsen nekem megérteni, hogy hogyan számolják a "komponens pontszám együttható mátrixot" vagy a "faktor pontszám együttható mátrixot" - amellyel kiszámolhatom a faktor vagy komponens pontszámokat? Hogyan különböznek ezen a mátrixon a különböző számítási faktor pontszámok?

Egy képlet itt található: http://stats.stackexchange.com/a/92512/3277.
@amoeba, ** ha ** PCA-t hajt végre, akkor a "faktor pontszám" szó "komponens pontszámot" jelent, akkor ezek egyenértékűek.Lásd a fenti összekapcsolt válasz alját - a PCA-modellen belül az a tényező, amelyet a leggyakrabban a faktor-pontszámok kiszámítására használnak az FA-ban, akkor pontos (standardizált) komponens-pontszámokat eredményez.
Az SPSS megjeleníti a $ \ bf B $ együtthatók mátrixát, valamint új változókként elmenti a (szabványosított) pontszámokat, és hozzáfűzi őket az eredeti $ \ bf X $ változók adatkészletéhez.Az OP - azt hiszem - szabványosította a $ \ bf X $ -ot, majd megsokszorozta, $ \ bf XB $.És, voila, ezt csatolta az SPSS az adatkészlethez!Tehát az OP kérdése, hogy Wow!a következő: "hogyan számolták ki a $ \ bf B $ -t?".
@ttnphs helyesen érted, mire gondoltam.De a problémám az, hogy azt feltételeztem, hogy ha XB-t használok az egyes megfigyelések tényezőinek előrejelzéséhez, akkor B-nek faktorszám-terhelésnek kellett volna lennie, de az SPSS-ben a "komponens-pontszám együttható mátrix" helyett a "forgatott tényező-betöltés" volt az oka.Meg akartam érteni a "rotált tényező betöltés" és a "komponens pontszám koefficiens mátrix" közötti kapcsolatot vagy különbséget.
Tehát, amint a linkről megértettem, csak egyszer akarok biztos lenni abban az esetben, ha A forgatott tényezőterhelés, akkor az (inverz (A)) '"" komponens pontszám koefficiens mátrix ", amelyet az A⋅diag képlet segítségével is kiszámíthatunk.Inverz ((sajátértékek))
Abban téved, hogy a faktorokat a terhelések kiszámítják.(És ez egyébként klasszikus hiba a skálájukat fejlesztő pszichológusok körében.) A terhelések azok az együtthatók, amelyek segítségével a tényezőket megjósolhatjuk a változók között, _nem_ fordítva!A faktor pontszámokat az a "B" mátrix számítja ki, amelyet a terhelésekből kapunk pontosan úgy, ahogy azt a fent említett mindkét válaszomban írtam.A betöltő mátrix forgatható vagy nem forgatható, a képlet ugyanaz.
P.S.Egyébként az A⋅diag.Inverse (((sajátértékek)) megdöbbentő képlete egyszerűen "ossza fel A minden oszlopát a megfelelő sajátértékkel", tehát nagyon egyszerű.
@ttnphns: Ó, végül megértettem, hogy "pontszám koefficiens mátrix" alatt az SPSS nyilvánvalóan a terhelések [ál-] inverzét jelenti.Helyes?
@amoeba, igazad van: ez az átültetett álvers.
Kettő válaszokat:
ttnphns
2014-12-07 11:07:39 UTC
view on stackexchange narkive permalink

Faktor / komponens pontszámok kiszámításának módszerei

Megjegyzéssorozat után úgy döntöttem, hogy végül választ adok (a megjegyzések és egyebek alapján). Komponens pontszámok kiszámításáról szól PCA-ban és faktor-pontszámokról a faktoranalízisben.

A faktor / komponens pontszámokat a $ \ bf \ hat {F} = XB $ adja meg, ahol $ \ bf X $ az elemzett változók ( központosítva , ha a PCA / faktor elemzés kovarián alapult, vagy z-standardizált , ha összefüggéseken alapult). $ \ bf B $ a faktor / komponens pontszám koefficiens (vagy súly) mátrix . Hogyan becsülhetők meg ezek a súlyok?

Jelölés

$ \ bf R $ - pxp változó (elem) összefüggések vagy kovarianciák mátrixa, attól függően, hogy melyik tényező volt / A PCA elemzésre került.

$ \ bf P $ - pxm faktor / komponens betöltések mátrixa. Ezek lehetnek az extrakció utáni terhelések (gyakran $ \ bf A $ jelöléssel is), ekkor a látensek ortogonálisak vagy gyakorlatilag ilyenek, vagy rotáció utáni terhelések, ortogonálisak vagy ferdeek. Ha az elforgatás ferde, akkor minta betöltésnek kell lennie.

$ \ bf C $ - mxm korrelációk mátrixa a tényezők / alkatrészek között (a terhelések) ferde forgatásuk után. Ha nem végeztek el ortogonális elforgatást, akkor ez az azonosság mátrix.

$ \ bf \ hat R $ - pxp a reprodukált korrelációk csökkentett mátrixa / kovariancia, $ \ bf = PCP '$ ($ \ bf = PP' $ az ortogonális megoldásokhoz), átlóján kommunalitásokat tartalmaz.

$ \ bf U_2 $ - pxp az egyediségek átlós mátrixa (egyediség + közösségiség = $ \ bf R $ átlós eleme). Itt a "2" -t használom indexként felső index ($ \ bf U ^ 2 $) helyett az olvashatóság érdekében a képletekben.

$ \ bf R ^ * $ - pxp a reprodukált összefüggések / kovariancia teljes mátrixa, $ \ bf = \ hat R + U_2 $.

$ \ bf M ^ + $ - valamilyen mátrix álverse $ \ bf M $; ha $ \ bf M $ teljes rangú, $ \ bf M ^ + = (M'M) ^ {- 1} M '$.

$ \ bf M ^ {power} $ - bizonyos négyzet alakú szimmetrikus mátrixok esetében $ \ bf M $, $ emelés $ power $ -ra azt jelenti, hogy a $ \ bf HKH '= M $ összeadódik, a sajátértékeket a hatványra emeli és vissza komponálja : $ \ bf M ^ {power} = HK ^ {power} H '$.

Durva módszer a tényező / komponens pontszámának kiszámításához

Ez a népszerű / hagyományos megközelítés, amelyet néha Cattell-nek is hívnak , egyszerűen ugyanazon tényező által betöltött elemek átlagolása (vagy összegzése). Matematikailag a $ \ bf B = P $ súlyok beállítását jelenti a $ \ bf \ hat {F} = XB $ pontszámok kiszámításakor. A megközelítésnek három fő változata van: 1) Használja a terheléseket úgy, ahogy vannak; 2) Dichotomizálja őket (1 = betöltve, 0 = nincs betöltve); 3) Használja a terheléseket úgy, ahogy vannak, de nulla terhelés kisebb, mint valamilyen küszöbérték.

Ezzel a megközelítéssel gyakran, ha az elemek ugyanazon a skálaegységen vannak, a $ \ bf X $ értékeket csak nyersen használják; bár a faktoring logikájának megsértése érdekében jobb lenne használni a $ \ bf X $ értéket, mivel belépett a faktoringba - standardizált (= korrelációk elemzése) vagy központosított (= kovariancia elemzés).

A fő hátrány a durva módszerrel számolási tényező / komponens pontszámok véleményem szerint az, hogy nem veszi figyelembe a betöltött elemek közötti összefüggéseket. Ha egy tényezővel terhelt elemek szorosan korrelálnak, és az egyiket erősebben töltik be, mint a másikat, ez utóbbi ésszerűen fiatalabb duplikátumnak tekinthető, és súlya csökkenthető. Finomított módszerek csinálják, de a durva módszer nem.

A durva pontszámokat természetesen könnyű kiszámítani, mert nincs szükség mátrix inverzióra. A durva módszer előnye (megmagyarázva, hogy a számítógépek rendelkezésre állása ellenére miért használják még mindig széles körben), hogy mintánként stabilabb pontszámokat ad, ha a mintavétel nem ideális (reprezentativitás és méret szempontjából), vagy elemzés nem volt megfelelő. Egy cikket idézve: "Az összesített pontszám módszer akkor lehet a legkívánatosabb, ha az eredeti adatok összegyűjtésére használt skálák teszteletlenek és feltáró jellegűek, a megbízhatóság vagy az érvényesség bizonyítéka alig vagy egyáltalán nincs". Emellett nem szükséges megérteni a "faktort" szükségszerűen egyváltozós látens esszenciának, mivel a faktoranalízis modell megköveteli ( lásd, lásd). Például elképzelhet egy faktort jelenségek gyűjteményeként - akkor az elemértékek összegzése ésszerű.

Finomított módszerek a tényező / komponens pontszámok kiszámítására

Ezek a módszerek faktorelemző csomagok teszik. Különböző módszerekkel becsülik a $ \ bf B $ értéket. Míg a $ \ bf A $ vagy $ \ bf P $ betöltések a lineáris kombinációk együtthatói a változók tényezők / összetevők szerinti előrejelzéséhez, addig a $ \ bf B $ azok a tényezők, amelyek kiszámítják a tényezők / komponensek pontszámát a változókból.

A $ \ bf B $ segítségével kiszámított pontszámok skálázódnak: szórásaik egyenlőek vagy közel 1-vel vannak (standardizáltak vagy közel standardizáltak) - nem a valódi tényező-eltérések (amelyek megegyeznek a négyzet alakú szerkezeti terhelések összegével, lásd a 3. lábjegyzetet itt). Tehát, ha a tényező pontszámokat a valódi tényező varianciájával kell ellátni, szorozza meg a pontszámokat (standardizálva őket 1. szórásra) a variancia négyzetgyökével.

Megtarthatja a $ \ bf B $ értéket az elvégzett elemzésből, hogy kiszámíthassa a $ \ bf X $ új megfigyeléseinek pontszámait. A $ \ bf B $ felhasználható a kérdőív skáláját alkotó elemek súlyozására is, ha a skálát faktoranalízis alapján fejlesztik ki vagy validálják. A $ \ bf B $ (négyzet) együtthatói úgy értelmezhetők, mint az elemek hozzájárulása a tényezőkhöz. Az együtthatók úgy standardizálhatók, mint a regressziós együttható szabványosítása $ \ beta = b \ frac {\ sigma_ {item}} {\ sigma_ {factor}} $ (ahol $ \ sigma_ {factor} = 1 $), hogy összehasonlítsák a különböző elemek hozzájárulásait eltérések.

Lásd egy példát, amely a PCA-ban és az FA-ban végzett számításokat mutatja be, beleértve a pontszámok kiszámítását a pontszám-együttható mátrixból.

A terhelések geometriai magyarázata A $ a $ (merőleges koordinátaként) és a pontszám együtthatók $ b $ s (ferde koordináták) a PCA beállításaiban az első két képen itt láthatók.

Most a finomított módszerek.

A módszerek

$ \ bf B $ kiszámítása PCA-ban

Ha az alkatrészterheléseket kivonják, de nem forgatják, akkor $ \ bf B = AL ^ {- 1} $, ahol $ \ bf L $ az átlós mátrix, amely m sajátértékekből áll; ez a képlet annyit jelent, hogy egyszerűen elosztjuk a $ \ bf A $ minden oszlopát a megfelelő sajátértékkel - az összetevő varianciájával.

Ekvivalens módon $ \ bf B = (P ^ +) '$. Ez a képlet az ortogonálisan (például a varimax) vagy ferdén elforgatott alkatrészekre (terhelésekre) is vonatkozik.

A faktoranalízis során alkalmazott néhány módszer (lásd alább), ha a PCA-ban alkalmazzák, ugyanazt az eredményt adja vissza. / p>

A kiszámított összetevői pontszámok szórása 1 és az összetevők valódi standardizált értéke .

A statisztikai adatok elemzésében a $ \ bf B $ főkomponens-együttható mátrixot nevezzük, és ha a teljes pxp és nem is forgatott betöltési mátrixból számoljuk, akkor a gépi tanulásban az irodalmat gyakran felcímkézzük. a (PCA-alapú) fehérítő mátrixot és a szabványosított fő összetevőket "fehérített" adatokként ismerik fel.

$ \ bf B $ kiszámítása gyakori faktorelemzés

A komponens pontszámokkal ellentétben a faktor pontszámok soha nem pontosak ; csak a tényezők $ \ bf F $ ismeretlen valódi értékeihez közelítenek. Ez azért van, mert nem ismerjük a kommunalitások értékeit vagy az egyediséget esetszinten, - mivel a tényezők az összetevőktől eltérően külső változók, amelyek elkülönülnek a nyilvánvalóaktól, és rendelkeznek saját, számunkra ismeretlen eloszlással. Ez az oka annak, hogy a faktor határozatlanságot eredményezi. Ne feledje, hogy a határozatlansági probléma logikailag független a faktor megoldás minőségétől: az, hogy egy tényező mennyi igaz (megfelel annak a látensnek, amely generálja az adatokat a populációban), az más kérdés, mint az, hogy a válaszadók egy tényező pontszáma mennyire igaz (pontos becslések)

Mivel a faktor pontszámok közelítések, alternatív módszerek léteznek azok kiszámítására és versenyeznek.

Regresszió vagy Thurstone vagy Thompson módszere a becsléshez A faktor pontszámokat $ \ bf B = R ^ {- 1} PC = R ^ {- 1} S $ adja meg, ahol $ \ bf S = PC $ a struktúraterhelések mátrixa (ortogonális faktormegoldások esetén ismerjük $ \ bf A = P = S $). A regressziós módszer alapja a $ ^ 1 $ lábjegyzet.

Megjegyzés. Ez a $ \ bf B $ képlet PCA-val is használható: PCA-ban ugyanazt az eredményt adja, mint az előző szakaszban idézett képletek.

Az FA-ban (nem PCA-ban) a regressziós módon kiszámított faktorok pontszámai nem egészen "standardizáltak" lesznek - eltéréseik nem 1-esek lesznek, hanem megegyeznek a $ \ frac {SS_ {regr}} {(n-1)} $ értékkel ezeket a pontszámokat a változókkal regresszálva. Ez az érték úgy értelmezhető, mint egy tényező (valódi ismeretlen értékei) változók általi meghatározásának foka - az általuk reális tényező előrejelzésének R négyzete, és a regressziós módszer maximalizálja azt - a kiszámított "érvényessége". pontszámok. A $ ^ 2 $ kép a geometriát mutatja. (Felhívjuk figyelmét, hogy $ \ frac {SS_ {regr}} {(n-1)} $ megegyezik a pontszámok varianciájával bármely finomított módszer esetében, de csak a regressziós módszer esetében ez a mennyiség megegyezik a valódi f értékek meghatározásának arányával. f. pontszám alapján.)

A regressziós módszer változataként a $ \ bf R ^ * $ értéket használhatjuk a képletben $ \ bf R $ helyett. Indokolt, hogy egy jó faktoranalízisben a $ \ bf R $ és a $ \ bf R ^ * $ nagyon hasonlóak. Ha azonban nem, különösen akkor, ha a m tényezők száma kisebb, mint a tényleges populáció száma, a módszer erős torzítást eredményez a pontszámokban. És nem szabad ezt a "reprodukált R regressziós" módszert használni a PCA-val.

PCA-módszer , más néven Horst (Mulaik) vagy ideális (ized) változó megközelítés (Harman). Ez regressziós módszer, amelynek képletében $ \ bf \ hat R $ található a $ \ bf R $ helyett. Könnyen kimutatható, hogy a képlet ekkor $ \ bf B = (P ^ +) '$ -ra redukálódik (és így igen, valójában nem kell tudnunk vele $ \ bf C $ -ot). A tényező pontszámokat úgy számolják, mintha azok összetevő pontszámok lennének.

[Az "idealizált változó" címke abból adódik, hogy mivel a faktor vagy a modell komponens szerint a változók várható része $ \ bf \ hat X = FP '$, következik a $ \ bf F = (P ^ +)' \ hat X $, de a $ \ bf X $ -ot az ismeretlen (ideális) $ \ bf \ hat X $ -ra cseréljük, megbecsülni a $ \ bf F $ pontokat $ \ bf \ hat F $; ezért "idealizáljuk" $ \ bf X $.]

Felhívjuk figyelmét, hogy ez a módszer nem adja át a PCA komponensek pontszámát a tényező pontszámoknál, mert az alkalmazott terhelések nem a PCA terhelései, hanem faktoranalízisek '; csak a pontszámok számítási megközelítése tükrözi a PCA-ban ezt.

Bartlett-módszer . Itt $ \ bf B '= (P'U_2 ^ {- 1} P) ^ {- 1} P' U_2 ^ {- 1} $. Ez a módszer arra törekszik, hogy minden válaszadó esetében minimalizálja az p egyedi ("hiba") tényezők közötti különbségeket. Az így kapott közös tényező pontszámok eltérései nem lesznek egyenlőek, és meghaladhatják az 1.

Anderson-Rubin módszert az előző módosításaként fejlesztették ki. $ \ bf B '= (P'U_2 ^ {- 1} RU_2 ^ {- 1} P) ^ {- 1/2} P'U_2 ^ {- 1} $. A pontszámok varianciája pontosan 1. Ez a módszer azonban csak az ortogonális faktor megoldásokra vonatkozik (ferde megoldások esetén még mindig ortogonális pontszámokat eredményez).

McDonald-Anderson-Rubin módszer erős>. McDonald kiterjesztette Anderson-Rubint a ferde tényezők megoldására is. Tehát ez általánosabb. Ortogonális tényezőkkel valójában Anderson-Rubinra redukálódik. Egyes csomagok valószínűleg a McDonald's módszert használják, miközben "Anderson-Rubin" -nak hívják. A képlet: $ \ bf B = R ^ {- 1/2} GH 'C ^ {1/2} $, ahol $ \ bf G $ és $ \ bf H $ a $ \ text {svd} \ bf (R ^ {1/2} U_2 ^ {- 1} PC ^ {1/2}) = G \ Delta H '$. (Természetesen csak a $ \ bf G $ első m oszlopait használja.)

Green módszere . Ugyanazt a képletet használja, mint McDonald-Anderson-Rubin, de a $ \ bf G $ és $ \ bf H $ kiszámítása: $ \ text {svd} \ bf (R ^ {- 1/2} PC ^ {3/2 }) = G \ Delta H '$. (Természetesen csak az első m oszlopokat használja a $ \ bf G $ -ban.) Green módszere nem használ kommulalitási (vagy egyediségi) információkat. A McDonald-Anderson-Rubin módszerhez közelít és konvergál, mivel a változók tényleges közösségisége egyre egyenlőbbé válik. Ha pedig a PCA betöltésekor alkalmazzuk, akkor Green a komponens pontszámokat adja vissza, például a natív PCA módszerét.

Krijnen és mtsai módszer . Ez a módszer egy általánosítás, amely az előző kettőt egyetlen képlettel befogadja. Valószínűleg nem ad hozzá új vagy fontos új funkciókat, ezért nem fontolgatom.

A finomított módszerek összehasonlítása .

  • Regresszió módszer maximalizálja a korrelációt a faktorok és a nem ismert valódi értékek között (vagyis maximalizálja a statisztikai érvényességet ), de a pontszámok kissé elfogultak és kissé helytelenül korrelálnak a tényezők között (pl. akkor is korrelálnak, ha a megoldás tényezői ortogonálisak) Ezek a legkisebb négyzetek becslései.

  • A PCA módszere szintén legkevesebb négyzet, de kisebb statisztikai érvényességgel. Gyorsabban kiszámíthatók; manapság a számítógépek miatt nem használják gyakran a faktorelemzésben. (A PCA ban ez a módszer natív és optimális.)

  • Bartlett pontszámai elfogulatlanok a valódi tényezőértékek becslései. A thescorusokat úgy számolják, hogy pontosan korreláljanak más tényezők valódi, ismeretlen értékeivel (pl. Hogy ne korreláljanak velük például ortogonális oldatban). Mindazonáltal pontatlanul korrelálhatnak a más tényezőkre kiszámított faktor pontszámokkal . Ezek maximális valószínűségű (a $ \ bf X $ feltételezés többváltozós normalitása mellett) becslések.

  • Anderson-Rubin / McDonald-Anderson -Rubin és Green pontszámokat korrelációmegőrzés nek nevezzük, mivel úgy vannak kiszámolva, hogy pontosan korreláljanak más tényezők faktorértékeivel. A faktor-pontszámok közötti korrelációk megegyeznek az oldatban szereplő tényezők közötti korrelációval (így például ortogonális megoldásnál a pontszámok tökéletesen korrelálatlanok lesznek). De a pontszámok kissé elfogultak, és érvényességük szerény lehet.

Ellenőrizze ezt a táblázatot is:

enter image description here

[Megjegyzés az SPSS-felhasználók számára: Ha PCA t („fő összetevők” kivonási módszert) végez, de a „Regresszió” metódustól eltérő kérési tényező pontszámok vannak érvényben, a program figyelmen kívül hagyja a kérést és kiszámítja te inkább "regressziós" pontszámokat kapsz (amelyek pontos összetevői pontszámok).]

Referenciák

  1. Grice, James W. A faktorszámok kiszámítása és értékelése // Pszichológiai módszerek 2001, Vol. 6, 4. szám, 430-450.

  2. DiStefano, Christine és mtsai. Faktor-pontszámok megértése és felhasználása // Gyakorlati értékelés, Research & Evaluation, Vol 14, No 20

  3. ten Berge, Jos M.F.et al. Néhány új eredmény a korreláció-megőrző faktor pontszámok előrejelzési módszerein // Linear Algebra and its Applications 289 (1999) 311-318.

  4. Mulaik, Stanley A. A faktoranalízis alapjai, 2. kiadás, 2009

  5. Harman, Harry H. Modern tényezők elemzése, 3. kiadás, 1976

  6. Neudecker, Heinz. A faktor-pontszámok legjobb affin elfogulatlan kovariancia-megőrző előrejelzéséről // SORT 28 (1) 2004. január-június, 27-36


$ ^ 1 $ több lineáris regresszióban, központosított adatokkal figyelhető meg, hogy ha $ F = b_1X_1 + b_2X_2 $, akkor $ s_1 $ és $ s_2 $ kovariancia $ F $ és a prediktorok között:

$ s_1 = b_1r_ {11 } + b_2r_ {12} $,

$ s_2 = b_1r_ {12} + b_2r_ {22} $,

ahol $ r $ s a kovariancia a $ X $ s között . Vektoros jelölésben: $ \ bf s = Rb $. A tényező $ F $ kiszámításának regressziós módszerében a $ b $ s értéket az ismert ismert $ r $ s és $ s $ s értékekből becsüljük.


$ ^ 2 $ A következő kép mind a itt képek egyben vannak kombinálva. Megmutatja a különbséget a közös tényező és a fő komponens között. A komponens (vékony piros vektor) a változók (két kék vektor) által átfogott térben található, fehér "X sík". A faktor (zsírvörös vektor) felülírja ezt a teret. A faktor síkra eső ortogonális vetülete (vékony szürke vektor) a regresszíven becsült faktor-pontszám. A lineáris regresszió definíciója szerint a faktor pontszámok a legjobbak, a legkisebb négyzetek szempontjából a változók által elérhető tényező közelítése.

enter image description here

Kedves válasz, felértékelt!Csak azt akartam mondani, hogy engem lenyűgöz a statisztikák ismerete, és különösen a faktorelemzés.Örülök, hogy kapcsolatba léphetek Önnel a LinkedIn-en és más közösségi hálózatokon.By the way, FYI: a profiljában a vállalat webhelyére mutató link megszakadt.
Nagyon szép, +1.Hozzászólna egy kicsit a "regressziós módszerhez"?Miért hívják így?Hogyan lehet ezt a képletet motiválni?Ha tudjuk, hogy $ \ bf X $ a $ \ bf F \ bf A $ (plusz zaj) útján nyerhető, akkor miért becsülnék a $ \ bf F $ (standardizált faktorszámok) értékét $ \ bf R ^ {- 1}\ bf A $?
És még egy kérdés.Ha feltételezzük a tényezők Gauss-eloszlását, és az EM algoritmust alkalmazzuk a modellhez, akkor a maximális valószínűségi tényező pontszámokat a (az Ön jelölése alapján) $ (\ bf I + \ bf A ^ \ top \ bf U ^ {- 2} \ bf A) ^ {- 1} \ bf A ^ \ top \ bf U ^ {- 2} $, ami nagyon közel áll ahhoz, amit Bartlett módszerének neveztél, de további $ \ bf I $ a zárójelben.Van-e neve a FA irodalmában?Miért pont ez a kis eltérés Bartlett módszerével?A képletet Bishop 12.2.4. Szakaszának "Mintázatfelismerés és gépi tanulás" c.
@amoeba, Adtam egy kis információt a válaszhoz, tekintettel az első megjegyzésedre.A második megjegyzésedért - sajnálom, azt hiszem, nem tudok válaszolni rá, hogy ne ássam el magam könyvekben.Ha maga találja meg a választ, kérjük, legyen szíves tisztázni a közönség számára.:-)
@ttnphns, köszönöm a frissítéseket.Megpróbálom megvizsgálni a pontszámbecslés módszereit, amint lesz egy kis időm, kíváncsi vagyok erre a Bartlett és ML eltérésre.Ismételje meg a második frissítést (a képpel): Szerintem itt kissé zavaros vagyok, mert az összes felsorolt pontszámbecslési módszer kiszámítja a $ \ bf B $ mátrixot, majd a standardizált pontszámokat $ \ bf {XB} $, azaz lineárisként számítja ki.eredeti változók kombinációi $ \ bf X $ formátumban.Hogyan lehetnek a becsült tényezők az Ön által X síknak nevezett tényezőkön kívül?Az X összes lineáris kombinációjának ehhez a síkhoz kell tartoznia ...
Hol mondtam, hogy a becsült _értékek tényező az X síkon kívül esik?Mindhárom felsorolt módszer pontszámokat ad az X síkon belül, ahogy helyesen észrevette.(Vannak más módszerek is, amelyek nem annyira ismertek, eltérhetnek a síktól.) A valóságban az a tényező rejlik, amelyet a terhelések jellemeznek.A faktor nem a változók lineáris kombinációja;ez a hozzávetőlegesen becsült értéke - a pontszámok - vagyis.
Még egyszer - ez egyszerű!- a tényezőt csak _terheléssel_ lehet megbecsülni.A megfigyelések tényezői _értékeit csak meglehetősen _megközelítőleg_ lehet megbecsülni.
Csodálatos frissítés @ttnphns, nagyszerű munka.Észrevettem, hogy ezt a szálat 13 ezerszer nézték meg, magasan kell rangsorolnia néhány népszerű google keresésben.
Ekta
2016-01-26 18:18:15 UTC
view on stackexchange narkive permalink

A meteorológiában végzett PCA elvégzéséhez a korrelációs együtthatókat Pearson-korrelációs együtthatóval lehet megkapni (ha a változók különböző egységekben vannak, mivel ez elősegíti az adatok szabványosítását, hogy közvetlenül összehasonlíthatók legyenek a méret / nagyság közötti különbségek miatti eltérések nélkül) az adatok, így a korrelációs együtthatók csak összehasonlíthatják a szórás mértékét az átlag körül, az egyes adatkészletek és az egyes adatkészletek között. Ellenkező esetben, ha az összes adatot ugyanazon egységgel mérjük, akkor lehetőség van a kovariancia módszer használatára. könnyű.

Teljesen érthetetlen - milyen módon kapcsolódik a válasz a kérdéshez (vagyis a komponens / faktor pontszámok kiszámításához)?
Mi történt az egyszerű megközelítéssel a PC-pontszámok levezetéséhez a PCA-ban, amikor korrelációt használnak, amely magában foglalja a sajátvektorokat és a z-score mátrixot, például a $ \ underset {n \ times p} {\ bf {Y}} = \ underset {p\ -szer p} {\ bf {E}} ^ T \ aláhúzás {p \ -szer n} {\ bf {Z}} $?


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...