Kérdés:
Vannak olyan esetek, amikor a PCA alkalmasabb, mint a t-SNE?
user3744206
2016-10-05 13:22:17 UTC
view on stackexchange narkive permalink

Szeretném megtudni, hogy a szövegkorrekciós viselkedés 7 mértéke (a szöveg javítására fordított idő, a billentyűleütések száma stb.) hogyan viszonyulnak egymáshoz. Az intézkedések összefüggenek. Futtattam egy PCA-t, hogy lássam, miként vetülnek a PC1-re és a PC2-re az intézkedések, amelyek elkerülik az egymástól különálló kétirányú korrelációs tesztek futtatását az intézkedések között.

Kérdeztek, miért ne használnám a t-SNE-t, Néhány intézkedés közötti kapcsolat nemlineáris lehet.

Látom, hogyan javítaná ezt a nem-linearitás megengedése, de vajon van-e jó ok arra, hogy ebben az esetben a PCA-t alkalmazzuk, és nem -SNE? Nem a szövegek csoportosítása az intézkedésekhez való viszonyuk szerint, hanem inkább maguknak az intézkedéseknek a kapcsolata.

(Gondolom, az EFA is tudna jobb / másik megközelítést alkalmazni, de ez más vita.) Más módszerekhez képest itt kevés bejegyzés található a t-SNE-ről, ezért a kérdést érdemesnek tűnik feltenni.

A t-SNE nem méretezhető jól az adatkészlet méretével, míg a PCA igen.Ez abból a tapasztalatból származik, hogy mindkettőjüket nagy adatkészleten futtatta a scikit-learn megvalósítás segítségével.
@Mai feltehetően ez leginkább nagy adatkészletekre vonatkozik?Az adatkészletem kis oldalon van (néhány száz adatpont).
Négy válaszokat:
usεr11852
2016-12-04 07:14:42 UTC
view on stackexchange narkive permalink

A $ t $ -SNE a Machine Learning nagyszerű darabja, de számos okot találhat a PCA használatára. A fejem tetején ötöt említek. Mint a legtöbb más alkalmazott számítási módszertan, a $ t $ -SNE nem ezüst golyó , és jó néhány oka van, ami miatt egyes esetekben nem optimális választás. Hadd említsek néhány pontot röviden:

  1. A végső megoldás sztochaszticitása . A PCA determinista; A $ t $ -SNE nem az. Az egyik kap egy szép vizualizációt, majd a kollégája újabb vizualizációt kap, majd művészi színt kapnak, ami jobban néz ki, és ha a $ KL (P || Q) $ divergenciában 0,03 dollár \% $ különbség értelmes ... A PCA-ban a a feltett kérdésre adott helyes válasz garantált. A $ t $ -SNE-nek több minimumja lehet, amelyek különböző megoldásokhoz vezethetnek. Ez több futtatást igényel, valamint kérdéseket vet fel az eredmények reprodukálhatóságával kapcsolatban.

  2. A leképezés értelmezhetősége . Ez a fenti ponthoz kapcsolódik, de tegyük fel, hogy egy csapat megállapodott egy adott véletlenszerű kezdésben / futásban. Most a kérdés az lesz, hogy ez mit mutat ... A $ t $ -SNE csak a helyi / szomszédokat próbálja helyesen feltérképezni, ezért a beágyazásból származó betekintéseinknek nagyon óvatosnak kell lenniük; a globális trendek nincsenek pontosan ábrázolva (és ez potenciálisan nagyszerű lehet a vizualizáció szempontjából). Másrészt a PCA csak a kezdeti kovarianciamátrix átlós elforgatása, és a sajátvektorok egy új axiális rendszert képviselnek az eredeti adataink által lefedett térben. Közvetlenül meg tudjuk magyarázni, hogy mit csinál egy adott PCA.

  3. Alkalmazás új / nem látott adatokra . A $ t $ -SNE nem tanul funkciót az eredeti térből az új (alsó) dimenzióba, és ez probléma. Ebben a kérdésben a $ t $ -SNE egy nem parametrikus tanulási algoritmus, ezért a paraméteres algoritmussal való közelítés rosszul felvetett probléma. A beágyazást úgy lehet megtanulni, hogy az adatokat közvetlenül mozgatja az alacsony dimenziós térben. Ez azt jelenti, hogy nem kapunk sajátvektort vagy hasonló konstrukciót, amelyet új adatokban használhatunk. Ezzel szemben a PCA alkalmazásával a sajátvektorok új tengelyrendszert kínálnak, amely közvetlenül felhasználható új adatok vetítésére. [Nyilvánvalóan megpróbálhatna egy mélyhálózatot betanítani a $ t $ -SNE leképezés elsajátításához (Dr. Van der Maatent ennek a videónak a ~ 46 'pontján hallhatja, aki valami hasonlót javasol ), de nyilvánvalóan nincs egyszerű megoldás.]

  4. Hiányos adatok . A $ t $ -SNE nem foglalkozik hiányos adatokkal. Igazság szerint a PCA sem foglalkozik velük, de a hiányos adatokhoz szükséges PCA számos kiterjesztése (pl. valószínűségi PCA) létezik, és szinte standard modellezési rutin. A $ t $ -SNE jelenleg nem tudja kezelni a hiányos adatokat (eltekintve attól, hogy először egy valószínűségi PCA-t képeztek ki, és a PC-pontokat átadták a $ t $ -SNE-nek bemenetként).

  5. A $ k $ nem (túl) kis eset. $ t $ -SNE megoldja a zsúfoltságként ismert problémát, amely gyakorlatilag kissé hasonló pontokat jelent a magasabb dimenzióban alsó dimenziókban egymásra omlanak (további itt). Most, ahogy növeli a használt méreteket, a zsúfoltság problémája kevésbé súlyos, azaz. a $ t $ -SNE használatával próbált megoldani a problémát csillapítja. Megkerülheti ezt a kérdést, de ez nem triviális. Ezért ha szüksége van egy $ k $ dimenziós vektorra, mivel a redukált halmaz és a $ k $ nem egészen kicsi, akkor a produkciós megoldás optimalitása kérdéses. A PCA viszont mindig a magyarázat szerinti variancia szempontjából mindig a $ k $ legjobb lineáris kombinációt kínálja. (Köszönet @amoeba-nak, hogy észrevette, hogy rendetlenséget csináltam, amikor először megpróbáltam felvázolni ezt a pontot.)

Nem említem a számítási követelményekkel kapcsolatos kérdéseket (pl. Sebesség vagy memória mérete) ), sem a releváns hiperparaméterek (pl. zavartság) kiválasztásával kapcsolatos kérdések. Úgy gondolom, hogy ezek a $ t $ -SNE módszertan belső kérdései, és lényegtelenek, ha összehasonlítjuk egy másik algoritmussal.

Összefoglalva, a $ t $ -SNE nagyszerű, de mivel minden algoritmusnak vannak korlátai, amikor alkalmazhatóságához jön. A $ t $ -SNE-t szinte minden új adatkészletnél használom, amely magyarázó adatelemző eszközként a kezembe kerül. Úgy gondolom, hogy vannak bizonyos korlátai, amelyek nem teszik majdnem annyira alkalmazhatóvá, mint a PCA. Hadd hangsúlyozzam, hogy a PCA sem tökéletes; például a PCA-alapú vizualizációk gyakran alacsonyabbak, mint a $ t $ -SNE.

@amoeba: Eltávolítottam a pontot, mert túl fárasztó volt;Leginkább az az ötlet motivált, hogy $ t $ -SNE-nek problémái vannak azzal, hogy a zsúfoltság problémája kevésbé súlyos, ha magasabb dimenziókat használ ($ k = {2,3,4} $ helyett), és így zavaros betekintést kínálok, de összekevertema lényeg, amit megpróbáltam megfogalmazni.Továbbá, mivel a rekonstrukció lehetséges az LLE-től (Roweis & Saul, 2000), miért nem lenne lehetséges a t-SNE által?
@amoeba: Köszönjük, hogy megemlítette.Ennek megfelelően frissítettem a válaszomat.
Ami a 3. pontot illeti: itt van a 2009-es cikk a parametrikus t-sne-ről https://lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf.Úgy tűnik, nem igazán indult el (25-ször kevesebb idézettel rendelkezik, mint az eredeti t-sne papír), de valójában a mai technológiával / könyvtárakkal meglehetősen egyszerű megvalósítani.Kerasban van és működik;Az elmúlt hetekben azon dolgoztam, hogy kivizsgáljam (és esetleg meghosszabbítsam).
Menő!(+1) Ha arXiv nyomtatás előtti lebegést kap, kérjük, tudassa velem (itt vagy 10-szeres), nagyon kíváncsi leszek az eredményekre.Igen, láttam ezt a papírt a válasz megírásakor (ez egy jól ismert cikk, amit mondanék), de mint mondtad, úgy tűnik, hogy nem vették fel.A 3. pont is tökéletesen érvényes marad: meg kell építenie egy DNN-t, hogy kijusson valamiből, amelyet a PCA egyetlen mátrix keresztterméken keresztül kínál.
Has QUIT--Anony-Mousse
2016-12-07 05:25:00 UTC
view on stackexchange narkive permalink

https://stats.stackexchange.com/a/249520/7828

kiváló általános válasz.

Szeretnék koncentráljon még egy kicsit a problémájára. Nyilvánvalóan szeretné megnézni, hogy a mintái hogyan viszonyulnak a 7 bemeneti változóhoz. Ez az, amit a t-SNE nem tesz meg. Az SNE és a t-SNE ötlete az, hogy szomszédokat helyezzen közel egymáshoz, (szinte) teljesen figyelmen kívül hagyva a globális struktúrát.

Ez kiválóan alkalmas vizualizációra, mert hasonló elemek ábrázolhatók egymás mellett ( és nem egymásra, vö. zsúfoltság).

Ez nem jó a további elemzéshez. A globális szerkezet elveszett, egyes objektumok akadályozhatók voltak a szomszédaikhoz való költözésben, és a különböző csoportok közötti szétválasztás nem marad meg mennyiségileg. Nagyrészt ezért pl. a vetítés klaszterezése általában nem működik nagyon jól.

A PCA ennek épp az ellenkezője. Megpróbálja megőrizni a globális tulajdonságokat (nagy szórású sajátvektorok), miközben elveszítheti a szomszédok közötti kis szórásbeli eltéréseket.

Ah pontosan ezt feltételeztem.Nem az érdekel, hogy az adatpontok hogyan helyezkednek el a térben, hanem az, hogy maguk az intézkedések hogyan kapcsolódnak egymáshoz.Ez a két dolog természetesen kapcsolódik egymáshoz, de e kapcsolatok vizualizálása és értelmezése szempontjából gyanítom, hogy csak a PCA csinálja azt, amit akarok.Például pozitív és negatív összefüggések is vannak az intézkedések között, és ami engem igazán érdekel, az az asszociációk abszolút értéke, amelyet megint szerintem könnyebb értelmezni / megnézni, ha PCA-t használok.
Ennél a felhasználási esetnél jobb lehet, ha inkább magát a korrelációs mátrixot nézzük, vagyis csak páros összehasonlításokat végezünk.Akkor kezelheti a nemlinearitást is, pl.spearman-korreláció segítségével.
Használhatjuk a T-SNE-t fürtproblémákra?amennyire megértem, kivetíthetünk egy új eljövendő pontot, és megpróbálhatunk az alsó dimenziókba csoportosulni?Lehetséges ?
Nem. Mivel a tSNE nem lineáris, nem csak új adatokra számíthatja ki (lásd fent).És volt egy vita arról, hogy félrevezető is lehet a kivetített adatok csoportosítása.
Chris_Rands
2019-08-08 23:34:13 UTC
view on stackexchange narkive permalink

Egy alkalmazott szög megadásához a PCA és a t-SNE nem zárják ki egymást.A biológia egyes területein nagy dimenziójú adatokkal van dolgunk, ahol a t-SNE egyszerűen nem méretarányos.Ezért először a PCA-t használjuk az adatok dimenzióinak csökkentésére, majd a legfőbb elvkomponenseket figyelembe véve a vizualizációhoz t-SNE-t (vagy hasonló, nemlineáris dimenziósság-csökkentési megközelítést, például UMAP-ot) alkalmazunk.

RUser4512
2020-03-07 19:26:49 UTC
view on stackexchange narkive permalink

Sok nagyon jó pontot adtak már itt.Van azonban néhány, amelyet szeretnék hangsúlyozni.Az egyik az, hogy a PCA megőrzi azokat a dolgokat, amelyeket a tSNE nem.Ez jó vagy rossz lehet, attól függően, hogy mit próbál elérni.Például a tSNE nem fogja megőrizni a fürtméreteket, míg a PCA (lásd az alábbi képeket, tSNE vs PCA

enter image description here

enter image description here

enter image description here

Heurisztikusan szem előtt tarthatja, hogy a PCA megőrzi a pontok közötti nagy távolságokat, míg a tSNE megőrzi azokat a pontokat, amelyek az ábrázolásban közel vannak egymáshoz.Ezért az egyes módszerek teljesítménye nagymértékben függ az adatkészlettől!



Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...