A véletlenszerű erdőben nem erősen korreláló változók nem torzítják a pontosságot és a jellemzők kiválasztását?

Kérdés:

Yoki

2015-03-13 19:46:42 UTC

view on stackexchange narkive permalink

Megértésem szerint a szorosan összefüggő változók nem okoznak többkollinearitási problémákat a véletlenszerű erdőmodellben (kérem, javítson ki, ha tévedek). Ha viszont túl sok hasonló információt tartalmazó változóm van, akkor a modell túl sokat fog súlyozni ezen a halmazon, és nem a többin?

Például két információhalmaz (A, B) azonos prediktív erővel rendelkezik. A $ X_1 $, $ X_2 $, ... $ X_ {1000} $ változó mind A információt tartalmaz, és csak Y tartalmaz B információt. Ha véletlenszerű mintavételi változókkal a fák nagy része az A információra fog növekedni, és ennek eredményeként B nincs teljesen elfogva?

Három válaszokat:

GDB

2017-09-07 22:09:55 UTC

view on stackexchange narkive permalink

Régi szál, de nem értek egyet azzal az általános állítással, hogy a kollinearitás nem a véletlenszerű erdőmodellek kérdése. Ha az adatkészletnek két (vagy több) összefüggő tulajdonsága van, akkor a modell szempontjából ezek közül az összefüggő jellemzők bármelyike felhasználható előrejelzőként, az egyik konkrét előnyben részesítése nélkül.

Bármelyikük használatát követően mások jelentősége jelentősen csökken, mivel az első tulajdonság már eltávolítja a szennyeződéseket, amelyeket eltávolíthatnak.

Ennek következtében kisebb jelentőségük lesz. Ez nem kérdés, amikor a funkciók kiválasztásával szeretnénk csökkenteni a túlterhelést, mivel van értelme eltávolítani azokat a funkciókat, amelyeket többnyire más funkciók ismételnek meg. De amikor az adatokat értelmezi , ez az a téves következtetés, miszerint az egyik változó erős előrejelző, míg az azonos csoportba tartozó többiek nem fontosak, miközben valójában nagyon szorosak a válaszváltozóval való kapcsolatuk szempontjából.

Ennek a jelenségnek a hatása némileg csökken, az egyes csomópontok létrehozásakor véletlenszerűen kiválasztott funkcióknak köszönhetően, de általában a hatást nem távolítják el teljesen.

A fentiek többnyire innen kapkodtak: Jó tulajdonságok kiválasztása

Ez volt az a cikkem, amely az RF funkciók kiválasztására vonatkozik, mivel a változó fontosságot gyakran metrikusan használják: https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25 Két évvel ezelőtt szkeptikusabbá váltam a jellemzők kiválasztásában. A jellemzők kiválasztása túloptimistán hat a keresztellenőrzésre, ha nem egy megfelelő külső keresztellenőrzési hurokban történik.Ha helyesen végezzük, gyakran nem látom vagy csak kevéssé optimalizálom az előrejelzési teljesítményt.Most főleg a jellemzők kiválasztását használom az előrejelző gépek egyszerűsítésére a gyártásban vagy a végső modell átláthatóbbá tételére.

@SorenHavelundWelling - Ön azt mondja, hogy "A funkciók kiválasztása túloptimistán érvényesíti a keresztellenőrzést, ha nem egy megfelelő külső keresztellenőrzési hurokban történik".Meg tudja magyarázni, vagy hivatkozhat egy ezt magyarázó forrásra?Mindennel ellentmond, amit eddig olvastam ...

https://stats.stackexchange.com/questions/27750/feature-selection-and-cross-validation

Soren Havelund Welling

2015-04-04 02:21:43 UTC

view on stackexchange narkive permalink

Ez helyes, de ezért a legtöbb olyan almintavételnél, ahol az Y változó rendelkezésre állt, ez a lehető legjobb megosztást eredményezné.

Megpróbálhatja növelni az mtry értéket, hogy megbizonyosodjon arról, hogy ez gyakrabban történik. .

Megpróbálhatja bármelyik rekurzív korrelációs metszést, vagyis felváltva eltávolíthatja a két változó egyikét, akiknek a legmagasabb a korrelációja. Ésszerű küszöb lehet ennek a metszésnek a leállításához, ha bármelyik korrelációs pár (pearson) alacsonyabb, mint a $ R ^ 2<.7 $ $

Kipróbálhatja a rekurzív változó fontosságú metszést, amelyet felváltva eltávolít, pl. 20% a legalacsonyabb változó fontossággal. Próbáld meg pl. rfcv a randomForest csomagból.

Kipróbálhatja a redundáns változók néhány lebontását / összesítését.

Egyes forrásokban azt láttam, hogy a "multicollinearity" nem befolyásolja a véletlenszerű erdőmodellt.Például [itt] (http://stats.stackexchange.com/questions/168622/why-is-multicollinearity-not-checked-in-modern-statistics-machine-learning) a legfelkapottabb válasz azt mondja, hogy "nem"a véletlenszerű erdőmodell egy részét károsítják az erősen kollináris változók ".Van ennek érvényessége?

Azt hiszem, a szó nem megfelelő szövegét olvassa.Az RF modellek elég jól korrelált / redundáns változókat kezelnek, igen.De ez nem azt jelenti, hogy a modelljének szükségszerűen előnye származik a független vagy teljesen redundáns változók (pl. Lineáris rekombinációk) megszerzéséből, és ez sem ütközik össze.Csak a szerény változóválasztást támogatom, hogy a keresztellenőrzött modell teljesítményének szerény javulását várjam.

Maryam Nasseri

2020-05-31 17:26:23 UTC

view on stackexchange narkive permalink

Egy dolog hozzáfűzhető a fenti magyarázatokhoz: a Genuer és mtsai, 2010 kísérletei alapján:

Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot. Változtatható kiválasztás a véletlenszerű erdők segítségével. Mintafelismerő levelek, Elsevier, 2010, 31 (14), 2225–2366.

Amikor a változók száma meghaladta a p >> n megfigyelések számát, erősen korrelált változókat adtak hozzá a már ismert fontos változókhoz, egyesével az egyes RF modellekben, és észrevették, hogy a fontosság nagysága a változók értékei változnak (kevesebb relatív érték az y tengelytől a már ismert fontos változóknál), DE a változók fontossági sorrendje változatlan maradt, sőt a relatív értékek sorrendje is meglehetősen hasonló maradt, és még mindig jelentősen felismerhetők zajos változók (kevésbé releváns változók). Akkor is ellenőrizze a 2231. oldalon található táblázatot, amikor a replikációk száma (erősen korrelált változók hozzáadása a korábban ismert két legfontosabb változóval) növekszik, az egyes RF modellek előrejelzési beállítása továbbra is azt mutatja, hogy a legfontosabb változó a már ismert legtöbb fontos változó.

A változó szelektálásához értelmezési célból sok (pl. 50) RF modellt készítenek, fontos változókat vezetnek be egyenként, és a legkisebb OOB hibaarányú modellt választják ki értelmezésre és változó kiválasztásra.

előrejelzési célú változóválasztási eljáráshoz: "minden modellben elvégzünk egy szekvenciális változó bevezetést teszteléssel: egy változó csak akkor kerül hozzáadásra, ha a hibaerősítés meghaladja a küszöböt. Az az elképzelés, hogy a hiba csökkenésének lényegesen nagyobbnak kell lennie, mint átlagos változás a zajos változók hozzáadásával. "

ⓘ

Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.

about - legalese