Kérdés:
A döntési fa mélysége
Qwerto
2018-05-18 14:12:59 UTC
view on stackexchange narkive permalink

Mivel a döntési fa algoritmus minden lépésben feloszlik egy attribútumon, a döntési fa maximális mélysége megegyezik az adatok attribútumainak számával. Ez helyes?

Egy válasz:
mkt - Reinstate Monica
2018-05-18 14:51:48 UTC
view on stackexchange narkive permalink

Nem, mert az adatokat ugyanazon attribútumon többször is fel lehet osztani.És ez a döntési fák jellemzője azért fontos, mert lehetővé teszi számukra a nemlinearitások megragadását az egyes tulajdonságokban.

Szerkesztés: A fenti pont alátámasztására itt van az első regressziós fa, amelyet létrehoztam.Vegye figyelembe, hogy az illékony savasság és az alkohol többször is megjelenik:

enter image description here

Ne értsd, miért szavaztál meg, de újra kiegyensúlyoztam (+1);)
Határozottan hiszek abban, hogy a visszavonások néha véletlenszerűen, véletlenszerűen történnek, függetlenül a bejegyzés minőségétől.Csak hozzá kell szoknunk, és nem szabad elpazarolnunk az időnket, ha túl sokat gondolkodunk az egyes downvote-okon.
@mkt, ha újra akarja szerkeszteni, hozzáadhatja, hogy általában egy döntési fa abbahagyja az új ágak létrehozását, ha az előre meghatározott tisztasági szint eléri, ha egy csomópont kevesebb, mint megadott számú elem, vagy ha egy csomópont felosztásaegy új csomópont kevesebb, mint meghatározott számú elem.Ezek az okok könnyen oda vezethetnek, hogy egy attribútumot egyáltalán nem használnak.
+1, de ez a cselekmény hagy némi kívánnivalót maga után.Melyik ág képviseli az "igen" -t, pl.Segíthet az adatkészlet és a kód feltöltése, ha ez megvalósítható.
@aginensky Köszönöm, ezek érdemes pontok!De nem hiszem, hogy elég sokat tudnék a döntési fa leállításának kritériumairól, hogy itt igazságot tudjak tenni.Talán érdemes lenne további választ adnia?
@gung Ez egy regressziós fa, így nincs igen / nem elágazás.Megpróbálom felásni a kódot és az adatokat, és feladni.
Úgy értem, tegyük fel, hogy "alkohol = 10,50" (azaz "alkohol <10,53"), akkor haladsz a fa jobb vagy bal ágán?
Szép válasz!Tudná tisztázni, hogy mi volt a kimeneti változója az ön által készített döntési fának, és azt is, hogy voltak-e egyéb tulajdonságok, amelyek nem bizonyultak fontosnak és nem szerepelnek a cselekményében?
@IsabellaGhement mennyire releváns a feltett kérdés szempontjából?Úgy tűnik, csak elvonja a figyelmet a fő szempontról.
Igaz, a példádban nem egyértelmű, hogy az adott ágak kizárják-e egymást.Mint ha 0,64-es szulfátom van, illékony savtartalma 1,02, az alkohol pedig 9, melyik ágat választanám?Még akkor is, ha a fa nem tiszta bináris igen / nem, az egyes pontok mindegyik alágának el kell különülnie az adott pont többi ágától az előrelépéshez.
Nos, ha ez nem releváns, akkor hagyja figyelmen kívül a kérdést.Erre a kérdésre adott válaszomat már töröltem, mivel @gung véleményként inkább kommentárnak, mint válasznak vélte.nem kapok felhasználóbarát hangulatokat ettől a száltól, így továbblépek azokra a szálakra, ahol úgy érzem, hogy a hozzászólásaimat szívesen fogadják.
Szintén érvénytelen az a pont, ahol az alkohol kevesebb, mint 11,55, mert ez mindig igaz lesz, mivel az alkoholnak <10,53-nak kell lennie ahhoz, hogy elérje ezt a pontot.(Ami azért lényeges, mert annak javítása megváltoztatja a maximális mélységet, így a pontod nem olyan jól bizonyítható)
@mkt Minden szoftver, amelyet láttam, rendelkezik paraméterekkel, amelyekhez az alapértelmezett érték tartozik.Nem ismerek olyan elméletet, amely megfelelne a minimumoknak.Be kell vallanom, hogy egy ideje már döntési fákat vagy regressziós fákat használtam.Emlékszem, hogy ha egy fa alkalmas, akkor az optimális prediktív erőhöz vágják.Ez szükségtelenné teszi a pontos megállási pontok „finomhangolását”, legalábbis az imho-t.
@gung Megvan, jó pont.Hamarosan frissített ábrával szerkeszt.
@IsabellaGhement Köszönjük!Az eredmény a „bor minősége” volt (a szakértők értékelése), és igen, számos olyan tulajdonságot találtak, amelyek nem voltak fontosak.
@Anthony Ez a "nem" ág, azaz ahol az alkohol> 10,53.Tehát a felosztás érvényes.Az Ön állítása Gung kérdésével is foglalkozik.
@aginensky Megértésem szerint sok vita / fejlődés folyik a leállítási kritériumok és módszerek körül a túlillesztés korlátozására (például metszés).A válasz későbbi frissítésekor meglátom, hogy tudok-e jobban foglalkozni ezzel.
@mkt Meglepődnék, ha ennyi vita folyna erről a témáról.Egyszerűen az RF és a gradiens növelése általában sokkal jobb válaszokat ad.Nagyon kíváncsi lennék egy olyan problémára, amelyre bármely megállási kritériummal rendelkező fák felülmúlják (előrejelzés szerint) e két módszer bármelyikét.Mondja meg, ha van erre jó példája - nagyon érdekes lenne.
@aginensky Nem állítom, hogy jobban teljesítenek a zsákolási / növelési megoldásokon;pusztán az, hogy a nemrégiben olvasott szakirodalomban lehetőség nyílt nagyobb optimalizálásra a leállítási kritériumok körül (amelyek relevánsak az RF-k és a GBM-ek esetében is).


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 4.0 licencért, amely alatt terjesztik.
Loading...