Hogyan befolyásolja a hiba kifejezés eloszlása a válasz eloszlását?

Kérdés:

MarkDollar

2011-05-27 21:14:57 UTC

view on stackexchange narkive permalink

Tehát, ha feltételezem, hogy a hibakifejezések általában lineáris regresszióban oszlanak meg, mit jelent a $ y $ válaszváltozó esetében?

Négy válaszokat:

Aniko

2011-05-27 21:36:36 UTC

view on stackexchange narkive permalink

A rövid válasz az, hogy nem vonhat le semmit a $ y $ eloszlásáról, mert ez a $ x $ eloszlásától, valamint a kapcsolat erősségétől és formájától függ. Formálisan: a $ y $ -nak "normális keveréke" lesz, ami a gyakorlatban nagyjából bármi lehet.

Íme két szélsőséges példa ennek szemléltetésére:

Tegyük fel, hogy csak két lehetséges $ x $ érték van, 0 an 1 és $ y = 10x + N (0,1) $. Ekkor a $ y $ erőteljesen bimodális eloszlású lesz, 0 és 10 dudorokkal.
Most tegyük fel ugyanazt a kapcsolatot, de a $ x $ legyen egyenletesen elosztva a 0-1 intervallumon, sok értékkel. Ekkor a $ y $ majdnem egyenletesen oszlik el a 0-10 közötti intervallumon (néhány normális farokkal a szélén).

Valójában, mivel minden eloszlás tetszőlegesen jól megközelíthető a a normálok keveréke, valóban kaphat bármilyen disztribúciót $ y $ -ért.

+1 Az utolsó állításra: egyszer elkövettem azt a hibát, hogy ezt is gondoltam. Matematikailag igazad van, de a gyakorlatban szinte lehetetlen megközelíteni a nem differenciálható tüskét normálokkal (például J- vagy U-alakú eloszlásokkal): a normálok éppen túl laposak a csúcsaikban, hogy megragadják a tüskék sűrűségét. Túl sok alkatrészre van szüksége. A normálok alkalmasak olyan eloszlások közelítésére, amelyek pdf-fájljai nagyon simaak.

@whuber egyetértett. Nem javasolnám, hogy a gyakorlatban bármilyen eloszláshoz normál keverék közelítést alkalmazzak, csak egy extrém ellenpéldát próbáltam megadni.

JMS

2011-05-28 04:07:31 UTC

view on stackexchange narkive permalink

Lehet, hogy elmegyek, de azt hiszem, csodálkoznunk kell a $ f (y | \ beta, X) $ -on, így olvastam az OP-t. A lineáris regresszió legegyszerűbb esetben, ha a modell $ y = X \ beta + \ epsilon $, akkor a modell egyetlen sztochasztikus összetevője a hiba kifejezés. Mint ilyen meghatározza a $ y $ mintavételi eloszlását. Ha $ \ epsilon \ sim N (0, \ sigma ^ 2I) $, akkor $ y | X, \ beta \ sim N (X \ beta, \ sigma ^ 2I) $. Amit @Aniko mond, minden bizonnyal igaz a $ f (y) $ -ra (valamivel több mint $ X, \ beta $). Szóval a kérdés kissé homályos.

Tetszik az összes megjegyzés! És úgy tűnik, hogy mindegyiknek igaza van. De én csak a legkönnyebb választ kerestem :) Mi történik, ha feltételezzük, hogy a hibás kifejezés normális eloszlású. Hogy ez a valóságban nagyon gyakran előfordul, kiderül a többi válaszból! Nagyon köszönöm!

Thomas Levine

2011-05-27 21:54:11 UTC

view on stackexchange narkive permalink

A hibaterméket úgy alakítjuk ki, hogy fiktív modellt alkalmazunk a valós adatokra; a hiba kifejezés eloszlása nem befolyásolja a válasz eloszlását.

Gyakran feltételezzük, hogy a hiba normálisan oszlik el, és ezért megpróbáljuk úgy felépíteni a modellt, hogy becsült maradványaink normálisan eloszlanak. Ez nehéz lehet egyes $ y $ disztribúciók esetén. Ezekben az esetekben feltételezhetjük, hogy azt mondhatja, hogy a válasz eloszlása befolyásolja a hiba kifejezését.

"Gyakran megpróbáljuk úgy felépíteni a modellt, hogy a hibakifejezésünk normálisan legyen elosztva" - pontosabban azt gondolom, hogy a $ y-X \ hat \ beta $ maradványokra hivatkozik. Ezek ugyanúgy becsülik a hibakifejezéseket, mint ahogyan az $ X \ hat \ beta $ a $ \ mathbb {E} (y) = X \ beta $ becslése. Szeretnénk, ha a maradványok normálisnak tűnnének, mert ezt feltételeztük a hibakifejezésekkel kapcsolatban. A hibakifejezést egy modell megadásával, nem illesztésével "találjuk ki".

Egyetértek a pontosságoddal, JMS. +1 és kiigazítom a válaszomat.

probabilityislogic

2011-05-28 18:14:20 UTC

view on stackexchange narkive permalink

Ha a választ $$ \ bf {y} = m + e $$ formátumban írja, ahol $ \ bf {m} $ a "modell" (a $ \ bf {y} $ előrejelzése) és $ \ bf {e} $ a "hiba", akkor ez átrendezhető úgy, hogy jelezze a $ \ bf {y} -m = e $ értéket. Tehát disztribúció hozzárendelése a hibákhoz ugyanaz, mint annak jelzése, hogy a modell nem teljes. Másképp fogalmazva, hogy jelzi, mennyire nem tudja, miért volt a megfigyelt válasz az az érték, amely valójában volt, és nem azt, amit a modell megjósolt. Ha tudná, hogy modellje tökéletes, akkor a hibákhoz valószínûség-eloszlást rendelne a teljes tömegével nulla. A $ N (0, \ sigma ^ {2}) $ hozzárendelése alapvetően azt mondja, hogy a hibák kicsiek a $ \ sigma $ egységekben. Az elképzelés az, hogy a modelljóslatok általában "tévesek", hasonló összegekkel, különböző megfigyelésekhez, és "kb." A $ \ sigma $ skálán. Ezzel szemben egy alternatív hozzárendelés a $ Cauchy (0, \ gamma) $, amely szerint a legtöbb hiba kicsi, de néhány hiba meglehetősen nagy - a modellnek időnként "hibája" vagy "sokkolója" van az előrejelzés szempontjából a válasz.

Bizonyos értelemben a hibaeloszlás szorosabban kapcsolódik a modellhez, mint a válaszhoz. Ez a fenti egyenlet nem azonosíthatóságából is kitűnik, mert ha mind a $ \ bf {m} $, mind az $ \ bf {e} $ ismeretlen, akkor tetszőleges vektort adunk hozzá az $ \ bf {m} $ -hoz, és kivonjuk azt a $ \ bf {e} értéktől a $ \ bf {y} $, $ \ bf {y} = m + e = (m + b) + (eb) = m '+ e' $ értékhez vezet. A hibaeloszlás és a modellegyenlet hozzárendelése alapvetően megmondja, hogy melyik tetszőleges vektor hihetőbb, mint mások.

"Ez furcsának tűnik, mert y-t csak egyszer és egyszer fogod megfigyelni (y a válaszok teljes vektora / mátrixa / stb.). Hogyan lehet ezt" elosztani "? Véleményem szerint csak néhány képzeletbeli együttesben osztható el, Semmi köze a tényleges megfigyelt válaszához. Legalábbis a válasz "ilyen eloszlása" ilyen feltételezése nem tesztelhető "Zavarba vagyok; azt akarja mondani, hogy nem tudjuk tesztelni a $ H_0: y \ sim f_0 $ vs $ H_1: y \ sim f_1 $ értékeket?

nem, sajnálom, ez nem lehet az, amit mondasz. Bár továbbra is zavart vagyok. Talán kissé pontatlan, de ahogy olvastam, $ n $ mintát kapott $ y_i $ -tól $ Y $ -tól fix $ x_i $ -val, modellje $ Y = X \ beta + \ epsilon $, és kíváncsi rá, mi a feltételezett $ \ epsilon $ megoszlása a $ Y | \ béta, X $ * megoszlását jelenti modellje szerint. Itt ez azt jelentené, hogy ez normális; ezt a mintánkkal tesztelhetjük

@JMS - Azt hiszem, törölhetem az első bekezdést. Nem hiszem, hogy ez bármit is adna a válaszomhoz (a zavartság mellett).

az egyik kedvenc dolgom hozzá a válaszaimhoz :)

ⓘ

Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.

about - legalese