Tehát, ha feltételezem, hogy a hibakifejezések általában lineáris regresszióban oszlanak meg, mit jelent a $ y $ válaszváltozó esetében?
Tehát, ha feltételezem, hogy a hibakifejezések általában lineáris regresszióban oszlanak meg, mit jelent a $ y $ válaszváltozó esetében?
A rövid válasz az, hogy nem vonhat le semmit a $ y $ eloszlásáról, mert ez a $ x $ eloszlásától, valamint a kapcsolat erősségétől és formájától függ. Formálisan: a $ y $ -nak "normális keveréke" lesz, ami a gyakorlatban nagyjából bármi lehet.
Íme két szélsőséges példa ennek szemléltetésére:
Valójában, mivel minden eloszlás tetszőlegesen jól megközelíthető a a normálok keveréke, valóban kaphat bármilyen disztribúciót $ y $ -ért.
Lehet, hogy elmegyek, de azt hiszem, csodálkoznunk kell a $ f (y | \ beta, X) $ -on, így olvastam az OP-t. A lineáris regresszió legegyszerűbb esetben, ha a modell $ y = X \ beta + \ epsilon $, akkor a modell egyetlen sztochasztikus összetevője a hiba kifejezés. Mint ilyen meghatározza a $ y $ mintavételi eloszlását. Ha $ \ epsilon \ sim N (0, \ sigma ^ 2I) $, akkor $ y | X, \ beta \ sim N (X \ beta, \ sigma ^ 2I) $. Amit @Aniko mond, minden bizonnyal igaz a $ f (y) $ -ra (valamivel több mint $ X, \ beta $). Szóval a kérdés kissé homályos.
A hibaterméket úgy alakítjuk ki, hogy fiktív modellt alkalmazunk a valós adatokra; a hiba kifejezés eloszlása nem befolyásolja a válasz eloszlását.
Gyakran feltételezzük, hogy a hiba normálisan oszlik el, és ezért megpróbáljuk úgy felépíteni a modellt, hogy becsült maradványaink normálisan eloszlanak. Ez nehéz lehet egyes $ y $ disztribúciók esetén. Ezekben az esetekben feltételezhetjük, hogy azt mondhatja, hogy a válasz eloszlása befolyásolja a hiba kifejezését.
Ha a választ $$ \ bf {y} = m + e $$ formátumban írja, ahol $ \ bf {m} $ a "modell" (a $ \ bf {y} $ előrejelzése) és $ \ bf {e} $ a "hiba", akkor ez átrendezhető úgy, hogy jelezze a $ \ bf {y} -m = e $ értéket. Tehát disztribúció hozzárendelése a hibákhoz ugyanaz, mint annak jelzése, hogy a modell nem teljes. Másképp fogalmazva, hogy jelzi, mennyire nem tudja, miért volt a megfigyelt válasz az az érték, amely valójában volt, és nem azt, amit a modell megjósolt. Ha tudná, hogy modellje tökéletes, akkor a hibákhoz valószínûség-eloszlást rendelne a teljes tömegével nulla. A $ N (0, \ sigma ^ {2}) $ hozzárendelése alapvetően azt mondja, hogy a hibák kicsiek a $ \ sigma $ egységekben. Az elképzelés az, hogy a modelljóslatok általában "tévesek", hasonló összegekkel, különböző megfigyelésekhez, és "kb." A $ \ sigma $ skálán. Ezzel szemben egy alternatív hozzárendelés a $ Cauchy (0, \ gamma) $, amely szerint a legtöbb hiba kicsi, de néhány hiba meglehetősen nagy - a modellnek időnként "hibája" vagy "sokkolója" van az előrejelzés szempontjából a válasz.
Bizonyos értelemben a hibaeloszlás szorosabban kapcsolódik a modellhez, mint a válaszhoz. Ez a fenti egyenlet nem azonosíthatóságából is kitűnik, mert ha mind a $ \ bf {m} $, mind az $ \ bf {e} $ ismeretlen, akkor tetszőleges vektort adunk hozzá az $ \ bf {m} $ -hoz, és kivonjuk azt a $ \ bf {e} értéktől a $ \ bf {y} $, $ \ bf {y} = m + e = (m + b) + (eb) = m '+ e' $ értékhez vezet. A hibaeloszlás és a modellegyenlet hozzárendelése alapvetően megmondja, hogy melyik tetszőleges vektor hihetőbb, mint mások.