Kérdés:
Miért jósolják a GLM-ek az átlagot és nem az üzemmódot?
nukimov
2015-09-27 19:11:54 UTC
view on stackexchange narkive permalink

Miért jósolja a GLM a jel átlagát, és nem a jel módját? Ez nem mond ellent a GLM mögött álló alapnak, vagyis a legnagyobb valószínűségnek? A GLM modellparamétereinek megoldására szolgáló egyenletek a valószínűség maximalizálásán alapulnak, amelyet a modellezett jel valószínűségeloszlása ​​ír le. Ez a valószínűségeloszlás a mód számára maximális, nem pedig az átlag ra (a normál eloszlás kivétel: mind a mód, mind az átlag megegyezik). Ezért egy GLM-nek meg kell jósolnia a mód ot, nem pedig a jel átlagát ! (A kérdéshez lásd itt.)

Kicsit túl rozsdás vagyok ahhoz, hogy ezt válaszként megadjam, de úgy gondolom, hogy az elképzelés az, hogy létezik feltételezhető feltételes eloszlás, és a GLM biztosítja ennek az elosztásnak a módját.(Tehát ez az átlag modális becslése.)
A címét úgy szerkesztettem, hogy tükrözze a StackExchange modellt - a kérdések kérdések, nem pedig véleménycikkek.(Meg kell próbálnia kerülni, hogy a kérdése törzse egyfajta hörgésnek tűnjön.)
Vegye figyelembe, hogy a valószínûség a paraméterek függvénye, miközben a modell megpróbálja leírni az adatok eloszlását.Nincs következetlenség.Fontolja meg a bináris adatok logisztikai regresszióját, ahol az illesztett arányok 0,2 és 0,475 között mozognak.A Bernoulli-eloszlás módja minden esetben 0 - tehát azt állítja, hogy a modellnek teljes egészében 0-ból kell állnia?Ez sokkal kevésbé hasznos, mint egy átlagos modell.
Csak egy megjegyzés: a válasz módja rendkívül informatív lehet.A legszélsőségesebb példában a Bernoulli-eloszlás módja mindig 0 vagy 1 lesz.
Tudom, hogy nincs ellentmondás, csak meg akarom érteni: a GLM-ek azokra az adatokra vonatkoznak, amelyek az exponenciális család eloszlását követik.Általában maximalizálja az exponenciális családeloszlás általános egyenletét (f (y; theta, phi) = exp {(y * theta - b (theta)) / a (phi) + c (y, phi)}), hogyaz egyenletrendszerhez, amely lehetővé teszi a lineáris modell paramétereinek megszerzését.Ezen eloszlások közül sok (például a Gauss-féle és a gamma) harang alakú, maximálisan az üzemmód felett, nem pedig az átlag felett.Így azt várnám, hogy a * mód * válaszul válaszoljon a „melyik mu maximalizálja az f-t?” Kérdésre.
A legnagyobb valószínűséggel maximalizálandó dolog nem * az adatok eloszlásának sűrűsége, hanem a paraméter valószínűsége.
A GLM-ekben maximalizálandó dolog valóban f (y; theta, phi), vagy ezzel egyenértékűen a log-likelihood log (f) minimalizálva van.Lásd McGullagh és Nelder 1989, 1.1.3. És 2.2.2. Szakasz.F (y; theta, phi) pedig az adatok eloszlása.Azonban egyetértek: a maximalizálási folyamatban az f (h; theta, phi) -et nem y (az adatok), hanem a theta, phi függvényeként kell tekinteni.Ez a magyarázat a látszólagos dilemmámra.Köszönöm az összes megjegyzést.Bár egyik megjegyzésben vagy válaszban sem igazán válasz a kérdésemre, úgyhogy gondolom, magamnak kellene megfogalmaznom.
Úgy gondolom, hogy az Ön által feltett kérdésre adott válasz valóban Glenben, Paulban található, és megjegyzéseim és válaszaim.Esetleg félreértelmezzük, filozofikus a kérdése?* Miért * modellezzük a feltételes elvárást a feltételes mód helyett?
Helyes, a választ Paul most már kifejezetten kifejezi, de ez csak pár szerkesztés után következik be.Nem ez volt a helyzet, mivel magam fogalmaztam meg a választ.Mindenesetre Paul válaszát választottam a legjobbnak.Ezúton is köszönöm mindenkinek!
Három válaszokat:
Matthew Drury
2015-09-27 20:11:13 UTC
view on stackexchange narkive permalink

Két dolgot kell itt vitatni:

  • Azok a tények, amelyek alapján egy glm feltételezett eloszlás átlagaként próbálja meg megjósolni az $ y $ értéket, és maximálisan megbecsüli a paramétereit $ \ beta $ a valószínűség következetes.
  • A paraméterek maximális valószínűséggel történő becslése nem meghatározza az eloszlás módját. Legalábbis a glm klasszikus megfogalmazásában nem.

Vegyük működő példaként a legegyszerűbb, nem triviális glm-et, a logisztikai modellt. A logisztikai regresszióban van egy $ y $ válaszunk, amely 0, 1 értékű. Feltételezzük, hogy a $ y $ bernoulli terjesztése az adatainktól függ.

$$ y \ mid X \ sim Bernoulli (p (X)) $$

És megpróbáljuk megbecsülni a ennek a feltételes eloszlásnak a közepe (amely ebben az esetben csak $ p $), összekapcsolva azt egy $ X $ lineáris függvénnyel.

$$ \ log \ left (\ frac {p} {1-p } \ right) = X \ beta $$

Szüneteltetve és tükrözve ebben az esetben azt látjuk, hogy természetes a $ p $ megismerése, ami egy egy feltételes eloszlás középértéke.

A glm beállításban a $ p $ értéket nem közvetlenül becsüljük meg, hanem a becslési eljárást $ \ beta $ célozza meg. A $ \ beta $ eléréséhez maximális valószínűséget használunk. A feltételes bernoulli-eloszlásból származó $ y $ adatpont megfigyelésének valószínűsége, figyelembe véve a megfigyelt $ X $ értéket és a $ \ beta $ meghatározott paraméterkészletet,

$$ P \ bal (y \ X közepe, \ beta \ right) = p ^ y (1-p) ^ {1-y} $$

ahol $ p $ a $ \ beta $ és $ X $ függvénye az összekapcsolási kapcsolat.

Figyelje meg, hogy itt egy valószínűségi eloszlásból $ y $ mintát veszünk, nem béta.

A maximális valószínűség alkalmazásához fordítsa ezt a $ \ beta $ függvényébe, tekintve mind az $ X $, mind az $ y $ értéket fixnek és megfigyeltnek:

$$ L (\ beta) = p ^ y (1-p) ^ {1-y} $$

De a $ L $ nem sűrűségfüggvény , valószínű. Ha maximalizálja a valószínűségét, nem becsüli meg a disztribúció módját, mert egyszerűen nincs eloszlás a mode-ize-hez.

Sűrűséget létrehozhat $ L $ -ból, ha előzetes elosztást biztosít a $ \ beta $ paramétereken és Bayes-szabályt használ, de a klasszikus glm megfogalmazásban ez nem történik meg.

Paul
2015-09-27 22:56:20 UTC
view on stackexchange narkive permalink

A maximális valószínûségû illesztés célja annak meghatározása, hogy az eloszlás mely paraméterei felelnek meg a legjobban - és általában véve, hogy az említett paraméterek hogyan változhatnak a kovariánsoktól függõen. GLM-ek esetében meg akarjuk határozni néhány exponenciális családeloszlás $ \ theta $ paramétereit, és azt, hogy ezek hogyan függnek egyes kovariánsok $ X $ -tól.

A túlterjedt exponenciális családban előforduló valószínűségi eloszlások esetén az $ $ mu $ garantáltan kapcsolatban áll a kanonikus exponenciális család paraméterével $ \ mathbf {\ theta} $ a kanonikus link függvény, $ \ theta = g (\ mu) $. Akár meghatározhatunk általános képletet a $ g $ -ra, és általában a $ g $ is megfordítható. Ha egyszerűen beállítjuk a $ \ mu = g ^ {- 1} (\ theta) $ és $ \ theta = X \ beta $ értékeket, akkor automatikusan kapunk egy modellt arra vonatkozóan, hogy a $ \ mu $ és $ \ theta $ hogyan változik $ X $ értékkel , függetlenül attól, hogy milyen terjesztéssel van dolgunk, és ez a modell konvex optimalizálással könnyen és megbízhatóan illeszthető az adatokhoz. Matt válasza megmutatja, hogyan működik a Bernoulli-disztribúció, de az igazi varázslat az, hogy a család minden disztribúciójánál működik.

A mód nem élvezi ezeket a tulajdonságokat. Valójában, amint arra a Cliff AB rámutat, lehet, hogy az üzemmódnak nem is van bijektív kapcsolata az elosztási paraméterrel, így a módból való következtetés nagyon korlátozott teljesítményű. Vegyük például a Bernoulli disztribúciót. Módja 0 vagy 1, és a mód ismerete csak azt mondja meg, hogy $ p $, az 1 valószínűsége nagyobb vagy kisebb, mint 1/2. Ezzel szemben az átlag pontosan megmondja, mi a $ p $.

Most, hogy tisztázzuk a kérdés néhány zavart: a maximális valószínûség nem abban áll, hogy megtaláljuk az eloszlás módját, mert a valószínûség nem ugyanaz, mint az eloszlás. A valószínűség magában foglalja a modelleloszlását a képletében, de ezzel véget érnek a hasonlóságok. A $ L (\ theta) $ valószínûségfüggvény a $ \ theta $ paraméterértéket veszi bemenetként, és megmondja, hogy mennyire "valószínû" a teljes adatkészleted , mivel a modelleloszlás $ $ theta $ . A $ f_ \ theta (y) $ modelleloszlás a $ \ theta $ -tól függ, de függvényként beveszi a $ y $ értéket, és megmondja, hogy az adott eloszlásból származó véletlenszerű minta milyen gyakran lesz egyenlő $ y $ -val. A $ L (\ theta) $ maximális értéke és a $ f_ \ theta (y) $ módja nem ugyanaz.

Talán segít meglátni a valószínűség képletét. A $ y_1, y_2, \ ldots, y_n $ IID adatok esetén $$ L (\ theta) = \ prod_ {i = 1} ^ n f_ \ theta (y_i) $$ értéke $ y_i $ mind fixek - ezek az adatok az Ön adataiból. A legnagyobb valószínűség az a $ \ theta $ megtalálása, amely maximalizálja a $ L (\ theta) $ értéket. A disztribúció módjának megtalálásához meg kellene találni azt az $ y $ -ot, amely maximalizálja a $ f_ \ theta (y) $ értéket, amit nem szeretnénk: a $ y $ valószínűség szerint rögzítve van, nem változó.

Tehát a likelihood függvény maximumának megtalálása általában nem azonos a modelleloszlás módjának megtalálásával. (Ez egy másik terjesztés módja, ha objektív Bayesist kérdezel, de ez egy egészen más történet!)

nukimov
2015-09-28 00:29:53 UTC
view on stackexchange narkive permalink

Köszönöm az összes megjegyzést és választ. Bár egyikükben sem 100% a válasz a kérdésemre, mindegyik segített átlátni a látszólagos ellentmondást. Ezért úgy döntöttem, hogy magam fogalmazom meg a választ, úgy gondolom, hogy ez a kommentekben és válaszokban szereplő összes ötlet összefoglalása:

A valószínűség maximalizálása az adatok segítségével PDF $ f (y; \ theta, \ phi) $ a GLM-ekben 2 ok miatt nem kapcsolódik a $ f $ módhoz (hanem annak átlagához):

  1. mikor maximalizálja a $ f (y; \ theta, \ phi) $ értéket, akkor nem a $ f $ -ot a $ y $, hanem a $ \ boldsymbol \ beta $ (a paraméterek) függvényének tekinti a lineáris modell). Pontosabban, amikor megkülönbözteti a $ f $ értéket az egyenletrendszer megszerzéséhez, amely a $ \ boldsymbol \ beta $ meghatározásához vezet, akkor nem a $ y $; a $ \ boldsymbol \ beta $ vonatkozásában teszed. Így a maximalizálási folyamat megadja a $ \ boldsymbol \ beta $ értéket, amely maximalizálja a $ f $ értéket. Az optimális $ \ boldsymbol \ beta $, és nem az optimális $ y $ (ami valóban a mód lenne) a maximalizálási folyamat kimenete.

  2. Ezenkívül , a maximalizálási folyamatban az átlag, $ \ boldsymbol \ mu $, a $ \ boldsymbol \ beta $ függvénye. Ezért a maximalizálási folyamat révén megkapjuk az optimális $ \ boldsymbol \ mu $ értéket is.



Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...