Kérdés:
Bayesi logit modell - intuitív magyarázat?
BCLC
2015-07-24 21:42:23 UTC
view on stackexchange narkive permalink

Be kell vallanom, hogy korábban egyik hallgatómon sem hallottam erről a kifejezésről, sem undergrad-ban, sem grad-ban.

Mit jelent, ha a logisztikai regresszió Bayes-féle? Magyarázatot keresek a rendszeres logisztikáról a bayesi logisztikára való áttéréssel, hasonlóan a következőkhöz:

Ez az egyenlet a lineáris regressziós modellben: $ E (y) = \ beta_0 + \ beta_1x_1 + ... + \ beta_nx_n $.

Ez az egyenlet a logisztikai regressziós modellben: $ \ ln (\ frac {E (y)} {1-E (y)}) = \ beta_0 + \ beta_1x_1 + ... + \ beta_nx_n $. Erre akkor kerül sor, ha y kategorikus.

Amit tettünk, megváltoztattuk a $ E (y) $ értéket $ \ ln (\ frac {E (y)} {1-E (y)}) $ értékre. .

Tehát mi történik a logisztikai regressziós modellel a Bayes-i logisztikai regresszióban? Azt hiszem, ez nem valami összefüggés az egyenlettel.

Úgy tűnik, hogy ez a könyv-előnézet meghatározza, de nem igazán értem. Mi ez az összes korábbi, valószínű való cucc? Mi az a $ \ alpha $? Kérem, valaki megmagyarázza más módon a könyv vagy a Bayes-féle logit modell egy részét?

Megjegyzés: Ezt már korábban megkérdezték, de szerintem nem nagyon válaszoltak rá.

Nem akarom ezt válaszként felvenni, mert úgy gondolom, hogy az @Tim-re ez a legtöbb kiterjed.Az amúgy nagyszerű válaszból csak az hiányzik, hogy a Bayes-féle logisztikai regresszióban és a Bayes-féle általánosított lineáris modellekben (GLM-ekben) általánosabban az előzetes eloszlásokat nemcsak az együtthatók, hanem ezen együtthatók varianciái és kovarianciája helyezik el.Ezt hihetetlenül fontos megemlíteni, mert a GLM-ekre vonatkozó Bayes-i megközelítés egyik legfontosabb előnye a komplex modellek megadásának és sok esetben az együtthatók kovarianciájának nagyobb kezelhetősége.
@BrashEquilibrium: megemlíti a logit modell standard Bayes-modellezésének lehetséges hierarchikus kiterjesztését.A [könyvünkben] (http://www.amazon.com/gp/product/1441922865/ref=as_li_ss_tl?ie=UTF8&tag=chrprobboo-20&linkCode=as2&camp=1789&creative=390957&creativeASIN=1441922865 g) használjukelőtte a $ \ beta $ -kon, amely előtt a fix kovariancia mátrix a kovariánsokból származik.
Elég tisztességes a g prioron.
Ez azt jelenti, hogy a kovariancia még mindig priori !!!!!!Ha nem vitatja meg, akkor nem írja le, hogy a logisztikai regresszió hogyan működik teljes mértékben.
Kettő válaszokat:
Tim
2015-07-24 22:25:16 UTC
view on stackexchange narkive permalink

A logisztikai regresszió lineáris kombinációként írható le.

$$ \ eta = \ beta_0 + \ beta_1 X_1 + ... + \ beta_k X_k $$

a $ g $ linkfunkción keresztül:

$$ g (E (Y)) = \ eta $$

ahol a linkfunkció logit függvény

$$ E (Y | X, \ beta) = p = \ text {logit} ^ {- 1} (\ eta) $$

ahova $ Y $ kerül csak a $ \ {0,1 \} $ értékek és az inverz logit függvények alakítják a $ \ eta $ lineáris kombinációt erre a tartományra. Itt ér véget a klasszikus logisztikai regresszió.

Ha azonban felidézi, hogy $ E (Y) = P (Y = 1) $ azoknak a változóknak, amelyek csak $ \ {0,1 \} $ értékeket vesznek fel, mint $ E (Y | X, \ béta) $ $ P (Y = 1 | X, \ béta) $ -nak tekinthető. Ebben az esetben a logit függvény kimenete feltételezhető a "siker" valószínűségének, azaz $ P (Y = 1 | X, \ béta) $. A Bernoulli-eloszlás egy olyan eloszlás, amely leírja a bináris kimenetel megfigyelésének valószínűségét, néhány $ p $ paraméterrel, így a $ Y $ -ot leírhatjuk

$$ y_i \ sim \ text { Bernoulli} (p) $$

Tehát logisztikai regresszióval keresünk néhány paramétert $ \ beta $, amely a $ X $ független változókkal összekapcsolva lineáris kombinációt alkot $ $ eta $ -ból. A klasszikus regresszióban $ E (Y | X, \ beta) = \ eta $ (feltételezzük, hogy a link függvény identitásfüggvény), azonban a $ Y $ modellezéséhez, amely $ \ {0,1 \} $ értékeket vesz fel, meg kell alakítsa át a $ \ eta $ -t úgy, hogy illeszkedjen a $ [0,1] $ tartományba.

Most, hogy Bayes-féle módon becsülje meg a logisztikai regressziót, vegyen fel néhány $ $ beta értéket a $ \ beta_i $ paraméterekhez, mint a lineáris regresszió esetén lásd: Kruschke és mtsai, 2012), majd használja a logit függvényt a $ \ eta $ lineáris kombináció átalakítására, így a kimenetét a $ Y $ változót leíró Bernoulli terjesztés $ p $ paramétereként használja. . Tehát igen, valójában ugyanúgy használja az egyenletet és a logit link függvényt, mint a frekvencionista esetében, a többi pedig úgy működik (pl. A priorokat választja), mint a lineáris regresszió becslésével a Bayes-féle módszert.

A priorok kiválasztásának egyszerű megközelítése a Normal disztribúció kiválasztása (de más disztribúciókat is használhat, pl. $ t $ - vagy a Laplace disztribúció a robusztusabb modellhez) a $ \ beta_i $ 's paraméterekhez, $ $ muu $ $ \ sigma_i ^ 2 $, amelyeket előre beállítottak vagy hierarchikus elöljáróktól vettek át. Most, miután megadta a modelldefiníciót, használhat olyan szoftvereket, mint a JAGS, hogy elvégezhesse a Markov Chain Monte Carlo szimulációt, hogy megbecsülhesse a modellt. Az alábbiakban JAGS kódot teszek közzé az egyszerű logisztikai modellért (további példákért ellenőrizze itt).

  model {# priors beállítása a ~ dnorm (0, .0001) b ~ dnorm (0, .0001) (i in 1: N) esetén {# a lineáris kombináció átvitele logit függvény logit (p [i]) <- a + b * x [ i] # likelihood függvény y [i] ~ dbern (p [i])}}  

Mint láthatja, a kód közvetlenül lefordítja a modelldefiníciót. A szoftver az, hogy néhány értéket vesz le a Normal priors-ból a a és a b számára, majd ezeket az értékeket használja a p becsléséhez, végül likelihood függvény annak felmérésére, hogy az adat mennyire valószínű, hogy megkapja ezeket a paramétereket (ekkor használja a Bayes-tételt, a részletesebb leírást itt találja). kiterjesztve a prediktorok közötti függőség modellezésére hierarchikus modell segítségével (beleértve a hiperpriorokat ). Ebben az esetben levonhatja a $ \ beta_i $ értékeket a Többváltozós normál eloszlásból, amely lehetővé teszi számunkra, hogy a $ \ boldsymbol {\ Sigma} $ kovariancia információit független változók közé foglaljuk.

$ $ \ begin {pmatrix} \ beta_0 \\ \ beta_1 \\ \ vdots \\ \ beta_k \ end {pmatrix} \ sim \ mathrm {MVN} \ left (\ begin {bmatrix} \ mu_0 \\ \ mu_1 \\ \ vdots \\ \ mu_k \ end {bmatrix}, \ begin {bmatrix} \ sigma ^ 2_0 & \ sigma_ {0,1} & \ ldots & \ sigma_ {0, k} \\ \ sigma_ {1,0} & \ sigma ^ 2_1 & \ ldots & \ sigma_ {1, k} \\ \ vdots & \ vdots & \ ddots & \ vdots \\ \ sigma_ {k, 0} & \ sigma_ {k, 1} & \ ldots & \ sigma ^ 2_k \ end {bmatrix}

... de ez a részletekbe megy, úgyhogy álljunk meg itt.

A "Bayes-i" rész itt a priorokat választja, a Bayes-tétel használatával és a modell valószínűségi kifejezésekkel történő meghatározásával. Lásd itt a "bayesi modell" definícióját, és itt talál néhány általános értelmezést a bayesi megközelítésről. Azt is észreveheti, hogy a modellek meghatározása ezzel a megközelítéssel meglehetősen egyszerű és rugalmas.


Kruschke, J. K., Aguinis, H., & Joo, H. (2012). Eljött az idő: Bayesi módszerek az elemzéshez a szervezeti tudományokban. Szervezeti kutatási módszerek, 15 (4), 722-752.

Gelman , A., Jakulin, A., Pittau, GM, és Su, Y.-S. (2008). Gyengén informatív alapértelmezett előzetes disztribúció a logisztikai és más regressziós modellekhez. The Applied Statistics Annals, 2 (4), 1360–1383.

Bizonyítékokra van szüksége a szórásokhoz, nem csak az együtthatókhoz.
Köszönöm Tim.logit = $ \ eta $?
@BCLC nem, logisztikai regresszió esetén a logit a $ g $ linkfüggvényként használatos, míg a $ \ eta $ lineáris kombináció a $ \ eta = \ beta_0 + \ beta_1 X_1 $, pl.lineáris regresszió esetén a $ g $ identitásfüggvény, tehát $ E (Y) = \ eta $, ez csak a [GLM] szabványos specifikációja (https://en.wikipedia.org/wiki/Generalized_linear_model).
@Tim Köszönöm.Igazából nem igazán tudom, mi az a „prior”.Ez van a Kruschke oldalon?
@BCLC ellenőrizze a linkjeimet a válaszomban, ezek bevezetést nyújtanak a Bayesi statisztikákhoz általában.Ez egy sokkal tágabb téma, amelyet az első kérdésében említett, de a bevezetőben megtalálhatja a válaszomban megadott referenciákat.
@Tim Na jó.Ez a Bayesian része, amely az utóbbi linkekben található.A Kruschke az ...?
@Tim Elgépelési hibát készítettem ott.A bizonyítékok állítólag priorokat olvasnak.Alapvetően az együtthatók nem az egyetlen ismeretlen paraméter.A multinomiális eloszlásnak van egy varianciakovariancia mátrixa is, és általában nem feltételezzük, hogy ismert.
Alapvetően bármely regressziós modell magában foglal egy multinomiális eloszlást az együttható vektor és a kovariancia mátrix felett.Az emberek gyakran állandó varianciát feltételeznek egy inverz gamma vagy egy fél Cauchy előtti érték mellett.
Csak akkor beszélünk különböző dolgokról, ha a leírásában kifejezetten fontolóra vette egy olyan prior esetét, amelyben nulla kovariancia ÉS nulla variancia van a béták között, ami hiányos válasz lenne arra a kérdésre, hogy mi is valójában a Bayesi logisztikai regresszió.
Ez azért van, mert nem azoknak a tankönyveknek a részét olvassa, ahol leírják a varianciák korábbi eloszlását
Vagy azért, mert a Stan kézikönyve rávilágít rá, mert nem mámorító tankönyv.
Vagy azért, mert ez nem egy teljes tankönyv a regressziós modellekben szereplő varianciapriorok specifikációját illetően, ami valójában VALÓBAN fontos
@Tim nem az, hogy jobb alternatív modellt kínálok, hanem az, hogy bármely Bayes-regressziós modell megköveteli a variancia komponens fölötti prior megadását.A Bayes-i GLM sok vitája rávilágít erre a pontra, mert a lineáris modellekről szóló korábbi fejezetben már tárgyaltuk.
@Tim kihívás elfogadva
Köszönöm Tim szerkesztését, azt hiszem.Szeretném, ha tájékoztatna erről egy megjegyzést.Köszönöm a hozzászólásodat is. @BrashEquilibrium, szerintem.PS Most azt hiszem, megértettem, hogy a felhasználó127662 mit érzett [itt] (http://math.stackexchange.com/questions/943396/probability-random-variables-and-probability-distributions/943408#comment1944175_943408).
Tim, miért mondod $ P (Y = 1) $ helyett $ P (Y = 1 | X, \ béta) $ vagy [$ P (Y = 1 | X) $] (http: //stats.stackexchange.com / a / 20527)?
Tim, miért $ P (Y = 1) $ a kimenet?Arra gondolsz, hogy $ P (Y = 1) = logit (E (Y) = \ ln (\ frac {E (Y)} {1-E (Y)}) $? Csak erre gondolhatok:P (Y = 1) = E (1 _ {\ {Y = 1 \}}) $
Tim, miért $ p = logit (\ eta) $?Arra gondolsz, hogy $ p = \ eta = logit (E (Y)) $?
@BCLC $ P (Y = 1) $ által itt leírtam, mi az a $ Y $.Ami az utolsó kérdést illeti: $ p = \ mathrm {logit} (\ eta) $.Kérdéseid nem igazán a Bayes-modellhez kapcsolódnak, hanem általában a GLM-hez, ezért ajánlanék néhány kézikönyvet a GLM-ről, pl.az egyik ilyen http://stats.stackexchange.com/q/94371/35989
@Tim Köszönöm ... tehát p = logit (logit (E (y)))?
@BCLC most azt kapom, ami nem volt világos számodra a válaszomban ... hiba volt a válaszomban.legyen p a $ \ eta $ inverz logitja.Tehát $ p = E (Y) = \ mathrm {logit} ^ {- 1} (\ eta) $.
-1
@BCLC Te modellezed a $ P (Y = 1 | X, \ béta) $ értéket, igen, ezt írja le a logisztikai modell $ P (Y = 1) $ kifejezéssel egyszerűen arra gondoltam, hogy Y * önmagában * két változó két állapottal {0,1} és érdekel valamit a $ P (Y = 1) $ -ról.Tehát egyszerűen leírta, hogy mi az Y változó önmagában.
@Tim Várj, valójában nem vagyok biztos benne, hogy értem, miért ez a kimenet, vagy talán elfelejtettem.Azt mondta: "Most, ha emlékeztet arra, hogy Y csak {0,1} értékeket vesz fel, akkor a logit függvény kimenetét a" siker "valószínűségének lehet tekinteni, azaz $ P (Y = 1) $."Matematikailag ez azt jelenti, hogy $ P (Y = 1) = logit (E [Y]) $?Ha igen, azért, mert Y értéke 0 vagy 1?Ha nem, akkor mi van?Azt hiszem, nem tudtam olyan jól a logit / logisztikai regressziót, mint azt hittem ...
-1
"A" Bayesi "rész itt a priorokat választja, a Bayes-tétel felhasználásával és valószínűségi szempontból meghatározza a modellt."Jó referencia itt Gelman et al.GYENGESEN INFORMÁCIÓS ALAPELVEZÉS ELŐZETES FORGALMAZÁSA LOGISZTIKAI ÉS EGYÉB REGRESSZIÓS MODELLEK http://www.stat.columbia.edu/~gelman/research/published/priors11.pdf
@DaltonHance jó pont, köszönöm, hogy emlékeztetett erre, hozzáadom a hivatkozásokhoz.
Nagyon köszönöm [Tim és] (https://en.wikipedia.org/wiki/Timothy_Dalton) @DaltonHance.
Hé Tim, megemlítette: "Most, hogy a Bayes-féle módon becsüljük meg a logisztikai regressziót" ... hogyan tenné ezt gyakoriaként?OLS vagy MLE, azt hiszem?Bárki más?
Sean Easter
2015-07-24 22:26:20 UTC
view on stackexchange narkive permalink

Mi mindez a korábbi, valószínűsíthető dolgok?

Ez teszi Bayes-össé. Az adatok generatív modellje megegyezik; A különbség az, hogy a Bayes-analízis valamilyen korábbi eloszlást választ az érdeklődő paraméterek számára, és kiszámít vagy közelít egy posterior eloszlást, amelyen minden következtetés alapul. A Bayes-szabály a kettőt kapcsolja össze: A hátsó rész arányos az azt megelőző valószínű valószínűséggel. Például az Ön által hivatkozott szöveg megjegyzi, hogy a $ \ bf \ beta $ előtagja többváltozós normál. Talán a korábbi vizsgálatok egy bizonyos paramétertartományt javasolnak, amely bizonyos normál paraméterekkel kifejezhető. (A rugalmassággal együtt jár a felelősség is: képesnek kell lennie arra, hogy igazolja szkeptikus közönség előtt.) Bonyolultabb modellekben a szakterület szakértelmét felhasználhatja bizonyos látens paraméterek hangolására. Például olvassa el a ebben a válaszban hivatkozott máj példát.

Bizonyos gyakorisági modellek egy Bayes-féle megfelelőhöz kapcsolhatók egy adott előtaggal, bár nem vagyok biztos benne, hogy melyik felel meg ebben eset.

SeanEaster, a "prior" kifejezés a feltételezett terjesztésre használatos?Például feltételezzük, hogy X-ek vagy $ \ beta $ -ok (ha a $ \ beta $ -ra gondol, mint a $ \ beta_1, \ beta_2, ..., \ beta_n $, akkor inkább $ X_1 $, $ X_2 $,..., $ X_n $? Nem hiszem, hogy a $ \ beta $ disztribúciói vannak ...?) Normálisak, de akkor megpróbáljuk őket egy másik disztribúcióba illeszteni?Mit értesz pontosan a „közelítés” alatt?Van egy olyan érzésem, hogy nem ugyanaz, mint a „roham”
@BCLC Ezek megválaszolásához a Bayes-i következtetés puszta folyamatával kezdem, és a továbbiakban meghatározom a kifejezéseket: A Bayes-szigetek * az összes * érdekes paramétert véletlenszerű változóként kezelik, és az adatok tükrében frissítik e paraméterekkel kapcsolatos hitüket.A * korábbi eloszlás * kifejezi a paraméterekkel kapcsolatos hitüket az adatok elemzése előtt;a * hátsó eloszlás * - a Bayes-szabály, az előzmény és a valószínűség normalizált szorzata alapján - összefoglalja a paraméterekkel kapcsolatos bizonytalan hitet az előzmények és az adatok fényében.A hátsó rész kiszámításával történik az illesztés.
@BCLC Ezért van a $ \ beta $ paraméterek eloszlása.Más - általában egyszerű - bayesi modellekben a hátsó eloszlások zárt formakifejezéssel rendelkezhetnek.(Egy Bernoulli véletlen változóban, amelynek béta értéke előtte $ p $, a $ p $ hátulja például béta eloszlás.) De ha a posztereket nem lehet analitikusan kifejezni, akkor * közelítjük őket *, általában MCMC módszerekkel.
Oké, azt hiszem, jobban megértelek, miután elolvastam [Esszé a probléma megoldásához az esélyek doktrínájában] (https://en.wikipedia.org/wiki/An_Essay_towards_solving_a_Problem_in_the_Doctrine_of_Chances).Köszönöm SeanEster
Normalizált alatt azt érted [ezt] (https://en.wikipedia.org/wiki/Normalizing_constant)?Tehát a P (B) [itt] (https://upload.wikimedia.org/math/8/9/7/89752ad8a5356154acf633669f3681fb.png)?
Igen.Sok esetben lehetetlen analitikusan kiszámítani azt a $ P (B) $ értéket.
Ah igaz.Szerintem erről olvashat a Wikiben.Köszönöm


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...