Kérdés:
A marginális valószínűség kiszámítása MCMC mintákból
lacerbi
2016-04-28 18:57:48 UTC
view on stackexchange narkive permalink

Ez egy ismétlődő kérdés (lásd ezt a bejegyzést, ezt a bejegyzést és ezt a bejegyzést), de nekem más a pörgésem.

Tegyük fel, hogy van egy csomó mintám egy általános MCMC mintavevőből. Minden $ \ theta $ mintához ismerem a $ \ log f (\ textbf {x} | \ theta) $ napló valószínűségét és a $ \ log f (\ theta) $ előtti napló értékét. Ha ez segít, akkor tudom az adatpontonkénti napló valószínűségének értékét, $ \ log f (x_i | \ theta) $ (ezek az információk segítenek bizonyos módszereknél, például a WAIC és a PSIS-LOO).

Szeretnék egy (nyers) becslést kapni a marginális valószínűségről, csak a rendelkezésemre álló mintákkal, és esetleg néhány más függvény-értékeléssel (de anélkül, hogy egy ad hoc MCMC).

Először is tisztítsuk meg a táblázatot. Mindannyian tudjuk, hogy a harmonikus becslő a valaha volt legrosszabb becslő. Menjünk tovább. Ha Gibbs-mintavételt végez zárt formában a papokkal és az utódokkal, használhatja Chib módszerét; de nem vagyok biztos abban, hogyan lehetne általánosítani ezeken az eseteken kívül. Vannak olyan módszerek is, amelyek megkövetelik, hogy módosítsák a mintavételi eljárást (például edzett utastéren keresztül), de ez itt nem érdekel.

Az a megközelítés, amelyre gondolok az alapul szolgáló eloszlásnak egy $ g (\ theta) $ paraméteres (vagy nem paraméteres) alakkal való megközelítésével, majd a $ Z $ normalizálási állandó 1-D optimalizálási problémaként való kitalálását (azaz a $ Z $ -ot, amely minimalizálja a hibákat $ Z g (\ theta) $ és $ f (\ textbf {x} | \ theta) f (\ theta) $, a mintákon értékelve). Tegyük fel, hogy a legegyszerűbb esetben a hátsó rész nagyjából többváltozós normális, a $ g (\ theta) $ -t többváltozós normálnak tudom beilleszteni, és valami hasonlót kapok egy Laplace-közelítéshez (érdemes néhány további függvényértékelést felhasználnom a üzemmód helyzete). Használhatnék azonban $ g (\ theta) $ néven egy rugalmasabb családot, például egy többváltozós $ t $ eloszlás variációs keverékét.

Nagyra értékelem, hogy ez a módszer csak akkor működik, ha $ Z g (\ theta) $ ésszerű közelítés a $ f (\ textbf {x} | \ theta) f (\ theta) $ értékhez, de bármilyen ok vagy figyelmeztető mondat miért lenne nagyon oktalan megtenni? Van valami olvasnivaló, amelyet ajánlana?

A teljesen nem paraméteres megközelítés néhány nem paraméteres családot, például egy Gauss-folyamatot (GP) használ a $ \ log f (\ textbf {x} | \ theta) + \ közelítésére. log f (\ theta) $ (vagy annak valamilyen más nemlineáris transzformációja, például a négyzetgyök) és a Bayes-kvadrát, hogy implicit módon integrálódjon az alapul szolgáló cél fölé (lásd itt és itt). Ez érdekes alternatív megközelítésnek tűnik, de szellemében analóg (vegye figyelembe, hogy esetemben a háziorvosok nehézkesek lennének).

Úgy gondolom, Chib, S. és Jeliazkov, I. 2001 "A Metropolis marginális valószínűsége - a Hastings-kimenet általánosítja az MCMC normál kimenetelét" - érdekli, ha meghallgatja ezzel a megközelítéssel kapcsolatos tapasztalatait.Ami a háziorvost illeti - ez alapvetően a hátsó rész emulációjához vezet, amelyet más problémák esetén is figyelembe vehet.Gondolom, az a probléma, hogy soha nem vagy biztos a közelítés minőségében.Arra is kíváncsi vagyok, hogy az MCMC minta ideális-e egy háziorvosi modellhez, vagy többet kellene-e fektetnie a farokba.
(+1) Köszönöm a referenciát, jól néz ki - megnézem.Egyetértek azzal, hogy minden modellalapú megközelítés problematikus lehet (a Bayes-kvadrátummal az a jó, hogy becslést kap a bizonytalanságról, bár nem biztos benne, mennyire kalibrált).Jelenleg szerény célom, hogy olyat tegyek, ami "jobb, mint egy Laplace-féle közelítés".
Egy válasz:
Xi'an
2016-04-30 23:00:40 UTC
view on stackexchange narkive permalink

Chib és Jeliazkov (2001) kiterjesztése sajnos gyorsan költségessé vagy nagymértékben változóvá válik, ezért nem használják sokat Gibbs mintavételi esetein kívül.

Bár a normalizálási konstansnak sokféle módja és megközelítése van a $ \ mathfrak {Z} $ becslési problémának (ezt mutatják a legutóbb lefolytatott állandó becslés műhely elég sokszínű beszélgetései) héten a Warwicki Egyetemen, a diák elérhetők ott), néhány megoldás közvetlenül kihasználja az MCMC kimenetet.

  1. Amint említetted, a Newton és Raftery (1994) szinte mindig szegény, mert végtelen szórásuk van. Van azonban mód arra, hogy elkerüljük a végtelen varianciai átkot, ha ehelyett egy véges támogatási célt használunk a harmonikus átlag azonosságban $$ \ int \ dfrac {\ alpha (\ theta)} {\ pi (\ theta) f (x | \ theta )} \ text {d} \ pi (\ theta | x) = \ frac {1} {\ mathfrak {Z}} $$ azáltal, hogy a $ \ alpha $ értéket választja a HPD régió jelzőjének a hátsó részhez. Ez biztosítja a véges szórást azáltal, hogy eltávolítja a farkakat a harmonikus középből. (A részletek megtalálhatók egy cikkben, amelyet Darren Wraith-nel írtam, és egy fejezetben az állandók normalizálásáról, amelyet Jean-Michel Marinnal írtam.) Röviden: a módszer újrafeldolgozza a Az MCMC a $ \ theta_1, \ ldots, \ theta_M $ kimenetet adja meg a $ $ pi (\ theta) f (x | \ theta) $ $ $ beta értékének (mondjuk 20%) legnagyobb értékének megadásával és a $ \ alpha $ létrehozásával. egyenletesen a gömbök uniója felett, amelyek a legnagyobb sűrűségű (HPD) szimulációkra összpontosulnak, $ \ theta ^ 0_i $ és sugárral $ \ rho $, vagyis a $ \ mathfrak {Z} $ normalizáló állandó becslését $ adja $ \ hat {\ mathfrak {Z}} ^ {- 1} = \ underbrace {\ frac {1} {\ beta M ^ 2} \ sum_ {m = 1} ^ M} _ {\ text {double summa over} \\\ beta M \ text {labda központok} \ theta_i ^ 0 \\\ text {és $ M $ szimulációk} \ theta_m} \ underbrace {\ mathbb {I} _ {(0, \ rho)} (\ min_i || \ theta_m- \ theta ^ 0_i ||) \ {\ pi (\ theta_m) f (x | \ theta_m) \} ^ {-1} \ big / \ overbrace {\ pi ^ {d / 2} \ rho ^ d \ Gamma (d / 2 + 1) ^ {- 1}} ^ {\ text {$ \ rho sugarú gömb térfogata $}}} _ {\ dfrac {\ beta M \ alpha (\ theta_m)} {\ pi (\ theta_m) f (x | \ theta_m)}} $$, ha $ d $ a $ \ theta $ ( a metsző golyókra vonatkozó korrekciók érvényesek), és ha a $ \ rho $ elég kicsi ahhoz, hogy a golyók soha ne keresztezzék egymást (ez azt jelenti, hogy a golyókon legjobb esetben csak egy mutató különbözik a nullától). A $ \ alpha M ^ 2 $ nevező magyarázata, hogy ez a $ \ beta M ^ 2 $ kifejezések dupla összege: $$ \ frac {1} {\ beta M} \ sum_ {i = 1} ^ { \ beta M} \ underbrace {\ frac {1} {M} \ sum_ {m = 1} ^ M {\ cal U} (\ theta_i ^ 0, \ rho) (\ theta_m)} _ {\ text {ugyanaz, mint $ \ min $}} \ times \ frac {1} {\ pi (\ theta_m) f (x | \ theta_m)} $$ értékkel, a $ \ theta_m $ minden egyes kifejezésével integrálva a $ {\ mathfrak {Z}} ^ {-1} $.

  2. Egy másik megközelítés a $ \ mathfrak {Z} $ normalizáló konstans paraméterré változtatása. Ez statisztikai eretnekségnek tűnik, de Guttmann és Hyvärinen (2012) írása ennek ellenkezőjéről győzött meg. Anélkül, hogy túl sokat részleteznénk a részleteket, az az ötlet, hogy megfordítsa a megfigyelt log-likelihood $$ \ sum_ {i = 1} ^ nf (x_i | \ theta) - n \ log \ int \ exp f (x | \ theta ) \ text {d} x $$ egy közös log-likelihood $$ \ sum_ {i = 1} ^ n [f (x_i | \ theta) + \ nu] -n \ int \ exp [f (x | \ theta) + \ nu] \ text {d} x $$ amely a Poisson-pontfolyamat log-valószínûsége a $$ \ exp \ {f (x | \ theta) + \ nu + \ log n \} $$ Ez egy alternatív modell, mivel az eredeti valószínűség nem jelenik meg a fentiek marginálisaként. Csak a módok esnek egybe, az ν feltételes mód biztosítja a normalizáló állandót. A gyakorlatban a fenti Poisson-folyamat valószínűsége nem érhető el, és Guttmann és Hyvärinen (2012) közelítést kínálnak egy logisztikai regresszió segítségével. Annak érdekében, hogy még jobban összekapcsolódjon a kérdésével, a Geyer becslése MLE, tehát megoldás egy maximalizálási problémára.

  3. A kapcsolt megközelítés Charlie Geyer logisztikai regressziós megközelítése. Alapvető elgondolás az, hogy hozzáadjuk az MCMC mintához a $ \ pi (\ theta | x) $ értéket egy másik mintából egy ismert célponttól, pl. A legjobb tipp a $ \ pi (\ theta | x) $, $ g (\ theta ) $, és logisztikai regressziót kell futtatni az adatok mögötti eloszlás indexén (1 for $ \ pi (\ theta | x) $ és 0 for $ g (\ theta) $). A regresszorok mindkét sűrűség értékei, normalizáltak vagy sem. Ez történetesen közvetlenül kapcsolódik Gelman és Meng (1997) hídmintavételhez, amely a különböző célpontokból származó mintákat is újrahasznosítja. És a későbbi verziók, például Meng MLE-je.
  4. Másfajta megközelítés, amely arra kényszeríti az embert, hogy egy adott MCMC mintavevőt futtasson, a Skilling beágyazott mintavétele. Noha nekem [és másoknak] vannak bizonyos fenntartásaim a módszer hatékonyságával kapcsolatban, az asztrosztatisztikában és a kozmológiában meglehetősen népszerű, és olyan szoftverek állnak rendelkezésre, mint a multinest.
  5. Utolsó [lehetőség, ha nem mindig lehetséges] megoldás a Bayes faktor Savage-Dickey ábrázolásának kihasználása beágyazott nullhipotézis esetén. Ha a null $ H_0 néven írja: \ theta = \ theta_0 $ egy érdekes paraméterről, és ha $ \ xi $ a modell paraméterének fennmaradó [kellemetlen] része, feltételezve az $ \ pi_1 (\ theta) \ pi_2 (\ xi) $, az alternatívához viszonyított $ H_0 $ Bayes-tényező $$ \ mathfrak {B} _ {01} (x) = \ dfrac {\ pi ^ \ theta (\ theta_0 | x )} {\ pi_1 (\ theta_0)} $$ ahol $ \ pi ^ \ theta (\ theta_0 | x) $ a $ \ theta $ marginális hátsó sűrűségét jelöli a $ \ theta_0 $ meghatározott értéken. Abban az esetben, ha a nulla $ H_0 alatti határsűrűség: \ theta = \ theta_0 $ $$ m_0 (x) = \ int_ \ Xi f (x | \ theta_0, \ xi) \ pi_2 (\ xi) \ text {d} \ Az xi $$ zárt formában érhető el, le lehet vezetni a korlátlan modell sűrűségét a $$ m_a (x) = \ int _ {\ Theta \ times \ Xi} f (x | \ theta, \ xi) \ pi_1 (\ theta) \ pi_2 (\ xi) \ text {d} \ theta \ text {d} \ xi $$ a Bayes-tényezőtől. (Ez a Savage-Dickey-ábrázolás három különböző sűrűség specifikus verzióira támaszkodik, és ezért veszélyekkel jár, még a marginalis posterior előállításának számítási kihívásáról sem említve.)

[Itt van egy diasorozat, amelyet tavaly decemberben írtam a normalizáló állandók becsléséről egy NIPS műhelyért.]

(+1) Hihetetlenül gazdag válasz, köszönöm.Ez hasznos lesz számomra és feltételezhetően sok más ember számára.Időbe telik, mire áttekintem a különböző megközelítéseket, és akkor visszatérhetek konkrét kérdésekkel.
Az (1) ponttól indulva ... elolvastam a vonatkozó cikkeket.A „javított” harmonikus átlagbecslő * pontosan úgy tűnik, hogy * amit kerestem.Ügyes és könnyen kiszámítható egy MCMC kimenet mellett.Szóval ... mi a fogás?Nem tűnik úgy, hogy a módszert széles körben használják, a Google Scholar gyorskereséséből ítélve.Mik a korlátai?(a HPD régiók azonosításának szükségessége mellett, amely elképzeléseim szerint nagyon bonyolult, nagy dimenziójú poszterek kérdésévé válhat).Mindenképpen megpróbálom kipróbálni - de kíváncsi vagyok, van-e valami, amitől óvatosnak kell lennem.
Hozzátettem még néhány részletet: a HPD egyenruha megvalósításának kérdése a HPD régió megfelelő kompakt közelítésének kitalálása.A magas hátsó értékű pontok domború hajótestét (NP?) Nehéz meghatározni, míg az ezeken a pontokon középre helyezett gömbök keresztezhetik egymást, ami másodlagos normalizáló állandó problémát okoz.
@Xi'an: nagyon hasznos, köszönöm!Megkérdezhetem: az összes említett megközelítés közül mi lenne az Ön ajánlása jelenleg, ha olyan általános megközelítést keresünk, amely hajlamos a dobozon kívül működni (azaz nincs szükség a felhasználó általi hangolásra / ellenőrzésre)?Különösen azokra a modellekre lennék kíváncsi, amelyek alacsony (<50) paraméterszámmal rendelkeznek, nem normális utastérrel és erős korrelációval a paraméterek között.
-1
@FlorianHartig: kiegészítés: van egy [More csomag által kifejlesztett [R csomag BayesFactor] néven (http://bayesfactorpcl.r-forge.r-project.org/#references), amelyet soha nem próbáltam ki, és mely alapítványokról nem tudok semmit...
@Xi'an: nagyon köszönöm, megnézem mindkét lehetőséget.


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...