Kérdés:
A p-érték pontbecslés?
00schneider
2015-11-13 18:56:37 UTC
view on stackexchange narkive permalink

Mivel kiszámítható a konfidencia intervallum a p-értékekhez, és mivel az intervallumbecslés ellentéte a pontbecslés: Pontérték-e a p-érték?

Nem hiszem, hogy * meg lehet számítani a p-érték konfidenciaintervallumait;ez az adatok alapján számított statisztika, nem pedig az adatgeneráló folyamatot leíró paraméter.Természetesen továbbra is megkérdezheti, hogy egy statisztika mennyire becsül.
@Scortchi:, de ha alkalmaznám pl.bootstrapping a p-értékek eloszlásának kiszámításához, majd ennek a bootstrapped eloszlásnak a 95% -os percentilis intervallumát kell elkészítenünk, akkor ha ez nem a p-érték konfidenciaintervalluma - mi ez *?
Az @amoeba: konfidenciaintervallum egy ismeretlen paraméterről szól, míg a bootstrap intervallum egy statisztika 95% -os régiójának közelítése.
@Scorthci: Láttam olyan szoftvert, amely kiírja a CI-ket a p-értékekért.Ebben az esetben a hozzávetőleges p-értékeket permutációs tesztekkel számoltuk ki, tehát ha a CI túl széles volt (azaz p-érték $ \ in [0, 0.05] $ és p-érték $ \ in [0.05, 1] $), több permutációt használna, mielőtt következtetne.
@Cliff Ez nem egy konfidencia intervallum az eloszlás p-érték * qua * tulajdonságához: ez egy konfidencia intervallum egy adott minta p-értékének sztochasztikus becslőjéhez.Bár hasonlóan hangzanak, és mindkettő intervallum, teljesen más dolgok.
@whuber: teljesen egyetért.De úgy gondolom, hogy nem teljesen téves értelmezés ezt egyszerűen "p-érték megbízhatósági intervallumának" nevezni, amint azt az OP kijelentette.Azt hiszem, Scortchi úgy értelmezte az általuk kifüggesztetteket, hogy kijelentette, hogy a p-érték paraméter a vizsgálatban érdekelt * populáció alapján *, aminek valójában nincs értelme.De ha a p-értéket a * mintád és statisztikai modelled * alapján érdekes paraméterként tartom számon, az számomra nem tűnik rossznak.Gyakran pontosan ismert ez a paraméter, de esetenként megbecsülik.
Ilyen gondolkodás más szög, mint a szokásos statisztika (általában csak a populációkból származó paraméterekre és a mintákból származó becslésekre gondolunk), de mint megjegyeztem, ez a kissé eltorzult nézet nem pusztán elméleti;olyan publikált statisztikai szoftverek kimeneteit szerezheti be, amelyek egy p-érték CI-jét mutatják be.
Három válaszokat:
Erik
2015-11-13 19:27:33 UTC
view on stackexchange narkive permalink

A pontbecslések és a konfidencia intervallumok olyan paraméterekre vonatkoznak, amelyek leírják az eloszlást, pl. átlag vagy szórás.

De más minta statisztikákkal ellentétben, mint a minta átlaga és a minta szórása, a p-érték nem hasznos becslése egy érdekes eloszlási paraméternek. Tekintse meg a @whuber válaszát a technikai részletekért.

A tesztstatisztika p-értéke megadja annak valószínűségét, hogy a tesztstatisztika várható értékétől való eltérés legalább akkora legyen, mint azt a a minta, feltételezve, hogy a nullhipotézis igaz. Ha a teljes eloszlás megvan, akkor vagy összhangban áll a nullhipotézissel, vagy nem. Ezt az indikátor változóval írhatjuk le (ismét lásd a @whuber válaszát).

De a p-érték nem használható a mutató változó hasznos becslőjeként, mert nem következetes, mivel a p -érték nem konvergál a minta méretének növekedésével, ha a nullhipotézis igaz. Ez egy meglehetősen bonyolult alternatív módszer annak megállapítására, hogy egy statisztikai teszt elutasíthatja vagy elutasíthatja a nullát, de soha nem erősíti meg.

A statisztikai tesztek jobb beszámolóinak többsége (Lehman, Kiefer stb.) Egyáltalán nem "populációkra" utal, hanem a * eloszlások paramétereinek megbecsülése szempontjából keretezi a helyzetet. * Ehhez nincs szükség a véletlenszerűségre.kizárólag a mintavételre, és ezáltal szélesebb körben lehetővé teszi az elmélet alkalmazását azokra a helyzetekre, amikor a véletlenszerűség egy * modell része.
Nos, az eloszlásokat végtelen méretű populációknak tekintem.
De kifejezetten ellentmondott annak, hogy az állítással "egyáltalán nincsenek összefüggések a lakossággal".Kérjük, vegye figyelembe, hogy * az összes * becslőt "kifejezetten mintaszinten határozták meg".Ezért nehéz meghatározni, hogy milyen különbséget próbál tenni ebben a bejegyzésben.
Eloszlás esetén is a valószínűség játszik szerepet, amikor az eloszlásból mintát vesz?A becslők pedig mintaszinten vannak meghatározva, de amit becsülnek, populációs szinten vannak meghatározva.
Természetesen!De az eloszlás nem népesség.
(-1) Egyetértek mind az @Tim's közös-érzéki válasszal, mind a whuber újszerű válaszával, de küzdek ennek az értelme érdekében.(1) "De a p-érték nem populációs paraméter, mivel a mintaszinten kifejezetten meg van határozva": erre kétségtelenül érdemes rámutatni, de a "de" miatt úgy tűnik, mintha azt mondanád, hogy egy p-értékNe legyen becslés semmire, mert ez egy minta statisztika, mintha a minta átlaga nem lehet becslés semmire, mert ez egy minta statisztika....
(2) "Ez azért van, mert egyáltalán nincsenek összefüggések a populációval, azt fixnek tekintik, de ismeretlen": (a) A p-értéket nem a mintából számoljuk *, mert * "nincsenek valószínűségek [...] ";b) amint arra az @whuber's rámutatott, a véges populációból történő mintavétel különleges eset;(c) mindenesetre az elmondottakból nem következik, hogy a p-érték nem becsül semmit a populációról.
@Scortchi Elég tisztességes, és köszönöm a részletes megjegyzést.Azt hiszem, mondván, hogy más mintstatisztikákkal ellentétben ez nem hasznos becslése az eloszlás egyetlen paraméterének sem.Megpróbálja megismételni ezt a kérdést.
@Erik: Nem értek egyet az utolsó mondattal, mivel [bebizonyítottuk] (http://projecteuclid.org/euclid.aos/1176348534) elfogadható becslő lehet.
@Xi'an De ez (bevallottan érdekes) döntéselméleti szempont.Ebből a szempontból hasznos lenne a válasz, ezért legalább örülnék, ha úgy döntene, hogy megírja.
whuber
2015-11-13 19:35:05 UTC
view on stackexchange narkive permalink

Igen, lehet (és vitatták), hogy a p-érték pontbecslés.

Az eloszlás bármely tulajdonságának azonosítása érdekében a p- becsülheti az értéket, feltételeznünk kell, hogy aszimptotikusan elfogulatlan. De aszimptotikusan a nullhipotézis átlagos p-értéke $ 1/2 $ (ideális esetben egyes teszteknél ez más nem null szám lehet), és bármely más esetén hipotézis ez: $ 0 $ . Így a p-érték a nullhipotézis mutatófüggvényének fele becslőjének tekinthető.


Igaz, hogy némi kreativitásra van szükség egy p-érték ilyen módon történő megtekintéséhez. Kicsit jobban tehetnénk, ha a szóban forgó becslőt úgy tekintenénk meg, mint a p-érték segítségével meghozott döntést : a mögöttes eloszlás a nullhipotézis vagy az alternatív hipotézis tagja? Nevezzük ezt a lehetséges döntések halmazát $ D $ . Jack Kiefer írja

Feltételezzük, hogy van olyan kísérlet, amelynek eredményét a statisztika megfigyelheti. Ezt az eredményt egy véletlenszerű változó vagy véletlenszerű vektor írja le $ X $ .... A $ X $ valószínűségi törvénye ismeretlen a statisztikus számára, de ismert, hogy a $ F $ A (z) $ X $ span> egy meghatározott osztályú $ \ Omega $ elosztási függvény tagja. ...

A statisztikai probléma állítólag a pontbecslés problémája, ha a $ D $ a gyűjtemény a $ F $ valamilyen valós vagy vektor által értékelt tulajdonságának lehetséges értéke, amely a $ F $ függvényében ésszerű módon.

Ebben az esetben, mivel a $ D $ diszkrét, az "ésszerűen sima" egyáltalán nem korlátozás. Kiefer terminológiája ezt tükrözi, amikor a diszkrét döntési terekkel rendelkező statisztikai eljárásokat "tesztként" nevezi meg "pontbecslők" helyett.

Bár érdekes felfedezni az ilyen definíciók korlátait (és korlátait), mint ez a kérdés felkér minket, hogy tegyük meg, talán nem kellene túlságosan is ragaszkodnunk ahhoz, hogy a p-érték pontbecslő, mert a becslők és a tesztek közötti különbségtétel hasznos és konvencionális is.


A Christian Robert erre a kérdésre hívta fel a figyelmet egy 1992-es cikkre, ahol társszerzőkkel pontosan ezt a nézőpontot vették fel, és elemezték a p-érték mint az indikátorfüggvény becslőjének elfogadhatóságát . Lásd az alábbi hivatkozások linkjét. A cikk kezdődik,

A hipotézisek tesztelésének megközelítései a tesztelés problémáját általában a döntéshozatal, nem pedig a becslés egyikeként kezelték. Pontosabban, egy formális hipotézis-teszt következtetést von le arról, hogy a hipotézis igaz-e, és nem nyújt bizonyítékot ahhoz, hogy társuljon ehhez a következtetéshez. Ebben a cikkben a hipotézis tesztelést becslési problémának tekintjük a döntés-elméleti keretek között ....

[Kiemelés tőlem.]


Referenciák

Jiunn Tzon Hwang, George Casella, Christian Robert, Martin T. Wells és Roger H. Farrell, A tesztelés pontosságának becslése . Ann. Stat. 20. kötet, 1. szám (1992), 490-509. Nyílt hozzáférés.

Jack Carl Kiefer, Bevezetés a statisztikai következtetésekbe . Springer-Verlag, 1987.

Hmm.Nem vagyok biztos benne, hogy hasznos-e ez a nézet.Ebben az értelemben a p-érték nem jó becslő, mivel nem konzisztens, ha a nullhipotézis igaz.Bizonyos esetekben (ezt megemlíti) a minta méretétől függő torzítással is rendelkezik.Lehet, hogy technikailag igaz, de bármilyen véletlenszerű szám (szörnyű) becslő lehet bármely paraméterre is.
A kérdés nem teszi fel a kérdést, hogy a p-érték * jó * becslő, @Erik.Becslésként nyilvánvaló hiányosságai vannak.Például aszimptotikus varianciája a nullhipotézishez nem nulla.Felhívjuk figyelmét, hogy szinte * minden * elfogulatlan becslő torzítása a minta méretétől függ.Annak ellenére, hogy igazad van abban, hogy egy független véletlenszámot becslőként lehet tekinteni, ez valami más becslése lenne: megbecsülné saját átlagát (definíció szerint).Így úgy tűnik, hogy kifogásai nincsenek relevánsak a szóban forgó kérdés szempontjából.
Amit a becslő becsül, az a meghatározás része.Nem mondhatod, hogy a véletlenszerű szám értelemszerűen megbecsülné a saját átlagát.Nincs oka annak, hogy ne tudnám meghatározni pl.a minta szórása mint átlag becslése, vagy fordítva.Ez csak egy rossz becslő, például az indikátorfüggvény p-értéke.Azt próbálom kifejezni, hogy a p-érték pontszerű becslésének tekintése valamilyen technikai szinten helyes lehet, de ez nem hasznos.Ha egy konkrét paraméter becsléséről beszélünk, akkor implicit módon feltételezzük legalább a konzisztenciát, hacsak másképp nem jelöljük.
BTW A választ továbbra is támogattam, mivel ez technikai szempontból hasznos kiegészítő perspektívát nyújt.
Nem hiszem, hogy ezekben a kérdésekben különböznénk, @Erik,, kivéve talán a "haszontalan" részt.Amint Nick Cox a szál egy másik részében tett megjegyzésében rámutat, ennek ellenére * érdekes * elgondolkodni azon értelemben, hogy egy p-érték miként tekinthető becslőnek, és pontosan mit is lehetne becsülni.Ez segíthet abban, hogy egy kicsit jobban megértsük, mi is az a p-érték (és mi nem).Sokan úgy vélik, hogy ez egy * hasznos * gyakorlat.
Talán pontatlan voltam.Egyetértek azzal, hogy hasznos és érdekes nézet a becslőkre gondolva.De nem hiszem, hogy ez sok intuícióval vagy megértéssel járna, ha a p-értékekre gondolunk, és a kérdés középpontjában inkább a p-értékek álltak, mintsem a becslők.
Egy [1992-es cikkben] (http://projecteuclid.org/euclid.aos/1176348534) a $ p $ -value értékét vizsgáljuk a $ \ mathbb {I} _ {\ Theta_0} (\theta) $ és mutassa be, hogy ez elfogadható becslő lehet az egyoldalú hipotézis számára, és nem elfogadható a kétoldalas hipotézisekre.
@Xi'an Úgy látom, csak 23 évvel vagyunk mögötted ....Köszönöm a referenciát!
"Így a p-érték az alternatív hipotézis indikátorfunkciójának felének becslőjének tekinthető."Nem kellene ezt olvasnia "a nullhipotézis indikátorfüggvénye"?
@whuber: köszönöm, hogy Jack Kiefer nézeteit újra életre hívta!És az AoS referenciánk felvétele érdekében.Szavazatom arra, hogy ez a _ válasz!
@Andrew Igazad van - összekevertem a nyelvet.Kijavítom.Köszönjük, hogy észrevette ezt!
Tim
2015-11-13 19:17:11 UTC
view on stackexchange narkive permalink
A

$ p $ -értékeket nem használják bármely érdekes paraméter becslésére, hanem hipotézis tesztelésre. Érdekelhet például a $ \ mu $ populáció becslése a rendelkezésére álló minta alapján, vagy érdekelheti annak intervallumbecslése, de a hipotézis tesztelési forgatókönyvben inkább összehasonlítaná a minta átlagát $ a népesség értéke $ \ mu $, hogy lássa, különböznek-e. Valójában a hipotézis tesztelési forgatókönyvben nem érdekli az adott értékük, sokkal inkább, ha valamilyen küszöb alatt vannak (pl. $ P < 0,05 $). A $ p $ -values-val nem annyira érdekelnek a pontértékeik, sokkal inkább azt szeretné tudni, hogy adatai elegendő bizonyítékot szolgáltatnak-e a nullhipotézis ellen. Hipotézis tesztelési szcenárióban nem hasonlítanád össze a különböző $ p $ értékeket, hanem inkább mindegyiket felhasználnád külön döntések meghozatalára a hipotézisekkel kapcsolatban. Nem igazán akar semmit sem tudni a hajótest hipotéziséről, amennyire tudja, el tudja-e utasítani vagy sem. Ez értékeiket elválaszthatatlanná teszi a döntési kontextustól, és ezért eltérnek a pontbecsléstől, mert a pontbecslésekkel önmagukban érdekelnek az értékeik.

A kezdeti állítás helyesen visszhangozza, hogy a dolgokat miért magyarázzák, de ennek ellenére nem megy elég mélyre.Alapvető tény itt a mintaváltozás variációja, a mintánkénti változékonyság.Vegyen egy másik mintát, és a P-értéke más lesz.Egy kis találékonyságra van szükség ahhoz, hogy pontosan lássuk, mit becsül, és (ha jól tudom) ** nem konvencionális ** megmagyarázni, mint egy paraméter becslését, de ennek a nézőpontnak teljesen értelme van.Lásd: @whuber's érdekes válasz.(Az egész területet sáros parafrázisok borítják, amelyek a tanítás egyszerűsítésének szükségességén alapulnak.)
ez a megjegyzés időre vagy a kezdeti kérdésemre vonatkozik?
Tim válaszára utal.(A kérdéséhez fűzött megjegyzések a kérdése alá tartoznak.)
Az @NickCox p-értékek pontbecslések, de pontértékeik nem érdekelnek, válaszom * használatukra utal.Pontbecslésként nem használják és haszontalanok.Ezeket az eseteket már más válaszokban és megjegyzésekben megvitatták.
A kifejezések használata érdekes és fontos (és egyébként személyes elfoglaltság).Továbbra is kérdés, hogy mi a P-érték **.Erre is rámutatnak [itt elkerülhetetlen szójáték] ebben a szálban.Hasznos szokás a paramétereket olyan ismeretlennek tekinteni, amely megjelenik a modell specifikációjában, de vannak más ismeretlenek is.
@Tim miért haszontalanok pontbecslőként?Szinte soha nem látok intervallumot számukra, ezért azt hiszem, a szokásos jelentett p-érték pontbecslés, és az Ön által leírt módon használják.
@Tim, Úgy gondolom, hogy ez az állítás (az utolsó megjegyzésedből) szinte mindig nem igaz, legalábbis a biológiában.Az embereket nagyon érdekli a p-értékek értéke: a $ p <0,05 $, $ p <0,01 $, $ p <0,001 $ értékeket egy, két vagy három csillaggal jelölik az ábrákon, és írnak arról, hogy valami "nagyon jelentős"", stb. A szokásos ajánlás a pontos p-értékek jelentése is, pl$ p = 0,003 $, és nem $ p <0,05 $.Csak nagyon ritkán tartják be az emberek a szigorú Neyman-Pearson keretrendszert, előre választják a $ \ alpha $ értéket, és az összes p-értéket $ p <\ alpha $ -ként jelentik.
Ez a kérdés sok mással kereszteződik, amelyek többsége erősen ellentmondásos.Az egyik az az elképzelés, hogy a teszt célja az, hogy igen vagy nem döntést hozzon, ami egyáltalán nem felel meg minden problémának.Egy másik kulcsfontosságú tény, hogy a küszöbszintek használata évtizedek óta az volt a kérdés, hogy az emberek nyomtatott táblázatokból származó közzétett táblázatokat használtak, és a pontos P-értékek elérhetetlenek voltak, míg az emberek nem használtak számítógépet.
@00schneider: Ha valaha lát intervallumot a p-értékekhez, akkor valószínűtlen, hogy konfidencia intervallum legyen a whuber által definiált populációs paraméter számára.Tim lényege, hogy nem kell őket úgy tekintenünk, hogy egyáltalán bármit is becsülnének *, bár érdekes lehet.


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...