Kérdés:
Logisztikai regresszió vagy T teszt?
Gwen
2015-06-29 06:54:38 UTC
view on stackexchange narkive permalink

Személyek egy csoportja válaszol egy kérdésre. A válasz lehet "igen" vagy "nem". A kutató tudni akarja, hogy az életkor összefügg-e a válasz típusával.

Az asszociációt logisztikai regresszióval értékeltük, ahol az életkor a magyarázó változó, a válasz típusa (igen, nem) a függő változó. Külön foglalkoztak azzal, hogy kiszámolták az „igen” és „nem” válaszoló csoportok átlagéletkorát, valamint egy T tesztet hajtottak végre az átlagok összehasonlítására.

Mindkét teszt különböző személyek tanácsát követve végezték, és egyikük sem biztos abban, hogy melyik a helyes út. A kutatási kérdésre való tekintettel melyik lenne a jobb teszt?

A hipotézis teszteléséhez a p értékek nem voltak szignifikánsak (regresszió) és szignifikánsak (T teszt). A minta kevesebb, mint 20 eset.

Nem vagyok biztos benne, hogy ez a valódi kérdésed.Már lefuttatta mindkét elemzést, amelyről kérdez.Azt hiszem, amit igazán tudni akar, az valami a tesztek közötti összehasonlításokról vagy kapcsolatokról szól, például ami jobb.Kérjük, szerkessze kérdését a probléma megoldásához.
Mindkét tesztet különböző személyek tanácsa alapján hajtották végre, és egyikük sem biztos abban, hogy ez a helyes út.Tekintettel a kutatási kérdésekre (az életkor társul-e a válasz típusához?), Melyik lenne a jobb teszt, a válasz típusának logisztikai regressziója az életkorra vagy egy T-teszt, amely összehasonlítja az „igen” válaszban részesülők átlagéletkorát az átlaggala nemmel válaszoló személyek életkora?
Három válaszokat:
whuber
2015-06-29 22:33:05 UTC
view on stackexchange narkive permalink

Mindkét teszt implicit módon modellezi az életkor-válasz összefüggést, de különböző módon teszik ezt. Melyiket választja, attól függ, hogyan választja meg a kapcsolatot. A választásnak egy mögöttes elmélettől kell függenie, ha van ilyen; hogy milyen információkat szeretne kinyerni az eredményekből; és a minta kiválasztásának módjáról. Ez a válasz sorrendben tárgyalja ezt a három szempontot.


Leírom a t-tesztet és a logisztikai regressziót olyan nyelv használatával, amely azt feltételezi, hogy jól körülhatárolt embercsoportot tanul, és következtetéseket kíván levonni a minta ennek a populációnak.

Bármilyen statisztikai következtetés alátámasztása érdekében feltételezzük, hogy a minta véletlenszerű.

  • A t-teszt feltételezi, hogy a "nem" válaszadó mintában szereplő emberek a véletlenszerű válaszadók a populáció összes nem válaszadójának véletlenszerű mintája, és hogy a "válasz" válaszban szereplő emberek a populáció összes igen válaszadójának véletlenszerű mintája .

    A t-teszt további technikai feltételezéseket tesz a korcsoportok megoszlására a populáció két csoportján belül. A t-teszt különféle verziói léteznek a valószínűsíthető lehetőségek kezelésére.

  • A logisztikai regresszió feltételezi, hogy minden adott korú ember egyszerű véletlenszerű minta az adott korú emberek a népességben. A különálló korcsoportok eltérő arányú "igen" válaszokat mutathatnak. Ezeket az arányokat, ha log szorzóként (nem pedig egyenes arányokként) fejezzük ki, feltételezzük, hogy lineárisan összefüggenek az életkorral (vagy az élet bizonyos meghatározott funkcióival).

    A logisztikai regresszió könnyen kiterjeszthető az életkor és a válasz közötti nemlineáris kapcsolatok befogadására. Egy ilyen kiterjesztés használható a kezdeti lineáris feltételezés hitelességének értékelésére. Nagy adatállományokkal lehet megvalósítani, amelyek elegendő részletességgel rendelkeznek a nem-linearitások megjelenítéséhez, de valószínűleg nem lesz sok haszna kis adatkészleteknél. Egy általános ökölszabály - miszerint a regressziós modelleknek tízszer annyi megfigyeléssel kell rendelkezniük, mint a paraméterek - azt sugallja, hogy lényegesen több mint 20 megfigyelésre van szükség a nemlinearitás felismeréséhez (amihez a lineáris függvény metszésén és meredekségén kívül egy harmadik paraméterre is szükség van. ).

A t-teszt kimutatja, hogy az átlagos életkor különbözik-e a nem és az igen válaszadók között a populációban. A logisztikai regresszió becsli, hogy a válaszarány hogyan változik életkoronként. Mint ilyen, rugalmasabb és képes részletesebb információk szolgáltatására, mint a t-teszt. Másrészt általában kevésbé hatékony, mint a t-teszt, annak alapvető célja, hogy kimutassák a csoportok átlagos életkora közötti különbséget.

Lehetséges, hogy a tesztpárok mindegyikét bemutatják a szignifikancia és a nem szignifikancia négy kombinációja. Ezek közül kettő problematikus:

  • A t-teszt nem szignifikáns, de a logisztikai regresszió igen. Amikor mindkét teszt feltételezése megalapozott, egy ilyen Az eredmény gyakorlatilag lehetetlen, mert a t-teszt nem próbálja kimutatni a logisztikai regresszió által felvetett olyan specifikus kapcsolatot. Ha azonban ez a kapcsolat eléggé nemlineáris ahhoz, hogy a legidősebb és legfiatalabb alanyok megosszák az egyik véleményüket, a középkorúak pedig egy másik véleményt, akkor a logisztikai regresszió kiterjesztése a nemlineáris kapcsolatokra képes felismerni és számszerűsíteni ezt a helyzetet, amelyet egyetlen t-teszt sem tud kimutatni. .

  • A t-teszt jelentős, de a logisztikai regresszió nem, mint a kérdésben. Ez gyakran előfordul, különösen akkor, ha van egy fiatalabb, egy idősebb válaszadó egy csoportja , és kevés ember van közöttük. Ez nagy különbséget eredményezhet a nem és az igen válaszolók válaszaránya között. A t-teszt könnyen felismeri. A logisztikai regresszió azonban vagy viszonylag kevés részletes információval rendelkezik arról, hogy a válaszarány valójában hogyan változik az életkor előrehaladtával, vagy pedig meggyőző információval rendelkezik: a "teljes szétválás" esete, ahol minden idős ember egyféleképpen reagál, a fiatalabbak pedig másképp - de ebben az esetben mindkét tesztnek nagyon alacsony a p-értéke.

Ne feledje, hogy a kísérleti tervezés érvénytelenítheti a teszt néhány feltételezését. Például, ha rétegesen választottuk ki az életkorukat, akkor megkérdőjelezhetővé válik a t-teszt feltételezése (miszerint az egyes csoportok az életkor egyszerű véletlenszerű mintáját tükrözik). Ez a tervezés a logisztikai regresszióra támaszkodhat. Ha ehelyett két csoportja volt, az egyik nem válaszoló és az egyik igen válaszadó, és véletlenszerűen választottak ki azok közül az életkoruk megállapításához, akkor a logisztikai regresszió mintavételi feltevései kétségesek, míg a t-teszté megalapozott. Ez a kialakítás a t-teszt valamilyen formájának használatát javasolja.

(A második terv itt butaságnak tűnhet, de olyan körülmények között, ahol az "életkor" helyett valami nehéz, költséges vagy időigényes jellemző van fogyasztása mérhető lehet vonzó.)

Nem lehet enyhíteni a legtöbb nem-linearitással és elválasztással kapcsolatos problémát, ha spline-t használunk az életkor változójára?Ezzel kapcsolatban elnézést kérek, de nem értem, hogy az "összevont" tervezés miért érvénytelenítené a logisztikai regresszió * megállapításait *.Természetesen a véletlenszerű minta feltételezése eltűnt, de érdekel-e minket, ha ezt a tervezési döntést választjuk?A kiválasztási elfogultságra utal?(Az általad leírt tervezés esetkontroll tanulmánynak tűnik számomra, de lehet, hogy tévedek ...) (Nyilvánvalóan +1)
@usεr11852 Köszönjük figyelmes észrevételeit.Átírtam néhány szövegrészt, hogy tisztázzam az Ön által felvetett pontokat.Bár a kor felosztása képes megbirkózni a nemlinearitással a logisztikai regresszióban, növelheti a teljes elválasztás lehetőségét.Nem tudom, mit ért "összevont tervezés" alatt, de gyanús lennék egy olyan logisztikai regresszió p-értékeinek értelmezésére irányuló erőfeszítésekben, ahol a valószínűségi modell nem igazolható (ezt a véletlenszerű mintavétel teszi lehetővé).
Köszönöm ezeket.Igen, teljes mértékben értékelem a teljes szétválasztásról (Hauck-Donner-effektusok) tett véleményét, nem vettem figyelembe őket.Rendben, értem, mire gondolsz most a két medencéről.Ebben az esetben lenne egy elfogadott megfigyelési tanulmányi koncepciónk (a két medencét megfigyeljük / definiáljuk), ezért kétségtelenül meg kellene találnunk a módját annak ellenőrzésére (hajlam-pontszámok stb.)
Jarle Tufto
2017-07-01 16:30:25 UTC
view on stackexchange narkive permalink

Ez nem igazán válaszol a kérdésre, de mégis érdekes lehet. A két minta $ t $ -teszt standard feltételezése az, hogy a $ X $ feltételes normál eloszlása ​​bináris változót kapott $ Y $, $$ X | Y = i \ sim N (\ mu_i, \ sigma ^ 2). $$ Ez azzal a feltevéssel együtt, hogy $ Y \ sim \ operátornév {bernoulli} (p) $ marginálisan, azt jelenti, hogy az $ Y $ bináris változó feltételes eloszlása ​​adott $ X = x $ \ begin {align} P (Y = 1 | X = x) & = \ frac {f_ {X | Y = 1} (x) P (Y = 1)} {\ sum_ {i = 0} ^ 1 f_ {X | Y = i} (x) P (Y = i) } \\ & = \ frac {pe ^ {- \ frac1 {2 \ sigma ^ 2} (x- \ mu_1) ^ 2}} {pe ^ {- \ frac1 {2 \ sigma ^ 2} (x- \ mu_1) ^ 2} + (1-p) e ^ {- \ frac1 {2 \ sigma ^ 2} (x- \ mu_0) ^ 2}} \\ & = \ frac1 {1+ \ frac {1-p} pe ^ {- \ frac1 {2 \ sigma ^ 2} (x- \ mu_0) ^ 2 + \ frac1 {2 \ sigma ^ 2} (x- \ mu_1) ^ 2}} \\ & = \ operátornév {logit} ^ {- 1} (\ beta_0 + \ beta_1 x) \ end {align} vagyis metszéssel és meredekségű logisztikai regressziós modell \ begin {align} \ beta_0 & = \ ln \ frac p {1-p} - \ frac1 {2 \ sigma ^ 2} (\ mu_1 ^ 2- \ mu_0 ^ 2) \\ \ beta_1& = \ frac1 {\ sigma ^ 2} (\ mu_1- \ mu_0). \ end {igazítás}

Tehát ebben az értelemben a két feltételes modell kompatibilis.

John
2015-06-29 15:06:01 UTC
view on stackexchange narkive permalink

A jobb teszt az, amely jobban megfelel a kérdésednek. Egyik sem jobb az arcán. A különbségek itt ekvivalensek az y-nél x-nél és az x-n y-nél történő regressziónál tapasztaltakkal, és a különböző eredmények okai hasonlóak. Az értékelt variancia attól függ, hogy melyik változót kezeljük válaszváltozóként a modellben.

A kutatási kérdés borzasztóan homályos. Talán, ha megfontolná az oksági irányt, képes lenne arra a következtetésre jutni, hogy melyik elemzést kívánja használni. Az életkor miatt az emberek "igennel" válaszolnak, vagy az "igen" válasz az emberek öregedésére? Valószínűbb, hogy az előbbi, ebben az esetben az "igen" valószínűségének szórása az, amit modellezni kíván, és ezért a logisztikai regresszió a legjobb választás.

Ennek ellenére meg kell vizsgálnia a a teszteket. Ezek megtalálhatók online a wikipédián vagy a rajtuk található tankönyvekben. Könnyen lehet, hogy jó oka van arra, hogy ne hajtsa végre a logisztikai regressziót, és amikor ez megtörténik, előfordulhat, hogy más kérdést kell feltennie.

Arra gondol, hogy "ne hajtsa végre a logisztikai regressziót"?


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...