Kérdés:
Bináris osztályozás erősen kiegyensúlyozatlan osztályokkal
LazyCat
2016-09-19 23:39:25 UTC
view on stackexchange narkive permalink

Van egy adatkészletem (jellemzők, bináris kimenet 0 vagy 1), de az 1 elég ritkán fordul elő, így csak a 0 előrejelzésével 70% és 90% közötti pontosságot kapok (az adott adattól függően) Nézem). Az ML módszerek nagyjából ugyanolyan pontosságot adnak nekem, és úgy érzem, ebben a helyzetben alkalmazni kell néhány szabványos módszert, amely javítaná a pontosságot a nyilvánvaló jóslási szabályhoz képest.

Ezt a cikket nagyon hasznosnak találtam a témában: http://www.svds.com/learning-imbalanced-classes/
@J.O'BrienAntognini Ez egy nagyon szép cikk!
Hasznos vita itt: https://stats.stackexchange.com/questions/285231/what-problem-does-oversampling-undersampling-and-smote-solve?r=SearchResults&s=3|0.0000 és https: //stats.stackexchange.com / questions / 283170 / mikor-kiegyensúlyozatlan adat-valóban-probléma a gépi tanulásban
Ez a bejegyzés [itt] (https://stats.stackexchange.com/questions/247871/what-is-the-root-cause-of-the-class-imbalance-problem) nagyon egyértelmű választ ad a _miért_ osztálybeli egyensúlyhiány okaira.problémák.
@StephenG Jelenleg az általad linkelt bejegyzésnek három válasza van.Melyikre hivatkozol?
@Sycorax az első válasz kifejezetten.
Hét válaszokat:
usεr11852
2016-09-20 00:44:13 UTC
view on stackexchange narkive permalink

A hxd1011-nek és Franknek is igaza van (+1). Alapvetően az újramintavételezés és / vagy a költségérzékeny tanulás a két fő módszer az egyensúlyhiányos adatok megkerülésére; harmadik a kernelmódszerek használata, amelyeket néha kevésbé befolyásolhat az osztály egyensúlyhiánya. Hangsúlyozzam, hogy nincs ezüstgolyós megoldás. Definíció szerint van egy osztálya, amelyet nem megfelelően képviselnek a mintái.

A fentiek elmondása után úgy gondolom, hogy a SMOTE és a ROSE algoritmusokat nagyon hasznosnak találja. A SMOTE hatékonyan a $ k $ legközelebbi szomszédok megközelítést alkalmazza a többségi osztály tagjainak kizárására, miközben hasonló módon szintetikus példákat hoz létre a kisebbségi osztályról. A ROSE simított bootstrap módszerrel próbálja becsléseket készíteni a két osztály mögöttes eloszlásairól, és szintetikus példákra mintázza őket. Mindkettő könnyen elérhető R, SMOTE a DMwR csomagban és a ROSE az azonos nevű csomagban. A SMOTE és a ROSE mind az eredetihez képest kisebb képzési adatkészletet eredményez.

Valószínűleg azt állítom, hogy a kiegyensúlyozatlan adatok esetében jobb (vagy kevésbé rossz) mutató használ Cohen's $ k $ és / vagy a vevő működési jellemzőinek görbe alatti területe. Cohen kappaja közvetlenül ellenőrzi a várható pontosságot, az AUC-t, mivel ez az érzékenység és a specificitás függvénye, a görbe érzéketlen a az osztályarányok. Ismét vegye észre, hogy ezek csak olyan mutatók, amelyeket nagy szem só mellett kell használni. Ideális esetben alkalmazkodnia kell az adott problémához, figyelembe véve az Ön esetében a helyes és helytelen osztályozások által elért nyereségeket és költségeket. Megállapítottam, hogy a emelési görbék megtekintése valóban informatív ebben a kérdésben. A mutatójától függetlenül meg kell próbálnia külön tesztet használni az algoritmus teljesítményének felmérésére; pontosan az osztály miatt a kiegyensúlyozatlan túlillesztés még valószínűbb, ezért a mintán kívüli teszt elengedhetetlen.

Valószínűleg a legutóbbi legnépszerűbb cikk az Tanulás az egyensúlyhiányos adatokból címmel, amelyet Ő és Garcia készített. Nagyon szép áttekintést nyújt az általam és más válaszokban felvetett kérdésekről. Ezenkívül úgy gondolom, hogy a Max Kuhn által a caret csomag részeként bemutatott Subampling for Class Imbalances áttekintése kiváló forrás ahhoz, hogy strukturális példát kapjunk arra, hogyan az alul / túl mintavételezés, valamint a szintetikus adat létrehozása mérhet egymással.

A harmadik kissé népszerű (és ismét nem túl megfelelő) mutató a Precízió-visszahívás görbe területe-görbe alatt.[Davis & James, 2006] (https://www.biostat.wisc.edu/~page/rocpr.pdf) tanulmány klasszikusnak számít ebben a kérdésben;Az önéletrajznak jó szála van [is] (http://stats.stackexchange.com/questions/7207).Nemrégiben láttam egy cikket, amelynek címe "[A precíziós-visszahívási terv sokkal informatívabb, mint a ROC-diagram, amikor kiegyensúlyozatlan adatkészletek bináris osztályozóit értékeljük" (http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0118432) ", ezért érdemes ezt is ellenőrizni.
Különböző adatmintavételi technikák python-megvalósításához ajánlom az egyensúlytalanság-tanulás csomagot: https://github.com/scikit-learn-contrib/imbalanced-learn
Nagyon kiegyensúlyozatlan osztályelosztások esetén az AUPRC informatívabb, mint az AUROC.A részletek nem szerepelnek itt, mivel ez egy megjegyzés.Sok forrás közül az egyik [itt] (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4349800/).
Haitao Du
2016-09-19 23:55:20 UTC
view on stackexchange narkive permalink

Először is, az egyensúlyhiányos adatok értékelési mutatója nem lenne pontosság. Tegyük fel, hogy csalást észlel, hogy adatainak 99,9% -a nem csalás. Könnyen elkészíthetünk egy 99,9% -os pontosságú próbabábut. (csak jósoljon minden adatot, ami nem csalás).

Szeretné módosítani az értékelési mutatót pontosságról másra, például F1 pontszám vagy pontosság és visszahívás. A második linkben megadtam. vannak részletek és megérzések arról, hogy a precíziós visszahívás miért fog működni.

Nagyon kiegyensúlyozatlan adatok esetén a modell felépítése nagyon nagy kihívást jelenthet. Játszhat súlyozott veszteség funkcióval vagy csak egy osztály modellezésével. például egy osztályú SVM, vagy illeszkedjen egy többváltozós Gauss-féle kifejezéshez (az általam korábban megadott linkként.)

+1.Szép példa és jó említés az egyosztályú SVM-en.Azt hiszem azonban, hogy a $ F_1 $ -score kissé túl nehézkes, figyelmen kívül hagyva az összes negatívat.
a "pontosság és visszahívás" link nem működik?
Franck Dernoncourt
2016-09-19 23:47:09 UTC
view on stackexchange narkive permalink

Az osztály egyensúlyhiányával kapcsolatos problémák megoldhatók akár költségérzékeny tanulással, akár új mintavétellel. Lásd: a költségérzékeny tanulás előnyei és hátrányai a mintavételhez képest, alább összefoglalva:


{1} felsorolja a költségérzékeny tanulás előnyeit és hátrányait vs. mintavétel:

2.2 Mintavétel

Túl- és alulmintavétellel lehet megváltoztatni a képzési adatok osztályeloszlását, és mindkét módszert alkalmazták az osztályzavarok kezelésére [1, 2, 3, 6, 10, 11]. A képzési adatok osztályeloszlásának megváltoztatása azért segíti a tanulást erősen torzított adathalmazokkal, mert hatékonyan nem egységes téves osztályozási költségeket ró. Például, ha valaki megváltoztatja a képzési készlet osztályeloszlását úgy, hogy a pozitív és negatív példák aránya 1: 1-től 2: 1-ig terjedjen, akkor tulajdonképpen 2: 1 téves osztályozási költségarányt rendelt. Ez az egyenértékűség a képzési adatok osztályeloszlásának megváltoztatása és a téves osztályozási költségarány megváltoztatása között jól ismert, és Elkan hivatalosan leírta [9].

Ismert hátrányok mintavétel alkalmazása a költségérzékeny tanulás megvalósításához. Az alulmintázás hátránya, hogy eldobja a potenciálisan hasznos adatokat . A nézetünk szempontjából a fő hátrány a túlmintavételezéssel az, hogy a meglévő példák pontos másolatának elkészítésével valószínűsíti a túlillesztést . Valójában a túlmintavétellel meglehetősen gyakori, hogy a tanuló osztályozási szabályt állít elő egyetlen, replikált példára. A túlmintázás második hátránya, hogy növeli a képzési példák számát, ezáltal megnő a tanulási idő .

2.3 Miért érdemes használni a mintavételt?

hátrányai a mintavételnek, érdemes megkérdezni, miért használná bárki is költség-érzékeny helyett tanulási algoritmus torz osztályeloszlású és nem egységes téves osztályozási költségekkel rendelkező adatok kezelésére. Ennek több oka is van. A legkézenfekvőbb ok az, hogy nincsenek minden költséges algoritmusok költségérzékeny megvalósításai , ezért az egyetlen lehetőség a mintavételt használó átfogó alapú megközelítés. Bár ez ma már kevésbé igaz, mint a múltban, sok tanulási algoritmus (pl. C4.5) még mindig nem kezeli közvetlenül a költségeket a tanulási folyamatban.

A mintavétel használatának második oka, hogy sok erősen torzított adatkészlet óriási, és a képzési készlet méretét csökkenteni kell a tanulás megvalósíthatósága érdekében. Ebben az esetben az alulmintavétel ésszerű és érvényes stratégiának tűnik. Ebben a cikkben nem vesszük figyelembe a képzési készlet méretének csökkentésének szükségességét. Rámutatunk azonban arra, hogy ha el kell vetni néhány képzési adatot, akkor is előnyös lehet a többségi osztály példáinak elvetése annak érdekében, hogy a képzési készlet méretét a kívánt méretre csökkentse, majd költségköltséget is alkalmazzon. érzékeny tanulási algoritmus, így az eldobott képzési adatok mennyisége minimálisra csökken.

A végső ok, amely hozzájárulhatott a mintavétel használatához, nem pedig a költség-érzékeny tanulási algoritmushoz, az az, hogy a téves osztályozási költségek gyakran nem ismertek. Ez azonban nem megfelelő ok a mintavétel költségérzékeny tanulási algoritmuson történő alkalmazására, mivel a mintavétel során felmerül a hasonló kérdés - mi legyen a végső képzési adatok osztályeloszlása? Ha ez a költséginformáció nem ismert, akkor olyan osztályt lehet használni, mint az ROC görbe alatti terület az osztályozó teljesítményének mérésére, és mindkét megközelítés empirikusan meghatározhatja a megfelelő költségarányt / osztályeloszlást.

Kísérleteket is végeztek, amelyek nem voltak meggyőzőek:

Az összes adatsor eredményei alapján nincs végleges győztes a költségérzékeny tanulás, a túlmintavétel és az alaminta vétele között. azt is megjegyezzük, hogy a SMOTE néhány fejlesztést hozhat:

Az emberek számos olyan fejlesztést hajtottak végre, amelyek javítják a mintavétel hatékonyságát. Néhány ilyen fejlesztés magában foglalja az új „szintetikus” példák bevezetését a túlmintavételezéskor [5 -> SMOTE], a kevésbé hasznos többségi osztályú példák törlését az alulmintavételezéskor [11] és több alminta használatát, ha az almintavételezésnél az egyes példákat legalább egynél használják. részminta [3]. Bár ezeket a technikákat összehasonlították a túl- és az almintavétellel, általában nem hasonlították össze a költségérzékeny tanulási algoritmusokkal. Ezt érdemes lenne tanulmányozni a jövőben.


{1} Weiss, Gary M., Kate McCarthy és Bibi Zabar. "Költségérzékeny tanulás és mintavétel: melyik a legjobb a kiegyensúlyozatlan osztályok kezeléséhez, egyenlőtlen hibaköltséggel?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=hu&as_sdt=0,22; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf

Tehát összefoglalva a linket: vannak olyan eredmények, amelyek szerint a módszer jobb, nem meggyőzőek, és könnyebb használni az alul / túl mintavételt.Jobb?
AilibzoktxCMT jobbra.
Igen, a platformnak vannak korlátai.De sok közülük szintén jellemző.Például azt feltételezem, hogy ha egy ilyen hosszú, részletes válasz adhat megfelelő választ két kérdésre, * akkor ezeknek a kérdéseknek duplikátumoknak kell lenniük.úgy, hogy ne csak másolatokat illesszenek be.Milyen lépéseket kell tenni ebben az esetben?(cc @gung)
@whuber A másik kérdés már lezárult :-)
Oké - ez meggyőző érv!
Mike Hunter
2016-09-20 00:15:19 UTC
view on stackexchange narkive permalink

A lekérdezésre adott számos válasz már többféle megközelítést adott, amelyek érvényesek. Ez a javaslat Gary King, a Harvard jeles politológusának tanulmányából és a hozzá tartozó szoftverből származik. Társszerzője egy Logisztikai regresszió a ritka események adataiban címmel, amely meglehetősen meggyőző megoldásokat nyújt.

Íme az absztrakt:

Mi a ritka események adatait, a binárisan függő változókat, több tucat-ezerszer kevesebbel (események, például háborúk, vétók, politikai aktivizmus esetei vagy epidemiológiai fertőzések), mint nulla ("nem események"). Számos szakirodalomban ezek a változók nehezen magyarázhatók és megjósolhatók, ez a probléma úgy tűnik, hogy legalább két forrásból áll. Először is, a népszerű statisztikai eljárások, például a logisztikai regresszió, élesen alábecsülhetik a ritka események valószínűségét. Javasoljuk azokat a korrekciókat, amelyek felülmúlják a meglévő módszereket, és az abszolút és relatív kockázatok becsléseit annyival megváltoztatják, mint az irodalomban közölt néhány becsült hatás. Másodszor, a gyakran használt adatgyűjtési stratégiák rendkívül ritkák a ritka események adataihoz. A túl kevés eseménytől való adatgyűjtéstől való félelem hatalmas számú megfigyeléssel, de viszonylag kevés és rosszul mért magyarázó változóval járó adatgyűjtésekhez vezetett, például a több mint negyedmillió diadával rendelkező nemzetközi konfliktusadatokban, amelyek közül csak néhány háborúban vannak. Mint kiderült, hatékonyabb mintavételi tervek léteznek érvényes következtetések megtételéhez, például az összes változó esemény (pl. Háborúk) és a nem események apró töredékének (béke) mintavételéhez. Ez lehetővé teszi a tudósok számára, hogy (nem javított) adatgyűjtési költségeik akár 99% -át megtakarítsák, vagy sokkal értelmesebb magyarázó változókat gyűjtsenek össze. Olyan módszereket kínálunk, amelyek összekapcsolják ezt a két eredményt, lehetővé téve mindkét típusú korrekció egyidejű működését, valamint olyan szoftvert, amely megvalósítja a kidolgozott módszereket.

Itt található egy link a cikkre ... http://gking.harvard.edu/files/abs/0s-abs.shtml

Köszönöm, - ha elolvassa a cikket, javasolnak-e valami fontosat a fent javasolt alulmintavételen túl?
Ez egy jó papír, nem egyszer olvastam!(+1) Azt hiszem, bár meg kell említenie, hogy a lapot a következtetés is érdekli.Ezért lenne egy GBM kevésbé hasznos egy politológus számára a GLM-hez képest.Például, ha fa-módszertanokat használnak: "* ... két rekurzív particionáló algoritmus elérheti ugyanazt az előrejelzési pontosságot, ugyanakkor strukturálisan eltérő regressziós összefüggéseket, azaz különböző modelleket képviselhet, és így különböző következtetésekhez vezethet abizonyos kovariánsok hatása a válaszra. * "(Hothorn et al. 2006)
Frank Harrell
2020-07-15 17:23:27 UTC
view on stackexchange narkive permalink

Nem kell egyetértenem a válaszokkal.Az eredeti probléma egyáltalán nem megfelelő a besoroláshoz, de a tendenciák elemzését kéri.Lásd: http://fharrell.com/post/classification

A feladat, mint osztályozási feladat helytelen továbbítása az, ami annyi munkát okozott mindenkinek, és érvénytelen statisztikai módszereket vetett figyelembe, amelyek értékes adatokat vetnek el.

További vita ebben a tekintetben itt található: https://stats.stackexchange.com/questions/285231/what-problem-does-oversampling-undersampling-and-smote-solve?r=SearchResults&s=3|0.0000 és https: //stats.stackexchange.com/questions/283170/when-is-unbalanced-data-really-a-problem-in-machine-learning
Ne akarj vitatkozni a szemantikáról, de ha helyesen olvastam a linkelt bejegyzést, akkor alapvetően a valószínűségi válaszok mellett érvelsz.Ez rendben van, de még mindig ugyanaz a probléma áll fenn: figyelembe veheti a pozitív eredmények teljes részét, és elég nehéz lesz felülmúlni ezt a valószínűségi előrejelzést.
Egyáltalán nem, és ez nem szemantika.Ha egy módszer teljes mértékben tiszteletben tartja a bizonytalanságot, akkor nem próbálja meg használni a "pozitív" kifejezést, és nem lesz "hamis pozitívja".Gondoljon az esőzési előrejelzésekre és a hitelkockázati pontozásra, valamint a sportfogadásra (ez utóbbi az esélyek (konvertált valószínűségek) és nem a „nyertesek” besorolása alapján készül).
rodrigo
2016-09-20 00:27:37 UTC
view on stackexchange narkive permalink

A kiegyensúlyozatlan osztályú adatkészletek osztályozóinak fejlesztése általános probléma a gépi tanulásban. A sűrűség alapú módszereknek jelentős előnyei lehetnek a "hagyományos osztályozókkal" szemben ilyen helyzetben.

A sűrűség-alapú módszer becsüli az ismeretlen sűrűséget $ \ hat {p} (x | y \ C-ben) $, ahol a $ C $ a domináns osztály (Példádban $ C = \ {x: y_i = 0 \} $).

Miután betanított egy sűrűségbecslést, megjósolhatja annak valószínűségét, hogy egy nem látható tesztrekord $ x ^ * $ tartozik-e ehhez a sűrűségbecsléshez. Ha a valószínűség elég kicsi, kevesebb, mint egy meghatározott küszöb (általában egy validációs szakaszban érhető el), akkor $ \ hat {y} (x ^ *) \ notin C $, különben $ \ hat {y} (x ^ *) \ in C $

Hivatkozhat a következő cikkre:

"A minimális mennyiségi készletek kiszámítható plug-in becslője az újdonságok felderítésére", C. Park, J. Huang és Y. Ding, Operations Research, 58 (5), 2013.

DrMcCleod
2016-09-20 16:10:48 UTC
view on stackexchange narkive permalink

Ez az a fajta probléma, ahol az Anomáliadetektálás hasznos megközelítés. Alapvetően ezt írta le válaszában Rodrigo, amelyben meghatározza az edzésosztály statisztikai profilját, és meghatároz egy valószínűségi küszöböt, amelyen túl azt határozzák meg, hogy a jövőbeni mérések nem tartoznak ebbe az osztályba. Itt van egy videó bemutató, aminek el kell kezdenie. Miután ezt felismerte, javasoljuk, hogy keresse meg a Kernel Density Estimation elemet.

A link halott.Meg tudja újítani, ha a videó még mindig létezik valahol a YouTube-on?
@andreyuhai Link frissítve.
_A rendellenességek észlelése_ a kifejezés használata során bebizonyosodhat, hogy nem felel meg az optimális döntéshozatalnak.A valószínűségi küszöb illuzórikus.
@frankharrell Ez egy érdekes megállapítás, milyen módon illuzórikus a valószínűségi küszöb?
Mivel senki nem fog megállapodni abban, hogy mi lenne a küszöb, és mivel a küszöbértéknek a várható hasznosság optimalizálásán kívüli más alapon történő meghatározása ellentmond az optimális döntéshozatalnak.
@frankharrell ah igen, teljesen igaz, a hamis pozitív és a hamis negatív között mindenképpen optimalizálni kell, amely attól függ, hogy az ilyen hibák mennyibe kerülnek.
Mit jelent a "pozitív"?
@frankharrell Ebben az esetben egy olyan fizikai eszközre gondoltam, ahol a mért anomália hibát jelent.A hamis pozitív jelentett hiba egy működő eszközön.
Azt hiszem, meg fogja találni, hogy egy olyan készülék, amely hőmérő típusú, folyamatos kockázatkijelzéssel rendelkezik, hasznosabb lesz azoknak a döntéshozóknak, akiknek a napi helyzettől függően eltérő kockázati küszöbök vannak.


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...