Az osztály egyensúlyhiányával kapcsolatos problémák megoldhatók akár költségérzékeny tanulással, akár új mintavétellel. Lásd: a költségérzékeny tanulás előnyei és hátrányai a mintavételhez képest, alább összefoglalva:
{1} felsorolja a költségérzékeny tanulás előnyeit és hátrányait vs. mintavétel:
2.2 Mintavétel
Túl- és alulmintavétellel lehet megváltoztatni a képzési adatok osztályeloszlását, és mindkét módszert alkalmazták az osztályzavarok kezelésére [1, 2, 3, 6, 10, 11]. A képzési adatok osztályeloszlásának megváltoztatása azért segíti a tanulást erősen torzított adathalmazokkal, mert hatékonyan nem egységes téves osztályozási költségeket ró. Például, ha valaki megváltoztatja a képzési készlet osztályeloszlását úgy, hogy a pozitív és negatív példák aránya 1: 1-től 2: 1-ig terjedjen, akkor tulajdonképpen 2: 1 téves osztályozási költségarányt rendelt. Ez az egyenértékűség a képzési adatok osztályeloszlásának megváltoztatása és a téves osztályozási költségarány megváltoztatása között jól ismert, és Elkan hivatalosan leírta [9].
Ismert hátrányok mintavétel alkalmazása a költségérzékeny tanulás megvalósításához. Az alulmintázás hátránya, hogy eldobja a potenciálisan hasznos adatokat . A nézetünk szempontjából a fő hátrány a túlmintavételezéssel az, hogy a meglévő példák pontos másolatának elkészítésével valószínűsíti a túlillesztést . Valójában a túlmintavétellel meglehetősen gyakori, hogy a tanuló osztályozási szabályt állít elő egyetlen, replikált példára. A túlmintázás második hátránya, hogy növeli a képzési példák számát, ezáltal megnő a tanulási idő .
2.3 Miért érdemes használni a mintavételt?
hátrányai a mintavételnek, érdemes megkérdezni, miért használná bárki is költség-érzékeny helyett
tanulási algoritmus torz osztályeloszlású és nem egységes téves osztályozási költségekkel rendelkező adatok kezelésére. Ennek több oka is van. A legkézenfekvőbb ok az, hogy nincsenek minden költséges algoritmusok költségérzékeny megvalósításai , ezért az egyetlen lehetőség a mintavételt használó átfogó alapú megközelítés. Bár ez ma már kevésbé igaz, mint a múltban, sok tanulási algoritmus (pl. C4.5) még mindig nem kezeli közvetlenül a költségeket a tanulási folyamatban.
A mintavétel használatának második oka, hogy sok erősen torzított adatkészlet óriási, és a képzési készlet méretét csökkenteni kell a tanulás megvalósíthatósága érdekében. Ebben az esetben az alulmintavétel ésszerű és érvényes stratégiának tűnik. Ebben a cikkben nem vesszük figyelembe a képzési készlet méretének csökkentésének szükségességét. Rámutatunk azonban arra, hogy ha el kell vetni néhány képzési adatot, akkor is előnyös lehet a többségi osztály példáinak elvetése annak érdekében, hogy a képzési készlet méretét a kívánt méretre csökkentse, majd költségköltséget is alkalmazzon. érzékeny tanulási algoritmus, így az eldobott képzési adatok mennyisége minimálisra csökken.
A végső ok, amely hozzájárulhatott a mintavétel használatához, nem pedig a költség-érzékeny tanulási algoritmushoz, az az, hogy a téves osztályozási költségek gyakran nem ismertek. Ez azonban nem megfelelő ok a mintavétel költségérzékeny tanulási algoritmuson történő alkalmazására, mivel a mintavétel során felmerül a hasonló kérdés - mi legyen a végső képzési adatok osztályeloszlása? Ha ez a költséginformáció nem ismert, akkor olyan osztályt lehet használni, mint az ROC görbe alatti terület az osztályozó teljesítményének mérésére, és mindkét megközelítés empirikusan meghatározhatja a megfelelő költségarányt / osztályeloszlást.
Kísérleteket is végeztek, amelyek nem voltak meggyőzőek:
Az összes adatsor eredményei alapján
nincs végleges győztes a költségérzékeny tanulás, a túlmintavétel és az alaminta vétele között. azt is megjegyezzük, hogy a SMOTE néhány fejlesztést hozhat:
Az emberek számos olyan fejlesztést hajtottak végre, amelyek javítják a mintavétel hatékonyságát. Néhány ilyen fejlesztés magában foglalja az új „szintetikus” példák bevezetését a túlmintavételezéskor [5 -> SMOTE], a kevésbé hasznos többségi osztályú példák törlését az alulmintavételezéskor [11] és több alminta használatát, ha az almintavételezésnél az egyes példákat legalább egynél használják. részminta [3]. Bár ezeket a technikákat összehasonlították a túl- és az almintavétellel, általában nem hasonlították össze a költségérzékeny tanulási algoritmusokkal. Ezt érdemes lenne tanulmányozni a jövőben.
{1} Weiss, Gary M., Kate McCarthy és Bibi Zabar. "Költségérzékeny tanulás és mintavétel: melyik a legjobb a kiegyensúlyozatlan osztályok kezeléséhez, egyenlőtlen hibaköltséggel?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=hu&as_sdt=0,22; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf