A maximális valószínûségû illesztés célja annak meghatározása, hogy az eloszlás mely paraméterei felelnek meg a legjobban - és általában véve, hogy az említett paraméterek hogyan változhatnak a kovariánsoktól függõen. GLM-ek esetében meg akarjuk határozni néhány exponenciális családeloszlás $ \ theta $ paramétereit, és azt, hogy ezek hogyan függnek egyes kovariánsok $ X $ -tól.
A túlterjedt exponenciális családban előforduló valószínűségi eloszlások esetén az $ $ mu $ garantáltan kapcsolatban áll a kanonikus exponenciális család paraméterével $ \ mathbf {\ theta} $ a kanonikus link függvény, $ \ theta = g (\ mu) $. Akár meghatározhatunk általános képletet a $ g $ -ra, és általában a $ g $ is megfordítható. Ha egyszerűen beállítjuk a $ \ mu = g ^ {- 1} (\ theta) $ és $ \ theta = X \ beta $ értékeket, akkor automatikusan kapunk egy modellt arra vonatkozóan, hogy a $ \ mu $ és $ \ theta $ hogyan változik $ X $ értékkel , függetlenül attól, hogy milyen terjesztéssel van dolgunk, és ez a modell konvex optimalizálással könnyen és megbízhatóan illeszthető az adatokhoz. Matt válasza megmutatja, hogyan működik a Bernoulli-disztribúció, de az igazi varázslat az, hogy a család minden disztribúciójánál működik.
A mód nem élvezi ezeket a tulajdonságokat. Valójában, amint arra a Cliff AB rámutat, lehet, hogy az üzemmódnak nem is van bijektív kapcsolata az elosztási paraméterrel, így a módból való következtetés nagyon korlátozott teljesítményű. Vegyük például a Bernoulli disztribúciót. Módja 0 vagy 1, és a mód ismerete csak azt mondja meg, hogy $ p $, az 1 valószínűsége nagyobb vagy kisebb, mint 1/2. Ezzel szemben az átlag pontosan megmondja, mi a $ p $.
Most, hogy tisztázzuk a kérdés néhány zavart: a maximális valószínûség nem abban áll, hogy megtaláljuk az eloszlás módját, mert a valószínûség nem ugyanaz, mint az eloszlás. A valószínűség magában foglalja a modelleloszlását a képletében, de ezzel véget érnek a hasonlóságok. A $ L (\ theta) $ valószínûségfüggvény a $ \ theta $ paraméterértéket veszi bemenetként, és megmondja, hogy mennyire "valószínû" a teljes adatkészleted , mivel a modelleloszlás $ $ theta $ . A $ f_ \ theta (y) $ modelleloszlás a $ \ theta $ -tól függ, de függvényként beveszi a $ y $ értéket, és megmondja, hogy az adott eloszlásból származó véletlenszerű minta milyen gyakran lesz egyenlő $ y $ -val. A $ L (\ theta) $ maximális értéke és a $ f_ \ theta (y) $ módja nem ugyanaz.
Talán segít meglátni a valószínűség képletét. A $ y_1, y_2, \ ldots, y_n $ IID adatok esetén $$ L (\ theta) = \ prod_ {i = 1} ^ n f_ \ theta (y_i) $$ értéke $ y_i $ mind fixek - ezek az adatok az Ön adataiból. A legnagyobb valószínűség az a $ \ theta $ megtalálása, amely maximalizálja a $ L (\ theta) $ értéket. A disztribúció módjának megtalálásához meg kellene találni azt az $ y $ -ot, amely maximalizálja a $ f_ \ theta (y) $ értéket, amit nem szeretnénk: a $ y $ valószínűség szerint rögzítve van, nem változó.
Tehát a likelihood függvény maximumának megtalálása általában nem azonos a modelleloszlás módjának megtalálásával. (Ez egy másik terjesztés módja, ha objektív Bayesist kérdezel, de ez egy egészen más történet!)