Maximum Likelihood - Theoriefrage

14.10.2016, 14:16

telli

Maximum Likelihood - Theoriefrage

Meine Frage:
Hallo Leute,

Ich habe da eine, etwas naive, Frage zur Bildung von Schätzfunktionen mittels "Maximum Likelihood" Methode.

Wieso wird die Wahrscheinlichkeit maximiert um den unbekannten Parameter zu finden?
Oder anders ausgedrückt: Wieso ist die Schätzung besser, wenn man den Parameter so wählt, dass die Realisierungen von X (x1,x2,.. usw.) mit höherer Wahrscheinlichkeit in der Stichprobe enthalten sind?

Ich hoffe die Frage ist klar..

Meine Ideen:
Sei X eine Zufallsgrösse mit bekannter Verteilung, S = {x1,x2,x3} eine Stichprobe und t der gesuchte Parameter.

Nun jetzt bilde ich die Likelihood-Funktion:
L=f(x1)*f(x2)*(fx3) wobei f(x) die Dichte/Wahrscheinlichkeitsfunktion ist.
L gibt mir also die Wahrscheinlichkeit dafür, dass x1, x2 UND x3 in der Stichprobe S vorkommen. (bitte korriegiert mich falls ich falsch liege)

Da ja x1, x2, x3 (und alle anderen Parameter ausser t, falls vorhanden) bekannt sind: hängt die Funktion L = L(t) nur noch von t ab.

Jetzt maximieren wir L(t). D.h. wir suchen ein t so dass L für dieses t sein maximum erreicht.. aber WARUM??? Was ist die Begründung dafür, dass t besser geschätzt ist, wenn L möglichst gross ist bzw. x1,x2,x3 mit höherer Wahrscheinlichkeit in S auftreten?

14.10.2016, 14:45

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von telli
Wieso ist die Schätzung besser, wenn man den Parameter so wählt, dass die Realisierungen von X (x1,x2,.. usw.) mit höherer Wahrscheinlichkeit in der Stichprobe enthalten sind?

Etwas holprig formuliert, es geht hier nicht um "in der Stichprobe enthalten sein". unglücklich

Sondern es geht um die Wahrscheinlichkeit der gesamten Stichprobenrealisierung! D.h., für jeden Parameter kann man die Wahrscheinlichkeit der vorliegenden Stichprobenrealisierung berechnen, und das Schätzprinzip beruht nun darauf, dass ein Parameter mit höherer solcher Wahrscheinlichkeit "besser" ist, d.h. dass unter Annahme einer Grundgesamtheitsverteilung mit diesem Parameter das Auftreten dieser Stichprobe plausibler ist. Unter dieser Prämisse ist dann die Maximumsuche die logische Vorgehensweise, um den besten Parameter in diesem Sinne zu finden.

Dass das nicht das ultimative oder überhaupt einzige Kriterium für eine Parameterschätzung ist, sollte angesichts der anderen Schätzmethoden (z.B. Momentenmethode) klar sein. Außerdem lassen solche ML-Schätzer öfters mal auch wichtige andere Eigenschaften vermissen, z.B. Erwartungstreue.

14.10.2016, 15:05

telli

Auf diesen Beitrag antworten »

Danke für die Antwort!

Zitat:

Sondern es geht um die Wahrscheinlichkeit der gesamten Stichprobenrealisierung!

Ja genau, das meinte ich Hammer

Zitat:

und das Schätzprinzip beruht nun darauf, dass ein Parameter mit höherer solcher Wahrscheinlichkeit "besser"

Genau das verstehe ich leider nicht verwirrt

.. wieso darf man das annehmen?

Wieso ist z.B. für

L(x1,x2,x3|t1) = 0.4 und L(x1,x2,x3|t2) = 0.8
t2 die bessere Wahl?

EDIT:
Man kann mit t2 viel eher die Stichprobe {x1,x2,x3} bekommen. Daher ist t2 besser? Kann ich das so sagen?

14.10.2016, 16:19

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von telli
Genau das verstehe ich leider nicht verwirrt

.. wieso darf man das annehmen?

Man macht es einfach und erklärt es zum Schätzprinzip. Da gibt es keine höhere Instanz, die man um Erlaubnis fragen muss. Augenzwinkern