Bedingte Wahrscheinlichkeit - Definition?

Neue Frage »

Mathespezialschüler Auf diesen Beitrag antworten »
Bedingte Wahrscheinlichkeit - Definition?
Hallo!
Ich hab mir jetzt in den Ferien mal eine Einführung in die Stochastik zur Hand genommen und mich mal eingelesen.
Die Wahrscheinlichkeitsrechnung wurde dort auch axiomatisch aufgebaut, und zwar mit den Kolmogoroff-Axiomen, die einigen ja vll bekannt sein dürften. Ich hab jetzt eine Frage zur bedingten Wahrscheinlichkeit.
Sie wird ja definiert durch die Gleichung . In dem Buch heißt auch "die bedingte Wahrscheinlichkeit von A unter der Bedingung B."
Dort wird diese Definition zwar motiviert durch Betrachtung von relativen Häufigkeiten, aber da sich ja nur auf die Kolmogoroff-Axiome bezogen werden darf, erhebt man das dann zur Definition.
Ich habe ein paar Probleme mit dieser Definition und dem Axiomensystem an sich, nämlich:

1. In Beispielen wird die Wahrscheinlichkeit für ein Ereignis A angegeben, unter der Voraussetzung, dass ein anderes Ereignis B schon eingetreten ist und dieses wird dann mit identifiziert. Für Berechnungen wird dann die obige Gleichung ohne Bedenken benutzt. Aber das kan doch so nicht angehen! Die bed. Wahrscheinlichlkeit ist doch durch die Gleichung oben definiert. Wer sagt denn, dass sie die Wahrscheinlichkeit dafür angibt, dass A eintritt, wenn B schon eingetreten ist? MMn müsste man entweder sagen, man definiert die bed. Wahrscheinlichkeit durch die obige Gleichung und folgert (mit einem Beweis) dann, dass die Wahrscheinlichkeit dafür angibt, dass A eintritt, wenn B schon eintrat oder man macht es andersherum und definiert als die Wahrscheinlichkeit dafür, dass A eintritt, wenn B schon eingetreten ist und folgert dann daraus (wiederum durch einen Beweis), dass



gilt. Aber so, wie es im Buch gemacht ist, wird der Begriff doch doppelt definiert, was nicht gemacht werden darf, auch wenn die Definitionen äquivalent sind (denn letzteres muss ja erst gezeigt werden).
Wie seht ihr das, vor allem jmd., der vll schon viel Erfahrung damit hat? Es mag ja sein, dass das Kolmogoroff-Axiomensystem es nicht zulässt, dass man beweisen kann, dass die eine Sache aus der anderen folgt, weil in diesem System die Wahrscheinlichkeiten nicht über die relativen Häufigkeiten definiert sind, aber so geht es mMn trotzdem nicht.

2. Anknüpfend an den letzten Satz, will ich sagen, dass ich finde, dass das Kolmogoroff-System zu abstrakt ist. Wenn man die Definitionsgleichung der bed. Wahrscheinlichkeit umstellt, dann sehe ich, dass es ja eigentlich nichts anderes als die erste Pfadregel ist. Letztere ist für mich etwas sehr triviales. Wahrscheinlich ist sie bei Definition der Wahrscheinlichkeit über relative Häufigkeiten auch "beweisbar". Und es will nicht in meinen Kopf rein, was daran eine Definition sein soll. Das ist doch ein Satz oder nicht? Und wenn er im Kolmogoroff-System nicht beweisbar ist, warum wird er dann nicht als Axiom formuliert? Mir kommt das als Definition völlig unpassend vor! Wie gesagt, ich finde diese Pfadregel ja ganz trivial, ein weiterer Grund, es als Axiom zu formulieren, wenn es schon nicht beweisbar ist. Also, ich frage mich:
Warum ist das eine Definition?

3. Das Kolmogoroff-System leistet doch gar nicht das, was man sich wünscht oder? Zumindest nicht das, was ich mir wünschen würde. Nehmen wir einmal das Würfel werfen. Dann ist ja

.

Wir könnten ja jetzt einfach sagen

,

,



,

.

Diese Wahrscheinlichkeitsverteilung genügt doch auf jeden Fall den Kolmogoroff-Axiomen. Aber es genügt doch nicht unserer "Anschauung". So etwas würden wir doch niemals als Wahrscheinlichkeitsverteilung für einen (fairen) Würfel "zulassen". Das Axiomensystem mag ja ganz gut sein, aber dort kommt doch jede Wahrscheinlichkeitsverteilung in Frage, die diesen Axiomen genügt, auch wenn sie noch so unrealistisch ist. Und das erwarte ich von einem Axiomensystem eher nicht! unglücklich Ihr etwa?

Wäre schön, wenn sich jmd. dazu äußern würde! Augenzwinkern

Gruß MSS
bil Auf diesen Beitrag antworten »

hi...
http://de.wikipedia.org/wiki/Wahrscheinlichkeitstheorie
vielleicht hilft dir das weiter...
Leopold Auf diesen Beitrag antworten »

Die prinzipielle Schwierigkeit bei vielen Aufgaben zur Wahrscheinlichkeitsrechnung ist, daß der Lösende zu jeder Aufgabe erst den passenden Wahrscheinlichkeitsraum definieren muß. Also: Welches ist angemessen? Das ist gewissermaßen ein vor-mathematischer Vorgang, vielleicht sollte man besser sagen: ein vor-axiomatischer Vorgang. Das soll heißen: Mathematisch beweisbar ist das nicht, höchstens plausibel. Wenn du also von einem "realen" (!) fairen Würfel sprichst, so entspricht diesem nach allgemeiner Auffassung ein "axiomatischer" (!) fairer Würfel (ein sogenannter Laplace-Würfel) mit



Aber: Beweisen kann das niemand! Der Übergang

Realität -> Modell
realer Würfel -> axiomatischer Würfel

ist immer nur mit dem "gesunden Menschenverstand" zu bewältigen, niemals durch die Mathematik.

Letzten Endes ist das nichts anderes, als wenn du den Flächeninhalt einer "realen" (!) Tischplatte berechnen sollst. Als Modell dafür dient nach allgemeiner Auffassung ein "axiomatisches" (!) Rechteck. Auch hier kann niemand den Übergang

Realität -> Modell
reale Tischplatte -> axiomatisches Rechteck

beweisen - es ist einfach nur "vernünftig", dies anzunehmen.
Und es kann durchaus sein, daß jemand anderer für dieselbe Tischplatte ein anderes Modell zugrundelegt, weil er bei genauerer Betrachtung feststellt, daß die reale Tischplatte abgerundete Ecken hat, so daß er vielleicht, weil es ihm darauf ankommt, das folgende Modell passender findet:

Realität -> Modell
reale Tischplatte -> axiomatisches kreisbogenabgerundetes Rechteck

Er muß hier also auf der mathematischen Seite, weil Kreisstücke im Spiel sind, mit komplexeren Formeln rechnen.
Einem dritten kommt es gar auf die Feinstruktur des Randes an, so daß er womöglich ein fraktales Modell für die Tischplatte vorgibt:

Realität -> Modell
reale Tischplatte -> fraktales "Rechteck"

Derselbe Tisch, aber unterschiedliche Modelle zur Berechnung!

Und vielleicht ist für den konkret vor dir liegenden realen Würfel das Modell









in Wahrheit besser geeignet als der Laplace-Ansatz.

Was das Kolmogorowsche Axiomensystem angeht, so hast du die wunde Stelle genau herausgefunden, nämlich die Sache mit den bedingten Wahrscheinlichkeiten. Zwar kann man bedingte Wahrscheinlichkeiten, unbedingte gegeben, definieren, bei konkreten Anwendungen sind aber oft bedingte Wahrscheinlichkeiten gegeben und unbedingte zu berechnen. Es gibt in der Wahrscheinlichkeitsrechnung auch Ansätze, abseits des Kolmogorow-Systems die Axiomatik auf bedingte Wahrscheinlichkeiten zu gründen (Renyi). Man kann sich das aber auch im Kolmogorow-System immer zurechtbiegen, wenn es auch von der Modellbildung her nicht ganz befriedigend ist. Nehmen wir nämlich an, daß von zwei Ereignissen die Rede ist, ohne daß ausdrücklich irgendwo genannt wird, dann kann man immer so tun, als ob



zugrundeläge und als ob die Ereignisse durch



definiert wären. Die Verteilung






leistet dann das Gewünschte, wenn



vorgegeben sind. Du kannst dir das an einem Baum klarmachen. Etwas anderes steckt nämlich nicht dahinter.
AD Auf diesen Beitrag antworten »

Durch die Definition mit definiert man auf dem Teilraum eine Ereignisfunktion, die selbst wiederum die Eigenschaften eines Wahrscheinlichkeitsmaßes hast. Ist überdies ein Laplacescher W-Raum, so ist die Einschränkung genau dann auch ein Laplaceraum, falls auf gilt. (Wohlgemerkt gilt i.a. nicht , weil einen anderen Definitionsbereich hat, nämlich .)

Diese Äquivalenz ist gewissermaßen die Rechtfertigung für genau diese mathematisch erfolgte Definition der bedingten Wahrscheinlichkeit.

Zur Sprechweise: Dieses "Wahrscheinlichkeit, wenn ... eintritt" ist dann nur die sprachliche Umsetzung dieses anderen Wahrscheinlichkeitsmaßes , welches sorgfältig vom übergeordneten zu trennen ist.

Auch der Unabhängigkeitsbegriff, der meist rein formal zwar über eingeführt wird, erhält hier einen Sinn: A und B sind nämlich genau dann unabhängig, falls gilt. Oder in Worten:
Ob man es im allgemeinen Kontext betrachtet, oder im besonderen wo B eingetreten ist: Die Wahrscheinlichkeit, dass A eintritt, ist jeweils dieselbe. In diesem Sinne ist dann das A auch sprachlich von (dem Eintreten oder Nichteintreten von) B "unabhängig".
Mathespezialschüler Auf diesen Beitrag antworten »

Erstmal danke für eure Antworten!
@Leopold
Bei meinem dritten Punkt habe ich wohl das falsche kritisiert. Oder ich habe mich nur falsch ausgedrückt. Ich meine folgendes:
Man kann doch die Wahrscheinlichkeit auch als Grenzwert der relativen Häufigkeiten eines Zufallsexperiments "definieren" mithilfe des empirischen Gesetzes der großen Zahlen. In einem anderen Buch steht folgendes:
"Jedem Ergebnis eines Zufallsversuchs lässt sich eine Zahl zuordnen, sodass der Unterschied fast immer beliebig klein wird, wenn n nur genügend groß ist."
Und nun wird als Wahrscheinlichkeit von definiert. Klar ist das bei einem axiomatischen Aufbau nicht haltbar wegen des "fast immer", aber zumindest hätten wir so bei einem fairen Würfel z.B. doch die Möglichkeit, das mathematisch zu beweisen und nicht nur durch gesunden Menschenverstand zu übertragen. Verstehst du, was ich meine?
Zitat:
Original von Leopold
Man kann sich das aber auch im Kolmogorow-System immer zurechtbiegen, wenn es auch von der Modellbildung her nicht ganz befriedigend ist.
...

Hhhm, ich verstehe nicht ganz, was das soll. Der Baum ist klar, aber was biegt man sich denn damit zurecht? Letztendlich ist das doch dann wieder die gleiche Definition oder nicht?
Und wenn man es sich schon so zurechtbiegt, warum nimmt man es denn bei dem Kolmogorowschen Axiomensystem nicht einfach noch als Axiom auf? Warum nicht Axiom, sondern Definition? Aus den anderen Axiomen kann es ja anscheinend sowieso nicht gefolgert werden.

@Arthur
Dass selbst wieder eine Wahrscheinlichkeit ist, weiß ich auch schon, aber den Rest, den du schreibst, verstehe ich nicht ganz.
Wenn ich das richtig verstanden habe, willst du damit begründen, warum die mathematische Definition der bedingten Wahrscheinlichkeit der des gesunden Menschenverstands entspricht, richtig?
Allerdings bin ich ja eher Neuling in der Stochastik und ich wusste bis eben noch nicht, was die Schreibweise bedeuten soll. Bei wiki stand, dass das Symbol in der Mitte immer den Ereignisraum darstellt. Aber ich weiß immer noch nicht, was bedeutet. Kannst du mir das dann mal erklären und vielleicht auch die drei Zeilen etwas ausführen, damit ich's verstehe Augenzwinkern

Gruß MSS
AD Auf diesen Beitrag antworten »

Entschuldige, mit ist die Potenzmenge von gemeint. Für endliche oder abzählbar unendliche kann man o.B.d.A. immer diese Ereignisalgebra annehmen, andernfalls kann man "verkleinern". Für überabzählbare sieht die Situation schon völlig anders aus (siehe Maßtheorie).
 
 
Mathespezialschüler Auf diesen Beitrag antworten »

Zitat:
Original von Arthur Dent
Durch die Definition mit definiert man auf dem Teilraum eine Ereignisfunktion, die selbst wiederum die Eigenschaften eines Wahrscheinlichkeitsmaßes hast. Ist überdies ein Laplacescher W-Raum, so ist die Einschränkung genau dann auch ein Laplaceraum, falls auf gilt. (Wohlgemerkt gilt i.a. nicht , weil einen anderen Definitionsbereich hat, nämlich .)

Diese Äquivalenz ist gewissermaßen die Rechtfertigung für genau diese mathematisch erfolgte Definition der bedingten Wahrscheinlichkeit.

Hi Arthur. Ich wollt fragen, ob du mir das nicht nochmal genauer erklären könntest? Also, ich kann ja nicht behaupten, dass ich diesen Bereich gut überblicken würde. Also, kannst du mir die Äquivalenz mal genauer erklären und was das mit dem auf sich hat, also wann das gilt etc. Vielleicht geht es ja auch mit einem Beispiel? Und warum ist das dann genau die Rechtfertigung für die mathematische Definition der Bedingten Wahrscheinlichkeit, damit sie "äquivalent" zu der sprachlich formulierten?

Wär schön, wenn du das etwas erklären könntest! Augenzwinkern

Gruß MSS
AD Auf diesen Beitrag antworten »

Erklären... verwirrt

Mal ein Beispiel: Dreimaliges Werfen mit einem ungezinkten Würfel

Das ist ein Laplacescher W-Raum, beschrieben durch



Soweit so gut. Nun wählen wir irgendein Ereignis , z.B.

... der erste Wurf ist eine 5

Dann ist natürlich



und wir können auf als eigenem Raum auch irgendein Wahrscheinlichkeitsmaß betrachten. Wenn es aber zu dem W-Maß auf passen soll, d.h. bezüglich der Augenzahlen von nunmehr nur zweiten und dritten Wurfs Laplacesch sein soll

,

dann entspricht das zwangsläufig der Variante



Dieses , was ja nur für Teilmengen von definiert ist kann man nun als Einschränkung (d.h. kleinerer Definitionsbereich) des für alle Teilmengen von definierten W-Maßes



auffassen. Das ist die eine, schwierigere Richtung der Äquivalenz. Die andere ist leichter: Ausgehend von einem Laplace-W-Maß P kann man gemäß



leicht die Laplace-Eigenschaft von P' zeigen.
Mathespezialschüler Auf diesen Beitrag antworten »

Zitat:
Original von Arthur Dent
Erklären... verwirrt

Ich hab mir schon fast gedacht, dass du so reagierst! Augenzwinkern
Danke, dass du's trotzdem versucht hast!
Das Beispiel macht mir das etwas klarer, aber ich denke, es fehlt immer noch irgendwie der Überblick, um das im Ganze verstehen zu können. Allerdings verwirren mich die Definitionsbereiche noch etwas:
Zitat:
Original von Arthur Dent
(Wohlgemerkt gilt i.a. nicht , weil einen anderen Definitionsbereich hat, nämlich .)

Im Allgemeinen bedeutet hier doch sozusagen "fast immer", nämlich immer dann, wenn ist oder? Die Äquivalenzaussage bezieht sich jetzt aber nur auf , richtig?
Und bei der schwierigeren Richtung: In dem Beispiel hast du es ja jetzt schon gezeigt, weil für gilt. Ist es denn im allgemeinen Fall so schwierig?
Und zur Rechtfertigung: Gilt das als Rechtfertigung, weil man sich denkt, dass die Elementarereignisse immer noch gleiche Wahrscheinlichkeiten besitzen, auch wenn B schon eingetreten ist? (mit "gleich" meine ich, dass die Elementarereignisse untereinander alle gleiche Wahrscheinlichkeiten haben, wobei sich ihre Wahrscheinlichkeiten, bezogen auf B, natürlich von den Wahrscheinlichkeiten, bezogen auf , unterscheiden können)
Übrigens: Was ist im allgemeineren Fall eines Nicht-Laplaceraums? Da gilt ja anscheinend nicht eine ähnliche Äquivalenz.
Übrigens: Nachdem ich den Beitrag geschrieben hab und das alles nochmal durchgelesen habe, bin ich der Meinung, dass ich doch etwas mehr verstehe.

Gruß MSS
AD Auf diesen Beitrag antworten »

Naja, du hast ja gemerkt: Die langen "philosophischen" Erklärungen sind meine Sache nicht...

Aber damit keine falscher Eindruck entsteht: Das mit den Laplaceschen W-Räumen sollte nur als Illustration dienen, dass die Definition der bedingten Wkt zumindest in diesem wichtigen Anwendungsfall durchaus "natürlich" erfolgt.

Übrigens gibt es bedingte Wktn in diversen überabzählbaren Räumen durchaus auch, falls ist. Die Definition dieser Wkt ist dann aber um einiges komplizierter, zudem ist sie nur noch "fast überall" (da ist es wieder!) eindeutig definiert. Näheres dazu gibt es in der Maßtheorie zu erfahren, Satz von Radon-Nikodym.
Mathespezialschüler Auf diesen Beitrag antworten »

Zitat:
Original von Arthur Dent
Aber damit keine falscher Eindruck entsteht: Das mit den Laplaceschen W-Räumen sollte nur als Illustration dienen, dass die Definition der bedingten Wkt zumindest in diesem wichtigen Anwendungsfall durchaus "natürlich" erfolgt.

Also gilt im allgemeinen Fall doch etwas ähnliches, ja?
Dank dir auf jeden Fall für deine Ausführungen! Freude

Gruß MSS
Leopold Auf diesen Beitrag antworten »

Dein Problem sind nicht die Definitionen, sondern das Zusammenspiel zwischen realem Experiment und Modell. Deswegen helfen dir auch Arthurs Erklärungen hier nicht weiter ("Er suchte Verständnis - und man antwortete ihm mit einer Definition."). Das ist in der Wahrscheinlichkeitsrechnung auch nicht einfach zu verstehen, weil viele Bücher dauernd hin- und herschwanken zwischen heuristischen Begriffen aus der Alltagssprache und mathematischen Fachbegriffen aus dem Modell. Und es kann durchaus sein, daß, wenn derselbe Begriff in einem Satz zweimal vorkommt, er vorne etwas anderes meint als hinten.

Wenn man in der 11. Klasse die Differentialrechnung einführt, arbeitet man zur Motivation mit dem Tangentenbegriff. Dabei unterstellt man, daß die Schüler aus ihrer Erfahrung (z.B. bei Kreisen) wissen - ich sollte eher sagen: fühlen -, was eine Tangente ist. Denn der Begriff "Tangente" ist zu diesem Zeitpunkt überhaupt noch nicht definiert. Es ist also ein heuristischer Begriff aus der Erfahrungswelt der Schüler, kein mathematischer Fachbegriff. Durch diesen Begriff motiviert stößt man schließlich zum Differenzenquotienten und seinem Limes vor. Man definiert dann die Ableitung an einer Stelle und kann mit dieser endlich die Tangente sauber definieren. Das ist jetzt die Tangente im mathematischen Modell. Um es noch einmal zu betonen: Man muß im Modell zuerst die Ableitung definiert haben, um definieren zu können, was eine Tangente ist, während man zum Verständnis der Definition der Ableitung von einem heuristischen Tangentenbegriff ausgeht.
Natürlich stellt sich jetzt die Frage: Stimmt der heuristische Tangentenbegriff mit dem aus dem Modell überein? Diese Frage kann man aber niemals durch mathematischen Beweis beantworten. Man kann nur an Beispielen (einfache Kurven wie Parabeln, Graphen ganzrationaler Funktionen etc.) erläutern, daß der Tangentenbegriff aus dem Modell "mit der Anschauung übereinstimmt". Und bei komplexeren Kurven ist das durchaus fraglich. Denke an das Beispiel



mit stetiger Ergänzung bei 0. Auf der Seite des Modells hat man ja jetzt die Tangente definiert und kann berechnen, daß die Gerade Tangente an den Graphen im Ursprung ist. Aber paßt das wirklich noch zu dem, was man sich ursprünglich unter einer Tangente vorgestellt hat, wenn diese Tangente unendlich oft in der Nähe der Berührungsstelle vom Graphen geschnitten wird?

Und dasselbe Phänomen hast du bei bedingten Wahrscheinlichkeiten. Einerseits operierst du mit einem heuristischen Begriff ("Wahrscheinlichkeit von A, wenn B schon eingetreten ist"), andererseits mit einer Definition im Modell (P(A|B):= ...). Und daß die Definition die Anschauung trifft, kann wiederum nur an Beispielen erläutert werden. Und auch hier kann man Beispiele finden, wo die ursprüngliche Vorstellung mit der Definition im Modell nur schwer in Einklang zu bringen ist.
AD Auf diesen Beitrag antworten »

Zitat:
Original von Leopold
Deswegen helfen dir auch Arthurs Erklärungen hier nicht weiter ("Er suchte Verständnis - und man antwortete ihm mit einer Definition.").

Entschuldige vielmals, dass ich deinen geheiligten Pool der alleinigen Erklärungshoheit gepinkelt habe. Ich versuche ja ansonsten, das möglichst zu unterlassen - aber wenn du dich solange nicht meldest...

"Er versuchte sein Bestes, und erntete nur Hohn und Spott"


P.S.: Auch sehr interessant zu erfahren, dass das hier kein Beispiel, sondern eine Definition war. Wieder was gelernt vom großen Meister! böse
Egal Auf diesen Beitrag antworten »

Ich behaupte jetzt mal das liegt am Wetter.
Die Stimmung ist im Moment sowas von gereizt als wenn ihr alle Morgens mit Ohrfeigen begrüsst werdet.
Ist doch nicht nötig das man sich hier gegenseitig die Bretter um die Ohren haut.
AD Auf diesen Beitrag antworten »

Ach, Leopold versteht schon was ich meine. Ich weiß auch selber, dass er der bessere, eloquentere Erklärer für solche eher philosphischen Fragen ist. Aber dass er mir "Definitionitis" vorwirft, wo ich gerade ein Beispiel gebracht habe - das lasse ich nicht auf mir sitzen. Und warum soll man nicht auch mal Oberlehrer zurechtweisen dürfen!
Mathespezialschüler Auf diesen Beitrag antworten »

Erstmal wollte ich fragen, welcher Mod das hier als "wichtig" markiert hat und warum?
In euren Disput möcht ich mich mal nicht mit einmischen, aber als Mod ist es ja fast schon meine Pflicht, euch doch zu bitten, das so schnell wie möglich zu bereinigen! Augenzwinkern
@Arthur
Nochmals die Frage: Stimmt folgendes denn?
Zitat:
Original von Mathespezialschüler
Und zur Rechtfertigung: Gilt das als Rechtfertigung, weil man sich denkt, dass die Elementarereignisse immer noch gleiche Wahrscheinlichkeiten besitzen, auch wenn B schon eingetreten ist?

Das mit dem "sich denken" meine ich im (ich zitiere Leopold) heuristischen Sinne.

@Leopold
Aha, ok. Ich denke, das Beispiel der Tangente hat das ganz gut veranschaulicht. Aber was mich stört: Es scheint ja sehr ähnlich zu sein. Bei der Tangente hätte ich nie gesagt, man solle das als Axiom formulieren. Bei der bedingten Wahrscheinlichkeit hatte ich schon daran gedacht. Allerdings glaube ich jetzt, dass das gar nicht richtig möglich ist, denn die bedingte Wahrscheinlichkeit ohne die mathematische Definition sprachlich zu definieren, ist ja genauso schwierig wie bei der Tangente.
Danke auch dir für deine Antwort.

Gruß MSS
Anton47 Auf diesen Beitrag antworten »
Modelle
"All models are wrong, some are useful"

Sir David Cox
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »