Urnenmodell mit Zurücklegen

25.05.2016, 00:42

silvernsnake

Urnenmodell mit Zurücklegen

Meine Frage:
In einer Urne liegen 75 nummerierte äusserlich gleiche Kugeln.
Nach jeder Entnahme einer Kugel, wird diese wieder zurückgelegt.
Es werden insgesamt 10 Kugeln entnommen.

Kann man und wenn ja wie, berechnen, wie viele Kugeln mehrfach gezogen werden (ob doppelt oder x-fach wäre egal).
Kann man dies in eine Formel, ggf. auch Excelformel bringen.

Meine Ideen:
Alle Versuche es mit Permutationen, Kombinationen oder Variationen zu machen schlugen fehl oder ist es gar so, dass dies nur durch das Abzählen bestimmter Häufigkeiten und Vergleich mit allen denkbaren Häufigkeiten möglich wäre?
Vielen Dank

25.05.2016, 08:09

willyengland

Auf diesen Beitrag antworten »

Ich weiß es nicht, vermute aber, dass es eine Formel gibt.
Ich würde so vorgehen, dass ich mit kleinen Kugelmengen anfange, also erst 3, dann 4, 5 usw. und die Möglichkeiten notiere.
Dann gucken, ob man ein Muster erkennt.

25.05.2016, 08:11

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von silvernsnake
Kann man und wenn ja wie, berechnen, wie viele Kugeln mehrfach gezogen werden (ob doppelt oder x-fach wäre egal).

Diese Anzahl ist eine Zufallsgröße, und natürlich kann man deren Verteilung auch bestimmen - allerdings eben nicht in einer einfachen "summenfreien" Formel.

---------------------------------------------

Ok, sagen wir $\begin{align*} m \end{align*}$ Kugeln in der Urne, $\begin{align*} n \end{align*}$ werden entnommen mit Zurücklegen, und $\begin{align*} X \end{align*}$ kennzeichne die Anzahl der verschiedenen Kugeln, von denen jede einzelne mindestens zweimal unter den $\begin{align*} n \end{align*}$ entnommenen Kugeln vorkommt.

Derartiges "Ziehen mit Zurücklegen" findet in einem Laplace-Raum der Mächtigkeit $\begin{align*} |\Omega|=m^n \end{align*}$ statt. So ist

$\begin{align*} P(X=0) = \frac{m!}{(m-n)!m^n} \end{align*}$

denn da müssen alle $\begin{align*} n \end{align*}$ entnommenen Kugeln voneinander verschieden sein (siehe Geburtstagsproblem). Kommen wir zu genau einer mehrfach vorkommenden Kugel. Dieses "mehrfach" kann von $\begin{align*} k=2 \end{align*}$ bis $\begin{align*} n \end{align*}$ sein:

$\begin{align*} P(X=1) = \frac{1}{m^n}\cdot m\sum_{k=2}^n \binom{m-1}{n-k}\cdot \frac{n!}{k!} = \frac{1}{m^{n-1}}\cdot \sum_{k=2}^n \binom{m-1}{n-k}\cdot \frac{n!}{k!} \end{align*}$

Erklärung: Es gibt $\begin{align*} m \end{align*}$ Möglichkeiten für die Auswahl der einen Kugel, die $\begin{align*} k \end{align*}$ -mal vorkommen soll. Es verbleiben $\begin{align*} n-k \end{align*}$ Kugeln zu entnehmen aus der Restmenge von $\begin{align*} m-1 \end{align*}$ Kugeln, jede darf nur genau einmal vorkommen. Zum Schluss muss diese Menge von $\begin{align*} n \end{align*}$ Kugeln ( $\begin{align*} (n-k) \end{align*}$ Kugeln genau einmal, eine genau $\begin{align*} k \end{align*}$ -mal) noch permutiert werden.

Ist also bereits ziemlich eklig, für $\begin{align*} P(X=2) \end{align*}$ usw. wird es noch schlimmer...

Nur am Ende entspannt es sich etwas: Maximalwert für $\begin{align*} X \end{align*}$ ist $\begin{align*} k=\left\lfloor \frac{n}{2}\right\rfloor \end{align*}$ , da lautet die Rechnung

a) für $\begin{align*} n=2k \end{align*}$ : $\begin{align*} P(X=k) = \frac{1}{m^{2k}}\cdot \binom{m}{k}\cdot \frac{(2k)!}{2^k} \end{align*}$

b) für $\begin{align*} n=2k+1 \end{align*}$ : $\begin{align*} P(X=k) = \frac{1}{m^{2k+1}}\cdot \binom{m}{k}\cdot \left((m-k)\frac{(2k+1)!}{2^k}+k\frac{(2k+1)!}{3\cdot 2^{k-1}}\right) = \frac{(2k+1)!(3m-k)}{m^{2k+1}\cdot 3\cdot 2^k}\cdot \binom{m}{k} \end{align*}$

Was noch einigermaßen "vernünftig" zu berechnen geht, ist der Erwartungswert: Es ist $\begin{align*} X=\sum_{i=1}^m X_i \end{align*}$ , wobei $\begin{align*} X_i \end{align*}$ die Indikatorvariable kennzeichnen möge, dass Kugel $\begin{align*} i \end{align*}$ mindestens zweimal vorkommt. Damit ist $\begin{align*} E(X)=\sum_{i=1}^m E(X_i) = m\cdot E(X_1) \end{align*}$ mit

$\begin{align*} E(X_1)=1-\frac{(m-1)^n+n(m-1)^{n-1}}{m^n} \end{align*}$ , d.h. $\begin{align*} E(X) = m\left( 1-\frac{(m-1+n)(m-1)^{n-1}}{m^n} \right) \end{align*}$

Für $\begin{align*} m=75 \end{align*}$ und $\begin{align*} n=10 \end{align*}$ bedeutet letzteres $\begin{align*} E(X)\approx 0.5588 \end{align*}$ , und die Wahrscheinlichkeitswerte

$\begin{align*} P(X=0) \approx 0.5342 \end{align*}$
$\begin{align*} P(X=1) \approx 0.3791 \end{align*}$
$\begin{align*} P(X=5) \approx 3.476\cdot 10^{-7} \end{align*}$ .

Ich hoffe mal, ich hab mich nicht verrechnet, war ein rechter "Schnellschuss". Augenzwinkern

25.05.2016, 09:39

Dopap

Auf diesen Beitrag antworten »

Wohlwissend hab' ich gleich die Finger davon gelassen. Augenzwinkern

, da hätte mir auch ein Zeitlupenschuss nicht wirklich geholfen.
Für Schulmathematik eine doch deftiges Problem Augenzwinkern

ob der Fragesteller sich dessen bewusst ist ??

25.05.2016, 09:48

HAL 9000

Auf diesen Beitrag antworten »

Ok, hier dann doch noch die allgemeine Wahrscheinlichkeitsformel. Wie versprochen ein wahres Monster:

$\begin{align*} P(X=r) = \frac{1}{m^n}\cdot \binom{m}{r} \cdot \sum_{k\in K_{r,n}} \binom{m-r}{n-\sum\limits_{i=1}^r k_i}\cdot \frac{n!}{\prod\limits_{i=1}^r k_i!} \end{align*}$ ,

dabei ist das $\begin{align*} k \end{align*}$ , über das hier summiert wird, ein $\begin{align*} r \end{align*}$ -dimensionaler Multiindex aus der Menge

$\begin{align*} K_{r,n} := \left\{ (k_1,\ldots,k_r)\in \{2,3,\ldots\}^r \biggm| \sum_{i=1}^r k_i\leq n \right\} \end{align*}$ .

Die Formel sollte für alle $\begin{align*} r\geq 1 \end{align*}$ stimmen, für $\begin{align*} r>\left\lfloor \frac{n}{2}\right\rfloor \end{align*}$ ergibt sich automatisch $\begin{align*} K_{r,n}=\emptyset \end{align*}$ und damit $\begin{align*} P(X=r)=0 \end{align*}$ . Augenzwinkern

EDIT: Mit der (für manche vielleicht exotisch wirkenden) Zusatzfestlegung $\begin{align*} K_{0,n}:= \{ () \} \end{align*}$ , d.h., diese Multiindexmenge enthält genau einen "leeren" Multiindex, stimmt die Formel sogar auch für $\begin{align*} r=0 \end{align*}$ .

25.05.2016, 18:16

Dopap

Auf diesen Beitrag antworten »

ich nehme an, dass diese geschlossene Formel doch recht theoretischer Natur ist. Die Bedingung an den Multiindex

$\begin{eqnarray*} \sum_{i=1}^r \, k_i\leq n \end{eqnarray*}$ ist nicht sehr praktikabel.

25.05.2016, 19:09

HAL 9000

Auf diesen Beitrag antworten »

Die Formel ist praktikabel genug, um bis ca. n=40 in erträglicher Zeit mit einem MuPad-Skript die exakten Wahrscheinlichkeiten auszurechnen, und das für alle $\begin{align*} 0\leq r\leq \left\lfloor \frac{n}{2}\right\rfloor \end{align*}$ . Und bei allem Misstrauen, die ich meinen eigenen Betrachtungen gegenüber hege: Die Kontrollsumme über alle r ergab stets 1. Augenzwinkern

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:
41:
42:

prob := proc(m,n,r)
local f,i,j,k,s,t ;
begin
  s:=0 :
  t:=n-2*r :
  if (t>=0) then
    for i from 1 to r do
      k[i]:=2 :
    end_for:
    j:=1 :
    while ((j>0) and (t>=0)) do
      f:=1 :
      j:=1 :
      for i from 2 to r do
        if (k[i]=k[i-1]) then
          j:=j+1
        else
          f:=f*j! :
          j:=1 :
        end_if 
      end_for :
      s:=s+binomial(m-r,t)/(f*j!*_mult(k[i]! $ i=1..r)) :
      j:=r :
      while (j>0) do
        k[j]:=k[j]+1 :
        t:=t-1 :
        if (t>=0) then
          break
        end_if :
        j:=j-1 :
        f:=k[j]+1 :
        for i from j+1 to r do
          t:=t+k[i]-f :
          k[i]:=f :
        end_for :
      end_while 
    end_while 
  end_if :
  binomial(m,r)*n!*r!*s/m^n
end_proc :

plist := prob(75,10,r) $ r=0..5 ; _plus(plist)

26.05.2016, 07:18

Dopap

Auf diesen Beitrag antworten »

na ja, praktikabel ist natürlich relativ, z.B für meinen TR-Interpreter . Das Mupad Programm gefällt mir gut, erinnert an Turbo-Pascal. Schön, dass die ENDs auch klar machen zu welchem Block das gehört.
Zum Programmieren in den TR in RPN- Logik seh' ich nur ein Problem:

was genau macht der Befehl BREAK ?

in RPN gibt es keine Sprünge.

26.05.2016, 07:33

HAL 9000

Auf diesen Beitrag antworten »

"break" verlässt die unmittelbar nächste äußere while/for-Schleife - im vorliegenden Fall bewirkt das "break" in Zeile 28 einen Sprung zu Zeile 37, d.h. das "end_while" in Zeile 36 wird übersprungen, das in Zeile 37 aber nicht! Ist genau wie in C.

Kann man auch anders lösen, sicher.

Ich verstehe aber immer noch nicht, warum die Formel angeblich nicht praktikabel sein soll.

P.S.: Das Skript enthält noch folgende Berechnungsreduktion:

Der Summand $\begin{align*} \binom{m-r}{n-\sum\limits_{i=1}^r k_i}\cdot \frac{n!}{\prod\limits_{i=1}^r k_i!} \end{align*}$ hängt ja nicht von der Reihenfolge der Werte $\begin{align*} k_1,\ldots,k_r \end{align*}$ ab, sondern nur von den $\begin{align*} r \end{align*}$ Werten selbst (unter Berücksichtigung evtl. vorhandener Vielfachheiten). D.h., es reicht aus über

$\begin{align*} K_{r,n}' := \left\{ (k_1,\ldots,k_r)\in \mathbb{N}^r \biggm| 2\leq k_1\leq k_2\leq\ldots\leq k_r\,\wedge\,\sum_{i=1}^r k_i\leq n \right\} \end{align*}$

zu summieren, man muss aber dann jeden der Summanden mit einem passenden Faktor zu versehen:

D.h., wieviele Tupel aus $\begin{align*} K_{r,n} \end{align*}$ gehören zu einem konkreten Tupel aus $\begin{align*} K_{r,n}' \end{align*}$ ?

Diese Frage ist leicht beantwortet: Unter den $\begin{align*} r \end{align*}$ Werten $\begin{align*} k_1\leq k_2\leq\ldots\leq k_r \end{align*}$ mögen $\begin{align*} s \end{align*}$ verschiedene sein in den Vielfachheiten $\begin{align*} l_1,\ldots,l_s \end{align*}$ . Es ist dann also $\begin{align*} \sum_{i=1}^s l_i = r \end{align*}$ und der gesuchte Faktor ist $\begin{align*} \frac{r!}{\prod\limits_{i=1}^s l_i!} \end{align*}$ .

Beispiel: Zu dem einen Tupel $\begin{align*} (2,2,3,3)\in K_{4,10}' \end{align*}$ gehören $\begin{align*} \frac{4!}{2!\cdot 2!}=6 \end{align*}$ Tupel in $\begin{align*} K_{4,10} \end{align*}$ , die den selben Summanden in der Originalsumme liefern, das sind konkret (2,2,3,3), (2,3,2,3), (2,3,3,2), (3,2,2,3), (3,2,3,2) und (3,3,2,2).

EDIT: Ach ja, zur Mächtigkeit von $\begin{align*} K_{r,n} \end{align*}$ hatte ich oben gar nichts geschrieben:

Sie entspricht der Anzahl aller nichtnegativen $\begin{align*} r \end{align*}$ -Tupel mit Summe $\begin{align*} \leq n-2r \end{align*}$ , und die wiederum der Anzahl aller nichtnegativen $\begin{align*} (r+1) \end{align*}$ -Tupel mit Summe $\begin{align*} n-2r \end{align*}$ , das wäre $\begin{align*} \binom{(r+1)+(n-2r)-1}{(r+1)-1} = \binom{n-r}{r} \end{align*}$ . In unserem Fall bedeutet das für die Mächtigkeiten $\begin{align*} \left|K_{r,10}\right| \end{align*}$ für $\begin{align*} r=0,\ldots,5 \end{align*}$ die Werte 1,9,28,35,15,1. Die entsprechenden Werte für $\begin{align*} \left|K_{r,10}'\right| \end{align*}$ sind 1,9,16,11,4,1. Soweit, so unspektakulär.

Bei $\begin{align*} n=60 \end{align*}$ sieht die Sache indes schon anders aus: Dort man bei $\begin{align*} r=17 \end{align*}$ das Maximum $\begin{align*} \left|K_{17,60}\right| = \binom{43}{17}\approx 4.2\cdot 10^{11} \end{align*}$ Summanden. Da zahlt sich die Reduzierung der Summanden in $\begin{align*} K_{17,60}' \end{align*}$ gegenüber $\begin{align*} K_{17,60} \end{align*}$ schon aus, es sind dann nur noch $\begin{align*} \left| K_{17,60}' \right|=11545 \end{align*}$ (im Algorithmus "mitgezählt") Summanden zu betrachten.

Neue Frage »

Antworten »

Urnenmodell mit Zurücklegen

Verwandte Themen