Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX

Neue Frage »

Gerald Auf diesen Beitrag antworten »
Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Hallo!


Ich betreibe eine Internet-Seite und messe die Zugriffsdaten für die einzelnen Artikel.

Es gibt Artikel mit 10 Zugriffen, 30 Zugriffen bis rauf zu 100.000 Zugriffen und mehr.

Nun möchte ich in der Datenbank jedem Artikel einen Wert zwischen 0 und 100 zuweisen, abhängig von seinen Zugriffsdaten.

Wenn ich jedoch den Artikel mit den meisten Zugriffen als 100 % = 100 Punkte setze und ich einen statistischen Ausreißer habe mit zb 152.456 Zugriffen, dann kriegt dieser häufig gelesene Artikel 100 Punkte für seine vielen Zugriffe, aber die vielen Artikel mit 10 bis 100 Zugriffe kriegen nicht mal einen Punkt.

d.h. ich kriege keine schöne Normalverteilung raus, keine sinnvollen Werte, weil die meisten Werte bei 0 liegen wegen ein paar Artikeln, die gleich mal 1.000 mal so viele Zugriffe haben wie die meisten anderen.



Auf Wikipedia bin ich auf den Begriff "Median" gekommen, kenne mich damit aber nicht aus.

Gibt es eine Formel oder Methode, mit der ich einer sinnvollen Lösung näher komme?


Liebe Grüße,

Gerald

Edit: Wir sind kein Verschiebebahnhof! => Stochastik. Gruß, Reksilat.
wisili Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Das hängt doch davon ab, wozu diese Punkteskala nachher gebraucht wird.
Gerald Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Hallo wisili!

Ich (und meine Freunde) habe(n) folgendes vor:

(wir betreiben die Internet-Seite www.scoop.at)

Wir wollen pro Artikel für mehrere Faktoren einen Wert zwischen 0 und 100 errechnen. Die Faktoren werden summiert und man kann dadurch sagen, welcher Artikel wie interessant ist.

zB gibt es auch den Faktor Datum: Ein Artikel kriegt am Tag 1 = 100 Punkte, weil er aktuell ist, am 2. Tag 90 Punkte, am 10. Tag 10 Punkte, später keine mehr.

Dann soll es eben auch 0-100 Punkte geben für den Faktor "Zugriffe". d.h. Artikel mit sehr vielen Zugriffen sollen eher 100 Punkte kriegen, Artikel mit weniger Punkte eben weniger.

Sagen wir mal so: Die meisten Artikel haben zwischen 30 und 300 Zugriffe. Ich finde also, dass ein Artikel mit 300 Zugriffen auch schon um die 80 Punkte kriegen soll.

Das passiert aber nicht, wenn ein paar Artikel zigtausende Zugriffe haben und ich mit Prozenten arbeite.

Wir brauchen also eine Annäherung, auch wenn diese nicht streng statistisch ist :-))


Hab ich mich kompliziert genug ausgedrückt?

Liebe Grüße,

Gerald
wisili Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Zum Ausprobieren schlage ich mal vor, dass die Prozentzahl sei
p = (100 + a)/(1 + 100/a *e^(-x)) - a
a ist ein Parameter, den man mal 50 setzen könnte.
x ist gedacht als Zehnerlogarithmus der Zugriffszahl n (etwa 0.43 ln(n)).
(Das ist ein «Versuchsballon» nur für den Faktor «Zugriff».)
Gerald Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Hallo Wisili!

Das funktioneirt ganz gut, ich bedanke mich sehr sehr herzlich!

Liebe Grüße,

Gerald
Gerald Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Hallo!


Untenan hab ich die Formel für die Datenbank und die Test-Ergebnisse gepostet, vielleicht interessiert das wen. Die schauen echt ganz gut aus.

Was ich aber von der Logik her nicht verstehe: in der Formel kommt kein Maximal-Wert vor, die Formel weiß ja also nicht, was der maximale Wert ist, aus dem dann 100 % errechnet werden.

Wie funktioniert das dann, das würd mich einfach persönlich interessieren.

Ich fürchte, ich hab da nen (minimalen?) Denkfehler.

Ligrü,

Gerald


In der Datenbank schauts so aus:


select nid, count(*) as hits, format( ((100 + 1)/(1 + 100/1 * exp(-1 *
count(*))) - 1), 2 ) as val2 from history group by nid order by hits

+-------+------+------+
| nid | hits | val2 |
+-------+------+------+
| 45767 | 1 | 1.67 |
| 28831 | 1 | 1.67 |
| 47725 | 1 | 1.67 |
| 45615 | 1 | 1.67 |
| 46105 | 1 | 1.67 |
| 46675 | 1 | 1.67 |
| 47189 | 1 | 1.67 |
| 47666 | 1 | 1.67 |
| 46080 | 1 | 1.67 |
| 47027 | 1 | 1.67 |
...
| 47630 | 2 | 5.95 |
| 47152 | 2 | 5.95 |
| 46290 | 2 | 5.95 |
| 46156 | 2 | 5.95 |
| 46731 | 2 | 5.95 |
| 25066 | 2 | 5.95 |
| 46603 | 2 | 5.95 |
| 46388 | 2 | 5.95 |
| 45499 | 2 | 5.95 |
| 46811 | 2 | 5.95 |
| 45342 | 2 | 5.95 |
| 45880 | 2 | 5.95 |
| 46254 | 2 | 5.95 |
| 46368 | 2 | 5.95 |
| 46583 | 2 | 5.95 |
| 46945 | 2 | 5.95 |
| 47134 | 3 | 15.89 |
| 45256 | 3 | 15.89 |
| 46474 | 3 | 15.89 |
| 45700 | 3 | 15.89 |
| 47536 | 3 | 15.89 |
| 47191 | 3 | 15.89 |
| 46051 | 3 | 15.89 |
| 46604 | 3 | 15.89 |
| 47690 | 3 | 15.89 |
| 45174 | 3 | 15.89 |
| 46712 | 3 | 15.89 |
| 47202 | 3 | 15.89 |
| 45668 | 3 | 15.89 |
...

| 45766 | 4 | 34.67 |
| 45200 | 4 | 34.67 |
| 305 | 4 | 34.67 |
| 45152 | 4 | 34.67 |
| 47240 | 4 | 34.67 |
| 45446 | 4 | 34.67 |
| 47346 | 4 | 34.67 |
| 45988 | 4 | 34.67 |
| 46841 | 4 | 34.67 |
| 42959 | 4 | 34.67 |
| 47525 | 4 | 34.67 |
| 46282 | 5 | 59.34 |
| 46775 | 5 | 59.34 |
| 47616 | 5 | 59.34 |
| 47291 | 5 | 59.34 |
| 45986 | 5 | 59.34 |
| 45171 | 5 | 59.34 |
| 45116 | 5 | 59.34 |
| 46195 | 5 | 59.34 |
| 45359 | 5 | 59.34 |
| 47711 | 5 | 59.34 |
| 47584 | 5 | 59.34 |
| 46111 | 5 | 59.34 |
| 45360 | 5 | 59.34 |
| 45864 | 5 | 59.34 |
| 45964 | 5 | 59.34 |
| 45976 | 5 | 59.34 |
| 47582 | 5 | 59.34 |
| 45676 | 5 | 59.34 |
| 47503 | 5 | 59.34 |
| 47123 | 5 | 59.34 |
| 46436 | 5 | 59.34 |
| 46390 | 5 | 59.34 |
| 47504 | 5 | 59.34 |
| 46306 | 5 | 59.34 |
| 47356 | 5 | 59.34 |
| 46997 | 6 | 79.94 |
| 45402 | 6 | 79.94 |
| 46312 | 6 | 79.94 |
| 47684 | 6 | 79.94 |
| 45550 | 6 | 79.94 |
| 45784 | 6 | 79.94 |
| 46803 | 6 | 79.94 |
| 46069 | 6 | 79.94 |
| 46219 | 6 | 79.94 |
| 45209 | 6 | 79.94 |
| 45932 | 6 | 79.94 |
| 45391 | 6 | 79.94 |
| 46154 | 6 | 79.94 |
| 45951 | 6 | 79.94 |
| 109 | 6 | 79.94 |
| 47076 | 6 | 79.94 |
| 46131 | 6 | 79.94 |
| 40825 | 6 | 79.94 |
| 45288 | 6 | 79.94 |
| 47487 | 6 | 79.94 |
| 45488 | 6 | 79.94 |
| 45506 | 7 | 91.56 |
| 46777 | 7 | 91.56 |
| 45279 | 7 | 91.56 |
| 46794 | 7 | 91.56 |
| 47699 | 7 | 91.56 |
| 46543 | 7 | 91.56 |
| 45740 | 7 | 91.56 |
| 45456 | 7 | 91.56 |
| 45933 | 7 | 91.56 |
| 45950 | 7 | 91.56 |
| 46090 | 7 | 91.56 |
| 46848 | 8 | 96.72 |
| 46798 | 8 | 96.72 |
| 45273 | 8 | 96.72 |
| 45505 | 8 | 96.72 |
| 45353 | 8 | 96.72 |
| 47012 | 8 | 96.72 |
| 45693 | 8 | 96.72 |
| 46176 | 8 | 96.72 |
| 45466 | 8 | 96.72 |
| 45689 | 8 | 96.72 |
| 46586 | 8 | 96.72 |
| 45952 | 9 | 98.77 |
| 45856 | 9 | 98.77 |
| 47124 | 9 | 98.77 |
| 47411 | 9 | 98.77 |
| 9 | 10 | 99.54 |
| 45534 | 10 | 99.54 |
| 46594 | 10 | 99.54 |
| 46969 | 10 | 99.54 |
| 45271 | 11 | 99.83 |
| 28 | 11 | 99.83 |
| 47409 | 12 | 99.94 |
| 47314 | 13 | 99.98 |
| 82 | 28 | 100.00 |
+-------+------+--------+
2936 rows in set (0.03 sec)
 
 
wisili Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Es freut mich, wenn die Funktion passt.
Sie wurde als Gebastel aus der TANH-Funktion (und logarithmischer Skala) konstruiert.
p = (100 + a)/(1 + 100/a *e^(-x)) - a hat die obere Grenze als «100» offensichtlich eingebaut:
wenn x gegen unendlich strebt, geht nämlich e^(-x) gegen 0 und es bleibt (100 + a)/1 - a = 100.
Ebenfalls eingebaut ist p(0) = 0. Mit dem Parameter a lässt sich steuern, wie schnell die Werte zunehmen sollen
(sodass also z.B. der Wunsch p(lg 300) = 80 erfüllt werden kann).
Gerald Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Hallo!

Leider schauts nicht so gut aus, wie gedacht. wir haben ja a = 1 gesetzt.


Mein Freund, u.a. Programmierer, sagt nun:

***
ab ca. 11.7 sind die werte

gut zu sehen auf
http://www.walterzorn.de/grapher/grapher.htm, einfach
(100 + 1)/(1 + 100/1 * exp(-x)) - 1 ins formelfeld schreiben, und den
bereich jeweils auf 0 bis 100 einschränken

***
und er befrüchtet, dass die formel in der form gar nicht geht, weil:

**
das e^-x ist ja 1/e^x,
also ein umgekehrt exponentielles wachstum, da sind wir schnell bei
werten kleiner 1, und da tummeln sich dann im normalbetrieb vermutlich
99.9 % aller werte.
**


Kannst du vielleicht noch helfen?

Ligrü,

Gerald
wisili Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Ich habe doch a=50 vorgeschlagen.
(Und nicht vergessen: x ist der Zehnerlogarithmus der Zugriffszahl n.)
Gerald Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Hallo!


Weiters sagt mein Freund: Wenn statt x der 10-er log von x genommen
wird, gibts wiederum keine werte auf 100 ...

Siehe anbei die Grafik.


Liebe Grüße,

Gerald
wisili Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Ich hätte noch eine zweite Warnung bzw. Empfehlung geben sollen:

Die Zugriffszahlenachse darf beim Plotten nicht linear sein (es wird zwar nichts falsch, aber es dient nicht),
sondern muss logarithmisch sein.
D.h. man plottet (100 + 50)/(1 + 100/50*e^(-X)) - 50 im Bereich [0, 7] und weiss, dass
x= 1 die Zugriffszahl n=10
x= 2 die Zugriffszahl n=100
x= 3 die Zugriffszahl n=1000
...
bedeutet. Damit wie gewünscht für n=300 etwa 80 Punkte erreicht werden, muss a sogar noch etwas
höher als 50 gewählt werden: 58.
Gerald Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Hallo!

Das mit dem Zehnerlogaithmus hab ich anfangs verschlampt, sorry.

Und aber wenn ich jetzt a=50 nehme, kommen keine Werte auf 100, weil sich die Kurve ungefähr 95 annähert :-()


Ligrü,

Gerald
wisili Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Das weiss ich. Ich meinte, 100 dürfe nicht überschritten werden. Mit 10^9 ist man nah dran.
JPL Auf diesen Beitrag antworten »

Hi,

nur um die Werte auf 0-100 zu normieren ist das aber recht kompliziert.
einfacher ist 100*(1+(x-max)/max), wobei der x der "gemessene" Wert und max das Maximum aller Werte ist.

Grüße,
JPL
wisili Auf diesen Beitrag antworten »
RE: Median / Verhältnis-Werte zwischen 0-100 für Zahlen zwischen 0 und XXXXX
Zitat:
Original von Gerald
... ich kriege keine schöne Normalverteilung raus, keine sinnvollen Werte, weil die meisten ...
Gibt es eine Formel oder Methode, mit der ich einer sinnvollen Lösung näher komme? ...


Eine lineare Rampe war nicht gemeint.
JPL Auf diesen Beitrag antworten »

Naja, die Anleitung zum "wie mache ich aus irgendetwas eine Normalverteilung" sollte aber immer mit dem Hinweis "du weißt hoffentlich, was du tust", "Normalverteilung ist nicht alles" und "denk an die Rücktransformation" einhergehen, solange es sich nicht um eine Transformation zum Zwecke einer Verwendung im GLM zu tun hat.

Grüße,
JPL
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »