Datenanalyse - Methode

18.07.2018, 16:25	TomS	Auf diesen Beitrag antworten »
Datenanalyse - Methode Gegeben sind n = 1..N Proben (hier: Single Malt Whiskies) sowie je Probe jeweils f = 1..F Geschmacksanalysen X (hier: Smoke, Honey, ...) mit jeweils einem Zahlenwert. Z.B. wird einem bestimmten Whisky der Geschmack Smoke = 4, Honey = 1 etc. zugeordnet. Die zugrundeliegenden Geschmackskategorien und deren Zahlenwerte sind natürlich ziemlich subjektiv. Ziel ist es, Ähnlichkeiten oder soetwas wie das Verwandschaftsverhältnis zweier Whiskies m,n anzugeben. Dazu kann man zunächst die euklidische Distanz zugrundelegen: $\begin{eqnarray} d^2(m,n) = \sum_{f=1}^F [X_f(m) - X_f(n)]^2 \end{eqnarray}$ Nun gibt es Geschmackskategorien, die den Charakter sehr deutlich dominieren. Dies kann entweder durch sehr hohe Werte auf der Skala (ab Null) angegeben werden, oder bei identisch normierten Skalen über alle Geschmackskategorien durch einen Gewichtsfaktor: $\begin{eqnarray} d_\omega^2(m,n) = \sum_{f=1}^F \omega_f \, [X_f(m) - X_f(n)]^2 \end{eqnarray}$ Nun sind die Geschmackskategorien jedoch nicht unabhängig. Man findet Paare f,g, für die über alle getesteten Whiskies praktisch keine Korrelation vorliegt; man findet auch Paare, für die eine sehr starke Korrelation vorliegt; und es gibt Paare, für die eine Antikorrelation vorliegt. Z.B. gehen Rauch und Torf oft Hand-in-Hand, und es liegt eine Korrelation nahe Eins vor, während sich Rauch und Süße eher ausschließen, d.h. es liegt eine Korrelation nahe minus Eins vor (konkret: bei Rauch = 4 liegt Süße bei 0, manchmal 1 u.u.). Rauch und Torf bedeuten im Sinne des Verwandhaftsgrades zweier Whiskies wohl eher das selbe und sollten nicht unabhängig bewertet werden. Generell könnte man bei sehr starker Korrelation oder Antikorrelation zweier Merkmale f,g sowie Null Korrelation mit weiteren Merkmalen h, ... auf ein Merkmal verzichten. Offensichtlich sollten unterschiedliche Paare von Geschmackskategorien unterschiedlich behandelt werden, d.h. man gelangt zu $\begin{eqnarray} d_\omega^2(m,n) = \sum_{f \neq g} \omega_{fg} \, [X_f(m) - X_f(n)]^2 \end{eqnarray}$ Frage: wie kann man dieser Tatsache Rechnung tragen? was wäre eine sinnvolle und allgemeingültige Methode, die Gewichte omega ausgehend von den Werten X und deren Korrelationen über alle Proben o.ä. festzulegen? insbs. wenn beliebige Korrelationen vorliegen, d.h. nicht nur die Extremfälle 1, 0, -1?
18.07.2018, 17:08	TomS	Auf diesen Beitrag antworten »
RE: Datenanalyse - Methode Sorry, die letzte Formel ist falsch; es ist über Paare zu summieren, d.h. (f,g) und (g,f) sind nur einmal zu zählen; f = g ist zulässig; ich notiere das als <f,g>; damit folgt $\begin{eqnarray} d_\omega^2(m,n) = \sum_{\langle f,g \rangle} \omega_{fg} \, [X_f(m) - X_g(n)]^2 \end{eqnarray}$ Eine Alternative wäre eine geeignete lineare Transformation von X, so dass die Summe wieder diagonal wird. Auch dabei weiß ich nicht, welche Transformation anzusetzen wäre bzw. wie man diese aus den Daten ableiten könnte.

1

Verwandte Themen

Die Beliebtesten »

Die Größten »

Die Neuesten »