Meine erste Anova - bitte um Kontrolle :)

30.01.2012, 20:55

Picchu86

Meine erste Anova - bitte um Kontrolle :)

Hallo Leute,
im Rahmen eines Kurses zum Thema "Korpuslinguistik" arbeite ich momentan an einem kleinen Projekt, in dem es darum geht, ein kleines Korpus (= Sammlung mit Sprachdaten) zu erstellen oder an einem bestehenden Korpus weiterzuarbeiten. Jetzt habe ich mich dazu entschieden, aus einer Sammlung transkribierter Interviews einen Korpus zu basteln. Als Beispielanalyse habe ich mir folgende Fragestellung überlegt:

Sind die Wortarten (Substantive, Verben etc.) in allen Interviews gleichmäßig verteilt oder unterscheiden sich die Verteilungen von Interview zu Interview in signifikanter Weise?

Ich dachte, anstatt einfach paar nicht sehr aussagekräftige Kreisdiagramme und Balkendiagramme zu präsentieren, die letztendlich doch nichts beweisen, würde sich diese Fragestellung hervoragend für eine einfaktorielle Varianzanalyse eignen. Dummerweise habe ich sowas vorher noch nie gemacht und hatte bis vor kurzem auch überhaupt keinen Plan davon, wie das geht :/

Jedenfalls erstmal folgende Grundvoraussetzungen:

---
Unabhängige Variable: Die Auswertung weiterer Interviews.
Abhängige Variablen: Die Verteilung der Wortarten.
Null-Hypothese: Auch bei zusätzlichen Auswertungen weiterer Interviews ergeben sich keine signifikanten Abweichungen hinsichtlich der Verteilung der Wortarten.
Gegenhypothese: Bei anderen Auswertungen unterscheiden sich die Verteilungen signifikant von der Verteilung in der ersten Auswertung

---
[attach]23307[/attach]
(Zahlenangaben in der Tabelle in %, Tokens pro Interview ca. 500-600)

Edit (Cel): Bilder bitte immer ins Board hochladen. Keine Links zu externen Seiten.

So, was hab ich hier gemacht? Im Wesentlichen hab ich genau das Gleiche wie in diesem Video gemacht, nur mit anderen Zahlen.

Heißt: Erst das "Sum Of Squares Within" berechnet, dann "Total Sum Of Squares", dann das "Sum Of Squares Between", indem ich SSW von TSS substrahiert habe, anschließend die Freiheitsgrade und den F-Wert berechnet und mithilfe dieses Tools (http://graphpad.com/quickcalcs/PValue1.cfm) den p-Wert berechnen lassen:

F (2,12) = 0,01, p = .9901

Wenn ich den p-Wert richtig interpretiere, bedeutet das wohl, dass H0 mit einer Wahrscheinlichkeit von 99% richtig ist bzw. dass es zu 99% wahrscheinlich ist, dass die abhängige Variable keinen signifikanten Effekt auf die Wortartverteilung hat.
(d.h. p = .001, dass die Verteilung unabhängig davon, welches Interview ausgeweret wurde, gleich ist?)

Stimmt das so in etwa?? Die ganzen (X - Ø)²-Rechnungen hab ich übrigens mit Excel gemacht und hoffe, dass ich da keinen Fehler reingebaucht habe...

Ich glaube zwar nicht, dass das, was ich gemacht habe, so richtig ist, aber vielleicht hab ich ja unverschämtes Anfängerglück... Als Sprachwissenschaftler habe ich es eh nicht so mit Mathe, aber langsam wirds mal Zeit, sich auch damit zu beschäftigen Augenzwinkern

02.02.2012, 08:12

Picchu86

Auf diesen Beitrag antworten »

Ist die Frage so schwer?? Ich möchte ja nicht, dass jeder Zwischenschritt kontrolliert wird, mir wüde es schon reichen, wenn mir jemand bestätigen könnte, ob das überhaupt der richtige Rechenweg/ das richtige Verfahren ist Augenzwinkern

02.02.2012, 12:31

Black

Auf diesen Beitrag antworten »

Anhand deiner Ausführungen kann ich leider nicht nachvollziehen wie genau du vorgegangen bist.

Was bedeutet etwa bei deiner ersten Grafik die Beschriftung "00-18", "00-21", "XX-YY"?

Du sagst auch nicht wie genau du die verschiedenen Interviews verglichen hast.
Hast du etwa für die ersten 10 Interviews jeweils die Mittelwerte bestimmt, und mit den Mittelwerten von 10 weiteren verglichen, oder wie bist du vorgegangen?

02.02.2012, 13:44

Picchu86

Auf diesen Beitrag antworten »

"00-18", "00-21", "XX-YY" - das sind die Titel der Interviews, also nichts mathematisches.

Nein, bisher habe ich drei Interviews augewertet (ist also noch keine riesige Datenmenge, aber mir gehts ja erstmal nur darum, ne Art "Anleitung" zu bekommen, die tatsächliche Auswertung mit allen Daten mache ich in ein paar Wochen, wenn ich die restlichen Interviews auch noch ausgewertet habe)

Also, das sind einfach drei Interviews, die unterschiedlich viele Wörter enthalten - um die Auswertung jedoch zu erleichtern, habe ich die tatsächlichen Werte in Prozente umgerechnet. Wenn also in einem Interview mit 555 Wörtern 63 Verben vorkommen, habe ich 11,4% in die Tabelle eingetragen.

Es sind jedenfalls nur drei Interviews.

02.02.2012, 14:02

Picchu86

Auf diesen Beitrag antworten »

OK und noch mal ausführlich:

Sum Of Squares Within

(16,83 16,5 und 16,67 sind die Durchschnittswerte!)

Interview 00-18:

(12-16,83)² + (19-16,83)² + ... + (25-16,83)² = 106,83

Interview 00-21:

(12-16,5)² + (12-16,5)² + ... + (24-16,5)² = 105,5

Interview XX-YY:

(14-16,67)² + (15-16,67)² + ... + (20-16,67)² = 39,34

SSW = 106,83 + 105,5 + 39,34 = 251,67

Total Sum Of Squares

(12-16,67)² + (19-16,67)² + ... (20-16,67)² = 252

Sum Of Squares Between

SSB = TSS - SSW = 252 - 251,67 = 0,33

Degrees of Freedom Between

DFB = 3-1 = 2

Degrees of Freedom Within

DFW = 18-3 = 15

F-Wert

X = (SSB/DFB) = 0,33/2 = 0,17
Y = (SSW/DFW) = 251,67/15 = 16,78

X/Y = 0,17/16,78 = 0,01

F (2, 15) = 0,01

02.02.2012, 15:36

Black

Auf diesen Beitrag antworten »

Okay, soweit ich das erkennen kann hast du die Varianzanalyse (aus technischer Sicht) richtig durchgeführt.

Warum du den Test allerdings auf diese Weise durchführst (vom inhaltlichen) entschließt sich mir.
Du erwartest doch nicht wirklich, dass es signifikante Abweichungen gibt wenn du einzelne Interviews vergleichst (womöglich noch aus der selben Fachrichtung?)

Wenn du was in der Richtung machen willst, würde ich mir eine Reihe von Interviews aus verschiedenen Bereichen (etwa Sport, Politik, Wissenschaft etc.) hernehmen, für jeden Bereich die durchschnittlichen Anteilswerte der verschiedenen Wortarten bestimmen, und dann diese Mittelwerte miteinander vergleichen.

02.02.2012, 16:48

Huggy

Auf diesen Beitrag antworten »

Zitat:

Original von Black
Okay, soweit ich das erkennen kann hast du die Varianzanalyse (aus technischer Sicht) richtig durchgeführt.

Sie ist aber ein Lehrbeispiel für eine Nonsens-Analyse. Bei korrekter Rechnung sind nämlich alle Mittelwerte identisch, nämlich gleich 100/6. Und dann ist auch die Gesamtsumme der Abweichungsquadrate vom Gesamtmittelwert gleich der Summe der Einzelsummen der Abweichungsquadrate von den einzelnen Mittelwerten. Die Unterschiede ergeben sich nur durch die Rundung auf ganze Prozentwerte. Dadurch ist die Summe der Prozente nicht immer 100.
Dieser Mittelwert hat überhaupt keinen Bezug zu dem Interview. Er ergibt sich rein aus der Anzahl der gewählten Wortgruppen. Im Endeffekt wurde also untersucht, ob die Rundung der einzelnen Prozentwerte einen signifikanten Einfluss auf den berechneten Mittelwert hat.

02.02.2012, 17:40

Picchu86

Auf diesen Beitrag antworten »

Zitat:

Original von Black
Okay, soweit ich das erkennen kann hast du die Varianzanalyse (aus technischer Sicht) richtig durchgeführt.

Warum du den Test allerdings auf diese Weise durchführst (vom inhaltlichen) entschließt sich mir.
Du erwartest doch nicht wirklich, dass es signifikante Abweichungen gibt wenn du einzelne Interviews vergleichst (womöglich noch aus der selben Fachrichtung?)

Wenn du was in der Richtung machen willst, würde ich mir eine Reihe von Interviews aus verschiedenen Bereichen (etwa Sport, Politik, Wissenschaft etc.) hernehmen, für jeden Bereich die durchschnittlichen Anteilswerte der verschiedenen Wortarten bestimmen, und dann diese Mittelwerte miteinander vergleichen.

Eigentlich favorisiere ich ja die 0-Hypothese, nämlich dass sich die Verteilungen nicht signifikant unterscheiden, jedoch weiß ich nicht, wie man das berechnet, dass es "signifikant keinen Effekt" gibt (gibt es so ein Verfahren überhaupt?), deshalb habe ich einfach so getan, als ginge ich davon aus, dass es einen Effekt gibt - denn ein negatives Ergebnis ist auch ein Ergebnis. Und wenn da rauskommt, dass p = 0.99... ist, dann interpretiere ich das so, dass ein Effekt sehr, sehr unwahrscheinlich ist Augenzwinkern

Also so ein bisschen Mogelei ist schon dabei, das muss ich leider zugeben...

Aber wie gesagt - das ganze war nur eine Probe. Ich habe demnächst vor, dieselben Interviews von einem automatischen Tagger sortieren zu lassen, sodass ich dann vergleichen kann, ob die unabhängige Variabe (manuelle Sortierung, automatische Sortierung) einen Einfluss auf die abhängige Variable (Verteilung) hätte... Das wär dann glaub ich ein Within Subjects Design?!

Würde das denn gehen, oder wär das auch eine Nonsens-Rechnung?:

03.02.2012, 14:13

Huggy

Auf diesen Beitrag antworten »

Zitat:

Original von Picchu86
Eigentlich favorisiere ich ja die 0-Hypothese, nämlich dass sich die Verteilungen nicht signifikant unterscheiden, jedoch weiß ich nicht, wie man das berechnet, dass es "signifikant keinen Effekt" gibt (gibt es so ein Verfahren überhaupt?)

Zunächst mal zum Grundsätzlichen: Man macht die Nullhypothese, dass die Häufigkeitsverteilungen in den einzelnen Interviews gleich sind. Wird diese Hypothese durch einen Hypothesentest abgelehnt, so umterscheiden sich die Häufigkeitsverteilungen signifikant. Das ist ein starkes Ergebnis. Wird die Hypothese nicht abgelehnt, bedeutet dass nicht, dass sie mit hoher Wahrscheinlichkeit richtig ist. Es bedeutet lediglich, dass das Datenmaterial keinen ausreichenden Grund für eine Ablehnung liefert. Das ist ein schwaches Ergebnis.

Die Häufigkeitsverteilung der Wortarten in einem Interview kann durch eine Multinomialverteilung mit den Parametern $\begin{eqnarray*} p_1, ..., p_r \end{eqnarray*}$ beschrieben werden. Dabei ist r die Zahl der Wortarten und $\begin{eqnarray*} p_i \end{eqnarray*}$ ist die Wahrscheinlichkeit, dass das einzelne Wort zur Wortart i gehört. Man macht also die Nullhypothese, dass dieser Parmetersatz für die diversen Interviews gleich ist. Wie man das testet, ist z. B. in

Hartung
Lehr- und Handbuch der angewandten Statistik
15. Auflage

auf Seite 498 beschrieben.

27.02.2012, 17:45

hogohogo

Auf diesen Beitrag antworten »

Hallo,

sitze gerade an einer ähnlichen Sache und bin auch recht Ahnungslos. Dieser Thread, so glaube ich , hat mir allerdings schon ein wenig weitergeholfen. Allerdings wollte ich fragen, was die Konsequenz aus dem Einwand von Huggy bezglich der Mittelwerte ist.
Mir ist gleich aufgefallen, das die Mittlewerte gleich sind. Sehe ich das richtig, daß man besser die Rohdaten (sprich die Anzahlen) nimmt ?

28.02.2012, 07:51

Huggy

Auf diesen Beitrag antworten »

Wie ich schon oben sagte, sollte man hier keine Varianzanalyse (ANOVA) machen, sondern einen Test auf Übereinstimmung von Multinomialverteilungen. In die Teststatistik gehen dann die absoluten Wortzahlen der einzelnen Wortgruppen ein. Wenn die Gesamtwortzahl bei den Interviews näherungsweise gleich ist, kann man natürlich auch mit den relativen Worthäufigkeiten + der Gesamtwortzahl arbeiten.

Neue Frage »

Antworten »

Meine erste Anova - bitte um Kontrolle :)

Verwandte Themen