Regressionsrechnung - Passende Modellgleichung gesucht

Neue Frage »

matzmatz Auf diesen Beitrag antworten »
Regressionsrechnung - Passende Modellgleichung gesucht
Liebe Forumsgemeinde,

vielleicht könnt ihr mir bei meinem Problem behilflich sein. Im Rahmen einer studentischen Arbeit beschäftige ich mich mit multipler linearer Regressionsanalyse. Um die genaue Problemstellung aufzeigen zu können, müsse ich zu weit ausholen (der Beitrag ist ohnehin schon sehr lang, sorry). Deshalb werde ich versuchen mein Anliegen möglichst allgemein zu beschreiben.

Ich habe Proben zur Verfügung, die durch die Parameter und gekennzeichnet sind. Für eine konkrete (z. B. die i-te) Probe können die Werte ( und ) der Parameter messtechnisch sehr genau bestimmt werden. Jedoch ist der Wert des Parameters deutlich aufwendiger zu ermitteln, weshalb ich diesen aus den sehr einfach zu bestimmenden Werten der Parameter schätzen möchte.

Also habe ich zunächst folgenden Ansatz gewählt, der dem Standardmodell aus der Literatur entspricht:
(1) , wobei die Störgröße und folglich auch die Zielgröße Zufallsvariablen sind. Die Störgröße ist dabei normalverteilt.

Genau genommen habe ich keine einfache Schätzung der Koeffizienten nach der Methode der kleinsten Quadrate durchgeführt, sondern im Modell mittels schrittweiser Regression nur die relevanten Eingangsgrößen berücksichtigt. Die Ergebnisse waren sehr zufriedenstellend, auf Basis des resultierenden Modells können die Werte der Zielgröße genügend genau aus den Werten der Eingagngsgrößen geschätzt werden. Jedoch habe ich einige Probleme bei der mathematischen Formulierung der für mein Problem korrekten Modellgleichung.

In der Literatur habe ich neben dem Modell (1) noch einen weiteren Modellansatz gefunden, bei dem die Eingangsgrößen jedoch Zufallsvariablen sind (daher im Folgenden mit Großbuchstaben ausgedrückt):
(2)

Problem a)
Laut Literatur sind bei einem Modell (1) die Eingangsgrößen nicht zufällig, sondern sogar einstellbar. In meinem Fall ist es nun so, dass die Werte der Eingangsgrößen für eine konkrete Probe näherungsweise konstant sind, da die entsprechenden Werte sehr genau und reproduzierbar zu bestimmen sind. So genommen sind die Werte also nicht zufällig. Jedoch kann ich die Werte nicht beliebig einstellen, sondern sie sind für eine zufällig aus der Kiste gegriffene Probe in diesem Sinne zufällig aber konstant. Mein Bauchgefühl sagt mir, dass Modell (1) korrekt ist. Jedoch beruht mein Bauchgefühl nur darauf, dass meine Ergebnisse so gut sind. Denn für den Fall, dass die Eingangsgrößen Zufallsgrößen sind, würde ich eine größere Abweichung zwischen beobachteten Werten und Schätzwerten erwarten. Welches Modell ist nun für meine Problemstellung zu verwenden?

Problem b)
Laut Literatur sind bei einem Modell (1) die Residuen normalverteilt mit dem Mittelwert 0. Daher (und dies sieht man oft auf Internetseiten, auf denen eine Ausgleichsgerade geschätzt wird) kann und wird es in der Regel vorkommen, dass an derselben Stelle verschiedene -Werte beobachtet werden. In meinem Fall ist es jedoch so, dass für dieselbe Stelle näherungsweise derselbe -Wert vorliegt. Zufällige Schwankungen des -Werts an einer Stelle sind zu vernachlässigen. Vielmehr habe ich für feste Werte der Eingangsgrößen im Mittel eventuell (zwei Proben mit exakt identischen Werten der Eingangsgrößen habe ich leider nicht) sogar eine (wenn auch kleine) systematische Differenz zwischen dem beobachteten Wert der Zielgröße und deren Schätzwert. Daher kann Modell (1) nicht stimmen, denn meine Residuen sind (zumindest für eine feste Stelle) sehr wahrscheinlich nicht normalverteilt mit einem Erwartungswert von 0. Ursache dafür ist meiner Meinung nach, dass die Modellgleichung (mit ausschließlich linearen Zusammenhängen) nicht 100% korrekt, für die Praxis jedoch ausreichend genau ist. Analog stelle ich mir das so vor, wie wenn man eine vom korrekten Zusammenhang her "geschlängelte" Kurve durch eine Gerade annähert.

Andererseits ist zu beachten, dass (wie bereits zuvor erwähnt) die Werte nicht beliebig einstellbar sind. Vielmehr sind die Werte für eine zufällige Probe zufällig aber konstant und alle Proben werden in meinen Experimenten zufälllig ausgewählt. Wenn also eine große Anzahl an Proben betrachtet wird, scheinen die Residuen wieder zumindest näherungsweise normalverteilt mit dem Erwartungswert 0 zu sein. Das ist wohl darauf zurückzuführen, dass der für viele Stellen einzeln betrachtet systematische Wert in der Gesamtheit zufällig ist. Oder anders ausgedrück: Der Fehler ist nur deshalb zufällig und normalverteilt, weil die Proben zufällig ausgewählt werden. Also eigentlich sollte (zumindest für mich als Nicht-Mathematiker) meine Modellgelichung wie folgt aussehen, wobei die zufällige Störgröße von der zufälligen Stelle abhängt:
(3)
Gibt es eine solches Modell bzw. ist das sinnvoll? Was wäre dabei zu beachten? Oder soll ich lieber auf Modell (1) zurückgreifen und lediglich auf diese Problematik hinweisen?

Gruß und danke für eure Antworten!
Matz

Kleiner Nachtrag:
Vielleicht könnte man anstelle von Modell (3) auch eines der folgenden Modelle nutzen?

(4) , wobei die Zielgröße nun keine Zufallsgröße ist und auch auf der rechten Seite keine Zufallsgröße mehr sondern ein funktionaler Zusammenhang steht. Dabei sehe ich aber das Problem, dass die Regressionsrechnung gerade eben eine normalverteiilte Störgröße voraussetzt, oder etwa nicht?

(5) , wobei die Zielgröße eine Zufallsgröße ist und auch auf der rechten Seite eine (in der Praxis vernachlässigbare) Zufallsgröße sowie ein nicht bei der Parametereschätzung berücksichtigter funktioneller Zusammenhang steht.

Ich habe den Inhalt des zweiten Beitrags hier reinkopiert und den Beitrag gelöscht, weil es sonst auf den ersten Blick so aussieht, als ob schon jemand hilft. Steffen
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »