Grobe Fehler und Konfidenzintervall - Java·Applied·Geodesy·3D

Hallo Micha,

Du vermischt hier zwei Sachen. Wenn sich grobe Fehler in den Daten befinden, ist die Schätzung verzerrt. Dies gilt für die Parameter aber auch für die Varianz-Kovarianz-Matrix. Dies ist unstrittig. Da die Anzahl der groben Fehler nicht von der Wahl eines α abhängen, stellt sich Deine Frage so nicht. Entweder, das Datenmaterial ist bereinigt, dann sind (für jedes beliebige α) alle Konfidenzbereiche unverzerrt (Normalverteilung und lineares Modell seien hier mal unterstellt) oder, das Datenmaterial enthält Ausreißer, dann sie sind die Schätzwerte (für jedes beliebige α) verzerrt.

Ok, das kann ich soweit nachvollziehen.

Die Vertrauenswürdigkeit richtet sich nicht nach der Größe des α sondern ergibt sich vielmehr aus Deinen eigentlichen Beobachtungen.

Ich habe es bereits versucht zu erklären: Das α hat nichts mit der Anzahl der Ausreißer in Deinen Daten zu tun. Es erlaubt keinen Rückschluss auf die Qualität Deiner Messungen sondern definiert, wie häufig _Du_ eine Fehlentscheidung treffen möchtest und eine fälschlicherweise als Ausreißer markierte Beobachtung entfernst.

Ja klar, α ist ja erst mal nur ein Schwellwert, denn _ich_ vorgeben muss, womit ich auch die Höhe des Risikos für False Positives festlege. Der Wert erlaubt per se natürlich keinen Rückschluss auf die Qualität der Messungen.

Allerdings erwarte ich vom Hypothesentest, dass er mich unterstützen kann, zu bewerten wie gut das gegebene Modell und die Daten zusammen passen. Wenn er mich dabei nicht unterstützen kann, dann muss ich hinterfragen, wozu gibt es ihn überhaupt, wenn das Ergebnis keine Aussagekraft haben soll?

Dass er als statistischer Test keine fehlerfreien ja/nein Ergebnisse liefern kann, sondern dass es sowohl False Positives als auch False Negatives geben kann (und wird), mit denen ich leben muss, ist klar.

Die Konfidenzbereiche der Punkte zeigen Dir auch nicht an, ob der wahre Wert (mit einer gewählten Wahrscheinlichkeit 1-α) in diesem Intervall liegt.

Dann könnte hier mein momentan noch größtes Missverständnis liegen, denn ich hatte die "Vertrauenswürdigkeit" ja gerade auf diese vermeintliche Aussagekraft der Konfidenzbereiche bezogen. Meine Annahme war, dass die Konfidenzbereiche der Punkte diese Aussagekraft hätten (zumindest näherungsweise), wenn sich keine Ausreißer in den Daten befinden, und wenn das Modell korrekt gewählt wurde.

Aber welche Aussagekraft haben sie dann?

Hmmm, eigentlich würden mich durchaus jene Bereiche interessieren, in denen die wahren Punktkoordinaten mit einer vorgegebenen Wahrscheinlichkeit liegen. Kann ich diese irgendwie ermitteln?

Der wahre Wert liegt entweder drin oder eben nicht.

Diese Aussage stimmt natürlich immer, aber ich wüsste nicht, wie ich davon eine Qualitätsmetrik ableiten soll ;-)

Viele Grüße
gf