Grobe Fehler und Konfidenzintervall

by gf, Sunday, September 15, 2019, 20:23 (31 days ago) @ Micha

Ja, da Du mit der Erhöhung auf 1 % die Grenze nach unten verschiebst. Oder anderes ausgedrückt: Von 100 Beobachtungen wirst Du bei 1 % genau eine Beobachtung als Ausreißer einstufen, die kein Ausreißer war (Fehler 1. Art). Ob es also drei Ausreißer waren (oder vielleicht sogar keiner) wirst Du nicht erkennen. Ein kleineres α verringert demnach das Risiko, einen Fehler 1. Art zu machen (fehlerfreie Messungen als falsch einzustufen).

Hallo Micha, ich habe meine Daten nochmals genauer untersucht. Du hast vermutlich recht, dass es keine klassischen Ausreißer / groben Fehler sind, sondern durchaus "fehlerfreie" Messungen, die jedoch eine höhere Ungenauigkeit als die restlichen Streckenmessungen aufweisen. D.h. die Fehler meiner Horizontalstereckenbeobachtungen sind nicht normalverteilt, sondern folgen einer Verteilung mit fetten Enden ("fat tails"). Ich weiß aber a priori nicht, welche der Messwerte ungenauer sind.

Ich könnte jetzt einfach sigma_a der Horizontalstreckenbeobachtungsgruppe auf ca. 3mm erhöhen, um einen ausgewogenen Varianzfaktor zu erhalten. Dann werden aber bei der Ausgleichung größere Konfidenzellipsen geschätzt (die dann wiederum meine Akzeptanz in mm überschreiten :-(), weil die "guten" Messwerte nicht mehr ausreichend gewichtet werden...

[...] Dies bedeutet, bei der Punktlage würdest Du extremere Ausprägungen akzeptieren als bei Deinen Messungen?

Nicht akzeptieren, sondern einfach nur berechnen. Meine Akzeptanzgrenze wird letztendlich in mm gemessen, und ich habe mir das Ziel <= 10mm für die Unsicherheit der geschätzten Punktlagen gesetzt. Die würde ich gerne mit 99,9% Konfidenz erreichen. Und falls bei 99.9% die Ellipsen doch noch größer als 10mm ausfallen sollten, dann interessiert mich umgekehrt, mit welcher Konfidenz ich <= 10 mm noch erreiche. Dann kann ich entscheiden, wie ich weiter vorgehe...

Da mir letztere Information nicht berechnet wird, möchte ich einfach mehrere Ellipsen berechnen, für z.B. 95%, 99%, 99.7% und 99.9% Konfidenz, und dann schauen, welcher Konfidenzlevel zu den geforderten 10mm passt. Das Unangenehme ist jetzt natürlich, dass mir vom Programm für jeden Konfidenzlevel, den ich berechnen möchte, eine unterschiedliche Menge an groben Fehlern angezeigt wird, die ich erst einmal beseitigen muss. Wenn ich das nicht tue, dann wird ja vermutlich die Konfidenzellipse falsch berechnet, oder? Und wenn ich für die Berechnung jedes Konfidenzlevels unterschiedlieche Mengen an groben Fehlern ausblenden muss, dann stimmen auch die geschätzten Punktlagen der Berechnungen nicht überein.

[ Ich denke ich habe verstanden, wie es dazu kommt, aber dennoch ist es natürlich kurios, dass gerade bei geringen Konfidenzandorderungen von 95% viele grobe Fehler bemängelt werden, während die meisten davon bei einer hohen Konfidenzanforderung von 99.9% auf einmal keine Rolle mehr spielen und nicht mehr bemängelt werden. Intuitiv würde man denken, dass es genau umgekehrt wäre. ]

Neben den Konfidenzbereichen für die geschätzten Punktlagen interessieren mich primär natürlich die wahrscheinlichsten Punktlagen. Bei nicht normalverteilten Fehlern sind LS jedoch nicht unbedingt ein unbiased MLE, sodass die Benutzung ausreißerbereinigter Messwerte (oder alternativ robuste Schätzung) dem Ziel einer MLE vermutlich näher kommt.

Mein Gedanke war daher, bei alpha=5% erst mal die groben Fehler, die dort gemeldet werden, auszusortieren, und dann für alle weiteren Berechnungen nur die verbleibenden Beobachtungen zu verwenden. Bei "normalen" Regressionsproblemen, wo man z.B. 10 Parameter aus 1000 Beobachtungen schätzt, hätte man damit keinen großen Informationsverlust. Inzwischen habe ich auch die Erkenntnis, dass das bei der Netzausgleichung jedoch kontraproduktiv sein kann, weil man dort oft einfach nicht ausreichende Redundanz hat.

Ich habe mich letztendlich entschieden, die betroffenen Beobachtungen in eine separate Gruppe mit höherem sigma_a einzuordnen, damit sie nach wie vor zum Ergebnis beitragen können, während die "guten" Beobachtungen in der anderen Gruppe entsprechend höher gewichtet werden. Mit ein wenig Feilen an den Sigmas erreiche ich auch meine gewünschten <= 10mm mit 99.9%, und die Varianzfaktoren sind noch "pessimistisch" (< 1).

Viele Grüße
gf


Complete thread:

 RSS Feed of thread