Gesamtkonfidenzbereiche für ein Projekt - Java·Applied·Geodesy·3D

Hallo Micha,

Definition: Gesucht sind jene Konfidenzbereiche, für die gilt, dass bei einer vielfachen Wiederholung des Messexperiments bei 1-alpha Prozent der Wiederholgen alle im Projekt enthaltenen Punkte innerhalb ihres Konfidenzbereichs liegen.

Wenn ich die Doku richtig verstehe, wird der Konfidenzbereich für jeden Punkt (oder sonstigen Parameter) individuell berechnet, wobei z.B. für einen 2D-Punkt nur die entsprechenden 4 Zellen aus der Kovarianzmatrix herausgepickt werden. Korrelationen zwischen Punkten und/oder anderen Parametern können so nicht berücksichtigt werden.

Für die Betrachtung des worst case muss ich also annehmen, dass die Konfidenzbereiche der Punkte unkorreliert sein könnten (so dass sich die Auswirkungen der Fehler auf die Punktlagen nicht teilweise kompensieren).

Wenn ich bei z.B 1000 Punkten eine 99%-Gesamtkonfidenz des Projekts beurteilen möchte, dann müsste ich der sicherheitshalber die einzelnen Konfidenzbereiche der Punkte und anderen Parameter für 99.999% auslegen, oder?

Jetzt frage ich mich, ob es für diese Fragestellung nicht sinnvoll sein könnte, alternativ zur Einzelbetrachtung gleich aus der kompletten Kovarianzmatrix das N-dimensionale 99%-Konfidenzellipsoid im N-dimensionalen Parameterraum zu berechnen, und dieses dann zur Visualisierung in die 1D-, 2D- oder 3D-Untervektorräume der Punkte und anderen Parameter zu projizieren. Dieses Ellipsoid würde dann auch alle Korrelationen der Parameter berücksichtigen.

Viele Grüße
Gerhard

Hallo Gerhard,

Wenn ich die Doku richtig verstehe, wird der Konfidenzbereich für jeden Punkt (oder sonstigen Parameter) individuell berechnet, wobei z.B. für einen 2D-Punkt nur die entsprechenden 4 Zellen aus der Kovarianzmatrix herausgepickt werden. Korrelationen zwischen Punkten und/oder anderen Parametern können so nicht berücksichtigt werden.

Es werden nur die Submatrizen für die Intervalle eines Punktes (oder Parameter) verwendet, dass ist korrekt. Korrelationen zu anderen Parametern wurden bei der Berechnung berücksichtigt, wenn diese sich aus dem funktionalen Modell ergeben - sie sind in der Kovarianz enthalten. Da man mit dem Konfidenzbereich eines Punktes eben nur diesen einen Punkt betrachtet, spielen andere Parameter keine Rolle. Die Frage, wie dieser Bereich aussieht, wenn sich bspw. zwei Punkte gleichzeitig darin befinden, wird aber damit nicht beantwortet. Da stimme ich Dir zu.

Die Hauptkomponentenanalyse in JAG3D bestimmt aber die Achsen des Fehlerhyperellipsoids aller Parameter und entspricht damit bereits Deiner Anregung und ist in JAG3D integriert. Die Hauptachsen müssten jedoch noch mit dem gewünschten Quantil skaliert werden. Weiterhin kannst Du die Kovarianz-Matrix exportieren. Diese mit dem gewünschten Quantil multipliziert liefert Dir den erweiteren Vertrauensbereich, der alle Parameter umfasst.

Jetzt frage ich mich, ob es für diese Fragestellung nicht sinnvoll sein könnte, alternativ zur Einzelbetrachtung gleich aus der kompletten Kovarianzmatrix das N-dimensionale 99%-Konfidenzellipsoid im N-dimensionalen Parameterraum zu berechnen, und dieses dann zur Visualisierung in die 1D-, 2D- oder 3D-Untervektorräume der Punkte und anderen Parameter zu projizieren. Dieses Ellipsoid würde dann auch alle Korrelationen der Parameter berücksichtigen.

Das ist nicht so einfach mit der Darstellung, da zu jedem Eigenwert ein Eigenvektor mit N-Elementen vorliegt. Wie soll der auf eine bspw. Ellipse reduziert werden? Wir haben kürzlich für eine Formschätzung mal das Konfidenzintervall eines Ring-Fokus-Parabolids abgeschätzt. Der hierbei entstehende Berich ist noch 3D (und nicht N-D) und dennoch kein Ellipsoid, siehe Abbildung 10 im Artikel.

Viele Grüße
Micha

--
applied-geodesy.org - OpenSource Least-Squares Adjustment Software for Geodetic Sciences

Die Hauptkomponentenanalyse in JAG3D bestimmt aber die Achsen des Fehlerhyperellipsoids aller Parameter und entspricht damit bereits Deiner Anregung und ist in JAG3D integriert.

Hallo Micha, stimmt, die gibt es ja auch noch. Mit der Tabelle bekommt man zumindest einen ersten Überblick. In einer zusätzlichen vierten Spalte würde ich mir die akkumulierte Summe der dritten Spalte wünschen, damit man auch ohne Taschenrechner gleich sieht, wie viele Eigenvektoren man braucht, um z.B. 95% oder 99% der Gesamtvarianz zu erklären. Bei meinem Projekt sind das doch ungefähr 25. Mehr als ich dachte. Der erste (der ja auch im Netzplot als blauer Pfeil visualisiert wird) macht bei mir nur 41% aus (daher fallen Pfleilrichtung und -Länge auch sehr variabel aus).

Das ist nicht so einfach mit der Darstellung, da zu jedem Eigenwert ein Eigenvektor mit N-Elementen vorliegt.

Ja, natürlich sind die Eigenvektoren einer NxN-Matrix ebenfalls N-dimensioinal. Die x- und y-Achse des Koordinatensystems eines Lagepunktes bilden eine Ebene. Eine (bijektive) Abbildung dieser Ebene existiert auch im N-dimensionalen Raum der Eigenvektoren und ist dort ebenfalls eine 2D-Ebene, die i.d.R. irgendwie schief im Raum liegen wird. Jeder Lagepunkt hat seine eigene x,y Ebene, weil er auch im N-dimensionalen Parameter-Vektor zwei separate Dimensionen beansprucht.

Wie soll der auf eine bspw. Ellipse reduziert werden?

Ich dachte einfach an eine orthogonale Projektion aller Punkte des Hyperellipsoids auf jene 2D-Ebene im N-dimensionalen Raum, die der x,y Ebene des betrachteten Lagepunktes entpricht. Dann müssten die projizierten Punkte in dieser Ebene in einer Ellipse liegen. Für ein Ellipsoid denke ich, dass die Projektion der Ellipsengleichung auch analytisch berechenbar ist, ich habe aber keine Algorithmus bei der Hand.

Machst Du nicht genau dasselbe bereits für einen einzelnen Vektor des N-dimensionalen Raums, wenn Du den blauen Pfleil zeichnest?

Wir haben kürzlich für eine Formschätzung mal das Konfidenzintervall eines Ring-Fokus-Parabolids abgeschätzt. Der hierbei entstehende Berich ist noch 3D (und nicht N-D) und dennoch kein Ellipsoid, siehe Abbildung 10 im Artikel.

Gefällt mir ;-) Hier hattest Du natürlich mit einer sehr speziellen Verteilungsfunktion zu tun. Solange man von Normalverteilung ausgeht, werden die Konfidenzbereiche (Hyper)Ellipsoide, Ellipsen und Strecken sein.

Apropos Bootstrapping [wieso lässt mich die Forumsoftware das Wort nicht eingeben? Das ist doch kein böses Wort?] - das wäre natürlich auch ein interessantes Feature für JAG3D. Es würde ermöglichen, direkt mit der Verteilungsfunktion und den tatsächlichen Größen der Residuen zu "arbeiten". Derzeit bekomme ich ja z.B. zu große oder zu kleine Ellipsen, wenn der Varianzfaktor von 1 abweicht - die tatsächlichen Residien werden hier nicht berücksichtigt. Resampling der Beobachtungen erscheint mir eher kein gangbarer Weg für diesen Use Case, weil die Beobachtungen heterogen sind, aber es gibt ja auch noch den Wild Bootstrap.

Viele Grüße
Gerhard

Hallo Gerhard,

zunächst, mir ging es nicht ums Bootstrapping sondern um das Konfidenzintervall in der Abbildung. Dieses ist sehr anschaulich und beschreibt am Objekt den Konfidenzbereich. Ein Ellipsoid wäre bei weitem nicht so anschaulich in diesem Fall. Dies trifft auch zu, wenn die Parameter unterschiedliche Einheiten aufweisen. Eine Ellipse, bei der eine Achse in Neugrad und die andere in Meter vorliegt, lässt sich leicht plotten aber sie ist i.A. keine Hilfe bei der Analyse.

damit man auch ohne Taschenrechner gleich sieht, wie viele Eigenvektoren man braucht, um z.B. 95% oder 99% der Gesamtvarianz zu erklären. Bei meinem Projekt sind das doch ungefähr 25. Mehr als ich dachte. Der erste (der ja auch im Netzplot als blauer Pfeil visualisiert wird) macht bei mir nur 41% aus (daher fallen Pfleilrichtung und -Länge auch sehr variabel aus).

Bei Dir klingt dies so, als wäre es schlecht, dass Du nur 40 % mit dem größten Eigenwert erreichst. Dabei ist man doch gerade bestrebt, den größten Eigenwert möglichst klein zu haben (ideal wäre es, wenn alle identische Größen aufweisen). Hier verstehe ich beim besten Willen Deine Argumentation nicht.

Wie soll der auf eine bspw. Ellipse reduziert werden?

Ich dachte einfach an eine orthogonale Projektion aller Punkte des Hyperellipsoids auf jene 2D-Ebene im N-dimensionalen Raum, die der x,y Ebene des betrachteten Lagepunktes entpricht.

Ein N-Dimensionales Problem lässt sich auf ein 2-D oder gar 1-D Problem nicht ohne enormen Informationsverlust reduzieren. Dieser Vorschlag würde mit großer Wahrscheinlichkeit keinen Mehrwert bieten. Da Du die Kovarianzmatrix bekommst, hast Du letztlich alles, was Du benötigst für die von Dir angedachte Analyse.

ich habe aber keine Algorithmus bei der Hand.

Ich warte gern, bis Du einen hast und überlege mir dann, ob ich das für sinnvoll erachte.

Machst Du nicht genau dasselbe bereits für einen einzelnen Vektor des N-dimensionalen Raums, wenn Du den blauen Pfleil zeichnest?

Ich zeichne die Vektorkomponenten des größten Eigenvektors ein. Die N-1 anderen Vektoren sind nicht dargestellt.

Apropos Bootstrapping [wieso lässt mich die Forumsoftware das Wort nicht eingeben? Das ist doch kein böses Wort?]

Das habe ich behoben mit dem Wortfilter.
Wie oben aber schon geschrieben, ging es mir nicht um dieses Verfahren sondern um die Darstellung (für die wir eben kein Ellipsoid gewählt haben).

Viele Grüße
Micha

--
applied-geodesy.org - OpenSource Least-Squares Adjustment Software for Geodetic Sciences

Die x- und y-Achse des Koordinatensystems eines Lagepunktes bilden eine Ebene. Eine (bijektive) Abbildung dieser Ebene existiert auch im N-dimensionalen Raum der Eigenvektoren und ist dort ebenfalls eine 2D-Ebene, die i.d.R. irgendwie schief im Raum liegen wird. Jeder Lagepunkt hat seine eigene x,y Ebene, weil er auch im N-dimensionalen Parameter-Vektor zwei separate Dimensionen beansprucht.

Ich weiß nicht ob ich mich hier klar genug ausgedrückt habe. Ich meine, zu jedem Parameter gibt es einen (N-dimensionaler) Richtungsvektor im Eigenvektorraum der Kovarianzmatrix. Ein 2D-Lagepunkt, der aus 2 Parametern besteht, hat somit zwei Richtungsvektoren im Eigenvektorraum, und diese bilden dort eine Ebene.

Solange man von Normalverteilung ausgeht,

Zusatz: ... und ein linearisierten Modell annimmt ...

werden die Konfidenzbereiche (Hyper)Ellipsoide, Ellipsen und Strecken sein.

Mit Bootstrapping wäre man auch nicht mehr auf das linearisierte Modell festgelegt. Allerdings braucht man m.E. zum brute-force Bootstrappen von Konfidenzbereichen schon verdammt viele Samples, speziell wenn es nicht nur bescheidene 95%, sondern z.B. gleich 99.9% oder noch mehr sein sollen. Wenn man nur die Momente der Verteilungsfunktion schätzen möchte, reichen hingegen auch weniger.

Viele Grüße
Gerhard

RSS Feed of thread