Dieser Beitrag stammt von Bob.

Zurück zu einem technischen statistischen Pc.

Bedingungsnummern für zufällige Spaziergänge

Der übliche Begriff der Bedingungszahl ist das Verhältnis des größten zum kleinsten Eigenwert des negativen Hessischen. Große Eigenwerte entsprechen hoher Krümmung und kleiner Eigenwerte für niedrige Krümmung. Zustandszahlen sind wichtig, da die Schrittgröße klein genug sein muss, um mit den Regionen mit hoher Krümmung umzugehen, und somit viele Schritte benötigt, um flachere Regionen mit niedriger Krümmung zu durchqueren. Eigenwerte der negativen hessischen wirken wie inverse Varianzen (sie sind inverse Varianzen in einer multivariaten Normalen mit einer diagonalen Kovarianzmatrix) und sind somit quadratische Skalen. Wenn Sie die Schrittgröße so einstellen, dass sie mit der Richtung der höchsten Krümmung übereinstimmt, müssen Sie eine Anzahl von Schritten entsprechen, die der Bedingungszahl entsprechen, um sich in Richtung der niedrigsten Krümmung zu bewegen – dies ist die Bedingungszahl. Es grenzt, wie viele Schritte erforderlich sein werden, um ungefähr unabhängige Zeichnen zu erhalten.

Neals Trichter

Radford Neal stellte eine Trichterdichte in seinem Slice -Probenahmepapier ein. Ich nehme an, er battle sich bewusst, wie böse dieses Beispiel ist. Der Trichter ist eine zentrierte Parametrisierung eines hierarchischen Modells ohne Daten in N -Dimensionen:

y ~ regular(0, 3)
x(1:N - 1) ~ regular(0, exp(y / 2))

Hier ist eine Dichtehandlung von y gegen x(1) von der Stan -Benutzerhandbuch Kapitel über Reparametrisierung.

Wenn Sie sich zwischen +6 und -6 entlang der y -Achse bewegen, verläuft die Bedingungszahl von 1000 auf ungefähr 1 am Ursprung auf 1000. Von der Konditionierung sind sowohl der Mund als auch der Hals des Trichters schwierig. Und dies sind nur +/- zwei Standardabweichungen, was nur ungefähr 95% der Wahrscheinlichkeitsmasse entspricht. Eines der Dinge, die den Trichter böse machen, ist, dass sich während des Umzugs von -6 auf 6 die Eigenstruktur mit dem Haupt -Eigenvektor (der mit dem größten Eigenwert) ändert, ändert die Ausrichtung von entlang der x -Achsen entlang der Y -Achse.

Es ist sehr schwierig, die Unsicherheit im Trichter unter Verwendung von Probenahme und sogar unabhängiger Probenahme abzuschätzen. Das Downside ist das x(n)^2 hat einen Mittelwert von ungefähr 100, aber x(n)^4 hat einen Mittelwert von 2 x 10^8 (!) Und so x(n)^2 hat selbst eine Standardabweichung von 1,4 x 10^4 (ich verwende die Tatsache, dass var(X^2) = E(X^4) - E(X^2)^2). Dies muss enorm nach rechts verzerrt sein, da die Werte nach unten begrenzt sind. Selbst mit 10 Milliarden unabhängigen Ziehen aus dem Trichter sind die Schätzungen der Erwartung und der Varianz der X -Koordinaten überall.

Zustandszahlen für HMC

HMC ist gerade so effektiv, weil es das zufällige Stroll -Verhalten von Metropolis überwindet. Wenn Metropolis o (n^2) Arbeiten benötigt, um einen Abstand von N zu bewegen, benötigt HMC nur O (n^5/4). Aber es gibt immer noch diese böse Konstante, wenn die Konditionierung in diesem asymptotischen Komplexitätsergebnis lauert.

Ich weiß nicht, wie ich es vorher verpasst habe, aber ich habe letzten Monat auf der MCM -Konferenz in Chicago nur etwas über dieses Papier erfahren:

Langmore et al. einen angemessenen Zustand des Zustands für HMC einführen,

kappa = ( SUM_{n=1}^N (lambdaMax / lambda(n))^4 )^(1/4)

Wo lambda(1:N) sind die Eigenwerte der negativen Hessischen und lambdaMax = max(lambda(1:N)). Dies sagt uns, dass es schlimmer ist, einen großen Eigenwert (eine hochkrümmte Dimension) und viele kleine Eigenwerte (flache Abmessungen) zu haben als umgekehrt. Daher ist der Trichter für HMC im Mund tatsächlich schlechter konditioniert als im Nacken. Im Mund entspricht der größte Eigenwert der relativ langsamen Bewegung y Achse und die x Achsen sind alle relativ gesehen viel niedrigere Krümmung. Der Grund, warum der Hals normalerweise als Quelle des Issues angesehen wird, ist, dass der Leapfrog-Algorithmus in HMC nur eine (dh Gradientenbasis) -Näherung der Hamiltonschen Flugbahn ist und in Regionen mit hoher Krümmung ziemlich schnell abweichen kann. Wenn Sie HMC oder Muttern einnehmen und eine feste Schrittgröße verwenden, können Sie die Schwänze des Nackens oder des Mundes des Trichters nicht sehr intestine erforschen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert