PhysicEdit: Bildbearbeitungsmodellen beibringen, die Physik zu respektieren

Anleitungsbasierte Bildbearbeitungsmodelle überzeugen bei der Befolgung von Eingabeaufforderungen. Wenn es bei Bearbeitungen jedoch um physische Interaktionen geht, missachten sie oft die Gesetze der realen Welt. In ihrem Papier „Von der Statik zur Dynamik: Physikbewusste Bildbearbeitung mit latenten Übergangsprioritäten„,“ Die Autoren stellen PhysicEdit vor, ein Framework, das die Bildbearbeitung als physischen Zustandsübergang und nicht als statische Transformation zwischen zwei Bildern behandelt. Diese Verschiebung verbessert den Realismus in physiklastigen Szenarien.

Fehler bei der KI-Bilderzeugung

Sie erzeugen einen Raum mit einer Lampe und bitten das Modell, diese auszuschalten. Die Lampe geht aus, aber die Beleuchtung im Raum verändert sich kaum. Die Schatten bleiben inkonsistent. Die Anweisung wird befolgt, aber die Beleuchtungsphysik wird ignoriert.

Stecken Sie nun einen Strohhalm in ein Glas Wasser. Der Strohhalm erscheint im Glas, bleibt aber vollkommen gerade, anstatt sich aufgrund der Lichtbrechung zu verbiegen. Die Bearbeitung sieht auf den ersten Blick korrekt aus, verstößt jedoch gegen die optische Physik. Dies sind genau die Fehler, die PhysicEdit beheben möchte.

Fehler bei der KI-Bilderzeugung – Stroh im Wasser

Lesen Sie auch: Die 7 besten KI-Bildgeneratoren zum Ausprobieren im Jahr 2026

Das Drawback aktueller Bildbearbeitungsmodelle

Die meisten anweisungsbasierten Bearbeitungsmodelle folgen einem unkomplizierten Aufbau.

Sie stellen ein Quellbild bereit.
Sie geben eine Bearbeitungsanweisung.
Das Modell generiert ein modifiziertes Bild.

Dies funktioniert intestine für semantische Bearbeitungen wie:

Ändern Sie die Hemdfarbe in Blau
Ersetzen Sie den Hund durch eine Katze
Entfernen Sie den Stuhl

Dieses Setup behandelt die Bearbeitung jedoch als statisches Mapping zwischen zwei Bildern. Es modelliert nicht den Prozess, der vom Anfangszustand zum Endzustand führt.

Dies wird in physiklastigen Szenarien zu einem Drawback wie:

Stecken Sie einen Strohhalm in ein Glas Wasser
Lassen Sie den Ball auf das Kissen fallen
Schalten Sie die Lampe aus
Frieren Sie die Getränkedose ein

Diese Bearbeitungen erfordern ein Verständnis dafür, wie sich physikalische Gesetze im Laufe der Zeit auf die Szene auswirken. Ohne die Modellierung dieses Übergangs liefert das System häufig Ergebnisse, die auf den ersten Blick plausibel erscheinen, bei näherer Betrachtung jedoch nicht überzeugen.

Von der statischen Zuordnung zu physischen Zustandsübergängen

PhysicEdit schlägt eine andere Formulierung vor.

Anstatt das endgültige Bild direkt aus dem Quellbild und der Anweisung vorherzusagen, wird die Anweisung als physischer Auslöser behandelt. Das Quellbild stellt den anfänglichen physischen Zustand der Szene dar. Das endgültige Bild stellt das Ergebnis dar, nachdem sich die Szene unter physikalischen Gesetzen entwickelt hat.

Mit anderen Worten: Die Bearbeitung wird als Zustandsentwicklungsproblem und nicht als direkte Transformation behandelt.

Diese Unterscheidung ist wichtig.

Herkömmliche Bearbeitungsdatensätze liefern nur das Startbild und das endgültige Bild. Die Zwischenschritte fehlen. Dadurch lernt das Modell, wie die Ausgabe aussehen sollte, aber nicht, wie sich die Szene physisch entwickeln sollte, um diesen Zustand zu erreichen.

PhysicEdit begegnet dieser Einschränkung, indem es aus Movies lernt.

Wir stellen vor: PhysicTran38K

Um ein physikbewusstes Bearbeitungsmodell zu trainieren, haben die Autoren einen neuen Datensatz namens PhysicTran38K erstellt. Es enthält etwa 38.000 Video-Anleitungspaare, die sich speziell auf körperliche Übergänge konzentrieren. Der Datensatz deckt fünf Hauptbereiche ab:

Mechanisch
Optisch
Biologisch
Materials
Thermal

Über diese Domänen hinweg werden 16 Unterdomänen und 46 Übergangstypen definiert. Beispiele hierfür sind:

Lichtreflexion
Brechung
Verformung
Einfrieren
Schmelzen
Keimung
Härten
Zusammenbruch

Von der statischen Zuordnung zu physischen Zustandsübergängen

Jedes Video erfasst einen vollständigen Übergang von einem Anfangszustand zu einem Endzustand, einschließlich der Zwischenschritte. Der Bauablauf ist sorgfältig strukturiert und gefiltert:

Movies werden mithilfe von Eingabeaufforderungen generiert, die den Startstatus, das Auslöseereignis, den Übergang und den Endstatus explizit definieren.
Kamerabewegungen werden herausgefiltert, sodass Pixeländerungen die physische Entwicklung und nicht die Verschiebung des Blickwinkels widerspiegeln.
Physikalische Prinzipien werden automatisch überprüft, um Konsistenz sicherzustellen.
Nur Übergänge, die diese Prüfungen bestehen, werden beibehalten.

Dadurch entsteht eine hochwertige Betreuung zum Erlernen realitätsnaher physikalischer Dynamiken.

Wie funktioniert PhysicEdit?

PhysicEdit baut auf Qwen-Picture-Edit auf, einem diffusionsbasierten Bearbeitungs-Spine. Um die Physik einzubeziehen, wird ein dualer Denkmechanismus mit zwei Komponenten eingeführt:

Physikalisch begründetes Denken
Implizites visuelles Denken

Diese beiden Strömungen ergänzen einander und befassen sich mit unterschiedlichen Aspekten des physischen Realismus.

Duales Denken: Argumentation und visueller Übergang Priors

Physikalisch fundiertes Denken

PhysicEdit verwendet ein eingefrorenes Qwen2.5-VL-7B-Modell, um strukturierte Überlegungen zu generieren, bevor mit der Bildgenerierung begonnen wird.

Unter Berücksichtigung des Quellbilds und der Anweisung wird Folgendes erzeugt:

Die beteiligten physikalischen Gesetze
Einschränkungen, die respektiert werden müssen
Eine Beschreibung, wie die Änderung ablaufen soll

Diese Argumentationsspur wird Teil des Konditionierungskontexts für das Diffusionsmodell. Es stellt sicher, dass bei der Bearbeitung Kausalität und Domänenwissen berücksichtigt werden.

Das Argumentationsmodell bleibt während des Trainings eingefroren, was dazu beiträgt, sein Allgemeinwissen zu bewahren.

Implizites visuelles Denken

Textargumentation allein kann keine feinkörnigen visuellen Effekte erfassen, wie zum Beispiel:

Subtile Verformung
Texturübergänge beim Schmelzen
Lichtstreuung

Um dies zu bewältigen, führt PhysicEdit lernbare Übergangsabfragen ein.

Diese Abfragen werden mithilfe von Zwischenbildern aus den PhysicTran38K-Movies trainiert. Zwei Encoder überwachen sie:

DINOv2-Funktionen für Strukturinformationen
VAE-Funktionen für Particulars auf Texturebene

Während des Trainings gleicht das Modell die Übergangsabfragen mit visuellen Merkmalen aus, die aus Zwischenzuständen extrahiert wurden. Zur Inferenzzeit sind keine Zwischenbilder verfügbar. Stattdessen fungieren die erlernten Übergangsabfragen als destillierte Übergangsprioritäten und führen das Modell zu physikalisch plausiblen Ergebnissen.

Warum ist Video für das Erlernen der Physik wichtig?

Bei der Nur-Bild-Überwachung sieht das Modell nur den Anfangs- und Endzustand. Durch die Videoüberwachung sieht es, wie sich die Szene Schritt für Schritt entwickelt. Diese zusätzlichen Informationen schränken den Lernprozess ein. Es lehrt das Modell nicht nur, wie das Ergebnis aussehen sollte, sondern auch, wie es sich im Laufe der Zeit entwickeln sollte. PhysicEdit komprimiert diese dynamischen Informationen in latente Darstellungen, sodass die Bearbeitung während der Inferenz effizient und einzelbildbasiert bleibt.

Ergebnisse auf PICABench und KRISBench

PhysicEdit wurde anhand von zwei Benchmarks bewertet:

PICABench-Ergebnisse

PICABench konzentriert sich auf physikalischen Realismus, einschließlich Optik, Mechanik und Zustandsübergänge. Im Vergleich zu seinem Grundmodell verbessert PhysicEdit den gesamten physischen Realismus um etwa 5,9 %. Die größten Gewinne treten in Kategorien auf, die eine implizite Dynamik erfordern, darunter:

Lichtquelleneffekte
Verformung
Kausalität
Brechung

KRISBench-Ergebnisse

Auf KRISBench, das die wissensbasierte Bearbeitung bewertet, verbessert PhysicEdit die Gesamtleistung um etwa 10,1 %. Verbesserungen machen sich insbesondere bemerkbar bei:

Zeitliche Wahrnehmung
Naturwissenschaftliches Denken

Diese Ergebnisse legen nahe, dass die Modellierung der Bearbeitung als Zustandsübergänge sowohl die visuelle Wiedergabetreue als auch das physikalische Denken verbessert.

Warum ist das für KI-Systeme wichtig?

Da generative Modelle immer stärker in kreative Werkzeuge, Augmented-Actuality-Systeme und multimodale Agenten integriert werden, wird die physikalische Plausibilität immer wichtiger. Visuell inkonsistente Beleuchtung, unrealistische Verformung oder unterbrochene Kausalität können die Zuverlässigkeit und das Vertrauen beeinträchtigen.

PhysicEdit zeigt, dass:

Aus Videodaten lässt sich Physik effektiv erlernen
Übergangsprioren können in kompakte latente Darstellungen destilliert werden
Textschluss und visuelle Überwachung können zusammenarbeiten

Dies stellt einen bedeutenden Schritt hin zu weltweit konsistenteren generativen Modellen dar.

Unsere High-Artikel zu Bildbearbeitungsmodellen:

Abschluss

Die meisten Bildbearbeitungsmodelle behandeln die Bearbeitung als statisches Transformationsproblem. PhysicEdit definiert es als ein Drawback des Übergangs eines physischen Zustands. Durch die Kombination von videobasierter Supervision, physikalisch fundiertem Denken und erlernten Übergangsvorgaben werden Bearbeitungen erstellt, die nicht nur semantisch korrekt, sondern auch physikalisch plausibel sind. Der Datensatz, der Code und die Prüfpunkte sind Open-Supply-Quellen und somit für Forscher und Ingenieure zugänglich, die realistischere Bearbeitungssysteme erstellen möchten. Da sich die generative KI weiterentwickelt, könnte sich die Einbeziehung physikalischer Konsistenz von einer Forschungsinnovation zu einer Standardanforderung entwickeln.

Notiz: Die Quelle aller Bilder und Informationen im Weblog ist diese Forschungsarbeit.