Google Analysis schlägt eine neue Möglichkeit vor, barrierefreie Software program mit Natively Adaptive Interfaces (NAI) zu erstellen, einem Agenten-Framework, bei dem ein multimodaler KI-Agent zur primären Benutzeroberfläche wird und die Anwendung in Echtzeit an die Fähigkeiten und den Kontext jedes Benutzers anpasst.
Anstatt eine feste Benutzeroberfläche auszuliefern und Barrierefreiheit als separate Ebene hinzuzufügen, drängt NAI die Barrierefreiheit in die Kernarchitektur. Der Agent beobachtet, begründet und modifiziert dann die Schnittstelle selbst, wobei er vom einheitlichen Design zu kontextbezogenen Entscheidungen übergeht.
Was sich durch nativ adaptive Schnittstellen (NAI) im Stack ändert?
NAI geht von einer einfachen Prämisse aus: Wenn eine Schnittstelle durch einen multimodalen Agenten vermittelt wird, kann die Zugänglichkeit durch diesen Agenten statt durch statische Menüs und Einstellungen gehandhabt werden.
Zu den wichtigsten Eigenschaften gehören:
- Der multimodaler KI-Agent ist die primäre Benutzeroberfläche. Es kann Textual content, Bilder und Layouts sehen, Sprache anhören und Textual content, Sprache oder andere Modalitäten ausgeben.
- Barrierefreiheit ist in diesen Agenten integriert von Anfang an, nicht später angeschraubt. Der Agent ist dafür verantwortlich, Navigation, Inhaltsdichte und Präsentationsstil an jeden Benutzer anzupassen.
- Der Designprozess ist explizit benutzerzentriertwobei Menschen mit Behinderungen als Edge-Benutzer behandelt werden, die Anforderungen für alle definieren, und nicht im Nachhinein.
Das Framework zielt auf das ab, was das Google-Staff die „Barrierefreiheitslücke“ nennt – die Verzögerung zwischen dem Hinzufügen neuer Produktfunktionen und deren Nutzbarkeit für Menschen mit Behinderungen. Durch die Einbettung von Agenten in die Schnittstelle soll diese Lücke geschlossen werden, indem das System sich anpassen lässt, ohne auf benutzerdefinierte Add-ons warten zu müssen.
Agentenarchitektur: Orchestrator und spezialisierte Instruments
Unter NAI wird die Benutzeroberfläche durch ein Multiagentensystem unterstützt. Das Kernmuster ist:
- Ein Orchestrator Der Agent verwaltet den gemeinsamen Kontext über den Benutzer, die Aufgabe und den App-Standing.
- Spezialisiert Unteragenten Implementieren Sie gezielte Funktionen wie Zusammenfassung oder Einstellungsanpassung.
- Eine Reihe von Konfigurationsmuster Definiert, wie Benutzerabsichten erkannt, relevanter Kontext hinzugefügt, Einstellungen angepasst und fehlerhafte Abfragen korrigiert werden.
In NAI-Fallstudien zu barrierefreiem Video beispielsweise Das Google-Staff erläutert die wichtigsten Agentenfunktionen wie:
- Benutzerabsicht verstehen.
- Verfeinern Sie Abfragen und verwalten Sie den Kontext über mehrere Runden hinweg.
- Konsistente Eingabeaufforderungen für Ingenieure und Werkzeugaufrufe.
Aus Systemsicht ersetzt dies statische Navigationsbäume durch dynamische, agentengesteuerte Module. Das „Navigationsmodell“ ist im Grunde eine Richtlinie darüber, welcher Unteragent mit welchem Kontext ausgeführt werden soll und wie sein Ergebnis wieder in die Benutzeroberfläche übertragen werden soll.
Multimodale Gemini und RAG für Video und Umgebungen
NAI basiert ausdrücklich auf multimodalen Modellen wie Gemini und Gemma, die Sprache, Textual content und Bilder in einem einzigen Kontext verarbeiten können.
Im Fall von barrierefreien Movies beschreibt Google eine zweistufige Pipeline:
- Offline-Indizierung
- Das System generiert dichte visuelle und semantische Deskriptoren über die Video-Timeline.
- Diese Deskriptoren werden in einem nach Zeit und Inhalt verschlüsselten Index gespeichert.
- On-line Retrieval-Augmented Era (RAG)
- Wenn ein Benutzer während der Wiedergabe eine Frage stellt, beispielsweise „Was trägt die Figur gerade?“, ruft das System relevante Deskriptoren ab.
- Ein multimodales Modell basiert auf diesen Deskriptoren und der Frage, um eine prägnante, beschreibende Antwort zu generieren.
Dieses Design unterstützt interaktive Abfragen während der Wiedergabe, nicht nur vorab aufgezeichnete Audiodeskriptionsspuren. Das gleiche Muster lässt sich auf physische Navigationsszenarien verallgemeinern, bei denen der Agent über eine Folge von Beobachtungen und Benutzerabfragen nachdenken muss.
Konkrete NAI-Prototypen
Die NAI-Forschungsarbeit von Google basiert auf mehreren bereitgestellten oder pilotierten Prototypen, die mit Partnerorganisationen wie RIT/NTID, The Arc of the USA, RNID und Staff Gleason erstellt wurden.
StreetReaderAI
- Entwickelt für blinde und sehbehinderte Benutzer, die sich in städtischen Umgebungen zurechtfinden.
- Kombiniert ein KI-Beschreiber das Kamera- und Geodaten mit einem verarbeitet KI-Chat Schnittstelle für natürlichsprachliche Abfragen.
- Behält ein zeitliches Modell der Umgebung bei, das Abfragen wie „Wo conflict diese Bushaltestelle?“ ermöglicht. und Antworten wie „Es ist hinter dir, etwa 12 Meter entfernt.“
Multimodaler Agent-Videoplayer (MAVP)
- Konzentriert sich auf die Barrierefreiheit von On-line-Movies.
- Verwendet zur Bereitstellung die oben genannte Gemini-basierte RAG-Pipeline adaptive Audiobeschreibungen.
- Ermöglicht es Benutzern, die Beschreibungsdichte zu steuern, die Wiedergabe mit Fragen zu unterbrechen und Antworten auf der Grundlage indizierter visueller Inhalte zu erhalten.
Grammatiklabor
- Eine zweisprachige (amerikanische Gebärdensprache und Englisch) Lernplattform, erstellt von RIT/NTID mit Unterstützung von Google.org und Google.
- Verwendet Gemini, um individuelle A number of-Selection-Fragen zu generieren.
- Präsentiert Inhalte durch ASL-Movies, englische Untertitel, gesprochene Kommentare und Transkripte und passt dabei Modalität und Schwierigkeit an jeden Lernenden an.
Designprozess und Bordsteineffekte
Die NAI-Dokumentation beschreibt einen strukturierten Prozess: Untersuchen, erstellen und verfeinern, dann basierend auf dem Suggestions iterieren. In einer Fallstudie zur Barrierefreiheit von Movies hat das Staff Folgendes getan:
- Definierte Zielbenutzer in einem Spektrum von vollständig blind bis sehend.
- Durchführung von Co-Design- und Benutzertestsitzungen mit etwa 20 Teilnehmern.
- Durchlief mehr als 40 Iterationen, basierend auf 45 Suggestions-Sitzungen.
Von den resultierenden Schnittstellen wird erwartet, dass sie a erzeugen Curb-Minimize-Effekt. Für Benutzer mit Behinderungen entwickelte Funktionen – wie bessere Navigation, Sprachinteraktionen und adaptive Zusammenfassung – verbessern häufig die Benutzerfreundlichkeit für eine viel breitere Bevölkerungsgruppe, einschließlich nichtbehinderter Benutzer, die unter Zeitdruck, kognitiver Belastung oder Umwelteinschränkungen stehen.
Wichtige Erkenntnisse
- Agent ist die Benutzeroberfläche, kein Add-on: Natively Adaptive Interfaces (NAI) behandeln einen multimodalen KI-Agenten als primäre Interaktionsebene, sodass die Zugänglichkeit vom Agenten direkt in der Kern-Benutzeroberfläche gehandhabt wird und nicht als separate Overlay- oder Publish-hoc-Funktion.
- Orchestrator + Subagenten-Architektur: NAI verwendet einen zentralen Orchestrator, der den gemeinsamen Kontext verwaltet und die Arbeit an spezialisierte Unteragenten weiterleitet (z. B. Zusammenfassung oder Einstellungsanpassung), wodurch statische Navigationsbäume in dynamische, agentengesteuerte Module umgewandelt werden.
- Multimodale Gemini + RAG für adaptive Erlebnisse: Prototypen wie der Multimodal Agent Video Participant erstellen dichte visuelle Indizes und nutzen die abrufgestützte Generierung mit Gemini, um interaktive, fundierte Fragen und Antworten während der Videowiedergabe und anderen Wealthy-Media-Szenarien zu unterstützen.
- Echte Systeme: StreetReaderAI, MAVP, Grammar Laboratory: NAI wird in konkreten Instruments instanziiert: StreetReaderAI für die Navigation, MAVP für Video-Barrierefreiheit und Grammar Laboratory für ASL/Englisch-Lernen, alle unterstützt von multimodalen Agenten.
- Barrierefreiheit als zentrale Designbeschränkung: Das Framework kodiert die Zugänglichkeit in Konfigurationsmuster (Absicht erkennen, Kontext hinzufügen, Einstellungen anpassen) und nutzt den Curb-Minimize-Effekt, bei dem die Lösung für behinderte Benutzer die Robustheit und Benutzerfreundlichkeit für die breitere Benutzerbasis verbessert.
Schauen Sie sich das an Technische Particulars hier. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 100.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.

