
Die Einführung neuer Instruments und Technologien erfolgt dann, wenn Benutzer sie weitgehend als zuverlässig und zugänglich empfinden und im Hinblick auf die Kosten eine Verbesserung gegenüber den verfügbaren Methoden und Arbeitsabläufen darstellen. Fünf Doktoranden aus der Eröffnungsklasse des MIT-IBM Watson AI Lab Summer time Program nutzen modernste Ressourcen, lindern KI-Probleme und schaffen neue Funktionen und Fähigkeiten, um den Nutzen und Einsatz von KI zu fördern – vom Lernen, wann man einem Modell vertrauen sollte, das die Genauigkeit eines anderen vorhersagt, bis hin zu effektiverer Argumentation über Wissensdatenbanken. Gemeinsam bilden die Bemühungen der Studenten und ihrer Mentoren eine durchgehende Linie, in der praktische und technisch anspruchsvolle Forschung zu zuverlässigeren und wertvolleren Modellen in allen Bereichen führt.
Die Arbeit der Studierenden beim Aufbau von Sonden, Routern, neuen Aufmerksamkeitsmechanismen, synthetischen Datensätzen und Programmsynthese-Pipelines umfasst Sicherheit, Inferenzeffizienz, multimodale Daten und wissensbasiertes Denken. Ihre Techniken legen Wert auf Skalierung und Integration, wobei die Wirkung immer im Blick ist.
Vertrauen lernen und wann
Die Forschung des MIT-Mathematikstudenten Andrey Bryutkin priorisiert die Vertrauenswürdigkeit von Modellen. Er sucht nach internen Strukturen innerhalb von Problemen, wie beispielsweise Gleichungen, die ein System regeln, und Erhaltungsgesetzen, um zu verstehen, wie man sie nutzen kann, um zuverlässigere und robustere Lösungen zu erzielen. Auf dieser Grundlage und in Zusammenarbeit mit dem Labor entwickelte Bryutkin eine Methode, um einen Blick in die Natur des Verhaltens großer Lernmodelle (LLMs) zu werfen. Zusammen mit Veronika Thost von IBM Analysis im Labor und Marzyeh Ghassemi – außerordentlicher Professor und Germeshausen Profession Improvement Professor am MIT Division of Electrical Engineering and Laptop Science (EECS) und Mitglied des Institute of Medical Engineering Sciences und des Laboratory for Info and Determination Programs – erforschte Bryutkin die „Unsicherheit der Unsicherheit“ von LLMs.
Klassischerweise werden winzige Feed-Ahead-Neuronale Netze mit einer Tiefe von zwei bis drei Schichten, sogenannte Probes, neben LLMs trainiert und eingesetzt, um Entwicklern nicht vertrauenswürdige Antworten aus dem größeren Modell zu melden; Allerdings können diese Klassifikatoren auch falsch-negative Ergebnisse liefern und nur Punktschätzungen liefern, die nicht viele Informationen darüber liefern, wann das LLM ausfällt. Bei der Untersuchung sicherer/unsicherer Eingabeaufforderungen und Frage-Antwort-Aufgaben verwendete das MIT-IBM-Group Eingabeaufforderungs-Label-Paare sowie verborgene Zustände wie Aktivierungsvektoren und letzte Token eines LLM, um Gradientenwerte, Empfindlichkeit gegenüber Eingabeaufforderungen und Daten außerhalb der Verteilung zu messen, um zu bestimmen, wie zuverlässig die Sonde conflict, und um Datenbereiche zu lernen, die schwer vorherzusagen sind. Ihre Methode hilft auch dabei, potenzielles Etikettierungsrauschen zu identifizieren. Dies ist eine entscheidende Funktion, da die Vertrauenswürdigkeit von KI-Systemen vollständig von der Qualität und Genauigkeit der gekennzeichneten Daten abhängt, auf denen sie basieren. Genauere und konsistentere Sonden sind besonders wichtig für Domänen mit kritischen Daten in Anwendungen wie der Granite Guardian-Modellfamilie von IBM.
Eine weitere Möglichkeit, vertrauenswürdige Antworten auf Anfragen eines LLM sicherzustellen, besteht darin, diese mit externen, vertrauenswürdigen Wissensdatenbanken zu ergänzen, um Halluzinationen zu verhindern. Für strukturierte Daten wie Social-Media-Verbindungen, Finanztransaktionen oder Unternehmensdatenbanken sind Wissensgraphen (KG) die natürliche Lösung; Für die Kommunikation zwischen LLM und KGs werden jedoch häufig feste Multi-Agent-Pipelines verwendet, die rechenineffizient und teuer sind. Um dieses Downside anzugehen, hat der Physik-Doktorand Jinyeop Track zusammen mit den Laborforschern Yada Zhu von IBM Analysis und dem EECS-Assoziierten Professor Julian Shun ein Single-Agent-, Multi-Flip- und Reinforcement-Studying-Framework entwickelt, das diesen Prozess rationalisiert. Hier entwarf die Gruppe einen API-Server, der Freebase- und Wikidata-KGs hostet, die aus allgemeinen webbasierten Wissensdaten bestehen, und einen LLM-Agenten, der gezielte Abrufaktionen ausgibt, um relevante Informationen vom Server abzurufen. Dann hängt der Agent durch kontinuierliches Hin- und Her die gesammelten Daten von den KGs an den Kontext an und antwortet auf die Anfrage. Entscheidend ist, dass sich das System mithilfe von Reinforcement Studying selbst darauf trainiert, Antworten zu liefern, die ein Gleichgewicht zwischen Genauigkeit und Vollständigkeit herstellen. Das Framework kombiniert einen API-Server mit einem einzelnen Reinforcement-Studying-Agenten, um datenbasiertes Denken mit verbesserter Genauigkeit, Transparenz, Effizienz und Übertragbarkeit zu orchestrieren.
Geben Sie Ihre Berechnungen mit Bedacht aus
Die Aktualität und Vollständigkeit der Antwort eines Modells haben ein ähnliches Gewicht wie die Bedeutung seiner Genauigkeit. Dies gilt insbesondere für den Umgang mit langen Eingabetexten und solchen, bei denen sich Elemente wie das Thema einer Geschichte im Laufe der Zeit weiterentwickeln. Daher überarbeitet EECS-Doktorand Songlin Yang, was Modelle bei jedem Schritt der Inferenz verarbeiten können. Rameswar Panda von IBM Analysis und Yoon Kim, NBX-Professor und außerordentlicher Professor in EECS, konzentrierten sich auf Transformatorbeschränkungen, wie sie in LLMs auftreten, und entwickelten zusammen mit Yang Sprachmodellarchitekturen der nächsten Technology über Transformatoren hinaus.
Transformatoren sind mit zwei wesentlichen Einschränkungen konfrontiert: hoher Rechenkomplexität bei der Langsequenzmodellierung aufgrund des Softmax-Aufmerksamkeitsmechanismus und begrenzter Ausdrucksfähigkeit aufgrund der schwachen induktiven Vorspannung von RoPE (Rotary Positional Encoding). Das bedeutet, dass sich der Rechenaufwand vervierfacht, wenn sich die Eingabelänge verdoppelt. RoPE ermöglicht es Transformatoren, die Reihenfolge von Token (d. h. Wörtern) zu verstehen; Es leistet jedoch keine gute Arbeit bei der Erfassung interner Zustandsänderungen im Laufe der Zeit, wie z. B. Variablenwerte, und ist auf die während des Trainings beobachteten Sequenzlängen beschränkt.
Um dieses Downside anzugehen, untersuchte das MIT-IBM-Group theoretisch fundierte und dennoch hardwareeffiziente Algorithmen. Als Various zur Softmax-Aufmerksamkeit haben sie die lineare Aufmerksamkeit eingeführt und so die quadratische Komplexität reduziert, die die mögliche Sequenzlänge begrenzt. Sie untersuchten auch Hybridarchitekturen, die Softmax und lineare Aufmerksamkeit kombinieren, um ein besseres Gleichgewicht zwischen Recheneffizienz und Leistung zu erreichen.
Um die Ausdruckskraft zu steigern, ersetzten sie RoPE durch eine dynamische reflektierende Positionskodierung basierend auf der Householder-Transformation. Dieser Ansatz ermöglicht umfassendere Positionsinteraktionen für ein tieferes Verständnis sequenzieller Informationen und sorgt gleichzeitig für eine schnelle und effiziente Berechnung. Die Fortschritte des MIT-IBM-Groups reduzieren die Notwendigkeit für Transformatoren, Probleme in viele Schritte zu unterteilen, und ermöglichen ihnen stattdessen, komplexere Teilprobleme mit weniger Inferenz-Tokens zu bewältigen.
Visionen neu
Visuelle Daten enthalten eine Vielzahl, die das menschliche Gehirn schnell analysieren, verinnerlichen und dann nachahmen kann. Mithilfe von Imaginative and prescient-Language-Modellen (VLMs) erforschen zwei Doktoranden Möglichkeiten, dies mithilfe von Code zu erreichen.
In den letzten beiden Sommern und unter der Leitung von Aude Oliva, MIT-Direktorin des MIT-IBM Watson AI Lab und leitende Forschungswissenschaftlerin im Labor für Informatik und künstliche Intelligenz; und Rogerio Feris, Dan Gutfreund und Leonid Karlinsky (jetzt bei Xero) von IBM Analysis hat Jovana Kondic von EECS das visuelle Dokumentverständnis, insbesondere Diagramme, erforscht. Diese enthalten Elemente wie Datenpunkte, Legenden und Achsenbeschriftungen, die optische Zeichenerkennung und numerisches Denken erfordern, womit Modelle immer noch Probleme haben. Um die Leistung bei Aufgaben wie diesen zu erleichtern, machte sich Kondics Gruppe daran, einen großen, offenen, synthetischen Diagrammdatensatz aus Code zu erstellen, der für Coaching und Benchmarking verwendet werden könnte.
Mit ihrem Prototyp ChartGen erstellten die Forscher eine Pipeline, die Bilder von Seed-Diagrammen durch einen VLM leitet, der aufgefordert wird, das Diagramm zu lesen und ein Python-Skript zu generieren, das wahrscheinlich ursprünglich zum Erstellen des Diagramms verwendet wurde. Die LLM-Komponente des Frameworks erweitert dann iterativ den Code aus vielen Diagrammen, um letztendlich über 200.000 einzigartige Diagrammpaare und deren Codes zu erstellen, die quick 30 Diagrammtypen umfassen, sowie unterstützende Daten und Anmerkungen wie Beschreibungen und Frage-Antwort-Paare zu den Diagrammen. Das Group erweitert seinen Datensatz weiter und trägt dazu bei, ein kritisches multimodales Verständnis für Datenvisualisierungen für Unternehmensanwendungen wie Finanz- und wissenschaftliche Berichte, Blogs und mehr zu ermöglichen.
Anstelle von Diagrammen hat der EECS-Doktorand Leonardo Hernandez Cano sein Augenmerk auf digitales Design gerichtet, insbesondere auf die visuelle Texturgenerierung für CAD-Anwendungen und das Ziel, effiziente Wege zu finden, um Funktionen in VLMs zu ermöglichen. In Zusammenarbeit mit den Laborgruppen unter der Leitung von Armando Photo voltaic-Lezama, EECS-Professor und Distinguished Professor of Computing am MIT Schwarzman Faculty of Computing, und Nathan Fulton von IBM Analysis hat Hernandez Cano ein Programmsynthesesystem entwickelt, das lernt, Code selbst zu verfeinern. Das System beginnt mit einer Texturbeschreibung, die ein Benutzer in Type eines Bildes vorgibt. Anschließend generiert es ein erstes Python-Programm, das visuelle Texturen erzeugt, und verfeinert den Code iterativ mit dem Ziel, ein Programm zu finden, das eine Textur erzeugt, die der Zielbeschreibung entspricht, und lernt, anhand der vom System selbst erzeugten Daten nach neuen Programmen zu suchen. Durch diese Verfeinerungen kann das neuartige Programm Visualisierungen mit der gewünschten Leuchtkraft, Farbe, Schillerung usw. erstellen und so echte Materialien nachahmen.
Zusammen betrachtet machen diese Projekte und die Menschen dahinter einen zusammenhängenden Vorstoß hin zu robusterer und praktischerer künstlicher Intelligenz. Durch die Bewältigung der Kernherausforderungen Zuverlässigkeit, Effizienz und multimodales Denken ebnet die Arbeit den Weg für KI-Systeme, die nicht nur leistungsfähiger, sondern auch zuverlässiger und kostengünstiger für reale Unternehmens- und wissenschaftliche Anwendungen sind.
