Um die Entscheidungsfindung in einem schnelllebigen, globalen Markt zu beschleunigen und zu verfeinern, können Unternehmen generative Modelle der künstlichen Intelligenz einsetzen, um die Diagramme zusammenzufassen und zu interpretieren, die häufig in Marktzusammenfassungen und Finanzberichten enthalten sind.

Aber selbst die neuesten Imaginative and prescient-Sprach-Modelle haben manchmal Probleme mit dieser Aufgabe, da sie ein Modell benötigen, um visuelles, numerisches und sprachliches Verständnis zu integrieren. Ein Unternehmen, das in ein hochmodernes Modell investiert, erhält möglicherweise dennoch ungenaue oder unvollständige Informationen.

Um diese Leistungslücke zu schließen, haben Forscher des MIT und des MIT-IBM Computing Analysis Lab eine vielseitige Ressource für KI-Benutzer entwickelt, die speziell darauf ausgelegt ist, Imaginative and prescient-Language-Modellen (VLMs) beizubringen, wie man Diagramme effektiv interpretiert.

Sie verwendeten eine neuartige Datengenerierungsmethode, um einen hochmodernen Datensatz zu erstellen, der mehr als eine Million verschiedener Diagramme umfasst. Der Datensatz kodiert außerdem viele visuelle, sprachliche und numerische Komponenten jedes Diagrammbilds, die es Modellen ermöglichen, fundierte Überlegungen zu den Informationen in einem Diagramm anzustellen.

Die Forscher verwendeten diesen Datensatz namens ChartNetum eine Reihe von Open-Supply-VLMs zu trainieren. Viele dieser kleineren Modelle übertrafen größere, kommerzielle Modelle um Größenordnungen bei Aufgaben wie Datenextraktion und Diagrammzusammenfassung deutlich.

Indem es Open-Supply-Modellen ermöglicht, ihre kommerziellen Pendants zu übertreffen, könnte ChartNet es kleinen Unternehmen mit begrenzten Budgets ermöglichen, KI leichter zu nutzen. Der Open-Supply-Datensatz kann verwendet werden, um die Fähigkeiten von KI-Modellen für Aufgaben wie Geschäftstrendanalysen und die Interpretation wissenschaftlicher Zahlen zu verbessern.

„Wir haben ChartNet als zentrale Anlaufstelle für das Verständnis von Diagrammen entwickelt, die im Grunde alles abdeckt, was ein KI-Modell und ein Praktiker, der dieses Modell trainiert, benötigen könnten. Wir hoffen, dass unsere Arbeit Forscher dazu motiviert, mit kleineren Modellen, die nicht unendlich viel Rechenaufwand erfordern, Spitzenleistungen zu erzielen“, sagt Jovana Kondic, Absolventin der Elektrotechnik und Informatik (EECS) am MIT und Hauptautorin von a Artikel auf ChartNet.

Sie wird von zahlreichen Co-Autoren des MIT, des MIT-IBM Computing Analysis Lab und von IBM Analysis unterstützt, darunter Pengyuan Li, ein Forschungsmitarbeiter bei IBM Analysis; Dhiraj Joshi, leitender Wissenschaftler bei IBM Analysis; Isaac Sanchez, Softwareentwickler bei IBM Analysis; Aude Oliva, Direktorin für strategisches Branchenengagement am MIT Schwarzman School of Computing, MIT-Direktorin des MIT-IBM Computing Analysis Lab und leitende Forschungswissenschaftlerin im Pc Science and Synthetic Intelligence Laboratory (CSAIL); und Rogerio Feris, leitender Wissenschaftler und Supervisor am MIT-IBM Computing Analysis Lab. Die Forschung wird auf der IEEE Pc Imaginative and prescient and Sample Recognition Convention vorgestellt.

Ein Datensatzengpass

Forscher haben große Fortschritte bei der Entwicklung generativer KI-Modelle gemacht, die sich durch die Verarbeitung natürlicher Sprache und die Schlussfolgerung über natürliche Bilder auszeichnen. Laut Kondic konzentrierte sich die Arbeit jedoch weniger auf die Interpretation komplexer multimodaler Daten, die in Diagrammen enthalten sind.

Doch für große und kleine Unternehmen in nahezu jeder Branche ist das Verständnis von Diagrammen eine entscheidende Aufgabe.

„Die Finanzbranche lebt von Diagrammen. Wenn Imaginative and prescient-Language-Modelle Informationen aus Diagrammen extrahieren können, etwa Beschreibungen von Developments, erleichtert das viele Arbeitsabläufe, die nachgelagert stattfinden“, sagt Joshi.

Der Mangel an qualitativ hochwertigen Trainingsdaten ist ein großer Engpass, der die Entwicklung von VLMs, die Diagramme genau interpretieren können, behindert. Viele Datensätze enthalten nur begrenzte Diagrammbilder aus dem Web und verfügen häufig nicht über den erforderlichen Maßstab und zusätzliche Informationen, um einem Modell bei der Interpretation der zugrunde liegenden Daten zu helfen.

„Im Gegensatz zu unserem Gehirn muss ein Imaginative and prescient-Sprachmodell während des Trainings möglicherweise Tausende von Beispielen sehen, um zuverlässig etwas als Liniendiagramm zu erkennen“, sagt Kondic.

Die Forscher versuchten, diese Mängel durch die Generierung synthetischer Daten zu beheben. Synthetische Daten werden von Algorithmen künstlich generiert, um die statistischen Eigenschaften tatsächlicher Daten nachzuahmen.

Der ChartNet-Datensatz enthält mehr als eine Million hochwertige Diagrammbilder sowie den entsprechenden Code, der zum Generieren jedes Diagramms verwendet wird, eine Textbeschreibung und eine Tabelle mit den numerischen Informationen. Darüber hinaus enthält jeder Datenpunkt Frage-Antwort-Paare, um dem Modell beizubringen, wie es Fragen zum Diagrammbild richtig beantwortet.

„Diese zusätzlichen Datenmodi leiten das Modell an, die verschiedenen Informationen, die das Diagrammbild kodiert, zu verbinden und auszurichten“, sagt Kondic.

Datengenerierung

Um ChartNet aufzubauen, erstellten die Forscher eine zweistufige Pipeline zur Generierung synthetischer Daten.

Zunächst übersetzt ihr automatisiertes System alle bereits vorhandenen Diagrammbilder in Code. Anschließend erweitert das System diesen Code iterativ, um verschiedene Aspekte jedes Diagramms zu ändern, z. B. Diagrammtyp, Datenwerte, Thema, Farben usw.

„Wir können mit einem einzigen Diagramm beginnen, das wir als Ausgangspunkt verwenden, und daraus Hunderte von Erweiterungen erstellen. Auf diese Weise konnten wir einen Datensatz mit mehr als einer Million verschiedener Bilder erstellen“, erklärt Kondic.

Sie haben außerdem einen automatisierten Qualitätsprüfungsprozess integriert, um sicherzustellen, dass die synthetischen Daten von hoher Qualität sind. Dieser Prozess überprüft, ob der Code ausführbar ist und ob die gerenderten Diagrammbilder korrekt und sauber sind.

„Wir wollen nicht nur vielfältige Stichproben generieren, sondern die Informationen auch auf sinnvolle Weise präsentieren“, sagt sie.

ChartNet enthält außerdem eine Auswahl von Diagrammdatenpunkten, die von menschlichen Experten mit Anmerkungen versehen wurden. Dies ermöglicht den Zugriff auf zusätzliche Diagrammtypen und unterstützende Daten mit Gültigkeitsgarantien.

Ein Praktiker könnte die kommentierten Daten verwenden, um ein vorhandenes VLM zu optimieren und so die Leistung für eine bestimmte Anwendung weiter zu steigern, fügt Joshi hinzu.

Die Forscher testeten ChartNet, indem sie die Modellreihe Granite Imaginative and prescient von IBM sowie mehrere andere Open-Supply-Modelle unterschiedlicher Größe trainierten und sie für verschiedene Diagramminterpretationsaufgaben evaluierten. Der Datensatz verbesserte die Genauigkeit aller Modelle bei der Diagrammrekonstruktion, der Diagrammdatenextraktion, der Diagrammzusammenfassung und der Beantwortung von Diagrammfragen.

Mit ChartNet übertrafen kleine Open-Supply-Modelle durchweg viel größere kommerzielle Modelle.

„Viele frühere Trainingsdatensätze konzentrierten sich nur auf die Beantwortung einfacher Fragen zu einem Diagramm. Mit ChartNet haben wir versucht, darüber hinauszugehen, indem wir Daten generierten, die alle Aspekte eines soliden Diagrammverständnisses unterstützen“, sagt Kondic.

In Zukunft planen die Forscher, ChartNet durch die Einbindung von Daten mit höherer Komplexität weiter auszubauen. Sie wollen auch das Suggestions der Forschungsgemeinschaft einbeziehen.

Diese Forschung wurde teilweise vom MIT-IBM Computing Analysis Lab finanziert.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert