Unterstützung von Laien beim Erstellen fortgeschrittener generativer KI-Modelle

Die Auswirkungen künstlicher Intelligenz werden nie gleichmäßig verteilt sein, wenn es nur ein Unternehmen gibt, das die Modelle erstellt und kontrolliert (ganz zu schweigen von den Daten, die in sie einfließen). Leider bestehen die heutigen KI-Modelle aus Milliarden von Parametern, die trainiert und abgestimmt werden müssen, um die Leistung für jeden Anwendungsfall zu maximieren. Dadurch sind die leistungsstärksten KI-Modelle für die meisten Menschen und Unternehmen unerreichbar.

MosaicML begann mit der Mission, diese Modelle zugänglicher zu machen. Das Unternehmen, zu dessen Mitbegründern Jonathan Frankle PhD ’23 und MIT Affiliate Professor Michael Carbin zählen, entwickelte eine Plattform, mit der Benutzer Open-Supply-Modelle mit ihren eigenen Daten trainieren, verbessern und überwachen können. Das Unternehmen erstellte auch seine eigenen Open-Supply-Modelle mit Grafikprozessoren (GPUs) von Nvidia.

Dieser Ansatz machte Deep Studying, ein noch junges Feld, als MosaicML erstmals eingeführt wurde, für weitaus mehr Organisationen zugänglich, da die Begeisterung für generative KI und große Sprachmodelle (LLMs) nach der Veröffentlichung von Chat GPT-3.5 explosionsartig anstieg. Darüber hinaus wurde MosaicML zu einem leistungsstarken ergänzenden Device für Datenmanagementunternehmen, die sich ebenfalls dafür einsetzten, Organisationen dabei zu helfen, ihre Daten zu nutzen, ohne sie an KI-Unternehmen weiterzugeben.

Letztes Jahr führte diese Überlegung zur Übernahme von MosaicML durch Databricks, ein globales Datenspeicher-, Analyse- und KI-Unternehmen, das mit einigen der größten Organisationen der Welt zusammenarbeitet. Seit der Übernahme haben die fusionierten Unternehmen eines der leistungsstärksten Open-Supply-LLMs für allgemeine Zwecke veröffentlicht, das je entwickelt wurde. Dieses Modell mit dem Namen DBRX hat bei Aufgaben wie Leseverständnis, Allgemeinwissensfragen und Logikrätseln neue Maßstäbe gesetzt.

Seitdem hat sich DBRX den Ruf erworben, eines der schnellsten verfügbaren Open-Supply-LLMs zu sein und hat sich insbesondere in großen Unternehmen als nützlich erwiesen.

Frankle zufolge ist DBRX jedoch nicht nur deshalb so bedeutsam, weil es mit Databricks-Instruments erstellt wurde. Dies bedeutet, dass alle Kunden des Unternehmens mit ihren eigenen Modellen eine ähnliche Leistung erzielen können, was die Wirkung der generativen KI beschleunigen wird.

„Ehrlich gesagt ist es einfach aufregend zu sehen, wie die Group coole Dinge damit macht“, sagt Frankle. „Für mich als Wissenschaftler ist das das Beste daran. Es ist nicht das Modell, es sind all die tollen Dinge, die die Group damit macht. Da passiert die Magie.“

Algorithmen effizient gestalten

Frankle erwarb seinen Bachelor- und Masterabschluss in Informatik an der Princeton College, bevor er 2016 ans MIT kam, um dort zu promovieren. Zu Beginn seines Studiums am MIT battle er sich nicht sicher, welchen Bereich der Informatik er studieren wollte. Seine letztendliche Entscheidung sollte den Lauf seines Lebens verändern.

Frankle konzentrierte sich letztlich auf eine Type der künstlichen Intelligenz, die als Deep Studying bekannt ist. Damals erregten Deep Studying und künstliche Intelligenz noch nicht so viel Aufsehen wie heute. Deep Studying battle ein Jahrzehnte altes Forschungsgebiet, das noch nicht viele Früchte getragen hatte.

„Ich glaube, niemand hätte damals damit gerechnet, dass Deep Studying so durch die Decke gehen würde“, sagt Frankle. „Die Leute, die Bescheid wussten, dachten, es sei ein wirklich spannendes Gebiet und es gäbe viele ungelöste Probleme, aber Ausdrücke wie Massive Language Mannequin (LLM) und Generative AI wurden damals noch nicht wirklich verwendet. Es battle noch früh.“

Interessant wurde es mit der Veröffentlichung eines mittlerweile berüchtigten Papier von Google-Forschern, in der sie zeigten, dass eine neue Deep-Studying-Architektur namens „Transformer“ überraschend effektiv bei der Sprachübersetzung ist und auch für eine Reihe anderer Anwendungen, einschließlich der Inhaltserstellung, vielversprechend ist.

Im Jahr 2020 schickte der spätere Mosaic-Mitbegründer und Tech-Supervisor Naveen Rao Frankle und Carbin aus heiterem Himmel eine E-Mail. Rao hatte ein von den beiden gemeinsam verfasstes Papier gelesen, in dem die Forscher einen Weg zeigten, Deep-Studying-Modelle zu verkleinern, ohne die Leistung zu beeinträchtigen. Rao schlug den beiden vor, ein Unternehmen zu gründen. Hanlin Tang schloss sich ihnen an, der mit Rao an einem früheren KI-Startup gearbeitet hatte, das von Intel übernommen worden battle.

Die Gründer informierten sich zunächst über unterschiedliche Techniken zur Beschleunigung des Trainings von KI-Modellen und kombinierten schließlich mehrere davon, um zu zeigen, dass sie ein Modell so trainieren konnten, dass es die Bildklassifizierung viermal schneller durchführte als zuvor.

„Der Trick battle, dass es keinen Trick gab“, sagt Frankle. „Ich glaube, wir mussten 17 verschiedene Änderungen an der Artwork und Weise vornehmen, wie wir das Modell trainierten, um das herauszufinden. Es battle nur ein bisschen hier und ein bisschen da, aber es stellte sich heraus, dass das ausreichte, um unglaubliche Geschwindigkeitssteigerungen zu erzielen. Das ist im Grunde die Geschichte von Mosaic.“

Das Workforce zeigte, dass seine Techniken Modelle effizienter machen könnten, und veröffentlichte 2023 ein Open-Supply-Modell für große Sprachen zusammen mit einer Open-Supply-Bibliothek seiner Methoden. Sie entwickelten auch Visualisierungstools, mit denen Entwickler verschiedene experimentelle Optionen zum Trainieren und Ausführen von Modellen abbilden können.

Der E14 Fund des MIT investierte in die Finanzierungsrunde der Serie A von Mosaic, und Frankle sagt, dass das Workforce von E14 schon früh hilfreiche Beratung bot. Die Fortschritte von Mosaic ermöglichten es einer neuen Klasse von Unternehmen, ihre eigenen generativen KI-Modelle zu trainieren.

„Die Mission von Mosaic hatte einen Demokratisierungs- und Open-Supply-Aspekt“, sagt Frankle. „Das ist etwas, das mir schon immer sehr am Herzen lag. Schon als ich Doktorand battle und keine GPUs hatte, weil ich nicht in einem Labor für maschinelles Lernen battle und alle meine Freunde GPUs hatten. So denke ich immer noch. Warum können wir nicht alle mitmachen? Warum können wir nicht alle diese Dinge tun und Wissenschaft betreiben?“

Open-Sourcing-Innovation

Databricks hatte auch daran gearbeitet, seinen Kunden Zugang zu KI-Modellen zu verschaffen. Das Unternehmen schloss die Übernahme von MosaicML im Jahr 2023 für angeblich 1,3 Milliarden Greenback ab.

„Bei Databricks haben wir ein Gründungsteam aus Akademikern wie uns gesehen“, sagt Frankle. „Wir haben auch ein Workforce aus Wissenschaftlern gesehen, die sich mit Technologie auskennen. Databricks hat die Daten, wir haben das maschinelle Lernen. Das eine geht nicht ohne das andere und umgekehrt. Es hat einfach wirklich intestine gepasst.“

Im März veröffentlichte Databricks DBRX, das der Open-Supply-Group und Unternehmen beim Aufbau ihrer eigenen LLMs Funktionen bot, die zuvor auf geschlossene Modelle beschränkt waren.

„DBRX hat gezeigt, dass man mit Databricks das beste Open-Supply-LLM der Welt erstellen kann“, sagt Frankle. „Für Unternehmen sind heute keine Grenzen gesetzt.“

Frankle sagt, das Workforce von Databricks sei durch die interne Verwendung von DBRX für eine breite Palette von Aufgaben ermutigt worden.

„Es ist bereits großartig und mit ein wenig Feinabstimmung ist es besser als die geschlossenen Modelle“, sagt er. „Es wird nicht in allen Bereichen besser sein als GPT. So funktioniert das nicht. Aber niemand möchte jedes Drawback lösen. Jeder möchte ein Drawback lösen. Und wir können dieses Modell anpassen, um es für bestimmte Szenarien wirklich großartig zu machen.“

Databricks erweitert die Grenzen der künstlichen Intelligenz immer weiter, und die Konkurrenz investiert weiterhin riesige Summen in die künstliche Intelligenz im Allgemeinen. Frankle hofft, dass die Branche Open Supply als den besten Weg in die Zukunft erkennt.

„Ich glaube an die Wissenschaft und an den Fortschritt und bin begeistert, dass wir derzeit so spannende Wissenschaft betreiben“, sagt Frankle. „Ich glaube auch an Offenheit und hoffe, dass alle anderen Offenheit genauso annehmen wie wir. So sind wir hierher gekommen: durch gute Wissenschaft und guten Austausch.“

Unterstützung von Laien beim Erstellen fortgeschrittener generativer KI-Modelle | MIT Information

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Microsoft veröffentlicht Phi-4-Reasoning-Imaginative and prescient-15B: Ein kompaktes multimodales Modell für Mathematik, Naturwissenschaften und GUI-Verständnis

Von PRD zu funktionierender Software program mit Google Antigravity

5 leistungsstarke Python-Dekoratoren zur Optimierung von LLM-Anwendungen

Verbesserung der maritimen Cybersicherheit durch Technologie und Politik | MIT-Nachrichten

About

Categories

Tags

Recent Post

Microsoft veröffentlicht Phi-4-Reasoning-Imaginative and prescient-15B: Ein kompaktes multimodales Modell für Mathematik, Naturwissenschaften und GUI-Verständnis

Von PRD zu funktionierender Software program mit Google Antigravity

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt