Die Forschungsinteressen von Sarah Alnegheimish liegen an der Schnittstelle zwischen maschinellem Lernen und Systemtechnik. Ihr Ziel: maschinelle Lernsysteme zugänglicher, transparenter und vertrauenswürdiger zu gestalten.
Alnegheimish ist Doktorandin des Hauptforschungswissenschaftlers Kalyan Veeramachaneni von Daten zu AI im MIT-Labor für Informations- und Entscheidungssysteme (LIDS). Hier begeht sie den größten Teil ihrer Energie für die Entwicklung von Orion, einer Open-Supply-Bibliothek für maschinelles Lernen und Zeitreihen, die in der Lage ist, Anomalien ohne Aufsicht in groß angelegten industriellen und operativen Umgebungen zu erkennen.
Früher Einfluss
Die Tochter eines Universitätsprofessors und Lehrerausbilders erfuhr schon in jungen Jahren, dass Wissen frei geteilt werden sollte. „Ich denke, das Aufwachsen in einem Haus, in dem Bildung hoch geschätzt wurde, ist ein Teil dessen, warum ich maschinelles Lernen zugänglich machen möchte.“ Alnegheimers persönliche Erfahrung mit Open-Supply-Ressourcen erhöhte ihre Motivation nur. „Ich habe gelernt, die Zugänglichkeit als Schlüssel zur Einführung zu betrachten. Um nach Auswirkungen zu streben, muss von denjenigen, die sie benötigen, auf neue Technologien zugegriffen und bewertet werden. Das ist der gesamte Zweck der Open-Supply-Entwicklung.“
Alnegheimish erwarb ihren Bachelor -Abschluss an der King Saud College (KSU). „Ich struggle in der ersten Kohorte von Informatik -Majors. Bevor dieses Programm erstellt wurde, struggle das einzige andere verfügbare Hauptfach (Informationstechnologie).“ Ein Teil der ersten Kohorte zu sein struggle aufregend, aber es brachte seine eigenen einzigartigen Herausforderungen. „Alle Fakultäten unterrichteten neues Materials. Nachfolger erforderte eine unabhängige Lernerfahrung. Dann stieß ich zum ersten Mal auf MIT openCourseware: als Ressource, um mich selbst zu unterrichten.“
Kurz nach seinem Abschluss wurde Alnegheimer Forscher am King Abdulaziz Metropolis for Science and Know-how (KACST), Saudi -Arabiens Nationwide Labor. Durch das Middle for Complicated Engineering Programs (CCEs) bei KACST und MIT begann sie mit der Durchführung von Forschungen mit Veeramachaneni. Als sie sich am MIT für die Graduiertenschule bewarb, struggle seine Forschungsgruppe ihre erste Wahl.
Orion erstellen
Alnegheimishs Grasp -These konzentrierte sich auf die Erkennung von Zeitreihen -Anomalie – die Identifizierung unerwarteter Verhaltensweisen oder Muster in Daten, die den Benutzern wichtige Informationen liefern können. Beispielsweise können ungewöhnliche Muster in Netzwerkverkehrsdaten ein Zeichen für Cybersicherheitsbedrohungen, abnormale Sensorwerte in schweren Maschinen sein, die potenzielle zukünftige Ausfälle vorhersagen können, und die Überwachung der Vitalfunktionen des Patienten können dazu beitragen, gesundheitliche Komplikationen zu verringern. Durch die Forschung ihres Meisters begann Alnegheimish zum ersten Mal mit der Gestaltung von Orion.
Orion verwendet statistische und maschinelle Lernmodelle, die kontinuierlich angemeldet und gepflegt werden. Benutzer müssen keine Experten für maschinelles Lernen sein, um den Code zu verwenden. Sie können Signale analysieren, Anomalie-Erkennungsmethoden vergleichen und Anomalien in einem Finish-to-Finish-Programm untersuchen. Das Framework, der Code und die Datensätze sind alle offen.
„Mit Open Supply werden Barrierefreiheit und Transparenz direkt erreicht. Sie haben uneingeschränkten Zugriff auf den Code, in dem Sie untersuchen können, wie das Modell durch das Verständnis des Codes funktioniert. Wir haben die Transparenz mit Orion erhöht: Wir kennzeichnen jeden Schritt im Modell und präsentieren es dem Benutzer.“ Alnegheimish sagt, dass diese Transparenz es den Benutzern ermöglicht, dem Modell zu vertrauen, bevor sie sich letztendlich selbst sehen, wie zuverlässig es ist.
„Wir versuchen, all diese Algorithmen für maschinelles Lernen zu nehmen und an einen Ort zu setzen, damit jeder unsere Modelle außerhalb des Geschäftsbereichs verwenden kann“, sagt sie. „Es ist nicht nur für die Sponsoren, mit denen wir am MIT zusammenarbeiten. Es wird von vielen öffentlichen Nutzern verwendet. Sie kommen in die Bibliothek, installieren sie und führen sie für ihre Daten aus. Es ist eine großartige Quelle für Menschen, um einige der neuesten Methoden zur Erkennung von Anomalie zu finden.“
Modelle für die Erkennung von Anomalie umsetzen
In ihrer Promotion untersucht Alnegheimish progressive Möglichkeiten, mit Orion eine Anomalie -Erkennung durchzuführen. „Als ich meine Recherchen anfing, mussten alle Modelle für maschinelles Lernen von Grund auf Ihre Daten von Grund auf geschult werden. Jetzt sind wir in einer Zeit, in der wir vorgebrachte Modelle verwenden können“, sagt sie. Die Arbeit mit vorgebildeten Modellen spart Zeit und Rechenkosten. Die Herausforderung ist jedoch, dass die Erkennung von Zeitreihen Anomalie eine brandneue Aufgabe für sie ist. „In ihrem ursprünglichen Sinne wurden diese Modelle ausgebildet, um zu prognostizieren, aber keine Anomalien zu finden“, sagt Alnegheimish. „Wir drängen ihre Grenzen ohne zusätzliches Coaching durch Eingabeentwicklung.“
Da diese Modelle bereits die Muster von Zeitreihendaten erfassen, ist Alnegheimish der Ansicht, dass sie bereits alles haben, was sie brauchen, um Anomalien zu erkennen. Bisher unterstützen ihre aktuellen Ergebnisse diese Theorie. Sie übertreffen nicht die Erfolgsrate von Modellen, die unabhängig von bestimmten Daten geschult werden, aber sie glaubt, dass sie eines Tages.
Zugängliches Design
Alnegheimish spricht ausführlich über die Bemühungen, die sie unternommen hat, um Orion zugänglicher zu machen. „Bevor ich zum MIT kam, struggle ich immer der Meinung, dass der entscheidende Teil der Forschung darin bestand, das maschinelle Lernmodell selbst zu entwickeln oder seinen aktuellen Zustand zu verbessern. Mit der Zeit wurde mir klar, dass die einzige Möglichkeit, wie Sie Ihre Forschung zugänglich und anpassungsfähig für andere zugänglich machen können, darin besteht, Systeme zu entwickeln, die sie zugänglich machen. Während meines Studiums habe ich den Ansatz, meine Modelle und Systeme zu entwickeln.
Das Schlüsselelement für ihre Systementwicklung bestand darin, die richtigen Abstraktionen für die Arbeit mit ihren Modellen zu finden. Diese Abstraktionen bieten eine universelle Darstellung für alle Modelle mit vereinfachten Komponenten. „Jedes Modell verfügt über eine Folge von Schritten, die von der Roheingabe zur gewünschten Ausgabe wechseln können. Wir haben den Eingang und die Ausgabe standardisiert, wodurch die Mitte flexibel und flüssig ist. Bisher konnten alle Modelle, die wir ausgeführt haben, in unsere Abstraktionen nachrüsten.“ Die Abstraktionen, die sie verwendet, waren in den letzten sechs Jahren stabil und zuverlässig.
Der Wert des gleichzeitigen Aufbaus von Systemen und Modellen ist in Alnegheimers Arbeit als Mentor zu sehen. Sie hatte die Gelegenheit, mit zwei Studenten des Meisters zusammenzuarbeiten, die ihren Ingenieurabschluss erhielten. „Alles, was ich ihnen gezeigt habe, struggle das System selbst und die Dokumentation, wie man es benutzt. Beide Schüler konnten ihre eigenen Modelle mit den Abstraktionen entwickeln, denen wir entsprechen. Es bekräftigte, dass wir den richtigen Weg einschlagen.“
Alnegheimish untersuchte auch, ob ein großes Sprachmodell (LLM) als Mediator zwischen Benutzern und Systemen verwendet werden könnte. Der von ihr implementierte LLM -Agent kann eine Verbindung zu Orion herstellen, ohne dass Benutzer die kleinen Particulars der Funktionsweise von Orion kennen müssen. „Denken Sie an Chatgpt. Sie haben keine Ahnung, was das Modell dahinter steckt, aber es ist für alle sehr zugänglich.“ Für ihre Software program kennen Benutzer nur zwei Befehle: passen und erkennen. Mit Match können Benutzer ihr Modell schulen, während Erkennung sie ermöglicht, Anomalien zu erkennen.
„Das ultimative Ziel, dass ich versucht habe, KI für alle zugänglicher zu machen“, sagt sie. Bisher hat Orion über 120.000 Downloads erreicht, und über tausend Benutzer haben das Repository als einen ihrer Favoriten auf Github gekennzeichnet. „Traditionell haben Sie die Auswirkungen von Forschung durch Zitate und Papierveröffentlichungen gemessen. Jetzt erhalten Sie eine Echtzeit-Adoption über Open Supply.“