Die Modelle tiefer neuronaler Netzwerke, die heute die anspruchsvollsten Anwendungen des maschinellen Lernens unterstützen, sind so groß und komplex geworden, dass sie an die Grenzen herkömmlicher elektronischer Computerhardware stoßen.
Eine schnellere und energieeffizientere Various bietet photonische {Hardware}, die maschinelle Lernberechnungen mit Licht durchführen kann. Es gibt jedoch einige Arten von neuronalen Netzwerkberechnungen, die ein photonisches Gerät nicht durchführen kann und die den Einsatz von Elektronik außerhalb des Chips oder anderen Techniken erfordern, die Geschwindigkeit und Effizienz beeinträchtigen.
Aufbauend auf einem Jahrzehnt der Forschung haben Wissenschaftler vom MIT und anderswo einen neuen photonischen Chip entwickelt, der diese Hindernisse überwindet. Sie demonstrierten einen vollständig integrierten photonischen Prozessor, der alle wichtigen Berechnungen eines tiefen neuronalen Netzwerks optisch auf dem Chip ausführen kann.
Das optische Gerät warfare in der Lage, die wichtigsten Berechnungen für eine maschinelle Lernklassifizierungsaufgabe in weniger als einer halben Nanosekunde abzuschließen und dabei eine Genauigkeit von mehr als 92 Prozent zu erreichen – eine Leistung, die mit herkömmlicher {Hardware} vergleichbar ist.
Der Chip, der aus miteinander verbundenen Modulen besteht, die ein optisches neuronales Netzwerk bilden, wird mithilfe kommerzieller Gießverfahren hergestellt, was die Skalierung der Technologie und ihre Integration in die Elektronik ermöglichen könnte.
Langfristig könnte der photonische Prozessor zu einem schnelleren und energieeffizienteren Deep Studying für rechenintensive Anwendungen wie Lidar, wissenschaftliche Forschung in der Astronomie und Teilchenphysik oder Hochgeschwindigkeits-Telekommunikation führen.
„In vielen Fällen kommt es nicht nur darauf an, wie intestine das Modell funktioniert, sondern auch darauf, wie schnell man eine Antwort erhält. Da wir nun über ein Finish-to-Finish-System verfügen, das ein neuronales Netzwerk in der Optik im Nanosekundenbereich betreiben kann, können wir anfangen, auf einer höheren Ebene über Anwendungen und Algorithmen nachzudenken“, sagt Saumil Bandyopadhyay ’17, MEng ’18, PhD ’23, Gastwissenschaftler in der Quantum Photonics and AI Group im Analysis Laboratory of Electronics (RLE) und Postdoc bei NTT Analysis, Inc., der Hauptautor einer Arbeit über den neuen Chip.
Zu Bandyopadhyay gesellen sich in der Arbeit Alexander Sludds ’18, MEng ’19, PhD ’23; Nicholas Harris PhD ’17; Darius Bunandar PhD ’19; Stefan Krastanov, ein ehemaliger RLE-Forschungswissenschaftler, der jetzt Assistenzprofessor an der College of Massachusetts in Amherst ist; Ryan Hamerly, Gastwissenschaftler am RLE und leitender Wissenschaftler bei NTT Analysis; Matthew Streshinsky, ehemaliger Leiter der Silizium-Photonik bei Nokia und jetzt Mitbegründer und CEO von Enosemi; Michael Hochberg, Präsident von Periplous, LLC; und Dirk Englund, Professor am Fachbereich Elektrotechnik und Informatik, Hauptforscher der Quantum Photonics and Synthetic Intelligence Group und des RLE sowie leitender Autor des Artikels. Die Forschung erscheint heute in Naturphotonik.
Maschinelles Lernen mit Licht
Tiefe neuronale Netze bestehen aus vielen miteinander verbundenen Knotenschichten oder Neuronen, die Eingabedaten verarbeiten, um eine Ausgabe zu erzeugen. Eine Schlüsseloperation in einem tiefen neuronalen Netzwerk umfasst die Verwendung der linearen Algebra zur Durchführung einer Matrixmultiplikation, die Daten transformiert, wenn sie von Schicht zu Schicht weitergeleitet werden.
Aber zusätzlich zu diesen linearen Operationen führen tiefe neuronale Netze nichtlineare Operationen durch, die dem Modell helfen, komplexere Muster zu lernen. Nichtlineare Operationen wie Aktivierungsfunktionen verleihen tiefen neuronalen Netzen die Fähigkeit, komplexe Probleme zu lösen.
Im Jahr 2017 hat Englunds Gruppe zusammen mit Forschern im Labor von Marin Soljačić, dem Cecil und Ida Inexperienced-Professor für Physik, demonstrierte ein optisches neuronales Netzwerk auf einem einzelnen photonischen Chip das eine Matrixmultiplikation mit Licht durchführen könnte.
Allerdings konnte das Gerät damals keine nichtlinearen Operationen auf dem Chip ausführen. Optische Daten mussten in elektrische Signale umgewandelt und an einen digitalen Prozessor gesendet werden, um nichtlineare Operationen durchzuführen.
„Nichtlinearität in der Optik ist eine ziemliche Herausforderung, da Photonen nicht so leicht miteinander interagieren. Dadurch ist es sehr energieintensiv, optische Nichtlinearitäten auszulösen, sodass es schwierig wird, ein System aufzubauen, das dies auf skalierbare Weise tun kann“, erklärt Bandyopadhyay.
Sie haben diese Herausforderung gemeistert, indem sie Geräte entwickelt haben, die als nichtlineare optische Funktionseinheiten (NOFUs) bezeichnet werden und Elektronik und Optik kombinieren, um nichtlineare Operationen auf dem Chip zu implementieren.
Die Forscher bauten ein optisches tiefes neuronales Netzwerk auf einem photonischen Chip auf und verwendeten dabei drei Schichten von Geräten, die lineare und nichtlineare Operationen ausführen.
Ein vollständig integriertes Netzwerk
Zu Beginn kodiert ihr System die Parameter eines tiefen neuronalen Netzwerks in Licht. Anschließend führt eine Reihe programmierbarer Strahlteiler, die in der Arbeit von 2017 demonstriert wurden, eine Matrixmultiplikation an diesen Eingaben durch.
Die Daten werden dann an programmierbare NOFUs weitergeleitet, die nichtlineare Funktionen implementieren, indem sie eine kleine Lichtmenge an Fotodioden ableiten, die optische Signale in elektrischen Strom umwandeln. Dieser Prozess, der einen externen Verstärker überflüssig macht, verbraucht sehr wenig Energie.
„Wir bleiben die ganze Zeit im optischen Bereich, bis wir am Ende die Antwort auslesen wollen. Dadurch können wir eine extrem niedrige Latenz erreichen“, sagt Bandyopadhyay.
Das Erreichen einer derart geringen Latenzzeit ermöglichte es ihnen, ein tiefes neuronales Netzwerk auf dem Chip effizient zu trainieren, ein Prozess, der als In-situ bezeichnet wird Coaching, das typischerweise eine große Menge an Energie in digitaler {Hardware} verbraucht.
„Dies ist besonders nützlich für Systeme, in denen optische Signale domänenintern verarbeitet werden, etwa in der Navigation oder Telekommunikation, aber auch für Systeme, die man in Echtzeit erlernen möchte“, sagt er.
Das photonische System erreichte bei Trainingstests eine Genauigkeit von über 96 Prozent und bei der Inferenz eine Genauigkeit von über 92 Prozent, was mit herkömmlicher {Hardware} vergleichbar ist. Darüber hinaus führt der Chip wichtige Berechnungen in weniger als einer halben Nanosekunde durch.
„Diese Arbeit zeigt, dass Computing – im Wesentlichen die Zuordnung von Eingaben zu Ausgaben – auf neue Architekturen der linearen und nichtlinearen Physik übertragen werden kann, die ein grundlegend anderes Skalierungsgesetz für Berechnung und Aufwand ermöglichen“, sagt Englund.
Die gesamte Schaltung wurde unter Verwendung derselben Infrastruktur und derselben Gießereiprozesse hergestellt, die auch für die Herstellung von CMOS-Computerchips gelten. Dies könnte die Herstellung des Chips in großem Maßstab ermöglichen, wobei bewährte Techniken zum Einsatz kommen, die nur sehr wenige Fehler in den Herstellungsprozess einbringen.
Laut Bandyopadhyay wird die Skalierung ihres Geräts und die Integration in reale Elektronik wie Kameras oder Telekommunikationssysteme ein Hauptschwerpunkt der zukünftigen Arbeit sein. Darüber hinaus wollen die Forscher Algorithmen erforschen, die die Vorteile der Optik nutzen können, um Systeme schneller und energieeffizienter zu trainieren.
Diese Forschung wurde teilweise von der US Nationwide Science Basis, dem US Air Power Workplace of Scientific Analysis und NTT Analysis finanziert.