Sogar Netzwerke, die lange Zeit als „untrainierbar“ galten, können mit etwas Hilfe effektiv lernen. Forscher am Laptop Science and Synthetic Intelligence Laboratory (CSAIL) des MIT haben gezeigt, dass eine kurze Section der Ausrichtung zwischen neuronalen Netzen, eine Methode, die sie Führung nennen, die Leistung von Architekturen, die zuvor für moderne Aufgaben als ungeeignet galten, dramatisch verbessern kann.

Ihre Ergebnisse deuten darauf hin, dass viele sogenannte „ineffektive“ Netzwerke möglicherweise einfach von nicht idealen Ausgangspunkten ausgehen und dass eine kurzfristige Anleitung sie an eine Stelle bringen kann, die dem Netzwerk das Lernen erleichtert.

Die Führungsmethode des Groups funktioniert, indem sie ein Zielnetzwerk dazu ermutigt, während des Trainings mit den internen Darstellungen eines Führungsnetzwerks übereinzustimmen. Im Gegensatz zu herkömmlichen Methoden wie der Wissensdestillation, die sich auf die Nachahmung der Ergebnisse eines Lehrers konzentrieren, überträgt die Beratung strukturelles Wissen direkt von einem Netzwerk in ein anderes. Dies bedeutet, dass das Ziel lernt, wie der Leitfaden Informationen innerhalb jeder Ebene organisiert, anstatt einfach sein Verhalten zu kopieren. Bemerkenswerterweise enthalten selbst ungeschulte Netzwerke übertragbare architektonische Vorurteile, während geschulte Guides zusätzlich erlernte Muster vermitteln.

„Wir fanden diese Ergebnisse ziemlich überraschend“, sagt Vighnesh Subramaniam ’23, MEng ’24, Doktorand am MIT Division of Electrical Engineering and Laptop Science (EECS) und CSAIL-Forscher, der Hauptautor von a ist Papier diese Erkenntnisse vorzustellen. „Es ist beeindruckend, dass wir die Ähnlichkeit der Darstellungen nutzen konnten, um diese traditionell ‚beschissenen‘ Netzwerke tatsächlich zum Funktionieren zu bringen.“

Führer-ianischer Engel

Eine zentrale Frage struggle, ob die Anleitung während der gesamten Ausbildung fortgesetzt werden muss oder ob ihre primäre Wirkung darin besteht, eine bessere Initialisierung zu ermöglichen. Um dies zu untersuchen, führten die Forscher ein Experiment mit Deep Absolutely Related Networks (FCNs) durch. Bevor das eigentliche Drawback trainiert wurde, übte das Netzwerk einige Schritte mit einem anderen Netzwerk und nutzte zufälliges Rauschen, etwa Dehnübungen vor dem Coaching. Die Ergebnisse waren beeindruckend: Netzwerke, die normalerweise überfitten, blieben sofort stabil, erzielten geringere Trainingsverluste und vermieden den klassischen Leistungsabfall, der bei sogenannten Commonplace-FCNs auftritt. Diese Ausrichtung wirkte wie eine hilfreiche Aufwärmübung für das Netzwerk und zeigte, dass selbst eine kurze Übungseinheit dauerhafte Vorteile bringen kann, ohne dass eine ständige Anleitung erforderlich ist.

Die Studie verglich außerdem Beratung mit Wissensdestillation, einem beliebten Ansatz, bei dem ein Schülernetzwerk versucht, die Ergebnisse eines Lehrers nachzuahmen. Als das Lehrernetzwerk nicht geschult struggle, scheiterte die Destillation vollständig, da die Ausgaben kein aussagekräftiges Sign enthielten. Im Gegensatz dazu führten die Leitlinien immer noch zu erheblichen Verbesserungen, da sie eher auf internen Darstellungen als auf endgültigen Vorhersagen basieren. Dieses Ergebnis unterstreicht eine wichtige Erkenntnis: Untrainierte Netzwerke kodieren bereits wertvolle architektonische Vorurteile, die andere Netzwerke zu effektivem Lernen führen können.

Über die experimentellen Ergebnisse hinaus haben die Ergebnisse weitreichende Auswirkungen auf das Verständnis der Architektur neuronaler Netzwerke. Die Forscher weisen darauf hin, dass Erfolg – ​​oder Misserfolg – ​​oft weniger von aufgabenspezifischen Daten als vielmehr von der Place des Netzwerks im Parameterraum abhängt. Durch die Ausrichtung auf ein Leitfadennetzwerk ist es möglich, die Beiträge architektonischer Vorurteile von denen erlernten Wissens zu trennen. Dadurch können Wissenschaftler erkennen, welche Merkmale des Netzwerkdesigns effektives Lernen unterstützen und welche Herausforderungen einfach auf eine schlechte Initialisierung zurückzuführen sind.

Beratung eröffnet auch neue Möglichkeiten für die Untersuchung der Beziehungen zwischen Architekturen. Durch die Messung, wie leicht ein Netzwerk ein anderes führen kann, können Forscher Abstände zwischen funktionalen Designs untersuchen und Theorien zur Optimierung neuronaler Netzwerke erneut überprüfen. Da die Methode auf Darstellungsähnlichkeit beruht, kann sie zuvor verborgene Strukturen im Netzwerkdesign aufdecken und dabei helfen, herauszufinden, welche Komponenten am meisten zum Lernen beitragen und welche nicht.

Die Hoffnungslosen retten

Letztendlich zeigt die Arbeit, dass sogenannte „untrainierbare“ Netzwerke nicht grundsätzlich zum Scheitern verurteilt sind. Mit Anleitung können Fehlermodi beseitigt, Überanpassungen vermieden und zuvor ineffektive Architekturen an moderne Leistungsstandards angepasst werden. Das CSAIL-Workforce möchte untersuchen, welche architektonischen Elemente am meisten für diese Verbesserungen verantwortlich sind und wie diese Erkenntnisse das zukünftige Netzwerkdesign beeinflussen können. Indem sie das verborgene Potenzial selbst der hartnäckigsten Netzwerke aufdeckt, bietet die Beratung ein leistungsstarkes neues Werkzeug zum Verständnis – und hoffentlich zur Gestaltung – der Grundlagen des maschinellen Lernens.

„Es wird allgemein angenommen, dass verschiedene neuronale Netzwerkarchitekturen bestimmte Stärken und Schwächen haben“, sagt Leyla Isik, Assistenzprofessorin für Kognitionswissenschaft an der Johns Hopkins College, die nicht an der Forschung beteiligt struggle. „Diese spannende Forschung zeigt, dass ein Netzwerktyp die Vorteile einer anderen Architektur übernehmen kann, ohne seine ursprünglichen Fähigkeiten zu verlieren. Bemerkenswert ist, dass die Autoren zeigen, dass dies mit kleinen, nicht trainierten „Leitnetzwerken“ erreicht werden kann. In diesem Artikel wird eine neuartige und konkrete Möglichkeit vorgestellt, unterschiedliche induktive Vorspannungen in neuronale Netzwerke einzufügen, was für die Entwicklung einer effizienteren und auf den Menschen ausgerichteten KI von entscheidender Bedeutung ist.“

Subramaniam hat das Papier zusammen mit CSAIL-Kollegen verfasst: dem Forschungswissenschaftler Brian Cheung; Doktorand David Mayo ’18, MEng ’19; Wissenschaftlicher Mitarbeiter Colin Conwell; Die Hauptforscher Boris Katz, leitender CSAIL-Forschungswissenschaftler, und Tomaso Poggio, MIT-Professor für Gehirn- und Kognitionswissenschaften; und ehemaliger CSAIL-Forschungswissenschaftler Andrei Barbu. Ihre Arbeit wurde teilweise vom Middle for Brains, Minds, and Machines, der Nationwide Science Basis, der MIT CSAIL Machine Studying Functions Initiative, dem MIT-IBM Watson AI Lab, der US Protection Superior Analysis Tasks Company (DARPA), dem US Division of the Air Drive Synthetic Intelligence Accelerator und dem US Air Drive Workplace of Scientific Analysis unterstützt.

Ihre Arbeit wurde kürzlich auf der Konferenz und dem Workshop zu Neural Data Processing Programs (NeurIPS) vorgestellt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert