Am 21. Dezember 2022, als die Spitzenzeiten für die Hauptverkehrszeit begannen, durchlief Southwest Airways eine Reihe von Misserfolge in ihrer Planung, die zunächst durch schweres Winterwetter in der Gegend von Denver ausgelöst wurde. Die Probleme breiteten sich jedoch in ihrem Netzwerk aus, und im Laufe der nächsten 10 Tage legte die Krise über 2 Millionen Passagiere und verursachte Verluste von 750 Millionen US -Greenback für die Fluggesellschaft.
Wie hat ein lokalisiertes Wettersystem einen so weit verbreiteten Fehler ausgelöst? Forscher am MIT haben diesen weit verbreiteten Misserfolg als Beispiel für Fälle untersucht, in denen Systeme, die die meiste Zeit reibungslos funktionieren, plötzlich zusammenbrechen und einen Dominoeffekt von Fehlern verursachen. Sie haben nun ein Computersystem entwickelt, um die Kombination aus spärlichen Daten zu einem seltenen Fehlerereignis in Kombination mit viel umfangreicheren Daten zu normalen Vorgängen zu verwenden, um rückwärts zu arbeiten und zu versuchen, die Grundursachen für den Fehler zu bestimmen und hoffentlich in der Lage zu sein, Wege zu finden, um die Systeme anzupassen, um solche Fehler in der Zukunft zu verhindern.
Die Ergebnisse wurden auf der Internationalen Konferenz über Studying Repräsentationen (ICLR) vorgestellt, die vom 24. bis 28. April von Charles Dawson, Professor für Luftfahrt- und Astronautik-Chuchu-Fan, und Kollegen von der Harvard College und der College of Michigan in Singapur stattfanden.
„Die Motivation hinter dieser Arbeit ist, dass es wirklich frustrierend ist, wenn wir mit diesen komplizierten Systemen interagieren müssen, in denen es wirklich schwer zu verstehen ist, was hinter den Kulissen vor sich geht, die diese Probleme oder Fehler schafft, die wir beobachten“, sagt Dawson.
Die neue Arbeit baut auf früheren Untersuchungen aus dem Labor von Fan auf, bei denen sie Probleme mit Problemen mit hypothetischen Vorhersageproblemen untersuchten, wie beispielsweise bei Gruppen von Robotern, die an einer Aufgabe zusammenarbeiten, oder komplexe Systeme wie das Stromnetz, um nach Möglichkeiten zu suchen, wie solche Systeme möglicherweise scheitern. „Das Ziel dieses Projekts“, sagt Fan, „conflict es wirklich, dies in ein diagnostisches Software zu verwandeln, das wir auf realen Systemen verwenden können.“
Die Idee conflict, eine Möglichkeit zu bieten, wie jemand uns „Daten aus einer Zeit geben konnte, in der dieses reale System ein Downside oder einen Misserfolg hatte“, sagt Dawson, „und wir können versuchen, die Grundursachen zu diagnostizieren und ein wenig hinter dem Vorhang in dieser Komplexität zu verleihen.“
Die Absicht ist die Methoden, die sie entwickelt haben, um „für eine ziemlich allgemeine Klasse von Cyber-physischen Problemen zu arbeiten“, sagt er. Dies sind Probleme, bei denen „Sie über eine automatisierte Entscheidungskomponente verfügen, die mit der Unordnung der realen Welt interagiert“, erklärt er. Es stehen Instruments zum Testen von Softwaresystemen zur Verfügung, die selbst arbeiten. Die Komplexität entsteht jedoch, wenn diese Software program mit physischen Wesenheiten interagieren muss, um ihre Aktivitäten in einem realen physischen Umfeld zu begehen, unabhängig davon, ob es sich um die Planung von Flugzeugen, die Bewegungen autonomer Fahrzeuge, die Wechselwirkungen eines Roboterteams oder die Kontrolle der Eingaben und Produkte an einem elektrischen Strom. In solchen Systemen passiert oft, sagt er, dass „die Software program eine Entscheidung treffen könnte, die zuerst in Ordnung aussieht, aber dann hat sie all diese Domino-Auswirkungen, die die Dinge chaotischer und viel unsicherer machen.“
Ein wesentlicher Unterschied besteht jedoch darin, dass in Systemen wie Roboterteams, im Gegensatz zur Planung von Flugzeugen, „Zugang zu einem Modell in der Robotikwelt haben“, sagt Fan, der im MIT -Labor für Informations- und Entscheidungssysteme (LIDS) Hauptforscher ist. „Wir haben ein gutes Verständnis für die Physik hinter den Robotik und wir haben Möglichkeiten, ein Modell zu erstellen“, das ihre Aktivitäten mit angemessener Genauigkeit darstellt. Die Flugplanung der Fluggesellschaften umfasst jedoch Prozesse und Systeme, die proprietäre Geschäftsinformationen sind. Daher mussten die Forscher Wege finden, um zu schließen, was hinter den Entscheidungen stand, und nur die relativ spärlichen öffentlich verfügbaren Informationen, die im Wesentlichen nur aus den tatsächlichen Ankunfts- und Abfahrtszeiten der einzelnen Ebene bestand.
„Wir haben all diese Flugdaten gepackt, aber es steckt das gesamte System des Planungssystems dahinter, und wir wissen nicht, wie das System funktioniert“, sagt Fan. Und die Datenmenge im Zusammenhang mit dem tatsächlichen Ausfall ist nur mehrere Tage im Vergleich zu Daten der Daten zum normalen Flugbetrieb.
Die Auswirkungen der Wetterereignisse in Denver in der Woche der Planungskrise in Südwest zeigten sich eindeutig in den Flugdaten, nur aus den längeren normalen Turnaround-Zeiten zwischen Landung und Begin am Flughafen Denver. Aber die Artwork und Weise, wie sich das System auswirkte, obwohl das System weniger offensichtlich conflict und mehr Analyse erforderte. Der Schlüssel stellte sich heraus, dass es mit dem Konzept von Reserveflugzeugen zu tun hatte.
Fluggesellschaften halten in der Regel einige Flugzeuge an verschiedenen Flughäfen in Reserve. Wenn Probleme mit einem Flugzeug für einen Flug geplant sind, kann ein weiteres Flugzeug schnell ersetzt werden. Southwest verwendet nur einen einzigen Flugzeugtyp, daher sind sie alle austauschbar, was solche Substitutionen erleichtert. Die meisten Fluggesellschaften arbeiten jedoch mit einem Hub-and-Spoke-System mit einigen ausgewiesenen Hub-Flughäfen, an denen die meisten dieser Reserveflugzeuge aufbewahrt werden können, während Southwest keine Hubs verwendet, sodass ihre Reservenscheine in ihrem Netzwerk stärker verstreut sind. Und die Artwork und Weise, wie diese Flugzeuge eingesetzt wurden, spielte eine wichtige Rolle in der Entfaltungskrise.
„Die Herausforderung besteht darin, dass keine öffentlichen Daten verfügbar sind, wenn das Flugzeug im gesamten Southwest -Netzwerk stationiert ist“, sagt Dawson. „Wir können unsere Methode mithilfe der Methode finden, indem wir uns die öffentlichen Daten zu Ankünften, Abfahrten und Verzögerungen ansehen, können wir unsere Methode verwenden, um die verborgenen Parameter dieser Flugzeugreserven zurückzuziehen, um die Beobachtungen zu erklären, die wir gesehen haben.“
Sie fanden heraus, dass die Artwork und Weise, wie die Reserven eingesetzt wurden, ein „führender Indikator“ für die Probleme conflict, die in einer landesweiten Krise kaskadiert wurden. Einige Teile des Netzwerks, die direkt vom Wetter betroffen waren, konnten sich schnell erholen und sich im Zeitplan wiederholen. „Aber als wir uns andere Bereiche im Netzwerk ansah, sahen wir, dass diese Reserven einfach nicht verfügbar waren und sich die Dinge nur noch verschlechterten.“
Zum Beispiel zeigten die Daten, dass die Reserven von Denver aufgrund der Wetterverzögerungen schnell schwinden, aber „ermöglichte es uns auch, diesen Fehler von Denver nach Las Vegas zu verfolgen“, sagt er. Obwohl es dort kein Unwetter gab, „zeigte uns unsere Methode immer noch einen stetigen Rückgang der Anzahl der Flugzeuge, die Flüge aus Las Vegas ausstellen konnten.“
Er sagt: „Wir haben festgestellt, dass es diese Zirkulationen von Flugzeugen innerhalb des Southwest Community gab, wo ein Flugzeug den Tag in Kalifornien starten und dann nach Denver fliegen und dann den Tag in Las Vegas beenden könnte.“ Was bei diesem Sturm geschah, conflict, dass der Zyklus unterbrochen wurde. Infolgedessen „dieser eine Sturm in Denver bricht den Zyklus, und plötzlich verschlechtern sich die Reserven in Las Vegas, die nicht vom Wetter betroffen sind.“
Am Ende conflict Southwest gezwungen, eine drastische Maßnahme zu ergreifen, um das Downside zu lösen: Sie mussten einen „harten Zurücksetzen“ ihres gesamten Programs durchführen, alle Flüge absagen und leere Flugzeuge im ganzen Land fliegen, um ihre Reserven wieder zu wiederholen.
In Zusammenarbeit mit Experten für Lufttransportsysteme entwickelten die Forscher ein Modell, wie das Planungssystem funktionieren soll. „Was unsere Methode tut, ist, dass wir im Wesentlichen versuchen, das Modell rückwärts auszuführen.“ Wenn man sich die beobachteten Ergebnisse ansieht, ermöglicht das Modell sie zurück, um zu sehen, welche Arten von Anfangsbedingungen diese Ergebnisse erzeugen können.
Während die Daten zu den tatsächlichen Ausfällen spärlich waren, halfen die umfangreichen Daten zu typischen Operationen beim Unterrichten des Rechenmodells „Was möglich ist, was möglich ist, was der Bereich der physischen Möglichkeit hier ist“, sagt Dawson. „Das gibt uns das Domänenwissen, um in diesem extremen Ereignis angesichts des Raums, was möglich ist, zu sagen, was die wahrscheinlichste Erklärung für den Fehler ist.“
Dies könnte zu einem Echtzeit-Überwachungssystem führen, sagt er, wo Daten zu normalen Operationen ständig mit den aktuellen Daten verglichen werden und wie der Development aussieht. „Sind wir in Richtung Normalität oder trendern wir zu extremen Ereignissen?“ Wenn Anzeichen von bevorstehenden Problemen angezeigt werden, kann es zu präventiven Maßnahmen führen, wie z.
Die Arbeit an der Entwicklung solcher Systeme läuft in ihrem Labor, sagt Fan. In der Zwischenzeit haben sie ein Open-Supply-Software zur Analyse von Fehlersystemen mit Calnf erstellt, das für alle verfügbar ist. In der Zwischenzeit arbeitet Dawson, der letztes Jahr promovierte, als Postdoc, um die in dieser Arbeit entwickelten Methoden auf das Verständnis der Misserfolge in Energy -Netzwerken anzuwenden.
Das Forschungsteam umfasste auch Max Li von der College of Michigan und Van Tran von der Harvard College. Die Arbeit wurde von der NASA, dem Air Pressure Workplace of Scientific Analysis und dem MIT-DSTA-Programm unterstützt.