Reisebüros tragen dazu bei, Finish-to-Finish-Logistik wie Transport, Unterkünfte, Mahlzeiten und Unterkunft für Geschäftsleute, Urlauber und alle dazwischen bereitzustellen. Für diejenigen, die ihre eigenen Preparations treffen möchten, scheinen große Sprachmodelle (LLMs) ein starkes Instrument für diese Aufgabe zu sein, da sie die Möglichkeit haben, mit natürlicher Sprache iterativ zu interagieren, ein gewundenes Argumentation zu liefern, Informationen zu sammeln und andere Instruments anzurufen, um mit der aufgebenen Aufgabe zu helfen. Jüngste Arbeiten haben jedoch festgestellt, dass hochmoderne LLMs mit komplexen logistischen und mathematischen Argumentation sowie Probleme mit mehreren Einschränkungen wie der Reiseplanung zu kämpfen haben, bei denen festgestellt wurde, dass sie praktikable Lösungen von 4 Prozent oder weniger Zeit bieten, selbst mit zusätzlichen Instruments und Anwendungsprogrammierschnittstellen (APIs).
Anschließend haben ein Forschungsteam vom MIT und das MIT-IBM Watson AI Lab das Downside umgebracht, um festzustellen, ob sie die Erfolgsrate von LLM-Lösungen für komplexe Probleme erhöhen könnten. „Wir glauben, dass viele dieser Planungsprobleme natürlich ein kombinatorisches Optimierungsproblem sind“, wo Sie mehrere Einschränkungen auf zertifizierbare Weise erfüllen müssen, sagt Chuchu Fan, Affiliate Professor in der MIT -Abteilung für Luftfahrt und Astronautik (Aeroastro) und das Labor für Informations- und Entscheidungssysteme (LIDS). Sie ist auch Forscherin im MIT-IBM Watson AI Lab. Ihr Crew wendet maschinelles Lernen, Kontrolltheorie und formale Methoden an, um sichere und überprüfbare Kontrollsysteme für Robotik, autonome Systeme, Controller und Human-Maschinen-Interaktionen zu entwickeln.
Die Gruppe stellte die übertragbare Artwork ihrer Arbeit für die Reiseplanung fest und versuchte, einen benutzerfreundlichen Rahmen zu schaffen, der als KI-Reiseverbesserung fungieren kann, um realistische, logische und vollständige Reisepläne zu entwickeln. Um dies zu erreichen, kombinierten die Forscher gemeinsame LLMs mit Algorithmen und einem vollständigen Erfrischungslöser. Löser sind mathematische Instruments, die streng prüfen, ob Kriterien erfüllt werden können und wie eine komplexe Computerprogrammierung zur Verwendung erforderlich ist. Dies macht sie zu natürlichen Begleitern zu LLMs für Probleme wie diese, bei denen Benutzer rechtzeitig Hilfe planen möchten, ohne dass Programmierkenntnisse oder Forschungen zu Reiseoptionen erforderlich sind. Wenn die Einschränkung eines Benutzers nicht erfüllt werden kann, kann die neue Technik identifizieren und artikulieren, wo das Downside dem Benutzer different Maßnahmen vorschlägt, der dann entscheiden kann, sie zu akzeptieren, abzulehnen oder zu ändern, bis ein gültiger Plan formuliert ist, falls vorhanden.
„Unterschiedliche Komplexität der Reiseplanung ist etwas, mit dem sich jeder irgendwann befassen muss. Es gibt unterschiedliche Anforderungen, Anforderungen, Einschränkungen und reale Informationen, die Sie sammeln können“, sagt Fan. „Unsere Idee ist es nicht, LLMs zu bitten, einen Reiseplan vorzuschlagen. Stattdessen fungiert ein LLM hier als Übersetzer, um diese natürliche Sprachbeschreibung des Issues in ein Downside zu übersetzen, das ein Löser behandeln kann (und dies dann dem Benutzer zur Verfügung stellen kann)“, sagt Fan.
Mitauthoring a Papier In der Arbeit mit Fan sind Yang Zhang von MIT-IBM Watson AI Lab, Aeroastro-Doktorand Yilun Hao und Doktorand Yongchao Chen von MIT Lids und Harvard College. Diese Arbeit wurde kürzlich auf der Konferenz der Nationen des Americas Chapter des Affiliation for Computational Linguistics vorgestellt.
Den Löser aufbrechen
Math ist tendenziell domänenspezifisch. In der natürlichen Sprachverarbeitung führen LLMs beispielsweise Regressionen durch, um das nächste Token, auch bekannt als „Wort“, in einer Serie vorherzusagen, um ein Dokument zu analysieren oder zu erstellen. Dies funktioniert intestine für die Verallgemeinerung verschiedener menschlicher Eingaben. LLMs allein würden jedoch nicht für formale Überprüfungsanwendungen funktionieren, wie in der Luft- und Raumfahrt oder in der Cybersicherheit, bei denen Schaltungsverbindungen und Einschränkungen vollständig und bewährt sein müssen, ansonsten können Lücken und Schwachstellen nach kritischen Sicherheitsproblemen schleichen und verursachen. Hier exponieren Löser, aber sie benötigen feste Formatierungseingaben und kämpfen mit unbefriedigenden Abfragen. Eine Hybridtechnik bietet jedoch die Möglichkeit, Lösungen für komplexe Probleme wie die Planung der Reise auf eine Weise zu entwickeln, die für alltägliche Menschen intuitiv ist.
„Der Löser ist hier wirklich der Schlüssel, denn wenn wir diese Algorithmen entwickeln, wissen wir genau, wie das Downside als Optimierungsproblem gelöst wird“, sagt Fan. Insbesondere verwendete die Forschungsgruppe einen Löser namens Erfrachungsmodulo -Theorien (SMT), der feststellt, ob eine Formel erfüllt werden kann. „Mit diesem speziellen Löser ist es nicht nur eine Optimierung. Es wird dort über viele verschiedene Algorithmen eingehen, um zu verstehen, ob das Planungsproblem möglich ist oder nicht zu lösen ist. Das ist eine ziemlich wichtige Sache bei der Reiseplanung. Es sind keine sehr traditionellen Problemen mit mathematischer Optimierung, weil Menschen mit all diesen Grenzen, Einschränkungen, Einschränkungen auftreten.
Übersetzung in Aktion
Das „Reisebüro“ funktioniert in vier Schritten, die nach Bedarf wiederholt werden können. Die Forscher verwendeten GPT-4, Claude-3 oder Mistral-Giant als LLM der Methode. Erstens analysiert der LLM den angeforderten Reiseplan eines Benutzers in Planungsschritte und stellt die Vorlieben für Funds, Resorts, Transportmittel, Ziele, Attraktionen, Eating places und Ausflugsdauer in Tagen sowie alle anderen Benutzerverschreibungen fest. Diese Schritte werden dann in ausführbare Python -Code umgewandelt (mit einer natürlichen Annotation für die einzelnen Einschränkungen), die APIs wie CitySearch, FlySearch usw. aufruft, um Daten zu sammeln, und den SMT -Solver, um mit der Ausführung der in das Downside der Begrenzungszufriedenheit festgelegten Schritte zu beginnen. Wenn ein Ton und eine vollständige Lösung gefunden werden können, gibt der Solver das Ergebnis in die LLM aus, die dem Benutzer eine kohärente Reiseroute liefert.
Wenn ein oder mehrere Einschränkungen nicht erfüllt werden können, beginnt der Rahmen nach einer Various zu suchen. Der Solver gibt Code aus, die die widersprüchlichen Einschränkungen (mit seiner entsprechenden Annotation) identifizieren, die der LLM dem Benutzer dann ein potenzielles Mittel zur Verfügung stellt. Der Benutzer kann dann entscheiden, wie er fortgesetzt werden soll, bis eine Lösung (oder die maximale Anzahl von Iterationen) erreicht ist.
Verallgemeinerbare und robuste Planung
Die Forscher testeten ihre Methode anhand der oben genannten LLMs gegen andere Baselines: GPT-4 für sich selbst, OpenAI O1-Präview für sich selbst, GPT-4 mit einem Instrument zum Sammeln von Informationen und einem Suchalgorithmus, der die Gesamtkosten optimiert. Unter Verwendung des TravelPlanner -Datensatzes, der Daten für praktikable Pläne enthält, untersuchte das Crew mehrere Leistungsmetriken: Wie häufig könnte eine Methode eine Lösung liefern, wenn die Lösung den CommonSense -Kriterien wie den Besuch zweier Städte an einem Tag, die Fähigkeit der Methode, eine oder mehrere Einschränkungen zu erfüllen, und eine endgültige Passquote, die angibt, dass sie den Alltägchen erfüllen kann, nicht in Anspruch genommen wird. Die neue Technik erreichte im Allgemeinen über eine Passquote von 90 Prozent, verglichen mit 10 Prozent oder niedriger für die Basislinien. Das Crew untersuchte auch die Hinzufügung einer JSON-Darstellung innerhalb des Abfrageschritts, was es der Methode weiter erleichterte, Lösungen mit 84,4-98,9 Prozent der PASS-Raten bereitzustellen.
Das MIT-IBM-Crew stellte zusätzliche Herausforderungen für ihre Methode dar. Sie untersuchten, wie wichtig jede Komponente ihrer Lösung battle – z. B. das Entfernen des menschlichen Feedbacks oder des Solvers – und wie sich dies auf die Plananpassungen an unbefriedigbare Abfragen innerhalb von 10 oder 20 Iterationen ausgewirkt hat, unter Verwendung eines neuen Datensatzes, den sie als Unsatchristmas erstellt haben, der unsichtbare Einschränkungen enthält, und eine modifizierte Model von TravelPlanner. Im Durchschnitt erreichte der Rahmen der MIT-IBM-Gruppe 78,6 und 85 Prozent Erfolg, was auf 81,6 und 91,7 Prozent mit zusätzlichen Planveränderungsrunden steigt. Die Forscher analysierten, wie intestine es mit neuen, unsichtbaren Einschränkungen und Anforderungen von Abfragen und Stiefcode umgegangen ist. In beiden Fällen hat es sich sehr intestine entwickelt, insbesondere mit einer Passquote von 86,7 Prozent für den paraphrasierenden Versuch.
Schließlich wendeten die MIT-IBM-Forscher ihren Rahmen auf andere Domänen mit Aufgaben wie Block-Choosing, Aufgabenallokation, dem reisenden Verkäuferproblem und dem Lagerhaus an. Hier muss die Methode nummerierte, farbige Blöcke auswählen und ihre Punktzahl maximieren. Optimieren Sie die Zuweisung von Roboter -Aufgaben für verschiedene Szenarien; Planen Sie Reisen, die die zurückgelegte Entfernung minimieren; und Roboter -Aufgabenabschluss und Optimierung.
„Ich denke, dies ist ein sehr starker und innovativer Rahmen, der viel Zeit für den Menschen sparen kann, und es ist auch eine sehr neuartige Kombination aus LLM und Löser“, sagt Hao.
Diese Arbeit wurde teilweise vom Büro für Marineforschung und dem MIT-IBM Watson AI Lab finanziert.