Ist dieser Movie Overview ein Rave oder eine Pfanne? Ist diese Nachricht über Geschäft oder Technologie? Ist dieses On-line -Chatbot -Gespräch in finanzielle Beratung eingereicht? Gibt diese On-line -Web site für medizinische Info Fehlinformationen aus?

Diese Artwork von automatisierten Gesprächen, unabhängig davon, ob sie einen Movie oder eine Restaurantbewertung suchen oder Informationen über Ihr Bankkonto oder Ihre Gesundheitsakten erhalten, werden immer häufiger. Mehr denn je werden solche Bewertungen von hoch entwickelten Algorithmen vorgenommen, die eher als Textklassifizierer als von Menschen bezeichnet werden. Aber wie können wir feststellen, wie genau diese Klassifikationen wirklich sind?

Jetzt hat ein Staff des MIT -Labors für Informations- und Entscheidungssysteme (LIDS) einen innovativen Ansatz entwickelt, um nicht nur zu messen, wie intestine diese Klassifizierer ihren Job machen, sondern dann noch einen Schritt weiter gehen und zeigen, wie sie genauer machen können.

Die neue Software program zur Bewertung und Sanierung wurde von Kalyan Veeramachaneni, einem Hauptwissenschaftler bei Lids, seinen Studenten Lei Xu und Sarah Alnegheimish, und zwei anderen entwickelt. Das Softwarepaket wird von jedem, der es verwenden möchte, frei zum Obtain für den Obtain zur Verfügung gestellt.

Eine Standardmethode zum Testen dieser Klassifizierungssysteme besteht darin, so viele als synthetische Beispiele bezeichnete Sätze zu erstellen, die den bereits klassifizierten Sätzen ähneln. Zum Beispiel könnten Forscher einen Satz nehmen, der bereits von einem Klassifikatorprogramm als begeisterte Überprüfung mitgeteilt wurde, und prüfen, ob das Ändern eines Wortes oder ein paar Wörter gleichzeitig die gleiche Bedeutung beibehalten könnte, um den Klassifizierer zu täuschen, um es als Pfanne zu betrachten. Oder ein Satz, der als Fehlinformation festgestellt wurde, kann als genau falsch klassifiziert werden. Diese Fähigkeit, die Klassifikatoren zu täuschen, macht diese kontroversen Beispiele.

Laut Veeramachaneni haben die Menschen verschiedene Möglichkeiten versucht, die Schwachstellen in diesen Klassifizierern zu finden. Vorhandene Methoden zum Auffinden dieser Schwachstellen haben es jedoch schwer mit dieser Aufgabe und verpassen viele Beispiele, die sie fangen sollten, sagt er.

Unternehmen versuchen zunehmend, solche Bewertungswerkzeuge in Echtzeit zu verwenden, um die Ausgabe von Chatbots zu überwachen, die für verschiedene Zwecke verwendet werden, um sicherzustellen, dass sie keine unsachgemäßen Antworten ausführen. Beispielsweise könnte eine Financial institution einen Chatbot verwenden, um auf routinemäßige Kundenabfragen wie das Girokonto -Guthaben oder die Beantragung einer Kreditkarte zu reagieren. Sie möchte jedoch sicherstellen, dass ihre Antworten niemals als finanzielle Beratung interpretiert werden könnten, was das Unternehmen der Haftung aussetzen könnte. „Bevor sie die Antwort des Chatbot auf den Endbenutzer anzeigen, möchten sie den Textklassifizierer verwenden, um festzustellen, ob er finanzielle Beratung gibt oder nicht“, sagt Veeramachaneni. Aber dann ist es wichtig, diesen Klassifikator zu testen, um zu sehen, wie zuverlässig seine Bewertungen sind.

„Diese Chatbots oder Summarization -Motoren oder so weiter werden auf der ganzen Linie eingerichtet“, sagt er, um mit externen Kunden und innerhalb einer Organisation umzugehen, beispielsweise Informationen über Personalprobleme bereitzustellen. Es ist wichtig, diese Textklassifizierer in die Schleife zu bringen, um Dinge zu erkennen, die sie nicht sagen sollen, und diese herauszufiltern, bevor die Ausgabe an den Benutzer übertragen wird.

Hier kommt die Verwendung von kontroversen Beispielen ins Spiel – jene Sätze, die bereits klassifiziert wurden, dann jedoch eine andere Antwort ergeben, wenn sie leicht modifiziert werden, während sie die gleiche Bedeutung erhalten. Wie können die Leute bestätigen, dass die Bedeutung gleich ist? Durch Verwendung eines anderen großen Sprachmodells (LLM), das Bedeutungen interpretiert und vergleicht. Wenn additionally die LLM sagt, dass die beiden Sätze dasselbe bedeuten, aber der Klassifikator sie anders bezeichnet: „Das ist ein gesetzlicher Satz – es kann den Klassifikator täuschen“, sagt Veeramachaneni. Und als die Forscher diese kontroversen Sätze untersuchten: „Wir fanden heraus, dass dies die meiste Zeit nur eine Veränderung eines Wortes battle“, obwohl die Personen, die LLMs verwenden, um diese alternativen Sätze zu generieren, das oft nicht wusste.

Weitere Untersuchungen, bei denen LLMs verwendet wurden, um viele tausend Beispiele zu analysieren, zeigten, dass bestimmte spezifische Wörter einen übergroßen Einfluss auf die Änderung der Klassifizierungen hatten, und daher könnte sich das Testen der Genauigkeit eines Klassifikators auf diese kleine Teilmenge von Wörtern konzentrieren, die den größten Unterschied zu bewirken scheinen. Sie stellten fest, dass ein Zehntel von 1 Prozent aller 30.000 Wörter im Wortschatz des Methods in bestimmten Anwendungen quick die Hälfte all dieser Klassifizierungsumkehrungen verantwortlich machen könnte.

Lei Xu PhD ’23, ein Absolvent der Deckel, der im Rahmen seiner These -Arbeit einen Großteil der Analyse durchführte, „verwendete viele interessante Schätztechniken, um herauszufinden, was die mächtigsten Wörter sind, die die Gesamtklassifizierung verändern können, die den Klassifizierer täuschen können“, sagt Veeramachaneni. Ziel ist es, es möglich zu machen, viel enger gezielte Suchvorgänge durchzuführen, anstatt alle möglichen Wortsubstitutionen durchzuführen, um die rechnerische Aufgabe der Erzeugung von kontroversen Beispielen viel überschaubarer zu machen. „Interessanterweise verwendet er große Sprachmodelle, um die Kraft eines einzelnen Wortes zu verstehen.“

Dann, auch LLMs, sucht er nach anderen Wörtern, die eng mit diesen mächtigen Wörtern verwandt sind, und so weiter, und ermöglicht eine Gesamtrangfolge von Wörtern gemäß ihrem Einfluss auf die Ergebnisse. Sobald diese kontroversen Sätze gefunden wurden, können sie wiederum verwendet werden, um den Klassifizierer zu übernehmen, um sie zu berücksichtigen, wodurch die Robustheit des Klassifikators gegen diese Fehler erhöht wird.

Klassifikatoren genauer zu machen, klingt möglicherweise nicht nach einer großen Sache, wenn es nur darum geht, Nachrichtenartikel in Kategorien zu klassifizieren oder zu entscheiden, ob Bewertungen von irgendetwas von Filmen bis zu Eating places positiv oder negativ sind. Zunehmend werden Klassifizierer in Umgebungen verwendet, in denen die Ergebnisse wirklich wichtig sind, unabhängig davon, ob die versehentlicher Freisetzung sensibler medizinischer, finanzieller oder Sicherheitsinformationen verhindern oder wichtige Forschungsergebnisse, wie z.

Infolge dieser Forschung führte das Staff eine neue Metrik vor, die es P nennt, die ein Maß dafür liefert, wie sturdy ein bestimmter Klassifikator gegen Einzelwortangriffe ist. Aufgrund der Bedeutung solcher Fehlklassifizierungen hat das Forschungsteam seine Produkte als offener Zugang für alle zur Verfügung gestellt. Das Paket besteht aus zwei Komponenten: SP-Acktack, das kontroverse Sätze zum Testen von Klassifikatoren in einer bestimmten Anwendung und SP-Protection generiert, was darauf abzielt, die Robustheit des Klassifizierers durch Generieren und Verwendung von kontroversen Sätzen zu verbessern, um das Modell zu überzeugen.

In einigen Checks, bei denen konkurrierende Methoden zum Testen von Klassifizierern eine Erfolgsquote von 66 Prozent durch kontroverse Angriffe ermöglichten, senkte das System dieses Groups diese Angriffserfolgsrate quick halbiert auf 33,7 Prozent. In anderen Anwendungen betrug die Verbesserung nur einen Unterschied von 2 Prozent, aber selbst das kann sehr wichtig sein, sagt Veeramachaneni, da diese Systeme für so viele Milliarden Wechselwirkungen verwendet werden, dass selbst ein kleiner Prozentsatz Millionen von Transaktionen betreffen kann.

Die Ergebnisse des Groups wurden am 7. Juli in der Zeitschrift veröffentlicht Expertensysteme In einem Papier von Xu, Veeramachaneni und Alnegheimish von Deckel sowie Laure Berti-Equille in IRD in Marseille, Frankreich, und Alfredo Cuesta-Infante am Universidad Rey Juan Carlos in Spanien.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert