Die Struktur von Ghostbuster, unserer neuen hochmodernen Methode zum Erkennen von KI-generiertem Textual content.

Große Sprachmodelle wie ChatGPT sind beeindruckend intestine – so intestine, dass sie zu einem Downside geworden sind. Studenten haben begonnen, diese Modelle zu verwenden, um Ghostwriting-Aufgaben zu erstellen, was einige Schulen dazu veranlasst hat, ChatGPT sperren. Darüber hinaus neigen diese Modelle auch dazu, Texte mit sachlichen Fehlern zu produzieren, sodass misstrauische Leser wissen möchten, ob generative KI-Instruments zum Ghostwriting von Nachrichtenartikeln oder anderen Quellen verwendet wurden, bevor sie ihnen vertrauen.

Was können Lehrer und Verbraucher tun? Vorhandene Instruments zur Erkennung von KI-generiertem Textual content schneiden bei Daten, die von denen abweichen, mit denen sie trainiert wurden, manchmal schlecht ab. Wenn diese Modelle zudem echte menschliche Texte fälschlicherweise als KI-generiert klassifizieren, können sie Schüler gefährden, deren authentische Arbeit in Frage gestellt wird.

Unser jüngster Artikel stellt Ghostbuster vor, eine hochmoderne Methode zum Erkennen von KI-generiertem Textual content. Ghostbuster funktioniert, indem es die Wahrscheinlichkeit ermittelt, mit der jedes Token in einem Dokument unter mehreren schwächeren Sprachmodellen generiert wird, und dann Funktionen basierend auf diesen Wahrscheinlichkeiten als Eingabe für einen endgültigen Klassifikator kombiniert. Ghostbuster muss weder wissen, welches Modell zum Generieren eines Dokuments verwendet wurde, noch die Wahrscheinlichkeit, mit der das Dokument unter diesem bestimmten Modell generiert wurde. Diese Eigenschaft macht Ghostbuster besonders nützlich zum Erkennen von Textual content, der möglicherweise von einem unbekannten Modell oder einem Black-Field-Modell generiert wurde, wie z. B. den beliebten kommerziellen Modellen ChatGPT und Claude, für die keine Wahrscheinlichkeiten verfügbar sind. Wir sind besonders daran interessiert, sicherzustellen, dass Ghostbuster intestine verallgemeinert, additionally haben wir eine Reihe von Möglichkeiten zur Textgenerierung bewertet, darunter verschiedene Domänen (unter Verwendung neu gesammelter Datensätze von Aufsätzen, Nachrichten und Geschichten), Sprachmodelle oder Eingabeaufforderungen.



Beispiele für von Menschen verfasste und KI-generierte Texte aus unseren Datensätzen.

Warum dieser Ansatz?

Viele aktuelle KI-basierte Texterkennungssysteme sind bei der Klassifizierung unterschiedlicher Textarten (z. B. unterschiedliche Schreibweisen) mangelhaft. Stileoder eine andere Textgenerierung Modelle oder Eingabeaufforderungen). Einfachere Modelle, die Verwirrung allein können komplexere Merkmale normalerweise nicht erfassen und schneiden in neuen Schreibdomänen besonders schlecht ab. Tatsächlich haben wir festgestellt, dass eine reine Perplexitäts-Baseline in einigen Domänen schlechter warfare als zufällig, einschließlich der Daten von nicht-englischen Muttersprachlern. Unterdessen erfassen Klassifikatoren, die auf großen Sprachmodellen wie RoBERTa basieren, komplexe Merkmale problemlos, passen sich aber den Trainingsdaten zu sehr an und verallgemeinern schlecht: Wir haben festgestellt, dass eine RoBERTa-Baseline eine katastrophale Worst-Case-Generalisierungsleistung hatte, manchmal sogar schlechter als eine reine Perplexitäts-Baseline. Zero-Shot-Methoden die Textual content klassifizieren, ohne mit gekennzeichneten Daten trainiert zu werden, indem sie die Wahrscheinlichkeit berechnen, dass der Textual content von einem bestimmten Modell generiert wurde, schneiden tendenziell auch dann schlecht ab, wenn zur Generierung des Textes tatsächlich ein anderes Modell verwendet wurde.

So funktioniert Ghostbuster

Ghostbuster verwendet einen dreistufigen Trainingsprozess: Berechnen von Wahrscheinlichkeiten, Auswählen von Merkmalen und Klassifikatortraining.

Wahrscheinlichkeiten berechnen: Wir haben jedes Dokument in eine Reihe von Vektoren umgewandelt, indem wir die Wahrscheinlichkeit berechnet haben, dass jedes Wort im Dokument unter einer Reihe schwächerer Sprachmodelle (einem Unigramm-Modell, einem Trigramm-Modell und zwei nicht auf Anweisungen abgestimmten GPT-3-Modellen, ada und davinci) generiert wird.

Auswählen von Options: Zur Auswahl der Merkmale haben wir ein strukturiertes Suchverfahren verwendet. Dabei wird (1) eine Reihe von Vektor- und Skalaroperationen definiert, die die Wahrscheinlichkeiten kombinieren, und (2) mithilfe einer Vorwärtsmerkmalsauswahl nach sinnvollen Kombinationen dieser Operationen gesucht, wobei wiederholt das beste verbleibende Merkmal hinzugefügt wird.

Klassifikatortraining: Wir haben einen linearen Klassifikator anhand der besten wahrscheinlichkeitsbasierten Merkmale und einiger zusätzlicher manuell ausgewählter Merkmale trainiert.

Ergebnisse

Beim Coaching und Testen in derselben Domäne erreichte Ghostbuster 99,0 F1 in allen drei Datensätzen und übertraf GPTZero um 5,9 F1 und DetectGPT um 41,6 F1. Außerhalb der Domäne erreichte Ghostbuster durchschnittlich 97,0 F1 unter allen Bedingungen und übertraf DetectGPT um 39,6 F1 und GPTZero um 7,5 F1. Unsere RoBERTa-Basislinie erreichte 98,1 F1, als sie in allen Datensätzen in der Domäne ausgewertet wurde, aber ihre Generalisierungsleistung warfare inkonsistent. Ghostbuster übertraf die RoBERTa-Basislinie in allen Domänen außer dem kreativen Schreiben außerhalb der Domäne und hatte im Durchschnitt eine viel bessere Leistung außerhalb der Domäne als RoBERTa (13,8 F1-Marge).




Ergebnisse zur In-Area- und Out-of-Area-Leistung von Ghostbuster.

Um sicherzustellen, dass Ghostbuster strong gegenüber den verschiedenen Eingabeaufforderungen ist, die ein Benutzer an ein Modell senden kann, z. B. die Anforderung unterschiedlicher Schreibstile oder Lesestufen, haben wir die Robustheit von Ghostbuster gegenüber mehreren Eingabeaufforderungsvarianten bewertet. Ghostbuster übertraf bei diesen Eingabeaufforderungsvarianten alle anderen getesteten Ansätze mit 99,5 F1. Um die Generalisierung über Modelle hinweg zu testen, haben wir die Leistung anhand von Textual content bewertet, der von Claudewo Ghostbuster mit 92,2 F1 auch alle anderen getesteten Ansätze übertraf.

KI-generierte Textdetektoren konnten durch leichte Änderungen am generierten Textual content getäuscht werden. Wir haben Ghostbusters Robustheit gegenüber Änderungen wie dem Austauschen von Sätzen oder Absätzen, der Neuanordnung von Zeichen oder dem Ersetzen von Wörtern durch Synonyme untersucht. Die meisten Änderungen auf Satz- oder Absatzebene hatten keine nennenswerten Auswirkungen auf die Leistung. Die Leistung nahm jedoch allmählich ab, wenn der Textual content durch wiederholtes Umschreiben, den Einsatz kommerzieller Erkennungsvermeider wie Undetectable AI oder zahlreiche Änderungen auf Wort- oder Zeichenebene bearbeitet wurde. Die Leistung warfare auch bei längeren Dokumenten am besten.

Da KI-generierte Textdetektoren kann falsch klassifiziert werden Wir haben die Leistung von Ghostbuster anhand von Texten von Nicht-Muttersprachlern als KI-generiert bewertet. Alle getesteten Modelle hatten bei zwei von drei getesteten Datensätzen eine Genauigkeit von über 95 %, schnitten jedoch beim dritten Satz kürzerer Aufsätze schlechter ab. Die Dokumentlänge könnte hier jedoch der Hauptfaktor sein, da Ghostbuster bei diesen Dokumenten (74,7 F1) quick genauso intestine abschneidet wie bei anderen Dokumenten ähnlicher Länge außerhalb des Fachgebiets (75,6 bis 93,1 F1).

Benutzer, die Ghostbuster auf reale Fälle potenzieller verbotener Verwendung von Textgenerierung anwenden möchten (z. B. von ChatGPT verfasste Studentenaufsätze), sollten beachten, dass Fehler wahrscheinlicher bei kürzeren Texten, Domänen, die weit von denen entfernt sind, auf die Ghostbuster trainiert wurde (z. B. verschiedene Varianten des Englischen), Texten von Nicht-Muttersprachlern, von Menschen bearbeiteten Modellgenerierungen oder Texten sind, die generiert werden, indem ein KI-Modell aufgefordert wird, eine von Menschen verfasste Eingabe zu ändern. Um die Aufrechterhaltung algorithmischer Schäden zu vermeiden, raten wir dringend davon ab, die angebliche Verwendung von Textgenerierung ohne menschliche Aufsicht automatisch zu bestrafen. Stattdessen empfehlen wir eine vorsichtige, menschliche Beteiligung an der Verwendung von Ghostbuster, wenn die Einstufung der Texte einer Particular person als KI-generiert dieser schaden könnte. Ghostbuster kann auch bei einer Reihe von Anwendungen mit geringerem Risiko helfen, darunter das Herausfiltern von KI-generiertem Textual content aus den Trainingsdaten von Sprachmodellen und die Überprüfung, ob On-line-Informationsquellen KI-generiert sind.

Abschluss

Ghostbuster ist ein hochmodernes KI-generiertes Texterkennungsmodell mit einer F1-Leistung von 99,0 in allen getesteten Domänen, was einen erheblichen Fortschritt gegenüber vorhandenen Modellen darstellt. Es lässt sich intestine auf verschiedene Domänen, Eingabeaufforderungen und Modelle verallgemeinern und eignet sich intestine zum Identifizieren von Textual content aus Blackbox- oder unbekannten Modellen, da es keinen Zugriff auf Wahrscheinlichkeiten aus dem spezifischen Modell benötigt, das zum Generieren des Dokuments verwendet wurde.

Zu den zukünftigen Zielen von Ghostbuster gehören die Bereitstellung von Erklärungen für Modellentscheidungen und die Verbesserung der Robustheit gegenüber Angriffen, die gezielt versuchen, Detektoren zu täuschen. KI-generierte Texterkennungsansätze können auch zusammen mit Alternativen wie verwendet werden: Wasserzeichen. Wir hoffen auch, dass Ghostbuster bei einer Vielzahl von Anwendungen hilfreich sein kann, beispielsweise beim Filtern von Trainingsdaten für Sprachmodelle oder beim Markieren von KI-generierten Inhalten im Net.

Probieren Sie Ghostbuster hier aus: ghostbuster.app

Mehr zu Ghostbuster erfahrt ihr hier: ( Papier ) (Code)

Versuchen Sie hier selbst zu erraten, ob der Textual content KI-generiert ist: ghostbuster.app/experiment


Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert