Die Textanalyse gibt Hinweise darauf, wie Schriftmengen entstehen

Im weitesten Sinne wandelt die Verarbeitung natürlicher Sprache Sprache in Konstrukte um, die sinnvoll manipuliert werden können. Da sich Deep-Studying-Einbettungen als so leistungsstark erwiesen haben, sind sie auch zum Commonplace geworden: Wählen Sie ein Modell aus, betten Sie Ihre Daten ein, wählen Sie eine Metrik aus und führen Sie eine RAG durch. Um einen neuen Mehrwert zu schaffen, ist es hilfreich, die knirschende Sprache anders zu betrachten.
Das, was ich heute teilen werde, begann vor Jahren mit einem einzigen Buch.

Der Orchideendieb ist sowohl Sachbuch als auch voller Unsinn. Ich hatte es zum ersten Mal in meinen Zwanzigern gelesen, die meisten historischen Anekdoten übersprungen und mich auf die Berichte aus der Ich-Perspektive gefreut. Damals lachte ich laut, blätterte aber in stiller Wut um, dass jemand so tief leben und so intestine schreiben konnte. Ich battle mir nicht ganz sicher, ob das verschiedene Dinge waren.

Innerhalb eines Jahres battle ich nach London gezogen, um neu zu beginnen.
Ich bin in den Finanzdienstleistungsbereich gegangen, der wie ein Themenpark für Nerds ist. Und würde im folgenden Jahrzehnt nur Jobs annehmen, bei denen es um viel Schreiben geht.

„Viel“ ist das entscheidende Wort.

Hinter der modernen Fassade professioneller Dienstleistungen lebt die britische Industrie noch mit ihren alten Fabriken und Werften. Es beauftragt Alice, eine Sache zu erledigen und sie dann an Bob zu übergeben; Er dreht ein paar Schrauben und schon geht es an Charlie. Einen Monat später machen wir es alle wieder. Als Neuling wurde mir klar, dass Gewohnheiten nicht so sehr ein Graben sind, in den man fallen kann, sondern ein Hügel, den man aufpflocken kann.

Ich habe auch viel gelesen. Okay, ich habe das gelesen New Yorker. Am liebsten habe ich einen neuen Movie auf das Cowl geworfen, ihn von hinten geöffnet und die ersten Sätze von Anthony Lane gelesen, der Filmkritiken schreibt. Jahrelang habe ich kein einziges Mal einen Movie gesehen.

Hin und wieder überraschte mich ein Flackern. Ein kaum vorhandener Faden zwischen den New Yorker Korpus und meine Nicht-Pulitzer-Ausgaben. In beiden Korpora unterschied sich jedes Stück von seinen Geschwistern, aber auch…nicht ganz. Ähnlichkeiten hallten wider. Und ich wusste, dass diejenigen in meiner Arbeit aus einem sich wiederholenden Prozess entstanden waren.

Im Jahr 2017 begann ich über die Schwelle zu meditieren, die das Schreiben davon trennt fühlt sich formelhaft an von einem, der explizit ausgeschrieben werden kann als Formel.

Das Argument geht so: Die Menge an Wiederholungen weist auf eine (typischerweise stillschweigende) Kind der algorithmischen Entscheidungsfindung hin. Aber die Wiederholung des Verfahrens hinterlässt Fingerabdrücke. Verfolgen Sie die Fingerabdrücke, um den Vorgang aufzudecken. den Algorithmus herausfinden; und die Software program schreibt sich praktisch von selbst.

In meinem letzten Job habe ich keine Lose mehr geschrieben. Meine Software program battle.

Unternehmen können im Prinzip genug über ihre eigenen Abläufe lernen, um enorme Gewinne zu erzielen, aber nur wenige machen sich die Mühe. Die Leute scheinen viel mehr von dem, was sie haben, begeistert zu sein jemand anderes tut.

Meine Vorgesetzten und später auch meine Kunden wünschten sich zum Beispiel immer wieder, dass ihre Mitarbeiter das nachahmen könnten Ökonom’s Hausstil. Aber wie würden Sie herausfinden, welche Schritte die Ökonom dauert es, bis es am Ende so klingt, wie es klingt?

Bild vom Autor

Geben Sie Textual content Analytics ein

Lesen Sie eine Single Ökonom Artikel, und es fühlt sich luftig und selbstbewusst an. Wenn man viele davon liest, klingen sie irgendwie ähnlich. Einmal professional Woche erscheint ein vollständiges gedrucktes Magazin. Ja, ich habe auf den Prozess gewettet.

Zum Spaß wenden wir eine Lesbarkeitsfunktion (gemessen in Bildungsjahren) auf mehrere Hundert an Ökonom Artikel. Machen wir das Gleiche auch mit Hunderten von Artikeln, die von einem frustrierten europäischen Vermögensverwalter veröffentlicht wurden.

Lassen Sie uns dann ein Histogramm erstellen, um zu sehen, wie diese Lesbarkeitswerte verteilt sind.

Nur zwei Funktionen, und sehen Sie sich die Erkenntnisse an, die wir erhalten!

Lesbarkeitsprofil. Quelle: FinText

Beachten Sie, wie weit die Kurven voneinander entfernt sind. Dieser Vermögensverwalter ist nicht klingt wie das Ökonom. Wir könnten weiter bohren, um herauszufinden, was diese Ungleichheit verursacht. (Erstens ist es oft so Wahnsinnig lange Sätze.)

Beachten Sie aber auch, wie die Ökonom setzt der zulässigen Lesbarkeitsbewertung eine harte Grenze. Die Kurve ist anorganisch, was verrät, dass sie bei ihrem Bearbeitungsprozess eine strenge Lesbarkeitsprüfung durchführen.

Schließlich – und viele meiner Kunden hatten damit zu kämpfen – die Ökonom schwört, so klar zu schreiben, dass ein durchschnittlicher Gymnasiast es verstehen könnte.

Ich hatte diese Diagramme erwartet. Ich hatte sie auf Papier gekritzelt. Aber als zum ersten Mal ein echtes Exemplar auf meinem Bildschirm aufleuchtete, battle es, als hätte die Sprache selbst gekichert.

Nun, ich battle nicht gerade der Erste am Tatort. Im Jahr 1964 landeten die Statistiker Frederick Mosteller und David Wallace auf dem Cowl von Zeit Magazin, ihre forensische Literaturanalyse Beilegung einer 140 Jahre alten Debatte über die Urheberschaft eines berühmten Dutzends anonym verfasster Essays.

Aber forensische Analysen betrachten immer das einzelne Factor in Bezug auf zwei Korpora: das vom mutmaßlichen Autor erstellte und die Nullhypothese. Bei der vergleichenden Analyse geht es nur um den Vergleich von Textkörpern.

Bild vom Autor

Aufbau einer Textanalyse-Engine

Lassen Sie uns unsere Schritte zurückverfolgen: Bei einem gegebenen Korpus haben wir auf jeden Textual content dieselbe Funktion angewendet (die Lesbarkeitsfunktion). Dadurch wurde der Korpus auf eine Menge (in diesem Fall Zahlen) abgebildet. Auf diesen Satz haben wir eine weitere Funktion angewendet (das Histogramm). Schließlich haben wir es mit zwei verschiedenen Korpora gemacht – und die Ergebnisse verglichen.

Wenn Sie die Augen zusammenkneifen, werden Sie sehen, dass ich gerade Excel beschrieben habe.

Was wie ein Tisch aussieht, ist es tatsächlich A Pipeline, Spalten nacheinander knirschen. Zuerst entlang der Spalte, gefolgt von Funktionen für die Ergebnisse, gefolgt von vergleichenden Analysefunktionen.

Nun, ich wollte Excel, aber für Textual content.

Keine Strings – Textual content. Ich wollte Funktionen wie anwenden Rely Verbs oder First Paragraph Topicoder First Essential Sentence. Und es musste flexibel genug sein, damit ich fragen konnte jede Frage; Wer weiß, worauf es am Ende ankommt?

Im Jahr 2020 gab es eine solche Lösung noch nicht, additionally habe ich sie gebaut. Und Junge, diese Software program hat sich nicht „praktisch selbst geschrieben“! Um es zu ermöglichen, jede Frage zu stellen, waren einige gute Architekturentscheidungen erforderlich, die ich zweimal falsch gemacht habe, bevor ich die Probleme behoben habe.

Am Ende werden Funktionen einmal definiert, und zwar dadurch, was sie mit einem einzelnen Eingabetext tun. Anschließend wählen Sie die Pipeline-Schritte und die Korpora aus, auf die sie wirken.

Damit gründete ich ein Beratungsunternehmen für Schreibtechnologie. FinText. Ich hatte vor, während der Arbeit mit Kunden zu bauen und zu sehen, was hängenbleibt.

Was der Markt sagte

Der erste kommerzielle Anwendungsfall, den ich mir ausgedacht habe, battle soziales Zuhören. Marktforschung und Umfragen sind ein großes Geschäft. Es ist jetzt der Höhepunkt der Pandemie, alle sind zu Hause. Ich dachte, dass die Verarbeitung aktiver Gespräche in speziellen On-line-Communities eine neue Möglichkeit sein könnte, auf die Denkweise der Kunden zuzugreifen.

Jeder erste Software program-Shopper hätte sich etwas Besonderes angefühlt, aber Dieses hier battle aufregend, weil meine Erfindung tatsächlich echten Menschen geholfen hat, aus einer schwierigen Scenario herauszukommen:

Im Hinblick auf eine große Veranstaltung hatten sie geplant, einen Flaggschiff-Bericht mit Daten aus einer bezahlten YouGov-Umfrage zu veröffentlichen. Aber die Ergebnisse waren lau. Additionally kauften sie von ihrem verbleibenden Funds eine FinText-Studie. Es waren unsere Erkenntnisse, die sie in den Mittelpunkt ihrer Arbeit stellten Abschlussbericht.

Social Listening auf Reddit „Investing“, 2020. Quelle: FinText

Aber Social Listening hat sich nicht durchgesetzt. Investitionsgrundstücke sind eigenartig, weil Geldpools immer ein Zuhause brauchen; Die Frage ist nur, wer der Vermieter ist. Branchenvertreter, mit denen ich gesprochen habe, wollten vor allem wissen, was ihre Konkurrenten vorhatten.

Daher stieß der zweite Anwendungsfall – die Analyse von Wettbewerbsinhalten – auf größere Resonanz. Ich habe mit dieser Lösung etwa ein halbes Dutzend Unternehmen verkauft (darunter zum Beispiel Aviva-Investoren).

Die ganze Zeit über sammelte unsere Engine Daten, die sonst niemand hatte. Ich battle so klug, dass es nicht einmal meine Idee battle, Schulungen durchzuführen, sondern ein Kunde fragte zuerst danach. So habe ich gelernt, dass Unternehmen gerne Schulungen kaufen.

Ansonsten erwies es sich als schwierig, meine Steampunk-Variante des Schreibens zu verkaufen. Es battle alles zu abstrakt. Was ich brauchte, battle ein Dashboard: hübsche Diagramme mit echten Zahlen, berechnet aus Stay-Daten. Eine Pipeline erledigte die Arbeit, und ich beauftragte ein kleines Workforce mit der Erstellung der hübschen Diagramme.

Demo zum Textanalyse-Dashboard. Quelle: FinText

Im Dashboard zeigten zwei Diagramme eine Aufschlüsselung der Themen und der Relaxation analysierte den Schreibstil. Ich werde ein paar Worte zu dieser Wahl sagen.

Jeder glaubt, dass es wichtig ist, was er sagt. Wenn es anderen egal ist, ist es wirklich ein Downside Ethical Versagen, Stil über Substanz abzuwägen. Ein bisschen so, als ob schlechter Geschmack etwas sei, das nur andere Leute haben.

Wissenschaftler haben Klicks gezählt, Augen verfolgt, Schriftrollen überwacht und die Aufmerksamkeit zeitlich gesteuert. Wir wissen, dass Leser einen Sekundenbruchteil brauchen, um zu entscheiden, ob etwas „für sie“ ist, und sie entscheiden, indem sie neue Informationen vage mit dem vergleichen, was ihnen bereits gefällt. Stil ist eine Eintrittskarte.

Was das Dashboard zeigte

Vorher hatte ich die gesammelten Daten nicht verfolgt, aber jetzt hatte ich all diese hübschen Diagramme. Und sie zeigten, dass ich sowohl Recht als auch sehr, sehr Unrecht hatte.

Anfangs hatte ich nur direkte Kenntnis von einigen wenigen großen Investmentfirmen und hatte vermutet, dass die Ströme ihrer Konkurrenten ähnlich aussehen. Dies erwies sich als richtig.

Aber ich battle auch davon ausgegangen, dass etwas kleinere Unternehmen nur geringfügig weniger Leistungen erbringen würden. Das stimmt einfach nicht.

Textanalysen erwiesen sich als hilfreich, wenn ein Unternehmen bereits über Kapazitäten für die Schreibproduktion verfügte. Ansonsten brauchten sie eine funktionierende Fabrik. Es waren zu wenige Unternehmen im ersten Eimer, weil alle anderen den zweiten überfüllten.

Epilog

Als Produkt ist die Textanalyse ein gemischtes Produkt. Es brachte etwas Geld ein, hätte wahrscheinlich noch mehr einbringen können, aber es battle unwahrscheinlich, dass es ein durchschlagender Erfolg wurde.

Außerdem hatte ich meinen Appetit darauf verloren New Yorker. Irgendwann kippte alles zu sehr auf die formelhafte Seite und die Magie battle verschwunden.

Mit großen Sprachmodellen wie ChatGPT sind Wörter jetzt in ihrer Massenära angekommen. Schon früh habe ich über den Einsatz von Pipelines nachgedacht, um zu erkennen, ob Textual content maschinell generiert wurde, aber welchen Sinn hätte das?

Stattdessen begann ich Ende 2023 mit der Arbeit an einer Lösung, die Unternehmen dabei hilft, ihre Schreibkapazitäten für Fachkunden zu erweitern. Es ist ein ganz anderes Abenteuer, das noch in den Kinderschuhen steckt.

Letztendlich kam mir die Textanalyse wie eine zusätzliche Brille vor. Gelegentlich wird die Unschärfe scharf. Ich behalte es für alle Fälle in meiner Tasche.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert