Eine Einführung mit No-Code-Lösungen

Grafik, die unordentliche Daten bei der Verarbeitung zeigt. Bild vom Autor mit ChatGPT-4o.

Menschen verwenden große Sprachmodelle, um verschiedene Aufgaben an Textdaten aus verschiedenen Quellen auszuführen. Zu diesen Aufgaben können (ohne darauf beschränkt zu sein) das Bearbeiten, Zusammenfassen, Übersetzen oder Extrahieren von Textual content gehören. Eine der größten Herausforderungen bei diesem Workflow besteht darin, sicherzustellen, dass Ihre Daten KI-fähig sind. In diesem Artikel wird kurz erläutert, was KI-bereit bedeutet, und einige Lösungen ohne Code bereitgestellt, um Sie an diesen Punkt zu bringen.

Wir sind umgeben von riesigen Sammlungen unstrukturierter Textdaten aus verschiedenen Quellen, darunter Webseiten, PDFs, E-Mails, Organisationsdokumente usw. Im Zeitalter der KI können diese unstrukturierten Textdokumente wichtige Informationsquellen sein. Für viele Menschen besteht der typische Arbeitsablauf für unstrukturierte Textdaten darin, eine Eingabeaufforderung mit einem Textblock an das Massive Language Mannequin (LLM) zu senden.

Bild einer Übersetzungsaufgabe in ChatGPT. Screenshot des Autors.

Während die Methode „Kopieren und Einfügen“ eine Standardstrategie für die Arbeit mit LLMs ist, werden Sie wahrscheinlich auf Situationen stoßen, in denen dies nicht funktioniert. Bedenken Sie Folgendes:

  • Während viele Premium-Modelle das Hochladen und Bearbeiten von Dokumenten ermöglichen, ist die Dateigröße begrenzt. Wenn die Datei zu groß ist, benötigen Sie andere Strategien, um den relevanten Textual content in das Modell zu integrieren.
  • Möglicherweise möchten Sie nur einen kleinen Textabschnitt aus einem größeren Dokument verarbeiten. Die Bereitstellung des gesamten Dokuments an das LLM kann aufgrund des irrelevanten Textes die Erledigung der Aufgabe beeinträchtigen.
  • Einige Textdokumente und Webseiten, insbesondere PDFs, enthalten zahlreiche Formatierungen, die die Textverarbeitung beeinträchtigen können. Möglicherweise können Sie die Methode „Kopieren und Einfügen“ aufgrund der Formatierung des Dokuments nicht verwenden – Tabellen und Spalten können problematisch sein.

KI-fähig zu sein bedeutet, dass Ihre Daten in einem Format vorliegen, das von einem LLM problemlos gelesen und verarbeitet werden kann. Bei der Textdatenverarbeitung liegen die Daten im Klartext vor und haben eine Formatierung, die vom LLM problemlos interpretiert werden kann. Der Markdown-Dateityp ist very best, um sicherzustellen, dass Ihre Daten KI-fähig sind.

Nur-Textual content ist der einfachste Dateityp auf Ihrem Laptop. Dies wird normalerweise als a bezeichnet .txt Verlängerung. Viele verschiedene _Editoren_ können zum Erstellen und Bearbeiten von Nur-Textual content-Dateien auf die gleiche Weise verwendet werden, wie Microsoft Phrase zum Erstellen und Bearbeiten stilisierter Dokumente verwendet wird. Beispielsweise sind die Notepad-Anwendung auf einem PC oder die TextEdit-Anwendung auf einem Mac Customary-Texteditoren. Im Gegensatz zu Microsoft Phrase ist es bei Nur-Textual content-Dateien jedoch nicht möglich, den Textual content zu stilisieren (z. B. fett, unterstrichen, kursiv usw.). Es handelt sich um Dateien, die nur die Rohzeichen im Klartextformat enthalten.

Markdown-Dateien sind reine Textdateien mit der Erweiterung .md. Was die Markdown-Datei einzigartig macht, ist die Verwendung bestimmter Zeichen zur Angabe der Formatierung. Diese Sonderzeichen werden von Markdown-fähigen Anwendungen interpretiert, um den Textual content mit bestimmten Stilen und Strukturen darzustellen. Beispielsweise wird umgebender Textual content mit Sternchen kursiv dargestellt, während doppelte Sternchen den Textual content fett darstellen. Markdown bietet außerdem einfache Möglichkeiten, Kopfzeilen, Hear, Hyperlinks und andere Standarddokumentelemente zu erstellen und dabei die Datei als einfachen Textual content beizubehalten.

Die Beziehung zwischen Markdown und Massive Language Fashions (LLMs) ist unkompliziert. Markdown-Dateien enthalten Klartextinhalte, die LLMs schnell verarbeiten und verstehen können. LLMs können Markdown-Formatierungen als aussagekräftige Informationen erkennen und interpretieren und so das Textverständnis verbessern. Markdown verwendet Hashtags für Überschriften, die eine hierarchische Struktur schaffen. Ein einzelner Hashtag bezeichnet eine Überschrift der Ebene 1, zwei Hashtags eine Überschrift der Ebene 2, drei Hashtags eine Überschrift der Ebene 3 und so weiter. Diese Überschriften dienen LLMs als kontextbezogene Hinweise bei der Verarbeitung von Informationen. Die Modelle können diese Struktur nutzen, um die Organisation und Bedeutung verschiedener Abschnitte im Textual content besser zu verstehen.

Durch die Erkennung von Markdown-Elementen können LLMs den Inhalt und seine beabsichtigte Struktur und Betonung erfassen. Dies führt zu einer genaueren Interpretation und Generierung von Textual content. Die Beziehung ermöglicht es LLMs, über die bloßen Wörter selbst hinaus zusätzliche Bedeutungen aus der Textstruktur zu extrahieren und so ihre Fähigkeit zu verbessern, Markdown-formatierte Dokumente zu verstehen und mit ihnen zu arbeiten. Darüber hinaus zeigen LLMs ihre Ausgabe normalerweise im Markdown-Format an. So können Sie durch das Senden und Empfangen von Markdown-Inhalten einen viel effizienteren Arbeitsablauf bei der Arbeit mit LLMs erreichen. Sie werden auch feststellen, dass viele andere Anwendungen die Markdown-Formatierung ermöglichen (z. B. Slack, Discord, GitHub, Google Docs).

Es gibt viele Internetressourcen zum Erlernen von Markdown. Hier sind einige wertvolle Ressourcen. Bitte nehmen Sie sich etwas Zeit, um die Markdown-Formatierung zu erlernen.

In diesem Abschnitt werden wichtige Instruments zur Verwaltung von Markdown und zur Integration in Massive Language Fashions (LLMs) untersucht. Der Workflow umfasst mehrere wichtige Schritte:

  1. Quellmaterial: Wir beginnen mit strukturierten Textquellen wie PDFs, Webseiten oder Phrase-Dokumenten.
  2. Konvertierung: Mithilfe spezieller Instruments konvertieren wir diese formatierten Texte in Klartext, insbesondere in das Markdown-Format
  3. Speicherung (non-compulsory): Der konvertierte Markdown-Textual content kann in seiner ursprünglichen Kind gespeichert werden. Dieser Schritt wird empfohlen, wenn Sie den Textual content später wiederverwenden oder referenzieren.
  4. LLM-Verarbeitung: Der Markdown-Textual content wird dann in ein LLM eingegeben.
  5. Ausgabegenerierung: Das LLM verarbeitet die Daten und generiert Ausgabetext.
  6. Ergebnisspeicherung: Die Ausgabe des LLM kann zur weiteren Verwendung oder Analyse gespeichert werden.
Workflow zum Konvertieren von Formatierungstext in einfachen Textual content. Bild vom Autor unter Verwendung des Meerjungfrau-Diagramms.

Dieser Workflow konvertiert verschiedene Dokumenttypen effizient in ein Format, das LLMs schnell verarbeiten können, und behält gleichzeitig die Möglichkeit bei, sowohl die Eingabe als auch die Ausgabe zur späteren Bezugnahme zu speichern.

Obsidian: Klartext speichern und speichern

Obsidian ist eine der besten verfügbaren Optionen zum Speichern und Speichern von Klartext- und Markdown-Dateien. Wenn ich reine Textinhalte aus PDFs und Webseiten extrahiere, speichere ich diese Inhalte normalerweise in Obsidian, einem kostenlosen Texteditor, der sich very best für diesen Zweck eignet. Ich verwende Obsidian auch für meine anderen Arbeiten, darunter das Erstellen von Notizen und das Speichern von Eingabeaufforderungen. Dies ist ein fantastisches Werkzeug, das es wert ist, erlernt zu werden.

Obsidian ist einfach ein Software zum Speichern und Speichern von Klartextinhalten. Sie werden diesen Teil Ihres Arbeitsablaufs wahrscheinlich benötigen, er ist jedoch NICHT erforderlich!

Jina AI – Reader: Extrahieren Sie einfachen Textual content aus Web sites

Jina AI ist eines meiner Lieblings-KI-Unternehmen. Es stellt eine Suite von Instruments für die Arbeit mit LLMs dar. Jina AI Reader ist ein bemerkenswertes Software, das eine Webseite in das Markdown-Format konvertiert, sodass Sie Inhalte im Klartext abrufen können, um sie von einem LLM zu verarbeiten. Der Vorgang ist sehr einfach. Hinzufügen https://r.jina.ai/ zu einer beliebigen URL und Sie erhalten KI-fähige Inhalte für Ihr LLM.

Betrachten Sie beispielsweise den folgenden Screenshot großer Sprachmodelle auf Wikipedia: en.wikipedia.org/wiki/Large_lingual_model

Screenshot der Wikipedia-Seite des Autors.

Angenommen, wir wollten lediglich den auf dieser Seite enthaltenen Textual content zu LLMs verwenden. Das Extrahieren dieser Informationen kann mit der Methode „Kopieren und Einfügen“ erfolgen, bei allen anderen Formatierungen ist dies jedoch umständlich. Wir können jedoch Jina AI-Reader verwenden, indem wir „https://r.jina.ai` zum Anfang der URL:

Dies gibt alles in einem Markdown-Format zurück:

Wikipedia-Seite über Jina AI-Reader in Markdown umgewandelt. Bild vom Autor.

Von hier aus können wir die relevanten Inhalte einfach kopieren und in das LLM einfügen. Alternativ können wir den Markdown-Inhalt in Obsidian speichern, sodass er im Laufe der Zeit wiederverwendet werden kann. Während Jina AI Premium-Dienste zu sehr geringen Kosten anbietet, können Sie dieses Software kostenlos nutzen.

LlamaParse: Extrahieren von Klartext aus Dokumenten

Hochformatierte PDFs und andere stilisierte Dokumente stellen eine weitere häufige Herausforderung dar. Bei der Arbeit mit Massive Language Fashions (LLMs) müssen wir häufig die Formatierung entfernen, um uns auf den Inhalt zu konzentrieren. Stellen Sie sich ein Szenario vor, in dem Sie nur bestimmte Abschnitte eines PDF-Berichts verwenden möchten. Der komplexe Stil des Dokuments macht ein einfaches Kopieren und Einfügen unpraktisch. Wenn Sie außerdem das gesamte Dokument in ein LLM hochladen, kann es schwierig sein, nur die gewünschten Abschnitte zu lokalisieren und zu verarbeiten. Diese State of affairs erfordert ein Software, das Inhalte von Formatierungen trennen kann. LlamaParse von LlamaIndex geht auf dieses Bedürfnis ein, indem es Textual content effektiv von seinen Stilelementen entkoppelt.

Um auf LlamaParse zuzugreifen, können Sie sich bei LlamaCloud anmelden: https://cloud.llamaindex.ai/login. Nachdem Sie sich bei LlamaCloud angemeldet haben, gehen Sie auf der linken Seite des Bildschirms zu LlamaParse:

Screenshot von LlamaCloud. Bild vom Autor.

Nachdem Sie auf die Parsing-Funktion zugegriffen haben, können Sie den Inhalt mithilfe der folgenden Schritte extrahieren. Ändern Sie zunächst den Modus auf „Genau“, wodurch die Ausgabe im Markdown-Format erstellt wird. Zweitens ziehen Sie Ihr Dokument per Drag & Drop. Sie können viele verschiedene Arten von Dokumenten analysieren, aber meiner Erfahrung nach müssen Sie in der Regel PDFs, Phrase-Dateien und PowerPoints analysieren. Bedenken Sie jedoch, dass Sie viele verschiedene Dateitypen verarbeiten können. In diesem Beispiel verwende ich a öffentlich zugänglicher Bericht vom American Social Work Board. Dies ist ein stark stilisierter Bericht mit einer Länge von 94 Seiten.

Screenshot von LlamaCloud. Bild vom Autor.

Jetzt können Sie den Markdown-Inhalt kopieren und einfügen oder die gesamte Datei in Markdown exportieren.

Screenshot der Ausgabe von LlamaParse. Bild vom Autor.

Mit dem kostenlosen Plan können Sie 1.000 Seiten professional Tag analysieren. LlamaParse verfügt über viele weitere Funktionen, die es wert sind, erkundet zu werden.

Die Vorbereitung von Textdaten für die KI-Analyse erfordert mehrere Strategien. Auch wenn die Verwendung dieser Techniken zunächst eine Herausforderung sein magazine, können Sie sich durch Übung besser mit den Instruments und Arbeitsabläufen vertraut machen. Mit der Zeit lernen Sie, sie effizient auf Ihre spezifischen Aufgaben anzuwenden.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert