Entwicklung in letzter Zeit mit großen Sprachmodellen (LLMs). Ein Großteil des Fokus liegt auf der Frage, die Sie sowohl mit reinen textbasierten Modellen als auch mit Imaginative and prescient-Sprachmodellen (VLMs) ausmachen können, in denen Sie auch Bilder eingeben können.

Es gibt jedoch eine weitere Dimension, die in den letzten Jahren eine Tonne entwickelt hat: Audio. Modelle, die sowohl transkribieren (Sprache -> Textual content), Sprachsynthese (Textual content -> Sprache) als auch Sprache zu Speech, wo Sie ein ganzes Gespräch mit einem Sprachmodell führen, wobei Audio sowohl ein- als auch außen geht.

Die Arcitecture und und die Trainingspipeline für das Flüstermodell von OpenAI. Bild von Openai Whisper Github Repository mit MIT -Lizenz.

In diesem Artikel werde ich diskutieren, wie ich die Entwicklung innerhalb des Audiomodellraums zu meinem Vorteil nutze und zu einem noch effizienteren Programmierer werde.

Dies ist ein Beispielvideo von mir, das das Transkriptionswerkzeug verwendet. Ich wähle zuerst das Eingabeaufforderungsfeld in Cursor und verwenden Sie meinen Hotkey, um das Mikrofon zu aktivieren, das durch das Orangensymbol oben hyperlinks angezeigt wird. Ich spreche dann den Satz, den ich transkribieren möchte, und er wird schnell im Eingabeaufforderungfenster angezeigt, ohne dass ich überhaupt auf der Tastatur eingeben muss. Dies ist eine effizientere Möglichkeit, lange englische Eingabeaufforderungen in Ihren Editor einzugeben. Video des Autors.

Motivation

Meine Hauptmotivation für das Schreiben dieses Artikels ist, dass ich ständig nach Wegen suche, um ein effizienterer Programmierer zu werden. Nachdem ich die Chatgpt Cell App für eine Weile verwendet hatte, stellte ich ihre Transkriptionsoption (das Mikrofon -Image rechts im Benutzereingabebuch) fest. Ich habe die Transkription verwendet und schnell erkannt, wie viel besser diese Transkription mit anderen verglichen wird, die ich zuvor verwendet habe, wie beispielsweise die integrierte iPhone-Transkription von Apple.

Openais Transkription fängt quick immer alle meine Worte mit sehr wenigen Fehlern ein. Selbst wenn ich beispielsweise weniger häufige Wörter verwende, die Akronyme in Bezug auf Informatik in Bezug auf die Informatik sind, kann es immer noch in der Lage sein, das aufzunehmen, was ich sage.

Das Transkriptionssymbol aus der OpenAI -Anwendung. Bild des Autors, aufgenommen von Openais Chatgpt.

Diese Transkription conflict nur in der Chatgpt -App verfügbar. Ich weiß jedoch, dass OpenAI einen API -Endpunkt für ihr Flüstermodell hat, das (vermutlich) dasselbe Modell ist, das sie verwenden, um Textual content in die App zu transkribieren. Ich wollte dieses Modell daher auf meinem Mac einstellen, um über eine Verknüpfung verfügbar zu sein.

(Ich weiß, dass es Apps gibt wie MacWhisper Verfügbar, aber ich wollte eine völlig kostenlose Lösung entwickeln, außer den Kosten der API -Rufen selbst)

Voraussetzungen

  • Alfred (Ich werde Alfred auf dem Mac verwenden, um einige Skripte auszulösen. Es gibt jedoch auch Alternativen dazu. Im Allgemeinen benötigen Sie eine Möglichkeit, Skripte auf Ihrem Mac / PC von einem Hotkey auszulösen.

Profis

Der Hauptvorteil der Verwendung dieser Transkription besteht darin, dass Sie Wörter schneller in Ihren Laptop eingeben können. Wenn ich so schnell wie möglich auf meinem Laptop tippe, kann ich nicht einmal 100 Wörter professional Minute erreichen, und wenn ich mit dieser Geschwindigkeit tippen soll, muss ich mich wirklich konzentrieren. Die durchschnittliche sprechende Geschwindigkeit beträgt jedoch bei a mindestens 110entsprechend Diese ArtiCLE.

Dies bedeutet, dass Sie viel effektiver sein können, wenn Sie Ihre Wörter mit Transkription sprechen können, anstatt sie auf der Tastatur einzugeben.

Ich denke, dies ist besonders related nach dem Aufstieg großer Sprachmodelle wie Chatgpt. Sie verbringen mehr Zeit damit, die Sprachmodelle zu fordern, beispielsweise Fragen an ChatGPT oder den Cursor zu stellen, eine Funktion zu implementieren oder einen Fehler zu beheben. Daher ist die Verwendung der englischen Sprache jetzt viel häufiger als zuvor im Vergleich zur Verwendung von Programmiersprachen wie Python direkt.

Hinweis: Natürlich schreiben Sie immer noch viel Code, aber aus Erfahrung verbringe ich viel mehr Zeit damit, den Cursor zu veranlassen, beispielsweise mit umfangreichen englischen Aufforderungen. In diesem Fall spart mir die Verwendung dieser Transkription viel Zeit.

Nachteile

Es kann jedoch auch einige Nachteile für die Verwendung der Transkription geben. Einer der wichtigsten ist, dass Sie oft beim Programmieren nicht laut sprechen möchten. Möglicherweise sitzen Sie auf dem Flughafen (wie ich beim Schreiben dieses Artikels) oder sogar in Ihrem Büro. Wenn Sie sich in diesen Szenarien befinden, möchten Sie die Umgebung wahrscheinlich nicht stören, indem Sie laut sprechen. Wenn Sie jedoch in einem Heimbüro sitzen, ist dies natürlich kein Downside.

Eine andere unfavorable Seite ist, dass kleinere Eingabeaufforderungen möglicherweise nicht viel schneller sind. Stellen Sie sich Folgendes vor: Wenn Sie nur eine Eingabeaufforderung eines einzelnen Satzes schreiben möchten, wird es in vielen Szenarien schneller sein, nur die Eingabeaufforderung von Hand auszugeben. Dies liegt an der Verzögerung beim Starten, Stoppen und Transkriptieren von Audio in Textual content. Das Senden des API -Anrufs dauert ein wenig Zeit, und je kürzer die Eingabeaufforderung ist, desto größerer Bruchteil der Zeit müssen Sie auf die Antwort warten.

Wie man implementiert

Sie können das sehen Code, den ich in diesem Artikel in meinem GitHub verwendet habe. Sie müssen jedoch auch Hotkeys hinzufügen, um die Skripte auszuführen.

Zuerst müssen Sie:

  • Klonen Sie das Github -Repository:
git clone https://github.com/EivindKjosbakken/whisper-shortcut.git
  • Erstellen Sie eine virtuelle Umgebung, die genannt wird .Venv und installieren Sie die erforderlichen Pakete:
python3 -m venv .venv
supply .venv/bin/activate
pip set up -r necessities.txt
  • Holen Sie sich einen Openai -API -Schlüssel. Sie können das tun von:
    • In die OpenAI -API -ÜbersichtAnmelden in/Erstellen eines Profils
    • Gehen Sie zu Ihrem Profil und API -Schlüssel
    • Erstellen Sie einen neuen Schlüssel. Denken Sie daran, den Schlüssel zu kopieren, da Sie ihn nicht wieder sehen können

Die Skripte aus dem Github -Repository funktionieren von:

  • start_recording.sh – beginnt mit der Aufnahme Ihrer Stimme. Wenn Sie dies zum ersten Mal verwenden, werden Sie um Erlaubnis zur Verwendung des Mikrofons aufgefordert
  • STOP_RECORDING.SH – Sendet ein Stoppsignal an das Skript, um die Aufzeichnung zu stoppen. Sendet dann das aufgezeichnete Audio an die Transkription an. Darüber hinaus werden der transkribierte Textual content zu Ihrer Zwischenablage hinzugefügt und den Textual content festgelegt, wenn Sie ein Textfeld auf Ihrem PC ausgewählt haben

Das gesamte Repository ist mit einer MIT -Lizenz verfügbar.

Alfred

Hier finden Sie den Alfred Workflow im GitHub -Repository: Transcribe.Alfredworkflow.

So habe ich den Alfred -Workflow eingerichtet:

Mein Alfred Workflow. Ich habe zwei Hotkeys, eine, um die Transkription (Aufzeichnungsstimme) zu starten, und eine, die die Transkription stoppt (stoppen Sie die Aufzeichnung und senden Sie das Audio an die Openai Whisper -API für die Transkription). Der Befehl possibility + q führt das Skript start_recording.sh aus und die Choice + W Führen Sie das Skript stop_recording.sh aus. Sie können natürlich die Hotkeys für diese Befehle ändern. Bild des Autors.

Sie können es einfach herunterladen und Ihrem Alfred hinzufügen.

Denken Sie auch daran, ein Terminalfenster zu öffnen, wenn Sie dieses Skript ausführen möchten, während Sie das Python -Skript aus dem Terminal aktivieren. Ich musste es so machen, denn wenn das Skript direkt von Alfred aktiviert wurde, bekam ich Erlaubnisprobleme. Wenn Sie das Skript zum ersten Mal ausführen, sollten Sie aufgefordert werden, Ihren Terminalzugriff auf das Mikrofon zu gewähren, das Sie genehmigen sollten.

Kosten

Eine wichtige Überlegung bei der Verwendung von APIs wie Openai Whisper sind die Kosten für die API -Verwendung. Ich würde die Kosten für die Verwendung von OpenAIs Whisper -Modell mäßig hoch betrachten. Wie immer hängt die Kosten vollständig davon ab, wie viel Sie das Modell verwenden. Ich würde sagen, ich benutze das Modell bis zu 25 Mal am Tag, bis zu 150 Wörter, und die Kosten betragen weniger als 1 Greenback professional Tag.

Dies bedeutet jedoch, dass Sie, wenn Sie das Modell viel verwenden, Kosten bis zu 30 Greenback professional Monat sehen können, was definitiv erhebliche Kosten sind. Ich denke jedoch, dass es wichtig ist, die Zeiteinsparungen zur Kenntnis zu nehmen, die Sie aus dem Modell haben. Wenn Ihnen jede Modellnutzung 30 Sekunden spart und Sie es 20 Mal professional Tag verwenden, haben Sie gerade zehn Minuten Ihres Tages gespart. Persönlich bin ich bereit, einen Greenback zu zahlen, um zehn Minuten meines Tages zu sparen und eine Aufgabe auszuführen (auf meiner Tastatur zu schreiben), die mir keinen anderen Vorteil gewährt. Wenn vorhanden, kann die Verwendung Ihrer Tastatur zu einem höheren Risiko für Verletzungen wie dem Karpal -Tunnel -Syndrom beitragen. Die Verwendung des Modells lohnt sich additionally definitiv für mich.

Abschluss

In diesem Artikel habe ich in den letzten Jahren begonnen, die immensen Fortschritte innerhalb der Sprachmodelle zu diskutieren. Dies hat uns geholfen, leistungsstarke Chatbots zu erstellen und uns enorme Zeit zu ersparen. Mit den Fortschritten von Sprachmodellen haben wir jedoch auch Fortschritte bei Sprachmodellen gesehen. Die Transkription mit Openai Whisper ist jetzt nahezu perfekt (aus persönlicher Erfahrung), was es zu einem leistungsstarken Werkzeug macht, mit dem Sie Wörter auf Ihrem Laptop effektiver eingeben können. Ich habe die Vor- und Nachteile der Verwendung von Openai Whisper auf Ihrem PC besprochen, und ich habe auch Schritt für Schritt durchgeführt, wie Sie es auf Ihrem eigenen Laptop implementieren können.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert