Einführung

Große Sprachmodelle, Die Nachfolger der Transformers arbeiteten größtenteils im Bereich von Verarbeitung natürlicher Sprache und Pure Language Understanding. Seit ihrer Einführung ersetzen sie die traditionellen regelbasierten Chatbots. LLMs können Texte besser verstehen und natürliche Gespräche führen, sodass sie die herkömmlichen Chatbots ersetzen. Aber seit ihrer Einführung können die LLMs mehr, als sie können. Sie können zum Beispiel Pure Language in SQL-Abfragen umwandeln oder im Web nach den neuesten Informationen suchen. Und jetzt können sie sogar Code ausführen. In diesem Artikel werden wir uns die neu veröffentlichte Funktion von Gemini ansehen, nämlich die Codeausführung.

Lernziele

  • Erfahren Sie mehr über die Codeausführung mit LLMs.
  • Lernen Sie Gemini Flash 1.5 kennen.
  • Erfahren Sie, wie Sie den API-Schlüssel für Gemini erhalten.
  • Verstehen, warum LL.M.-Studenten an mathematischen Aufgaben scheitern.
  • Nutzung von LLMs mit Codeausführung für präzise und genaue Antworten.

Dieser Artikel erschien im Rahmen der Knowledge Science-Blogathon.

Gemini – Googles großer Sprachmodus

Gemini-Modelle sind eine Familie großer Sprachmodelle, die von Google eingeführt wurden. Sie werden von Google veröffentlicht, um mit den beliebten Closed-Supply- große Sprachmodelle wie GPT4 von OpenAI und Claude von Anthropic. Gemini ist ein multimodales Großsprachenmodell, das Textual content, Bilder, Audio und sogar Movies verstehen kann.

GPT4 konnte dasselbe wie Gemini, unterscheidet sich jedoch von Gemini durch die Ausführung des von ihm generierten Codes. Und jetzt hat Google das Gemini-Modell aktualisiert, sodass es Code ausführen kann. Die Codeausführung ist aufgrund der Funktionsaufruffunktionen von Gemini möglich. Die Codeausführung ist dieser sehr ähnlich und der von ihm generierte Code wird ausgeführt und erhält die Ergebnisse, um die endgültige Ausgabe für den Benutzer zu generieren.

Der von Gemini generierte Code wird in einer isolierten Sandbox-Umgebung ausgeführt. Derzeit sind in der Sandbox-Umgebung nur die Numpy- und Sympy-Bibliotheken vorhanden und der generierte Code kann keinesfalls neue Python-Bibliotheken herunterladen und installieren.

Erste Schritte mit der Codeausführung

Bevor wir mit dem Programmieren beginnen, müssen wir den kostenlosen API-Schlüssel erhalten, den Google zum Testen des Gemini-Modells bereitstellt. Die kostenlose API unterstützt sogar die Codeausführung. Um die kostenlose API zu erhalten, können Sie auf das Verknüpfung hier. Jetzt beginnen wir mit der Set up der Bibliothek.

!pip set up -q -U google-generativeai

Es ist wichtig, das Flag -U beizubehalten, während die Google-GenerativeAI-Bibliothek installiert wird. Dies liegt daran, dass die Codeausführung eine neue Funktion ist und die neueste Model der Google-GenerativeAI-Bibliothek erfordert, um zu funktionieren. Jetzt werden wir uns authentifizieren.

import google.generativeai as genai

GOOGLE_API_KEY = "YOUR API KEY"

genai.configure(api_key=GOOGLE_API_KEY)

Hier importieren wir die Bibliothek google.generativeai und rufen die Methode .configure() auf. Dazu geben wir den API-Schlüssel an, den wir durch die Anmeldung bei der Google AI Cloud erhalten haben. Nun können wir mit der Arbeit an den Gemini-Modellen beginnen.

mannequin = genai.GenerativeModel(model_name="gemini-1.5-flash")

response = mannequin.generate_content("How are you?")

print(response.textual content)
Codeausführung mit Google Gemini Flash

Erläuterung

  • Hier beginnen wir mit der Erstellung einer Instanz der Klasse GenerativeModel.
  • Beim Instanziieren dieses Objekts geben wir den Namen des Modells an, mit dem wir arbeiten. In diesem Fall ist dies Gemini-1.5-Flash, das neueste Modell von Google.
  • Um das Modell zu testen, rufen wir die Methode .generate_content() auf, geben ihr dann die Abfrage und speichern den generierten Textual content in der Antwortvariable.
  • Zum Schluss drucken wir die Antwort aus. Wir können die Antwort im Bild oben sehen.

Mit dem Massive Language Mannequin kann nicht alles richtig beantwortet werden. Um dies zu testen, stellen wir dem Gemini Flash-Modell eine einfache Frage, um die ersten 5 Buchstaben des Wortes Mississippi anzuzeigen.

response = mannequin.generate_content("Trim this phrase to first 5 letters, Mississippi")

print(response.textual content)
Code-Antwort

Wenn wir hier den Code ausführen und die Ausgabe oben sehen, sehen wir, dass Googles Gemini-Modell, die neueste LLM-Entwicklung des Google-Groups, eine so einfache Frage nicht beantworten konnte. Dies gilt nicht nur für die Google Gemini-Modelle, sondern auch für GPT4 von OpenAI und sogar Claude von Anthropic.

Dies liegt daran, dass sie nicht rückwärts zählen können. Das heißt, dass das Modell nach der Generierung des Buchstabens „i“ keine Ahnung hat, dass es den zweiten Buchstaben ausgegeben hat. Es gibt einfach einen Buchstaben aus, der den vorherigen Buchstaben enthält, hat aber keine Ahnung von der Länge der vorherigen Buchstaben.

Ein anderes Beispiel

Schauen wir uns eine weitere Frage an, die das große Sprachmodell nicht beantworten kann.

response = mannequin.generate_content("What's the sum of first 100 fibonaocci numbers?")

print(response.textual content)
Codeausführung mit Google Gemini Flash

Hier bitten wir das Gemini Flash-Modell, uns die Summe der ersten 100 Fibonacci-Reihen zu nennen. Wenn wir den Code ausführen und das Ausgabebild sehen, können wir sagen, dass das Modell unsere Frage nicht beantworten konnte. Anstatt die Summe zurückzugeben, hat es uns die Schritte angegeben, um die Summe der ersten 100 Fibonacci-Reihen zu erhalten. Das Modell ist fehlgeschlagen, weil große Sprachmodelle sind Textgenerierungsmodelle. Sie haben keine Fähigkeit, mathematische Operationen durchzuführen

In beiden Fällen ist das Modell additionally fehlgeschlagen. Was nun, wenn das Gemini-Modell Python-Code ausführen kann? Das Modell könnte versuchen, einen Code zu schreiben, der uns zu der erwarteten Antwort führen könnte. Vielleicht könnte das Modell für die erste Frage eine Zeichenfolgenoperation durchführen und den Code ausführen und für die zweite Frage könnte es eine Funktion zum Berechnen der Summe schreiben.

Gemini – Codeausführung

Versuchen wir nun, dem Modell dieselben beiden Fragen zu stellen, gewähren ihm dieses Mal jedoch Zugriff auf das Codeausführungstool.

model2 = genai.GenerativeModel(model_name="gemini-1.5-flash", 
instruments="code_execution")

response = model2.generate_content("Trim this phrase to first 5 letters, 
Mississippi. Use code execution software")

print(response.textual content)
Codeausführung mit Google Gemini Flash

Auch hier erstellen wir eine Instanz der Klasse GenerativeModel und geben ihr den Modellnamen Gemini-1.5-Flash, aber gleichzeitig geben wir ihr auch die Instruments, mit denen das Modell arbeiten kann. Und hier stellen wir ihm das Software code_execution zur Verfügung. Jetzt stellen wir dem Modell dieselbe Frage. Dieses Mal sagen wir ihm sogar, dass es mit dem Software code_execution arbeiten soll.

Wenn wir den Code ausführen und das obige Ausgabebild betrachten, können wir feststellen, dass das Gemini Flash-Modell einen Python-Code geschrieben hat, um eine Zeichenfolgenoperation auszuführen, d. h. hier das Slicen. Es hat die ersten 5 Buchstaben des Wortes Mississippi geslict und uns schließlich die gewünschte Antwort gegeben. Versuchen wir nun dasselbe mit der zweiten Frage, bei der wir das LLM bitten, uns die Summe der ersten 100 Fibonacci-Zahlen zu nennen.

response = model2.generate_content("What's the sum of first 100 fibanocci numbers?")

print(response.textual content)
Ausgabe

Wenn wir hier die Codierung ausführen und die Ausgabe sehen, sehen wir, dass Gemini Flash eine Funktion zur Berechnung der Fibonacci-Zahl generiert hat. Dann rief er die Funktion auf, indem er ihr 100 als n-Wert gab, und druckte schließlich die Ausgabe aus. Mit dem Code-Ausführungstool konnte uns Gemini LLM die richtige Antwort auf die Frage geben. Auf diese Weise kann es mathematische Probleme lösen, indem es einen Code daraus erstellt und den Code ausführt, um die Antwort zu erhalten.

Abschluss

Die Einführung der Codeausführung in Googles Gemini-Modell stellt eine bedeutende Weiterentwicklung der Fähigkeiten großer Sprachmodelle dar. Durch die Integration dieser Funktion kann Gemini nun nicht nur Textual content verstehen und generieren, sondern auch Code ausführen, um komplexe Probleme zu lösen. Diese Entwicklung verbessert seinen Nutzen in einer Vielzahl von Anwendungen, von der Verarbeitung natürlicher Sprache bis zur Durchführung spezifischer Rechenaufgaben. Durch die Fähigkeit, Code auszuführen, kann Gemini einige der inhärenten Einschränkungen von Sprachmodellen überwinden, insbesondere bei der Handhabung präziser Berechnungen und prozeduraler Aufgaben.

Die zentralen Thesen

  • Gemini kann Textual content, Bilder, Audio und Video verstehen und verarbeiten und ist damit ein echtes Multimodalgerät.
  • Große Sprachmodelle können mathematische Fragen oft nicht präzise beantworten, da sie keine Berechnungen durchführen können.
  • Mit der Codeausführung kann ein LLM Code in einer Sandbox-Umgebung ausführen.
  • Große Sprachmodelle können Python-Code ausführen, indem sie einen Software-Aufruf durchführen und dem Software den relevanten Python-Code zur Ausführung übergeben.
  • Die kostenlose API von Google ermöglicht Benutzern den Zugriff auf die Gemini Flash API, die Code ausführen kann.

Häufig gestellte Fragen

Frage 1. Was ist Gemini?

A. Gemini ist eine von Google eingeführte Familie großer Sprachmodelle, die Texte, Bilder, Audio und Movies verstehen können.

Frage 2. Verfügt Gemini über die Funktionalität, Code auszuführen?

A. Vor Kurzem hat Google die Funktion der Codeausführung für das Gemini-Modell angekündigt. Sie ist über den kostenlosen Google Gemini API-Schlüssel öffentlich zugänglich.

Frage 3. Welche Bibliotheken sind in der Sandbox-Umgebung von Gemini verfügbar?

A. Derzeit sind in der Sandbox-Umgebung von Gemini nur die Numpy- und Sympy-Bibliotheken verfügbar.

F4. Wie verbessert die Codeausführung die Fähigkeiten von Gemini?

A. Mit der Codeausführung kann Gemini Python-Code generieren und ausführen, um Aufgaben wie Zeichenfolgenoperationen und mathematische Berechnungen präzise auszuführen

Frage 5. Wie aktivieren Sie die Codeausführung für Gemini?

A. Um die Codeausführung zu aktivieren, erstellen Sie mit dem Software „code_execution“ eine Instanz der Klasse „GenerativeModel“ und geben Sie den entsprechenden Modellnamen an.

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von Analytics Vidhya und werden nach Ermessen des Autors verwendet.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert