Einführung

Mistral hat sein allererstes multimodales Modell veröffentlicht, nämlich Pixtral-12B-2409. Dieses Modell basiert auf Mistrals 12-Milliarden-Parameter, Nemo 12B. Was zeichnet dieses Modell aus? Es kann jetzt sowohl Bilder als auch Textual content als Eingabe verwenden. Sehen wir uns das Modell genauer an, wie es verwendet werden kann, wie intestine es die Aufgaben erfüllt und was Sie sonst noch wissen müssen.

Was ist Pixtral-12B?

Pixtral-12B ist ein multimodales Modell abgeleitet von Mistrals Nemo 12Bmit einem zusätzlichen 400M-Parameter-Imaginative and prescient-Adapter. Mistral kann von einer Torrent-Datei oder von Hugging Face mit einer Apache 2.0-Lizenz heruntergeladen werden. Sehen wir uns einige der technischen Merkmale des Modells Pixtral-12B an:

Besonderheit Particulars
Modellgröße 12 Milliarden Parameter
Schichten 40 Schichten
Imaginative and prescient Adapter 400 Millionen Parameter unter Verwendung der GeLU-Aktivierung
Bildeingabe Akzeptiert 1024 x 1024 Bilder über URL oder Base64, segmentiert in 16 x 16 Pixel große Patches
Bildcodierer 2D RoPE (Rotary Place Embeddings) verbessert das räumliche Verständnis
Wortschatzgröße Bis zu 131.072 Token
Spezielle Token img, img_break und img_end

Wie verwendet man Pixtral-12B-2409?

Ab dem 13. September 2024 ist das Modell derzeit nicht auf Mistrals Le Chat oder La Plateforme verfügbar, um die Chat-Oberfläche direkt zu verwenden oder über die API darauf zuzugreifen, aber wir können das Modell über einen Torrent-Hyperlink herunterladen und verwenden oder sogar die Gewichte an unsere Bedürfnisse anpassen. Wir können das Modell auch mit Hilfe von Hugging Face verwenden. Schauen wir sie uns im Element an:

Torrent-Hyperlink: Benutzer können diesen Hyperlink kopieren

Ich verwende einen Ubuntu-Laptop computer und verwende daher die Transmission-Anwendung (sie ist auf den meisten Ubuntu-Computern vorinstalliert). Sie können jede andere Anwendung verwenden, um den Torrent-Hyperlink für das Open-Supply-Modell herunterzuladen.

Pixtral-12B: Das erste multimodale Modell von Mistral AI
  • Klicken Sie oben hyperlinks auf „Datei“ und wählen Sie die Possibility „URL öffnen“. Anschließend können Sie den kopierten Hyperlink einfügen.
Wie lädt man Pixtral-12B herunter? | Das erste multimodale Modell von Mistral AI
  • Sie können auf „Öffnen“ klicken und das Pixtral-12B-Modell herunterladen. Der Ordner wird heruntergeladen und enthält folgende Dateien:
Wie lädt man Pixtral-12B herunter? | Das erste multimodale Modell von Mistral AI

Umarmendes Gesicht

Dieses Modell erfordert eine hohe GPU, daher empfehle ich Ihnen, die kostenpflichtige Model von Google Colab oder Jupyter-Notizbuch mit RunPod. Ich werde RunPod für die Demo des Pixtral-12B-Modells verwenden. Wenn Sie eine RunPod-Instanz mit einer 40-GB-Festplatte verwenden, empfehle ich Ihnen die Verwendung der A100 PCIe GPU.

Wir werden Pixtral-12B mit Hilfe von vllm verwenden. Stellen Sie sicher, dass Sie die folgenden Installationen durchführen.

!pip set up vllm

!pip set up --upgrade mistral_common

Gehen Sie zu diesem Hyperlink: https://huggingface.co/mistralai/Pixtral-12B-2409 und stimme dem Zugriff auf das Modell zu. Gehe dann zu deinem Profil, klicke auf „access_tokens“ und erstelle eins. Wenn du kein Zugriffstoken hast, stelle sicher, dass du die folgenden Kästchen angekreuzt hast:

Führen Sie nun den folgenden Code aus und fügen Sie das Zugriffstoken ein, um sich bei Hugging Face zu authentifizieren:

from huggingface_hub import notebook_login

notebook_login()#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

Dies dauert eine Weile, da das 25 GB-Modell zur Verwendung heruntergeladen wird:

from vllm import LLM

from vllm.sampling_params import SamplingParams

model_name = "mistralai/Pixtral-12B-2409"

sampling_params = SamplingParams(max_tokens=8192)

llm = LLM(mannequin=model_name, tokenizer_mode="mistral",max_model_len=70000)

immediate = "Describe this picture"

image_url = "https://photographs.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-1-2024-07-4a496281eb830a6fc7ab41e92a0d295e-3x2.jpg"

messages = (

{

"position": "person",

"content material": ({"sort": "textual content", "textual content": immediate}, {"sort": "image_url", "image_url": {"url": image_url}})

},

)

Ich habe das Modell gebeten, das folgende Bild vom T20 World Cup 2024 zu beschreiben:

outputs = llm.chat(messages, sampling_params=sampling_params)

print('n'+ outputs(0).outputs(0).textual content)

Anhand der Ausgabe können wir erkennen, dass das Modell das Bild vom T20 World Cup identifizieren konnte. Es battle in der Lage, die Einzelbilder im selben Bild zu unterscheiden und so zu erklären, was passierte.

immediate = "Write a narrative describing the entire occasion which may have occurred"

image_url = "https://photographs.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-1-2024-07-4a496281eb830a6fc7ab41e92a0d295e-3x2.jpg"

messages = (

{

"position": "person",

"content material": ({"sort": "textual content", "textual content": immediate}, {"sort": "image_url", "image_url": {"url": image_url}})

},

)

outputs = llm.chat(messages, sampling_params=sampling_params)

print('n'+outputs(0).outputs(0).textual content)

Wenn das Modell aufgefordert wird, eine Geschichte über das Bild zu schreiben, kann es den Kontext zu den Eigenschaften der Umgebung und dem genauen Geschehen im Bild erfassen.

Abschluss

Das Modell Pixtral-12B erweitert die KI-Fähigkeiten von Mistral erheblich und verbindet Textual content und Bildverarbeitung um seine Anwendungsfälle zu erweitern. Seine Fähigkeit, hochauflösende 1024 x 1024 Bilder mit einem detaillierten Verständnis räumlicher Beziehungen zu verarbeiten und seine starken Sprachfähigkeiten machen es zu einem hervorragenden Werkzeug für multimodale Aufgaben wie BildunterschriftStory-Generierung und mehr.

Trotz seiner leistungsstarken Funktionen kann das Modell weiter verfeinert werden, um spezifische Anforderungen zu erfüllen, sei es die Verbesserung der Bilderkennung, die Verbesserung Sprachgenerierungoder es für speziellere Bereiche anzupassen. Diese Flexibilität ist ein entscheidender Vorteil für Entwickler und Forscher, die das Modell an ihre Anwendungsfälle anpassen möchten.

Häufig gestellte Fragen

F1. Was ist vLLM?

A. vLLM ist eine für die effiziente Inferenz großer Sprachmodelle optimierte Bibliothek, die Geschwindigkeit und Speichernutzung während der Modellausführung verbessert.

F2. Wozu dienen SamplingParams?

A. SamplingParams in vLLM steuern, wie das Modell Textual content generiert, und geben Parameter wie die maximale Anzahl von Token und Sampling-Techniken für die Textgenerierung an.

F3. Wird das Modell auf Mistrals Le Chat verfügbar sein?

A. Ja, Sophia Yang, Leiterin von Mistral Developer Relations, erwähnte, dass das Modell bald auf Le Chat und Le Platform verfügbar sein würde.

Ich bin ein Technikbegeisterter und habe meinen Abschluss am Vellore Institute of Know-how gemacht. Momentan arbeite ich als Information Science-Trainee. Ich interessiere mich sehr für Deep Studying und Generative AI.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert