Deepseek Janus Professional 1B, der am 27. Januar 2025 eingeführt wurde, ist ein fortschrittliches multimodales KI -Modell, das für die Verarbeitung und Generierung von Bildern aus textlichen Eingabeaufforderungen erstellt wurde. Mit seiner Fähigkeit, Bilder basierend auf Textual content zu verstehen und zu erstellen, liefert diese 1-Milliarden-Parameterversion (1B) eine effiziente Leistung für eine Vielzahl von Anwendungen, einschließlich der Erzeugung und des Bildverständnisses von Textual content zu Picture. Darüber hinaus erzeugt es detaillierte Bildunterschriften aus Fotos und macht es zu einem vielseitigen Werkzeug für kreative und analytische Aufgaben.
Lernziele
- Analyse seiner Architektur und wichtigen Merkmale, die seine Fähigkeiten verbessern.
- Erkundung des zugrunde liegenden Designs und deren Auswirkungen auf die Leistung.
- Eine Schritt-für-Schritt-Anleitung zum Aufbau eines RAG-Methods (Retrieval-Augmented Era).
- Nutzung des Deepseek Janus Professional 1-Milliarde-Modells für reale Anwendungen.
- Verstehen, wie Deepseek Janus Professional KI-gesteuerte Lösungen optimiert.
Dieser Artikel wurde als Teil der veröffentlicht Information Science Blogathon.
Was ist Deepseek Janus Professional?
Deepseek Janus Professional ist ein multimodales KI -Modell, das Textual content- und Bildverarbeitung integriert und Bilder aus Texteingabeaufforderungen verstehen und generiert. Die 1-Milliarden-Parameterversion (1B) ist für die effiziente Leistung für Anwendungen wie die Erzeugung von Textual content-zu-Picture-Erzeugung und Bildverständnis ausgelegt.
Unter Deepseeks Janus Professional -Serie sind die verfügbaren primären Modelle verfügbar „Janus Professional 1b“ und „Janus Professional 7b“, Dies unterscheidet sich hauptsächlich in ihrer Parametergröße, wobei das 7B-Modell signifikant größer ist und eine verbesserte Leistung bei Aufgaben zur Erzeugung von Textual content-zu-Picture-Erzeugung bietet; Beide gelten als multimodale Modelle, die sowohl visuelles Verständnis als auch Textgenerierung basierend auf dem visuellen Kontext behandeln können.
Schlüsselmerkmale und Designaspekte von Janus Professional 1b
- Architektur: Janus Professional verwendet eine einheitliche Transformatorarchitektur, entkoppelt jedoch visuelle Codierung in separate Wege, um die Leistung sowohl in Bezug auf Bildverständnis als auch bei den Erstellungsaufgaben zu verbessern.
- Fähigkeiten: Es zeichnet sich in Aufgaben aus, die sich sowohl auf das Verständnis von Bildern als auch auf die Erzeugung neuer anhand von Texteingaben beziehen. Es unterstützt 384 × 384 Bildeingaben.
- Bild -Encoder: Für Bildverständnisaufgaben verwendet Janus Siglip, um Bilder zu codieren. Siglip ist ein Bildbettungsmodell, das Clips Framework verwendet, die Verlustfunktion jedoch durch einen paarweisen Sigmoidverlust ersetzt. Für die Bildgenerierung verwendet Janus einen vorhandenen Encoder von Llamagen, einem autoregressiven Bildgenerierungsmodus. Llamagen ist eine Familie von Bild-Generalmodellen, die das nächste Paradigma von Großsprachenmodellen auf eine visuelle Era anwendet
- Open Supply: Es ist auf GitHub unter der MIT -Lizenz verfügbar, wobei die Modellnutzung der Deepseek -Modelllizenz geregelt ist.
Lesen Sie auch: Wie kann man Deepseek Janus Professional 7b zugreifen?
Entkoppelte Architektur für Bildverständnis und Era

Janus-Professional unterscheidet sich von früheren multimodalen Modellen, indem sie separate, spezialisierte Wege für die visuelle Codierung verwenden, anstatt sich auf einen einzelnen visuellen Encoder für das Bildverständnis und die Erzeugung zu verlassen.
- Bildverständnis Encoder. Dieser Weg extrahiert semantische Merkmale aus Bildern.
- Bildgenerierung Encoder. Dieser Weg synthetisiert Bilder basierend auf Textbeschreibungen.
Diese entkoppelte Architektur erleichtert aufgabenspezifische Optimierungen und mildern Konflikte zwischen Interpretation und kreativer Synthese. Die unabhängigen Encoder interpretieren Eingabefunktionen, die dann von einem einheitlichen autoregressiven Transformator verarbeitet werden. Dies ermöglicht es sowohl multimodaler Verständnis als auch Generationskomponenten, ihre am besten geeigneten Codierungsmethoden unabhängig auszuwählen.
Lesen Sie auch: Wie Deepseeks Janus Professional stapelt sich gegen Dall-e 3?
Schlüsselmerkmale der Modellarchitektur
1. Twin-Pathway-Architektur für visuelles Verständnis und Era
- Visueller Verständnisweg: Für multimodale Verständnisaufgaben verwendet Janus Professional Siglip-L als visuelles Encoder, das Bildeingaben von bis zu 384 × 384 Auflösung unterstützt. Diese hochauflösende Unterstützung ermöglicht es dem Modell, weitere Bilddetails zu erfassen und so die Genauigkeit des visuellen Verständnisses zu verbessern.
- Visuelle Generierungsweg: Bei Aufgaben der Bildgenerierung verwendet Janus Professional Llamagen -Tokenizer mit einer Downsampling -Fee von 16, um detailliertere Bilder zu generieren.

2. Einheitliche Transformatorarchitektur
Ein gemeinsam genutztes Transformator -Rückgrat wird für die Fusion von Textual content- und Bildfunktionen verwendet. Die unabhängigen Codierungsmethoden zum Umwandeln der Roheingaben in Funktionen werden von einem einheitlichen autoregressiven Transformator verarbeitet.
3.. Optimierte Trainingsstrategie
Im vergangenen Januar-Coaching gab es einen dreistufigen Trainingsprozess für das Modell. Die erste Stufe konzentrierte sich auf das Coaching der Adapter und des Bildkopfes. In der zweiten Stufe wurde mit einheitlichen Vorbereitungen umgegangen, in denen alle Komponenten mit Ausnahme des Verständniscodierers und des Generationscodierers ihre Parameter aktualisiert haben. Stufe III umfasste die übersichtliche Feinabstimmung und baute auf Stufe II auf, indem sie die Parameter des Verständniscodierers während des Trainings weiter entschlossen.
Dies wurde in Janus Professional verbessert:
- Durch Erhöhen der Trainingsschritte in Stufe I und ermöglicht ausreichend Coaching im Bildnetz -Datensatz.
- Darüber hinaus wurden in der Stufe II für das Coaching für Textual content-zu-Picture-Era die Bilddaten vollständig fallen gelassen. Stattdessen wurden normale Textual content-zu-Picture-Daten verwendet, um das Modell zu trainieren, um Bilder basierend auf dichten Beschreibungen zu generieren. Es wurde festgestellt, dass dies die Trainingseffizienz und die Gesamtleistung verbessert.
Lassen Sie uns nun einen multimodalen Lappen mit Deepseek Janus Professional bauen:
Multimodaler Lappen mit Deepseek Janus Professional 1B Modell
In den folgenden Schritten erstellen wir ein multimodales Lag -System, um Bilder basierend auf dem Deepseek Janus Professional 1B -Modell abzufragen.
Schritt 1. Installieren Sie die erforderlichen Bibliotheken
!pip set up byaldi ollama pdf2image
!sudo apt-get set up -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip set up -e ./Janus
Schritt 2. Modell zum Speichern von Bildeinbettungen
import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
Byaldi gibt ein benutzerfreundliches Framework für die Einrichtung multimodaler Lappensysteme. Wie aus dem obigen Code hervorgeht, laden wir ColqWen2, ein Modell, das für eine effiziente Dokumentindexierung mithilfe visueller Funktionen entwickelt wurde.
Schritt 3. Laden Sie das Bild PDF
# Use ColQwen2 to index and retailer the presentation
index_name = "image_index"
model1.index(input_path=Path("/content material/PublicWaterMassMailing.pdf"),
index_name=index_name,
store_collection_with_index=True, # Shops base64 pictures together with the vectors
overwrite=True
)
Wir benutzen das PDF Um in den nächsten Schritten ein Lappensystem aufzubauen und aufzubauen. Im obigen Code speichern wir das Bild PDF zusammen mit den Vektoren.
Schritt 4. Abfragen und Abrufen von gespeicherten Bildern
question = "What number of shoppers drive greater than 50% income?"
returned_page = model1.search(question, ok=1)(0)
import base64
# Instance Base64 string (truncated for brevity)
base64_string = returned_page('base64')
# Decode the Base64 string
image_data = base64.b64decode(base64_string)
with open('output_image.png', 'wb') as image_file:
image_file.write(image_data)
Die relevante Seite von den Seiten des PDF wird basierend auf der Abfrage abgerufen und als output_image.png gespeichert.
Schritt 5. Janus Professional -Modell laden
import os
os.chdir(r"/content material/Janus")
from janus.fashions import VLChatProcessor
from transformers import AutoConfig, AutoModelForCausalLM
import torch
from janus.utils.io import load_pil_images
from PIL import Picture
processor= VLChatProcessor.from_pretrained("deepseek-ai/Janus-Professional-1B")
tokenizer = processor.tokenizer
vl_gpt = AutoModelForCausalLM.from_pretrained(
"deepseek-ai/Janus-Professional-1B", trust_remote_code=True
)
dialog = (
{
"function": "<|Person|>",
"content material": f"<image_placeholder>n{question}",
"pictures": ('/content material/output_image.png'),
},
>", "content material": "",
)
# load pictures and put together for inputs
pil_images = load_pil_images(dialog)
inputs = processor(conversations=dialog, pictures=pil_images)
# # run picture encoder to get the picture embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**inputs)
- VlchatProcessor.from_Pretrained („Deepseek-AI/Janus-pro-1b“) lädt einen vorabreichenden Prozessor zum Umgang mit multimodalen Eingängen (Bilder und Textual content). Dieser Prozessor verarbeitet und erstellt Eingabedaten (wie Textual content und Bilder) für das Modell.
- Der Tokenizer wird aus dem VlchatProcessor extrahiert. Es wird den Texteingang token und den Textual content in ein für das Modell geeignetes Format konvertieren.
- AUMODELCAUSALLM.FROM_PRETRAUE („Deepseek-AI/Janus-Professional-1b“) lädt das vorgebildete Janus-Professional-Modell, insbesondere für die kausale Sprachmodellierung.
- Auch, ein multimodales Gesprächsformat wird eingerichtet, wo der Benutzer sowohl Textual content als auch ein Bild eingibt.
- Der load_pil_images (Gespräch) ist eine Funktion, die wahrscheinlich die im Konversationsobjekt aufgeführten Bilder lädt und sie in PIL -Bildformat umwandelt, das üblicherweise für die Bildverarbeitung in Python verwendet wird.
- Der Prozessor Hier ist eine Instanz eines multimodalen Prozessors (der VlchatProcessor Aus dem Deepseek Janus Professional -Modell), der sowohl Textual content- als auch Bilddaten als Eingabe nimmt.
- prepe_inputs_embeds (Eingänge) ist eine Methode, die die verarbeiteten Eingänge annimmt (Eingänge enthalten sowohl den Textual content als auch das Bild) und die für das Modell erforderlichen Einbettungen vorbereitet, um eine Antwort zu erzeugen.
Schritt 6. Ausgangsgenerierung
outputs = vl_gpt.language_model.generate(
inputs_embeds=inputs_embeds,
attention_mask=inputs.attention_mask,
pad_token_id=tokenizer.eos_token_id,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=512,
do_sample=False,
use_cache=True,
)
reply = tokenizer.decode(outputs(0).cpu().tolist(), skip_special_tokens=True)
print(reply)
Der Code generiert eine Antwort aus dem Deepseek Janus Professional 1B -Modell unter Verwendung der vorbereiteten Eingabempfetten (Textual content und Bild). Es verwendet mehrere Konfigurationseinstellungen wie Polsterung, Begin-/Finish -Token, maximale Token -Länge und ob Caching und Probenahme. Nachdem die Antwort generiert wurde, dekodiert sie die Token-IDs mit dem Tokenizer wieder in den menschlichen Lesbarungstext. Die dekodierte Ausgabe wird in der Antwortvariablen gespeichert.
Der gesamte Code ist darin vorhanden Colab Pocket book.
Ausgabe für die Abfrage

Ausgabe für eine andere Frage
„Was conflict die Einnahmen in Frankreich?“

Die obige Antwort ist nicht genau, obwohl die relevante Seite vom ColqWen2 Retriever abgerufen wurde, konnte das Deepseek Janus Professional 1B -Modell die genaue Antwort von der Seite nicht generieren. Die genaue Antwort sollte $ 2b betragen.
Ausgabe für eine andere Frage
„“ Was conflict die Anzahl der Werbeaktionen seit Beginn des Geschäftsjahres20? „

Die obige Antwort ist korrekt, da sie mit dem im PDF genannten Textual content übereinstimmt.
Schlussfolgerungen
Zusammenfassend stellt das Deepseek Janus Professional 1B -Modell einen signifikanten Fortschritt in der multimodalen KI dar, mit seiner entkoppelten Architektur, die sowohl das Bildverständnis als auch die Erzeugungsaufgaben optimiert. Janus Professional bietet durch die Verwendung separater visueller Encoder für diese Aufgaben und die Verfeinerung seiner Trainingsstrategie eine verbesserte Leistung bei der Erzeugung und Bildanalyse von Textual content zu Picture. Dieser modern Ansatz (Multimodal Rag mit Deepseek Janus Professional), kombiniert mit seiner Open-Supply-Zugänglichkeit, macht es zu einem leistungsstarken Werkzeug für verschiedene Anwendungen im visuellen Verständnis und der Erstellung von KI-gesteuertem.
Key Takeaways
- Multimodale KI mit zwei Wegen: Janus Professional 1B integriert sowohl die Textual content- als auch die Bildverarbeitung und verwendet separate Encoder für das Bildverständnis (Siglip) und die Bildgenerierung (Lamagen), wodurch die aufgabenspezifische Leistung verbessert wird.
- Entkoppelte Architektur: Das Modell trennt die visuelle Codierung in unterschiedliche Wege und ermöglicht die unabhängige Optimierung für das Verständnis und die Erzeugung von Bildempfängern und minimiert so Konflikte bei Verarbeitungsaufgaben.
- Unified Transformator Rückgrat: Eine gemeinsam genutzte Transformatorarchitektur verschmilzt die Merkmale von Textual content und Bildern und optimiert die multimodale Datenfusion für eine effektivere KI -Leistung.
- Verbesserte Trainingsstrategie: Der optimierte Trainingsansatz von Janus Professional enthält erhöhte Schritte in der Stufe I und die Verwendung von speziellen Textual content-zu-Picture-Daten in Stufe II, die die Schulungseffizienz und die Ausgangsqualität erheblich steigern.
- Open-Supply-Zugänglichkeit: Janus Professional 1B ist unter der MIT-Lizenz auf GitHub verfügbar und fördert die weit verbreitete Verwendung und Anpassung in verschiedenen AI-gesteuerten Anwendungen.
Die in diesem Artikel gezeigten Medien sind nicht im Besitz von Analytics Vidhya und werden nach Ermessen des Autors verwendet.
Häufig gestellte Fragen
Ans. Deepseek Janus Professional 1B ist ein multimodales KI -Modell, mit dem sowohl Textual content- Es verfügt über 1 Milliarde Parameter für eine effiziente Leistung bei Aufgaben wie Textual content-zu-Picture-Erzeugung und Bildverständnis.
Ans. Janus Professional verwendet eine einheitliche Transformatorarchitektur mit entkoppelter visueller Codierung. Dies bedeutet, dass es separate Wege zum Bildverständnis und -erzeugungswegen verwendet und die aufgabenspezifische Optimierung für jede Aufgabe ermöglicht.
Ans. Janus Professional verbessert frühere Trainingsstrategien, indem sie die Trainingsschritte erhöht, den ImageNet-Datensatz zugunsten spezialisierter Textual content-zu-Im-Im—Daten fallen und sich auf eine bessere Feinabstimmung für verbesserte Effizienz und Leistung konzentriert.
Ans. Janus Professional 1b ist besonders nützlich für Aufgaben, die Textual content-zu-Picture-Generierung, Bildverständnis und multimodale AI-Anwendungen betreffen, die sowohl Bild- als auch Textverarbeitungsfunktionen erfordern
Ans. Janus-Professional-7b übertrifft laut Deepseek Dall-e 3 in Benchmarks wie Geneval und DPG-Bench. Janus-Professional trennt das Verständnis/die Erzeugung, skaliert Daten/Modelle für die stabile Bildgenerierung und hält eine einheitliche, versatile und kostengünstige Struktur. Während beide Modelle die Erzeugung von Textual content-zu-Picture-Generationen ausführen, bietet Janus-Professional auch Bildunterschriften an, die Dall-E 3 nicht tut.