In den letzten zwei Wochen ist es Deepseek, wenn etwas neben den Crash -Aktienmärkten oder dem neuen US -Präsidenten in die Schlagzeilen geschafft hat. Eine chinesische KI -Firma hat nach dem anderen eine große LLM auf den Markt gebracht. Es hat sein hochmodernes Bildgenerierungsmodell-Janus Professional-7b-gestartet. Dieser neueste Begin hat bereits besser als OpenAs Dall-E 3 und stabile Diffusion über verschiedene Benchmarks geführt. Das Beste daran? Es ist Open Supply! In diesem Weblog werden wir Deepseeks Janus Professional 7b gegen Dall-E 3 von Deepseek testen-lasst uns herausfinden, welches Bildgenerierungsmodell besser ist.

Was ist Deepseek Janus Professional?

Janus-Professional wurde von Deepseek AI entwickelt und ist ein fortschrittliches multimodales großes Sprachmodell (LLM). Es ist eine verbesserte Model des vorherigen Janus -Modells.

  • Janus Professional verfügt über eine entkoppelte Architektur, was bedeutet, dass sie für Aufgaben optimiert ist, die multimodales Verständnis und Textual content-zu-Picture-Erzeugung beinhalten.
  • Das Modell wurde über einen dreistufigen Prozess in einer Mischung aus multimodalen, textuellen und synthetischen ästhetischen Daten geschult, um eine überlegene Leistung zu gewährleisten.
  • Dieses Open-Supply-Modell zeichnet sich in den folgenden dichten und komplexen Aufforderungen aus.
  • Derzeit ist das Modell in zwei Versionen erhältlich: Janus-pro-1b Und Janus-pro-7bPräsentation seiner Skalierbarkeit für verschiedene Anwendungsfälle.

Janus Professional: Leistungsbewertung

Das Janus Professional -Modell wurde streng über 20 verschiedene Benchmarks getestet, und die Ergebnisse sind wie folgt:

Textual content-to-Picture-Era

  • Geneal: Erzielte 0,80, übertrieben Dall-e 3 (0,67) und stabiles Diffusion 3-Medium (0,74).
  • DPG-Bench: Erreichte 84,19 Gesamtgenauigkeit und unterstreicht die Fähigkeit, dichte und nuancierte Eingaben zu bewältigen.

Multimodales Verständnis

  • MMMU (Multimodales Maschinenverständnis): Erreicht 41,0 Genauigkeit, übertreffen Tokenflow-XL (38,7).
  • Mme (Multimodale Bewertung): Zeigten signifikante Gewinne in Bezug auf Argumentation und Kontextverständnis.

Janus-pro: Coaching und Architektur

Janus-PRO umfasst einen dreistufigen Schulungsprozess mit einer Architektur, die entkoppelte Komponenten für multimodale und Textual content-zu-Im-Im-Im-Im-Im-Im-Picture-Aufgaben integriert:

Trainingsphase

  1. Stufe 1 – Vorbereitungen der Adapter:
    • Konzentriert sich auf Vorbereitungsbildadapter und Köpfe mit Datensätzen wie ImageNet.
    • Erweiterte Schulungsschritte sorgen für eine bessere Modellierung von Pixelabhängigkeiten.
  2. Stufe 2 – Unified Pretcraining:
    • Integriert multimodale Daten, um das Modell für verschiedene Aufgaben vorzubereiten und Abhängigkeiten von Einzelzweck-Datensätzen zu beseitigen.
  3. Stufe 3-Überlebte Feinabstimmung:
    • Verfeinert das Modell mit einem kalibrierten Datenverhältnis von 5: 1: 4 (multimodale, text- und text-im-Picture-Daten).
    • Verfeinert das Modell mit einem kalibrierten Datenverhältnis von 5: 1: 4 (multimodale, text- und text-im-Picture-Daten).

Architekturübersicht

  • Twin -Encoder: Janus-Professional verwendet separate Encoder für multimodales Verständnis und Textual content-zu-Picture-Erzeugung, minimiert Störungen und Optimierung der aufgabenspezifischen Leistung.
  • Zentrales Dekodierungsmodul: Ein gemeinsamer Decoder kombiniert Erkenntnisse beider Encoder, um präzise Ausgänge über Bereiche hinweg zu liefern.
  • Parametereffizienz: Die skalierbare Architektur mit Versionen wie 1B- und 7B -Parametern gewährleistet die Anpassungsfähigkeit an verschiedene Rechenanforderungen.

Janus professional 7b gegen dall-e 3

Ich werde Deepseeks Janus Professional 7 B-Model von OpenAIs Dall-E 3-Modell für verschiedene Bildgenerierung und Bildanalyse-Aufgaben testen.

  • Im Second ist Janus Professional 7b im Umarmungsgesicht erhältlich und Sie können darauf zugreifen Hier.
  • Da ChatGPT derzeit Dall-E 3 für alle Aufgaben zur Bildung von Bild und Analyse verwendet, werde ich nur über Chatgpt auf Dall-E 3 zugreifen.

Fangen wir an!

Aufgabe 1: Raten Sie den Gewinner an

Eingabeaufforderung: „Basierend auf der Punktzahl im Bild hat welches Group eine höhere Wahrscheinlichkeit, dieses Spiel zu gewinnen?“

Aufgabe 1: Raten Sie den Gewinner an

Antwort:

Janus pro-7b

Basierend auf der Punktzahl im Bild hat das Group Ind (Indien) eine höhere Wahrscheinlichkeit, dieses Spiel zu gewinnen. IND hat 157/4, was bedeutet, dass sie einen Vorsprung von 157 Läufen mit 4 verbleibenden Pforten haben. Das Group von der anderen Seite, das mit dem Schlagwert, befindet sich derzeit auf 123/6, was bedeutet

Dall-e 3

Die in diesem Bild angezeigte Punktzahl zeigt, dass Indien gegen Südafrika bei 137/1 in 12,5 Overs schlägt. Dies weist auf eine starke Place für Indien hin, da:

  1. Laufrate: Indien erzielt einen hohen Preis, ungefähr 10,7 Läufe professional Over, was für ein T20 -Match hervorragend ist.
  2. Pforten in der Hand: Nur 1 Wicket in dieser Section verlieren bedeutet, dass Indien eine gute Plattform hat, um in den verbleibenden Overs weiter zu beschleunigen.

Sofern Südafrika nicht bereits ein sehr hohes Ziel veröffentlicht hat, ist Indiens Place dominant. Ohne das Ziel oder den Kontext des Spiels (z. B. erste Innings oder Verfolgungsjagd) zu kennen, kann jedoch nicht eine endgültige Wahrscheinlichkeit berechnet werden. Basierend auf diesen Informationen hat Indien eine höhere Gewinnwahrscheinlichkeit. ““

Beobachtung:

Modellvergleich

Modellvergleich: Janus pro-7b gegen dall-e3

Modell Leistung
Janus pro-7b Das Modell identifizierte die Groups genau und gab die richtige Gewinnwahrscheinlichkeit, aber es wurde die im Bild genannten Ergebnisse falsch gelesen. Insgesamt struggle seine Analyse fehlerhaft.
Dall-e3 Das Modell hat nicht nur die Groups und die Punktzahl korrekt identifiziert. Es gab die korrekten Gewinnchancen, die auf den Informationen basieren, die im Bild bereitgestellt wurden.

Dall-E 3 im Gegensatz zu Janus Professional-7b hat die Punktzahl richtig gelesen und erwähnte auch, dass es aufgrund mangelnder vollständiger Informationen keine genaue Vorhersage der Gewinnwahrscheinlichkeit ergeben kann. Damit hat Dall-E 3 dafür den Ball aus dem Park geschlagen!

Gewinner: Dall-e 3

Aufgabe 2: Erzählen Sie mir die Geschichte „Again“

Eingabeaufforderung: „Erklären Sie die Hintergrundgeschichte hinter diesem Bild“

Antwort:

Janus pro-7b

„Dieses Bild zeigt einen Charakter, der einen fortgeschrittenen Anzug trägt, der einen hochtechnischen gepanzerten Handschuh mit einem leuchtenden Component an der Hand enthält und an die Technologie erinnert, die häufig mit Superhelden in der Populärkultur verbunden ist. Der Charakter trägt auch ein Bruststück mit komplizierten und komplexen Designs, was auf eine fortschrittliche Technologie hindeutet und möglicherweise als Stromquelle oder als Schutzvorrichtung dient.

Der visuelle Stil und die Elemente des Bildes sind typisch für Science -Fiction- und Superheldenfilme, bei denen Charaktere oft übermenschliche Fähigkeiten besitzen und spezielle Anzüge oder Rüstung tragen, um ihre Kräfte zu verbessern und sich selbst zu schützen.

Dieses besondere Bild ist wahrscheinlich eine Szene aus einem Movie, in dem sich der Charakter in einen Kampf verwickelt oder ihre Kräfte anhand der Intensität der Aktion und der dramatischen Beleuchtung einsetzt. Das leuchtende Component in der Hand legt die Verwendung einer Artwork Energiemanipulation nahe, die ein gemeinsames Thema in Superhelden -Erzählungen ist. „

Dall-e 3

Beobachtung:

Modellvergleich

Janus pro-7b Dall-e3
Das Modell enthält eine detaillierte Beschreibung des Bildes, kann jedoch nicht die Hintergrundgeschichte hinter dem Bild geben. Das Modell identifiziert das Bild korrekt als Teil des Snippets eines Marvel -Movies, und basierend darauf gibt das Modell eine kurze und genaue Hintergrundgeschichte. Es identifiziert den Hauptcharakter im Bild korrekt und gibt auch die Bedeutung der Szene an.

Janus Professional-7b gab eine detaillierte Bildbeschreibung an, in der die Feinheiten auflisteten, die auf die starken Bildanalysefunktionen hinweist, aber es konnte die Hintergrundgeschichte nicht dahinter gesteckt wurden. Dall-E 3 identifizierte das Bild schnell, gab seine Hintergrundgeschichte und lieferte sogar die Bedeutung der Szene. Damit ist Dall-E 3 ein klarer Gewinner.

Gewinner: Dall-e 3

Aufgabe 3: Generieren Sie ein Bild

Eingabeaufforderung: „Erzeugen Sie ein Bild eines Mädchens mit tiefblauen Augen und blonden Haaren, die direkt in einen Spiegel schauen, mit einer Hand unter ihrem Gesicht und der anderen ruht auf ihrer Seite und stehen unter dem Licht eines flackernden Blubs.“

Antwort:

Janus pro-7b

Janus pro-7b von Deepseek

Dall-e 3

Dall-e3

Beobachtung:

Modellvergleich

Janus pro-7b Dall-e3
Das Modell generiert das Bild gemäß der Eingabeaufforderung. Es erfasst alle Particulars der Eingabeaufforderung und im Spiegel, es zeigt auch eine Reflexion der Glühbirne. Das Bild schien etwas animiert zu sein. Das Modell erzeugt ein detailliertes, makelloses Bild, das alle Nuancen der Eingabeaufforderung erfasst. Das Bild gab das Gefühl eines Science-Fiction-Movies.

Beide Modelle haben in dieser Aufgabe beeindruckende Bilder generiert. Auf den ersten Blick konnte ich keinen Fehler in einem der beiden Bilder erkennen. Aber während ich tief schaue, kann ich in dem von Janus Professional-7b erzeugten Bild leicht Unschärfe um die Glühbirne sehen, während das von Dall-E 3 erzeugte Bild ziemlich immersiv und aufdringlich detailliert ist.

Gewinner: Dall-e 3

Aufgabe 4: Meme Speak

Eingabeaufforderung: „Erklären Sie dieses Mem“

Antwort:

Janus pro-7b:

1. linke Seite (Telefone in den 1990er Jahren):

  • Zeigt einen muskulösen Doge (eine beliebte Web -Meme -Figur) mit dem Wort „Nokia“, das auf seinen Körper geschrieben wurde.
  • Bildunterschriften:
    • „Ich bin das stärkste Materials, das dem Menschen bekannt ist.“
    • „Meine Batterieleistung ist unbegrenzt.“
  • Diese Hinweise auf Nokia -Telefone aus den neunziger Jahren, bekannt für ihre Langlebigkeit, lange Akkulaufzeit und robuste Verarbeitungsqualität.

2. Rechte Seite (Telefone im Jahr 2020):

  • Zeigt ein kleineres, trauriges Doge mit einem Apple -Emblem auf seinem Körper.
  • Bildunterschriften:
    • „Bitte berühre mich nicht oder ich werde knacken.“
    • „Ich wurde seit 3 ​​Stunden nicht angeklagt, ich werde sterben.“
  • Diese Verweise auf moderne Smartphones, insbesondere auf iPhones, die häufig wegen ihrer Zerbrechlichkeit, häufigen Batterie -Abfluss und häufiger Ladebedarf kritisiert werden.

Bedeutung:

Das Meme kontrastiert humorvoll die Haltbarkeit und Robustheit von Telefonen aus den 1990er Jahren mit der Zerbrechlichkeit und häufigen Batterieabfluss moderner Smartphones. Es unterstreicht die wesentlichen Änderungen der Technologie- und Benutzererwartungen im Laufe der Jahre, wobei die Telefone aus den 90er Jahren als zuverlässiger und weniger anspruchsvoller angesehen werden.

Abschluss:

Das Meme ist eine spielerische Kritik an modernen Smartphones, die sich über ihre wahrgenommene Zerbrechlichkeit und häufige Ladebedürfnisse lustig macht, im Gegensatz zu den robusten und lang anhaltenden Telefonen der Vergangenheit.

Lassen Sie mich wissen, wenn Sie weitere Klarstellung möchten! “

Dall-e 3

Beobachtung:

Modellvergleich

Janus pro-7b Dall-e3
Das Modell erklärt das Mem korrekt und erklärt beide Seiten. Es bietet weiter einen Kontext des Bildes und schließt es dann kurz. Das Modell gibt eine leicht detaillierte Erklärung des Meme mit einer ziemlich ausführlichen Nachricht am Ende.

Beide Modelle gaben genaue Beschreibungen des Meme an, aber das Ergebnis von Janus Professional -7b ist knackiger und klarer.

Gewinner: Janus Professional-7b

Janus Professional 7b gegen Dall-E 3: Endes Urteil

Aufgabenvergleich

Aufgabe Gewinner
Ratet den Gewinner Dall-e3
Erzähl mir die „Rücken“ -Schory Dall-e3
Ein Bild erstellen Dall-e3
Meme Speak Janus pro-7b

Abschluss

Deepseeks Janus Professional-7b ist eine großartige Ergänzung zur Welt der Bildgenerierung und der multimodalen LLM. Während Deepseek Janus Professional-7b weiter verbessert und es in sein breiteres Ökosystem integriert, wird es ein Herausforderer für Branchenführer wie Dall-E 3, stabile Diffusion und Midjourney. Die Open-Supply-Natur von Janus Professional-7b macht es zu einer Auswahl für Forscher und Entwickler, die die fortgeschrittenen Funktionen der Bildgenerierung nutzen möchten.

Bleib dran Analytics Vidhya Weblog Für weitere großartige Inhalte!

Häufig gestellte Fragen

Q1. Was ist Deepseek Janus Professional-7b?

A. Janus Professional-7b ist ein multimodales Großsprachmodell (LLM), das von Deepseek AI entwickelt wurde. Es ist auf die Erzeugung von Textual content zu Picture und das multimodale Verständnis spezialisiert.

Q2. Wie unterscheidet sich Janus Professional-7b von früheren Janus-Modellen?

A. Janus Professional-7b verwendet eine entkoppelte Architektur, wodurch es mit verbesserter Genauigkeit und Skalierbarkeit hocheffizient mit multimodaler Aufgaben und Textual content-zu-im-Im-Im-Im-Immer-Erzeugung umgeht.

Q3. Wie fährt Janus Professional-7b gegen Dall-e 3?

A. Janus pro-7b zeichnet sich in der Bildanalyse aus und liefert detaillierte Antworten, fällt jedoch in einigen realen Anwendungen aus, z.

This fall. Ist Janus Professional-7b Open Supply?

A. Ja, Janus Professional-7b ist Open-Supply und erhältlich auf Plattformen wie dem Hugging Face, wodurch es Entwicklern und Forschern zugänglich ist.

Q5. Hear Sie einige der Benchmarks auf, die zur Bewertung von Janus Professional-7b verwendet wurden.

A. Janus Professional-7b wurde an Benchmarks wie Geneval, DPG-Bench, MMMU und MME getestet, die in bestimmten Aspekten konsequent übertreffen, wie Dall-e 3.

Q6. Kann Janus Professional-7b gute Bilder erzeugen?

A. Ja, Janus Professional-7b generiert nach detaillierten Eingabeaufforderungen erstaunliche Bilder.

Anu Madan verfügt über mehr als 5 Jahre Erfahrung in der Erstellung und des Managements von Inhalten. Nachdem sie als Content material Creator, Rezensent und Supervisor gearbeitet hatte, hat sie mehrere Kurse und Blogs erstellt. Derzeit arbeitet sie an der Erstellung und Strategie der Inhaltskuration und des Designs in Bezug auf generative KI und andere bevorstehende Technologie.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert