Indien tritt stetig im Bereich der künstlichen Intelligenz fort und zeigt bemerkenswerte Wachstum und Innovation. KruTrim AI Labs, ein Teil der OLA -Gruppe, ist eine der Organisationen, die aktiv zu diesem Fortschritt beitragen. KruTrim hat kürzlich Chitrarth-1 vorgestellt, a Imaginative and prescient Sprachmodell (VLM) entwickelt sich speziell für Indiens vielfältige sprachliche und kulturelle Landschaft. Das Modell unterstützt 10 große indische Sprachen, darunter Hindi, Tamil, Bengali, Telugu, sowie Englisch, die die unterschiedlichen Bedürfnisse des Landes effektiv ansprechen. In diesem Artikel werden Chitrarth-1 und Indiens expandierende Fähigkeiten in der KI untersucht.

Was ist Chitrarth?

Chitrarth (abgeleitet von Chitra: Picture und Artha: Bedeutung) ist ein 7,5-Milliarden-Parameter-VLM, das modernste Sprach- und Imaginative and prescient-Funktionen kombiniert. Es wurde entwickelt, um Indiens sprachliche Vielfalt zu dienen, und unterstützt 10 prominente indische Sprachen – Hindi, Bengali, Telugu, Tamil, Marathi, Gujarati, Kannada, Malayalam, Odia und Assamesisch – neben Englisch.

https://www.youtube.com/watch?v=tmzeweligsc

Dieses Modell ist ein Beweis für KruTrims Mission: KI erstellen “für unser Land, unser Land und für unsere Bürger. ““

Durch die Nutzung eines kulturell reichhaltigen und mehrsprachigen Datensatzes minimiert Chitrarth die Vorurteile, verbessert die Zugänglichkeit und sorgt für eine robuste Leistung in indisch -Sprachen und Englisch. Es ist ein Schritt in Richtung gerechter KI -Fortschritte, wodurch die Technologie integriert und repräsentativ für Benutzer in Indien und darüber hinaus ist.

Die Forschung hinter Chitrarth-1 wurde in prominenten akademischen Papieren wie vorgestellt.Chitrarth: Überbrückung von Imaginative and prescient und Sprache für eine Milliarde Menschen. “ (Neurips) und “Chitranuvad: Anpassung multimodaler Übersetzungen ” (Neunte Konferenz zur maschinellen Übersetzung).

Lesen Sie auch: Indiens KI -Second: Rennen gegen China und die USA in Genai

Chitrarth -Architektur und Parameter

Chitrarth baut auf dem KruTrim-7b LLM als Spine auf, das durch einen Visionscodierer basierend auf dem Modell Siglip (Siglip-SO400M-Patch14-384) erweitert wird. Die Architektur umfasst:

  • Ein vorbereiteter Siglip Imaginative and prescient -Encoder zum Extrahieren von Bildmerkmalen.
  • Eine trainierbare lineare Mapping -Schicht, die diese Merkmale in den Token -Raum des LLM projiziert.
  • Feinabstimmung mit Anweisungen im Bild-Textual content-Datasets für verbesserte multimodale Leistung.

Dieses Design sorgt für eine nahtlose Integration visueller und sprachlicher Daten, sodass Chitrarth in komplexen Argumentationsaufgaben hervorragende Leistungen erbringt.

Trainingsdaten und Methodik

Der Trainingsprozess von Chitrarth entfaltet sich in zwei Phasen, wobei ein vielfältiger, mehrsprachiger Datensatz verwendet wird:

Stufe 1: Adapter vor der Coaching (PT)

  • Vorbereitet auf einem sorgfältig ausgewählten Datensatz, übersetzt mit einem Open-Supply-Modell in mehrere Indic-Sprachen übersetzt.
  • Behält eine ausgewogene Aufteilung zwischen Englisch und Indic -Sprachen bei, um die sprachliche Vielfalt und eine gerechte Leistung zu gewährleisten.
  • Verhindert eine Verzerrung zu einer einzelnen Sprache und optimiert die Recheneffizienz und robuste Funktionen.

Stufe 2: Anweisungsstimmung (It)

  • Fein abgestimmt auf einem komplexen Befehlsdatensatz, um multimodales Denken zu fördern.
  • Enthält einen englischbasierten Datensatz für Anweisungsabbau und seine mehrsprachigen Übersetzungen.
  • Beinhaltet einen Visionsprachdatensatz mit akademischen Aufgaben und kulturell vielfältigen indischen Bildern, wie z. B.:
    • Prominente Persönlichkeiten
    • Denkmäler
    • Kunstwerk
    • Kulinarische Gerichte
  • Verfügt über hochwertige proprietäre englische Textdaten und stellt eine ausgewogene Darstellung in den Bereichen sicher.

Dieser zweistufige Prozess veranstaltet Chitrarth, um komplexe multimodale Aufgaben mit kultureller und sprachlicher Nuancen zu erledigen.

Lesen Sie auch: Prime 10 LLM, die in Indien Bulit sind

Leistung und Bewertung

Chitrarth wurde streng gegen hochmoderne VLMs wie IDEFICS 2 (7B) und Palo 7B bewertet, die sie an verschiedenen Benchmarks konsequent übertreffen und gleichzeitig bei Aufgaben wie TextVQA und Vizwiz wettbewerbsfähig bleiben. Es übertrifft auch die Lama 3.2 11b Imaginative and prescient in wichtigen Metriken.

Bharatbench: ein neuer Normal

KruTrim führt Bharatbench vor, eine umfassende Bewertungssuite für 10 unterressende Indic-Sprachen in drei Aufgaben. Die Leistung von Chitrarth auf Bharatbench ist eine Grundlage für zukünftige Forschung und zeigt seine einzigartige Fähigkeit, alle eingeschlossenen Sprachen zu bewältigen. Nachfolgend finden Sie Beispielergebnisse:

Sprache PAPST Llava-Financial institution Mmvet
Telugu 79,9 54,8 43.76
Hindi 78,68 51,5 38,85
Bengali 83.24 53.7 33.24
Malayalam 85.29 55,5 25.36
Kannada 85,52 58.1 46.19
Englisch 87.63 67,9 30.49

Um mehr zu erfahren, klicken Sie hier.

Wie kann ich auf Chitrarth zugreifen?

git clone https://github.com/ola-krutrim/Chitrarth.git  
conda create --name chitrarth python=3.10  
conda activate chitrarth  
cd Chitrarth  
pip set up -e .  
python chitrarth/inference.py --model-path "krutrim-ai-labs/Chitrarth" --image-file "belongings/govt_school.jpeg" --query "Clarify the picture."

Chitrarth-1-Beispiele

1. Bildanalyse

2. Bildunterschrift Generierung

3. UI/UX -Bildschirmanalyse

Lesen Sie auch: Sutra-r0: Indiens Sprung in die fortgeschrittene KI-Argumentation

Endnote

KruTrim ist ein Teil der OLA -Gruppe und widmet sich der Erstellung des AI Computing -Stapels von morgen. Neben Chitrarth umfassen seine Angebote GPU als Service, AI Studio, Ola Maps, KruTrim Assistant, Language Labs, Kruicon und Contact Middle AI. Mit Chitrarth-1 setzt KruTrim AI Labs einen neuen Normal für inklusive, kulturell bewusste KI und ebnet den Weg für eine gerechtere technologische Zukunft.

Bleiben Sie mit den neuesten Ereignissen der KI -Welt auf dem Laufenden mit Analytics Vidhya Information!

Hallo, ich bin Nitika, ein technisch versierter Content material-Ersteller und Vermarkter. Kreativität und neue Dinge lernen natürlich für mich. Ich habe Fachkenntnisse bei der Erstellung von ergebnisgesteuerten Inhaltsstrategien. Ich bin mit website positioning -Administration, Key phrase -Operationen, Webinhalten, Kommunikation, Inhaltsstrategie, Bearbeitung und Schreiben intestine vertraut.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert