Indien tritt stetig im Bereich der künstlichen Intelligenz fort und zeigt bemerkenswerte Wachstum und Innovation. KruTrim AI Labs, ein Teil der OLA -Gruppe, ist eine der Organisationen, die aktiv zu diesem Fortschritt beitragen. KruTrim hat kürzlich Chitrarth-1 vorgestellt, a Imaginative and prescient Sprachmodell (VLM) entwickelt sich speziell für Indiens vielfältige sprachliche und kulturelle Landschaft. Das Modell unterstützt 10 große indische Sprachen, darunter Hindi, Tamil, Bengali, Telugu, sowie Englisch, die die unterschiedlichen Bedürfnisse des Landes effektiv ansprechen. In diesem Artikel werden Chitrarth-1 und Indiens expandierende Fähigkeiten in der KI untersucht.
Was ist Chitrarth?
Chitrarth (abgeleitet von Chitra: Picture und Artha: Bedeutung) ist ein 7,5-Milliarden-Parameter-VLM, das modernste Sprach- und Imaginative and prescient-Funktionen kombiniert. Es wurde entwickelt, um Indiens sprachliche Vielfalt zu dienen, und unterstützt 10 prominente indische Sprachen – Hindi, Bengali, Telugu, Tamil, Marathi, Gujarati, Kannada, Malayalam, Odia und Assamesisch – neben Englisch.
https://www.youtube.com/watch?v=tmzeweligsc
Dieses Modell ist ein Beweis für KruTrims Mission: KI erstellen “für unser Land, unser Land und für unsere Bürger. ““
Durch die Nutzung eines kulturell reichhaltigen und mehrsprachigen Datensatzes minimiert Chitrarth die Vorurteile, verbessert die Zugänglichkeit und sorgt für eine robuste Leistung in indisch -Sprachen und Englisch. Es ist ein Schritt in Richtung gerechter KI -Fortschritte, wodurch die Technologie integriert und repräsentativ für Benutzer in Indien und darüber hinaus ist.
Die Forschung hinter Chitrarth-1 wurde in prominenten akademischen Papieren wie vorgestellt.Chitrarth: Überbrückung von Imaginative and prescient und Sprache für eine Milliarde Menschen. “ (Neurips) und “Chitranuvad: Anpassung multimodaler Übersetzungen ” (Neunte Konferenz zur maschinellen Übersetzung).
Lesen Sie auch: Indiens KI -Second: Rennen gegen China und die USA in Genai
Chitrarth -Architektur und Parameter
Chitrarth baut auf dem KruTrim-7b LLM als Spine auf, das durch einen Visionscodierer basierend auf dem Modell Siglip (Siglip-SO400M-Patch14-384) erweitert wird. Die Architektur umfasst:
- Ein vorbereiteter Siglip Imaginative and prescient -Encoder zum Extrahieren von Bildmerkmalen.
- Eine trainierbare lineare Mapping -Schicht, die diese Merkmale in den Token -Raum des LLM projiziert.
- Feinabstimmung mit Anweisungen im Bild-Textual content-Datasets für verbesserte multimodale Leistung.
Dieses Design sorgt für eine nahtlose Integration visueller und sprachlicher Daten, sodass Chitrarth in komplexen Argumentationsaufgaben hervorragende Leistungen erbringt.
Trainingsdaten und Methodik
Der Trainingsprozess von Chitrarth entfaltet sich in zwei Phasen, wobei ein vielfältiger, mehrsprachiger Datensatz verwendet wird:
Stufe 1: Adapter vor der Coaching (PT)
- Vorbereitet auf einem sorgfältig ausgewählten Datensatz, übersetzt mit einem Open-Supply-Modell in mehrere Indic-Sprachen übersetzt.
- Behält eine ausgewogene Aufteilung zwischen Englisch und Indic -Sprachen bei, um die sprachliche Vielfalt und eine gerechte Leistung zu gewährleisten.
- Verhindert eine Verzerrung zu einer einzelnen Sprache und optimiert die Recheneffizienz und robuste Funktionen.
Stufe 2: Anweisungsstimmung (It)
- Fein abgestimmt auf einem komplexen Befehlsdatensatz, um multimodales Denken zu fördern.
- Enthält einen englischbasierten Datensatz für Anweisungsabbau und seine mehrsprachigen Übersetzungen.
- Beinhaltet einen Visionsprachdatensatz mit akademischen Aufgaben und kulturell vielfältigen indischen Bildern, wie z. B.:
- Prominente Persönlichkeiten
- Denkmäler
- Kunstwerk
- Kulinarische Gerichte
- Verfügt über hochwertige proprietäre englische Textdaten und stellt eine ausgewogene Darstellung in den Bereichen sicher.
Dieser zweistufige Prozess veranstaltet Chitrarth, um komplexe multimodale Aufgaben mit kultureller und sprachlicher Nuancen zu erledigen.
Lesen Sie auch: Prime 10 LLM, die in Indien Bulit sind
Leistung und Bewertung
Chitrarth wurde streng gegen hochmoderne VLMs wie IDEFICS 2 (7B) und Palo 7B bewertet, die sie an verschiedenen Benchmarks konsequent übertreffen und gleichzeitig bei Aufgaben wie TextVQA und Vizwiz wettbewerbsfähig bleiben. Es übertrifft auch die Lama 3.2 11b Imaginative and prescient in wichtigen Metriken.
Bharatbench: ein neuer Normal
KruTrim führt Bharatbench vor, eine umfassende Bewertungssuite für 10 unterressende Indic-Sprachen in drei Aufgaben. Die Leistung von Chitrarth auf Bharatbench ist eine Grundlage für zukünftige Forschung und zeigt seine einzigartige Fähigkeit, alle eingeschlossenen Sprachen zu bewältigen. Nachfolgend finden Sie Beispielergebnisse:
Sprache | PAPST | Llava-Financial institution | Mmvet |
---|---|---|---|
Telugu | 79,9 | 54,8 | 43.76 |
Hindi | 78,68 | 51,5 | 38,85 |
Bengali | 83.24 | 53.7 | 33.24 |
Malayalam | 85.29 | 55,5 | 25.36 |
Kannada | 85,52 | 58.1 | 46.19 |
Englisch | 87.63 | 67,9 | 30.49 |
Um mehr zu erfahren, klicken Sie hier.
Wie kann ich auf Chitrarth zugreifen?
git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth
cd Chitrarth
pip set up -e .
python chitrarth/inference.py --model-path "krutrim-ai-labs/Chitrarth" --image-file "belongings/govt_school.jpeg" --query "Clarify the picture."

Chitrarth-1-Beispiele
1. Bildanalyse

2. Bildunterschrift Generierung

3. UI/UX -Bildschirmanalyse

Lesen Sie auch: Sutra-r0: Indiens Sprung in die fortgeschrittene KI-Argumentation
Endnote
KruTrim ist ein Teil der OLA -Gruppe und widmet sich der Erstellung des AI Computing -Stapels von morgen. Neben Chitrarth umfassen seine Angebote GPU als Service, AI Studio, Ola Maps, KruTrim Assistant, Language Labs, Kruicon und Contact Middle AI. Mit Chitrarth-1 setzt KruTrim AI Labs einen neuen Normal für inklusive, kulturell bewusste KI und ebnet den Weg für eine gerechtere technologische Zukunft.
Bleiben Sie mit den neuesten Ereignissen der KI -Welt auf dem Laufenden mit Analytics Vidhya Information!