5 Fun generative KI -Projekte für absolute Anfänger5 Fun generative KI -Projekte für absolute Anfänger
Bild von Autor | Leinwand

# Einführung

Dies ist der zweite Artikel in meiner Anfängerprojektreihe. Wenn Sie den ersten auf Python nicht gesehen haben, lohnt es sich, es zu überprüfen: 5 lustige Python -Projekte für absolute Anfänger.

Additionally, was ist Generative Ai oder Gen Ai? Es geht darum, neue Inhalte wie Textual content, Bilder, Code, Audio oder sogar Video mit AI zu erstellen. Vor der Ära der großen Sprache und Visionsmodelle waren die Dinge ganz anders. Aber jetzt, mit dem Aufstieg von Fundamentmodellen wie GPT, Lama und Llava, hat sich alles verschoben. Sie können kreative Instruments und interaktive Apps erstellen, ohne Modelle von Grund auf neu trainieren zu müssen.

Ich habe diese ausgewählt 5 Projekte, um ein bisschen von allem abzudecken: Textual content, Bild, Stimme, Imaginative and prescient und einige Backend-Konzepte wie Feinabstimmung und Lappen. Sie können sowohl API-basierte Lösungen als auch lokale Setups ausprobieren. Am Ende haben Sie alle Bausteine in den meisten modernen Gen-AI-Apps berührt. Additionally fangen wir an.

# 1. Rezeptgenerator App (Textgenerierung)

Hyperlink: Erstellen Sie einen Rezeptgenerator mit React und KI: Code trifft die Küche

Wir werden mit etwas Einfachem und Spaßes beginnen, das nur die Textgenerierung und einen API -Schlüssel verwendet, kein schweres Setup. Mit dieser App können Sie einige grundlegende Particulars wie Zutaten, Mahlzeittyp, Küchenpräferenz, Kochzeit und Komplexität eingeben. Es erzeugt dann ein vollständiges Rezept mit GPT. Sie lernen, wie Sie das Frontend-Formular erstellen, die Daten an GPT senden und das Rezept mit AI-generiertem Rezept an den Benutzer zurückgeben. Hier ist eine weitere erweiterte Model derselben Idee: Erstellen Sie einen KI-Rezeptfinder mit GPT O1-Vorsicht in 1 Stunde. Dieser hat mehr fortschrittliche schnelle Engineering, GPT-4, Vorschläge, Zutatersubstitutionen und eine dynamischere Frontend.

# 2. Bildgenerator App (Stabile Diffusion, lokaler Setup)

Hyperlink: Erstellen Sie in 15 Minuten einen Python -AI -Bildgenerator (kostenlos und lokal)

Ja, Sie können coole Bilder mit Instruments wie Chatgpt, Dall · e oder MidJourney generieren, indem Sie einfach eine Eingabeaufforderung eingeben. Aber was ist, wenn Sie einen Schritt weiter gehen und alles lokal ohne API -Kosten oder Cloud -Beschränkungen ausführen möchten? Dieses Projekt macht genau das. In diesem Video lernen Sie, wie Sie eine stabile Diffusion auf Ihrem eigenen Pc einrichten. Der Schöpfer hält es tremendous einfach: Sie installieren Python, klonen Sie ein leichtes Net -UI -Repo, laden den Modell -Checkpoint herunter und führen einen lokalen Server aus. Das struggle’s. Danach können Sie in Ihrem Browser Texteingabeaufforderungen eingeben und sofort KI -Bilder generieren, alle ohne Web- oder API -Anrufe.

# 3.. Medizinischer Chatbot mit Voice + Imaginative and prescient + Textual content

Hyperlink: Erstellen Sie eine AI -Voice -Assistant -App mit multimodalem LLM LLAVA und Flüstern

Dieses Projekt ist nicht speziell als medizinischer Chatbot erstellt, aber der Anwendungsfall passt intestine. Sie sprechen damit, es hört zu, es kann sich ein Bild ansehen (wie ein Röntgen- oder Dokument), und es reagiert clever alle drei Modi: Voice, Imaginative and prescient und Textual content. Es wurde mit LLAVA (ein multimodales Sichtsprachmodell) und Whisper (OpenAIs Rede-to-Textual content-Modell) in einer Gradio-Schnittstelle erstellt. Das Video führt durch die Einrichtung von Colab, die Set up von Bibliotheken, die Quantisierung von LLAVA, um sie auf Ihrer GPU auszuführen und alles zusammen mit GTTs für Audio -Antworten zu nähen.

# 4. Feinabstimmung moderne LLMs

Hyperlink: Positive Tune Gemma 3, Qwen3, Lama 4, Phi 4 und Mistral Small mit Unloth und Transformatoren

Bisher haben wir off-the-Shelf-Modelle mit promptem Engineering verwendet. Das funktioniert, aber wenn Sie mehr Kontrolle wünschen, ist die Feinabstimmung der nächste Schritt. Dieses Video von Trelis Analysis ist eines der besten da draußen. Anstatt ein Projekt vorzuschlagen, das einfach ein Feinabsteig-Modell ausgeht, möchte ich, dass Sie sich auf den tatsächlichen Prozess der Feinabstimmung selbst konzentrieren. Dieses Video zeigt Ihnen, wie Sie Modelle wie Gemma 3, Qwen3, Lama 4, Phi 4 und Mistral Small verwenden, indem Sie Unloth (Bibliothek für schneller, speicherisches Coaching) und Transformatoren verwenden. Es ist lang (ca. 1,5 Stunden), aber tremendous lohnt sich. Sie lernen, wann die Feinabstimmung sinnvoll ist, wie man Datensätze vorbereitet, schnelle Evals mit VLLM ausführen und echte Trainingsprobleme debuggen.

# 5. Bauen Sie lokaler Lappen von Grund auf neu

Hyperlink: Lokale Abrufer Augmented Technology (LAB) von Grund auf neu (Schritt für Schritt Tutorial)

Jeder liebt einen guten Chatbot, aber die meisten fallen auseinander, wenn sie nach Dingen außerhalb ihrer Trainingsdaten gefragt werden. Hier ist Lappen nützlich. Sie geben Ihrem LLM eine Vektordatenbank mit relevanten Dokumenten an, und sie ziehen vor der Beantwortung den Kontext. Das Video führt Sie durch den Bau eines vollständig lokalen Lappensystems mit einem Colab -Pocket book oder einer eigenen Maschine. Sie laden Dokumente (wie ein Lehrbuch PDF), teilen sie in Stücke auf, generieren Einbettung mit einem Satztransformatormodell, speichern sie in SQLite-VSS und verbinden alles mit einem lokalen LLM (z. B. LLAMA 2 über Ollama). Es ist das klarste Lumpen -Tutorial, das ich für Anfänger gesehen habe, und wenn Sie dies getan haben, werden Sie verstehen, wie Chatgpt -Plugins, KI -Suchwerkzeuge und interne Firmen -Chatbots wirklich funktionieren.

# Einpacken

Jedes dieser Projekte lehrt Ihnen etwas Wesentliches:

Textual content → Bild → Stimme → Feinabstimmung → Abrufen

Wenn Sie gerade mit Gen AI eingehen und tatsächlich Sachen bauen möchten, nicht nur mit Demos spielen, ist dies Ihre Blaupause. Beginnen Sie von dem, der Sie am meisten begeistert. Und denken Sie daran, es ist in Ordnung, Dinge zu brechen. So lernst du.

Kanwal Mehreen Kanwal ist ein Ingenieur für maschinelles Lernen und technischer Schriftsteller mit einer tiefgreifenden Leidenschaft für die Datenwissenschaft und die Schnittstelle von KI mit Medizin. Sie hat das eBook „Produktivität mit Chatgpt maximieren“. Als Google -Technology -Gelehrte 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Sie wird auch als Teradata -Vielfalt in Tech Scholar, MITACS Globalink Analysis Scholar und Harvard Wecode Scholar anerkannt. Kanwal ist ein leidenschaftlicher Verfechter der Veränderung, nachdem er Femcodes gegründet hat, um Frauen in STEM -Bereichen zu stärken.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert