So verwenden Sie GPT zum Generieren kreativer Inhalte mit Hugging Face TransformersSo verwenden Sie GPT zum Generieren kreativer Inhalte mit Hugging Face Transformers

Einführung

GPT, kurz für Generative Pre-trained Transformer, ist eine Familie transformatorbasierter Sprachmodelle. OpenAIs GPT-2 ist als Beispiel eines frühen transformatorbasierten Modells bekannt, das zusammenhängenden Textual content generieren kann. Es struggle einer der ersten Triumphe seiner Artwork und kann als Werkzeug für eine Vielzahl von Anwendungen verwendet werden, unter anderem um Inhalte auf kreativere Weise zu schreiben. Die Bibliothek Hugging Face Transformers ist eine Bibliothek vortrainierter Modelle, die die Arbeit mit diesen anspruchsvollen Sprachmodellen vereinfacht.

Die Generierung kreativer Inhalte könnte beispielsweise in der Welt der Datenwissenschaft und des maschinellen Lernens wertvoll sein, wo sie auf vielfältige Weise eingesetzt werden könnten, um langweilige Berichte aufzupeppen, synthetische Daten zu erstellen oder einfach dabei zu helfen, eine interessantere Geschichte zu erzählen. Dieses Tutorial führt Sie durch die Verwendung von GPT-2 mit der Hugging Face Transformers-Bibliothek zur Generierung kreativer Inhalte. Beachten Sie, dass wir hier das GPT-2-Modell aufgrund seiner Einfachheit und überschaubaren Größe verwenden, aber der Austausch gegen ein anderes generatives Modell erfolgt nach denselben Schritten.

Einrichten der Umgebung

Bevor wir beginnen, müssen wir unsere Umgebung einrichten. Dazu müssen wir die erforderlichen Bibliotheken installieren und importieren sowie die erforderlichen Pakete importieren.

Installieren Sie die erforderlichen Bibliotheken:

pip set up transformers torch

Importieren Sie die erforderlichen Pakete:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

Sie können mehr über Huging Face Auto Courses und AutoModels erfahren Hier. Weiter geht‘s.

Laden des Modells und des Tokenizers

Als Nächstes laden wir das Modell und den Tokenizer in unser Skript. Das Modell ist in diesem Fall GPT-2, während der Tokenizer für die Konvertierung von Textual content in ein Format verantwortlich ist, das das Modell verstehen kann.

model_name = "gpt2"
mannequin = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

Beachten Sie, dass durch die Änderung des Modellnamens oben verschiedene Hugging Face-Sprachmodelle ausgetauscht werden können.

Eingabetext für die Generierung vorbereiten

Damit unser Modell Textual content generiert, müssen wir dem Modell eine erste Eingabe oder Eingabeaufforderung bereitstellen. Diese Eingabeaufforderung wird vom Tokenizer tokenisiert.

immediate = "As soon as upon a time in Detroit, "
input_ids = tokenizer(immediate, return_tensors="pt").input_ids

Notiere dass der return_tensors="pt" Das Argument stellt sicher, dass PyTorch-Tensoren zurückgegeben werden.

Kreative Inhalte erstellen

Sobald der Eingabetext tokenisiert und für die Eingabe in das Modell vorbereitet wurde, können wir das Modell verwenden, um kreative Inhalte zu generieren.

gen_tokens = mannequin.generate(input_ids, do_sample=True, max_length=100, pad_token_id=tokenizer.eos_token_id)
gen_text = tokenizer.batch_decode(gen_tokens)(0)
print(gen_text)

Anpassen der Generierung mit erweiterten Einstellungen

Für noch mehr Kreativität können wir die Temperatur anpassen und Prime-Ok-Sampling und Prime-P-Sampling (Kern-Sampling) verwenden.

Temperatur einstellen:

gen_tokens = mannequin.generate(input_ids, 
                            do_sample=True, 
                            max_length=100, 
                            temperature=0.7, 
                            pad_token_id=tokenizer.eos_token_id)
gen_text = tokenizer.batch_decode(gen_tokens)(0)
print(gen_text)

Verwenden von Prime-k-Sampling und Prime-p-Sampling:

gen_tokens = mannequin.generate(input_ids, 
                            do_sample=True, 
                            max_length=100, 
                            top_k=50, 
                            top_p=0.95, 
                            pad_token_id=tokenizer.eos_token_id)
gen_text = tokenizer.batch_decode(gen_tokens)(0)
print(gen_text)

Praxisbeispiele für die kreative Content material-Erstellung

Hier sind einige praktische Beispiele für die Verwendung von GPT-2 zum Erstellen kreativer Inhalte.

# Instance: Producing story beginnings
story_prompt = "In a world the place AI contgrols every part, "
input_ids = tokenizer(story_prompt, return_tensors="pt").input_ids
gen_tokens = mannequin.generate(input_ids, 
                            do_sample=True, 
                            max_length=150, 
                            temperature=0.4, 
                            top_k=50, 
                            top_p=0.95, 
                            pad_token_id=tokenizer.eos_token_id)
story_text = tokenizer.batch_decode(gen_tokens)(0)
print(story_text)

# Instance: Creating poetry traces
poetry_prompt = "Glimmers of hope rise from the ashes of forgotten tales, "
input_ids = tokenizer(poetry_prompt, return_tensors="pt").input_ids
gen_tokens = mannequin.generate(input_ids, 
                            do_sample=True, 
                            max_length=50, 
                            temperature=0.7, 
                            pad_token_id=tokenizer.eos_token_id)
poetry_text = tokenizer.batch_decode(gen_tokens)(0)
print(poetry_text)

Zusammenfassung

Das Experimentieren mit verschiedenen Parametern und Einstellungen kann die Qualität und Kreativität des generierten Inhalts erheblich beeinflussen. GPT, insbesondere die neueren Versionen, die wir alle kennen, bietet enormes Potenzial in kreativen Bereichen und ermöglicht es Datenwissenschaftlern, ansprechende Erzählungen, synthetische Daten und mehr zu generieren. Weitere Informationen finden Sie in der Hugging Face-Dokumentation und anderen Ressourcen, um Ihr Verständnis zu vertiefen und Ihre Fähigkeiten zu erweitern.

Wenn Sie dieser Anleitung folgen, sollten Sie nun in der Lage sein, die Leistung von GPT-3 und Hugging Face Transformers zu nutzen, um kreative Inhalte für verschiedene Anwendungen in der Datenwissenschaft und darüber hinaus zu generieren.

Weitere Informationen zu diesen Themen finden Sie in den folgenden Ressourcen:

Matthias Mayo (@mattmayo13) hat einen Grasp-Abschluss in Informatik und ein Diplom in Knowledge Mining. Als leitender Redakteur möchte Matthew komplexe Konzepte der Datenwissenschaft zugänglich machen. Seine beruflichen Interessen umfassen die Verarbeitung natürlicher Sprache, Algorithmen für maschinelles Lernen und die Erforschung neuer KI. Sein Ziel ist es, das Wissen in der Datenwissenschaftsgemeinschaft zu demokratisieren. Matthew programmiert, seit er sechs Jahre alt ist.



Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert