Mit der Veröffentlichung von Deepseek -Modellen hat das chinesische KI -Labor einen „offenen“ Ansatz zur KI -Modellentwicklung mit außergewöhnlichen Argumentationsfunktionen angewendet. Außerdem trat Google im letzten Monat mit dem Begin von Gemma 3, einem leichten, offenen Gewichtsmodell auf, das auf seinem Gemini 2.0 -Framework basiert. In ähnlicher Weise plant der Tech-Riese Openai, um einen Schritt in diesem Ökosystem zu machen und die „Open“ in Openai zu unterstützen, bald ein neues KI-Modell für Open-Gewichts-KI-Modell. Dies wird das erste offene Modell von Openai seit der Veröffentlichung von GPT 2 im Jahr 2019 sein.

Wenn mehr Menschen Großsprachmodelle (LLMs) verwenden, werden Begriffe wie „Open -Gewichte“ und „Open -Supply -Modelle“ üblich. Aber was genau sind dieses offene Gewicht und Open -Supply -Modell? Dieser Artikel erklärt Modellgewichte, den Unterschied zwischen offenen Gewichten und Open -Supply -Modellen und warum dies für Entwickler und Forscher wichtig ist.

Was sind Gewichte in LLMs?

Im maschinellen Lernen sind Gewichte Zahlen, das das Modell während des Trainings lernt. Diese Zahlen steuern, wie das Modell Eingabedaten in Vorhersagen verwandelt. In LLMs speichern Gewichte das Wissen aus den Trainingsdaten. Modelle mit mehr Gewichten können häufig komplexere Sprachmuster lernen.

Gewichtsinitialisierung

Während des Trainings passt das Modell seine Gewichte anhand der von den Daten angegebenen Daten an. Es versucht, seine Vorhersagen genauer zu gestalten. Nach dem Coaching können Entwickler diese Gewichte retten. Andere können dann das geschulte Modell verwenden, ohne es wieder trainieren zu müssen, was Zeit und Ressourcen spart.

Hier sind die Arten von Llm In Bezug auf ihre Parameter:

Ein Modell mit offenem Gewichten bezieht sich auf eine Artwork von Großsprachmodell (LLM), bei der die Parameter des Modells auch seine „Gewichte“ öffentlich verfügbar sind. Das bedeutet, dass jeder das Modell herunterladen, prüfen, verwenden oder feinstimmen kann, ohne zu lizenzierenden Wänden oder proprietären Beschränkungen zu treffen.

Im Gegensatz zu geschlossenen oder proprietären Modellen, die von den Unternehmen, die sie gebaut haben, eng bewacht, werden Modelle in der Regel veröffentlicht, um Forschung, Experimente und gemeindebasierte Innovationen zu fördern. Sie werden häufig in akademischen Umgebungen, von Startups oder von unabhängigen Entwicklern verwendet, die die Grenzen dieser Modelle überschreiten oder einfach unter die Haube und den Bastel gehen.

Ein großes Plus? Sie helfen, Transparenz und Reproduzierbarkeit in der AI -Forschung zu fördern. Wenn Gewichte geöffnet sind, können andere Forscher Ergebnisse, Spannungstestfunktionen validieren oder sie als Grundlinie für neue Arbeiten nutzen. Es ist wie Wissenschaft mit besserer Versionskontrolle.

Hier ist eine wichtige Nuance: Open-Weights-Open-Supply. Während Open-Supply-Modelle Ihnen Zugriff auf alles-die Architektur, die Trainingscode, Datensätze (manchmal) und die Gewichte-öffnen Open-Weights-Modelle veröffentlichen nur die endgültigen geschulten Parameter. Sie bekommen nicht das vollständige Rezept, nur das letzte Gericht.

Lesen Sie auch: 7 LLM -Parameter zur Verbesserung der Modellleistung (mit praktischer Implementierung)

Was sind Modelle mit offenem Gewicht?

„Offene Gewichte“ bezeichnen, dass die ausgebildeten Gewichte eines Modells der Öffentlichkeit zur Verfügung stehen. Jeder kann diese Gewichte herunterladen. Sie können die Gewichte in ihren eigenen Anwendungen verwenden, wenn sie über die richtigen Computersysteme verfügen. Mit offenen Gewichten können Entwickler leistungsstarke vorgebildete Modelle für Aufgaben wie das Schreiben von Textual content oder das Verständnis der Stimmung verwenden. Dies vermeidet von Anfang an die hohen Kosten und die Zeit des Trainings eines Modells.

Der Hauptvorteil von offenen Gewichten ist der Zugang. Entwickler können fortschrittliche Modelle in ihren Projekten schnell einsetzen. Dies hilft mit neuen Ideen. Offene Gewichte bedeuten jedoch nicht immer, dass die Design- oder Schulungsdaten des Modells auch öffentlich sind. Benutzer können die Fähigkeiten des Modells erhalten, wissen aber nicht genau, wie es gebaut oder geschult wurde.

Sehen wir uns einige Beispiele an

  • Lama 3 (aus Meta): Meta veröffentlichte die Gewichte für verschiedene Lama 3 Modellgrößen. Während die Gewichte verfügbar sind, sind sie mit einer spezifischen Lizenz mit Nutzungsbeschränkungen ausgestattet, insbesondere für sehr große Unternehmen, die auf der Grundlage von Dienstleistungen kommerzialisierte Dienstleistungen basieren. Die Schulungsprozessdetails werden teilweise geteilt, aber im traditionellen Software program -Sinne nicht vollständig Open Supply.
  • Mistral 7b (von Mistral AI): Dieses Modell wurde durch seine starke Leistung in Bezug auf seine Größe beliebt. Die Gewichte wurden unter der Apache 2.0 -Lizenz veröffentlicht, wodurch sie weit verbreitet wurden. Obwohl offener als die Lizenz von Llama, liegt der Fokus in erster Linie darauf, die Gewichte und den grundlegenden Nutzungscode bereitzustellen.

Was sind Open -Supply -Modelle?

„Open Supply -Modelle“ ist eine breitere Idee. Ein Open -Supply -Modell enthält normalerweise die Gewichte, den vollständigen Quellcode, die Anleitungen und häufig die Trainingsdaten. Mit dieser Offenheit können Entwickler sehen, wie das Modell funktioniert. Sie können es ändern oder sogar mit neuen Daten umholen.

Der Open -Supply -Ansatz unterstützt Teamwork und Group -Entwicklung. Entwickler können dazu beitragen, das Modell zu verbessern, Fehler zu finden und Änderungen auszutauschen. Dieser Gruppenaufwand kann zu stärkeren und nützlicheren Modellen führen. Die Verwendung und Änderung von Open -Supply -Modellen erfordert möglicherweise mehr technisches Wissen, was für manche Menschen eine Herausforderung sein kann.

Sehen wir uns einige Beispiele an

  • Bloom (BigScience Massive Open-Science Open-Entry mehrsprachiger Sprachmodell): Dies battle eine große Zusammenarbeit, an der viele Forscher beteiligt waren. Die Gewichte, der Code und die Particulars des Modells zu seinen umfangreichen mehrsprachigen Schulungsdaten wurden mit einer offenen Schienenlizenz für die verantwortungsvolle Verwendung veröffentlicht.
  • GPT-2 (von OpenAI): Obwohl jetzt älter, jetzt GPT-2 battle eine wegweisende Veröffentlichung, bei der Openai sowohl den Modellcode als auch die Gewichte öffentlich zur Verfügung stellte und viel Forschung und Entwicklung in der Gemeinde förderte.
  • Falcon -Modelle (von TII): Diese Modelle (wie Falcon-40bFalcon-180b) wurden mit ihren Gewichten und ihrem Code unter der Apache 2.0-Lizenz veröffentlicht, die eine breite Verwendung von Handels- und Forschungsnutzung ermöglichte.

Schlüsselunterschiede

  • Transparenz: Open -Supply -Modelle zeigen alles, einschließlich Design und häufig Trainingsdaten. Offene Gewichtsmodelle haben möglicherweise nur die geschulten Zahlen.
  • Änderung: Sie können Open -Supply -Modelle für bestimmte Anforderungen ändern und abrufen. Sie können normalerweise keine offenen Gewichtsmodelle ändern, es sei denn, das Basismodell ist auch Open Supply.
  • Gemeinschaft: Open -Supply -Modelle beinhalten die Gemeinschaft in die Entwicklung. Offene Gewichtsmodelle haben normalerweise nicht diese Gruppenarbeit.
  • Benutzerfreundlichkeit: Offene Gewichte können für Entwickler, die nur schnell ein Modell verwenden möchten, ohne sein Design zu untersuchen.

Hinzufügen von geschlossenen Quellmodellen zum Bild

Es hilft auch, diese mit proprietären Modellen zu vergleichen. Unternehmen besitzen diese Modelle. Sie teilen das Modelldesign, die Gewichte oder die Schulungsdaten nicht öffentlich. Menschen verwenden diese Modelle normalerweise über bestimmte Software program oder Instruments, die vom Unternehmen bereitgestellt werden. Diese kosten oft Geld durch Lizenzen oder Abonnements. Proprietäre Modelle können einfach zu bedienen sein und Unternehmensunterstützung haben. Sie bieten jedoch wenig Transparenz und Benutzer können sie nicht ändern.

Vergleich von Modelltypen: Offene Gewichte, Open Supply, geschlossene Quelle

Diese Tabelle zeigt die Hauptunterschiede:

Besonderheit Offene Gewichte Open Supply -Modelle Geschlossene Quellmodelle
Definition Geschulte Modellgewichte sind öffentlich. Vollständige Modelldetails (Code, Gewichte, häufig Daten) sind öffentlich. Modelldetails sind privat und gehören einem Unternehmen.
Transparenz Niedrig; Es werden nur Gewichte geteilt. Hoch; Vollständige Modelldetails verfügbar. Niedrig; Benutzer können im Modell nicht sehen.
Änderung Keine Änderungen des Modelldesigns möglich. Benutzer können das Modell ändern, umholen und anpassen. Benutzer können das Modell nicht ändern.
Gemeinschaft Kleine Gemeinschaftsrolle in der Entwicklung. Starke Gemeinschaftsrolle; Menschen können dazu beitragen. Keine Gemeinschaftsrolle; Unternehmen kontrollieren die Entwicklung.
Benutzerfreundlichkeit Oft einfach zu verwenden, um die Gewichte für die Bereitstellung zu verwenden. Möglicherweise erfordern technische Fähigkeiten und Veränderungen. Normalerweise einfache Schnittstellen, aber begrenzte Optionen.
Kosten Gewichte oft frei; Computerkosten können gelten. Modell normalerweise frei; Pc-/Internet hosting -Kosten können gelten. Normalerweise erfordert eine Zahlung (Lizenz oder Abonnement).
Unterstützung Begrenzte Unterstützung; stützt sich auf Dokumentation oder Foren. Group bietet Unterstützung. Das Unternehmen bietet oft Unterstützung, vielleicht zu zusätzlichen Kosten.
Am besten für Schnelle Verwendung, Ideen versuchen. Forschung, Lernen, Projekte, die Veränderungen benötigen. Unternehmen, die unterstützte Instruments benötigen, ohne sie zu ändern.
Ethik Weniger klare Trainingsdaten oder potenzielle Verzerrungen. Transparenz hilft Group, Ethik zu überprüfen. Der Mangel an Transparenz wirft potenzielle Datenversorgungsbedenken auf.

Was bedeutet es für Entwickler und Forscher?

Die Wahl zwischen offenen Gewichten, Open Supply oder proprietären Modellen beeinflusst die Arbeit. Offene Gewichte können in Ordnung sein, um ein Modell schnell für eine Aufgabe zu verwenden. Open -Supply -Modelle eignen sich intestine für Projekte, die Veränderungen, ein klares Verständnis oder die Group -Hilfe benötigen. Proprietäre Modelle passen dann, wenn die Nutzung und die Unternehmensunterstützung am meisten und Änderungen nicht erforderlich sind.

Diese Wahl beinhaltet auch das Nachdenken über die verantwortungsvolle KI -Entwicklung. Verwenden von Daten truthful, klar über das Coaching und die Sicherstellung der Rechenschaftspflicht ist wichtig. Entwickler sollten über die Auswirkungen ihrer Entscheidungen nachdenken.

Wie verwende ich Modelle mit offenem Gewicht?

Hier sind einfache Beispiele mit dem Umarme Gesichtstransformatoren Bibliothek:

Aufstellen

Installieren Sie zunächst die benötigten Bibliotheken:

!pip set up transformers torch

1. Verwenden von offenen Gewichten

In diesem Beispiel wird Mistral 7B verwendet. Es ist ein Modell mit offenen Gewichten. Wir verwenden es für die Textgenerierung.

Lassen Sie uns das Modell quantisieren, damit es auf lokaler Maschine ausgeführt wird.

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, pipeline

import torch

bnb_config = BitsAndBytesConfig(

   load_in_4bit=True,

   bnb_4bit_quant_type="nf4",

   bnb_4bit_use_double_quant=True,

)

2. Laden des Modells mithilfe von Suggingface -Transformatoren

model_name = "mistralai/Mistral-7B-Instruct-v0.2”

tokenizer = AutoTokenizer.from_pretrained(model_name)

mannequin = AutoModelForCausalLM.from_pretrained(

       model_name,

       load_in_4bit=True,

       quantization_config=bnb_config,

       torch_dtype=torch.bfloat16,

       device_map="auto",

       trust_remote_code=True,

   )

3. Definieren wir die Pipeline für eine einfache Inferenz

pipe = pipeline(

   "text-generation",

   mannequin=mannequin,

   tokenizer = tokenizer,

   torch_dtype=torch.bfloat16,

   device_map="auto"

)

4. Durchführen von Inferenzen

immediate = "As a knowledge scientist, are you able to clarify the idea of regularization in machine studying?"

sequences = pipe(

   immediate,

   do_sample=True,

   max_new_tokens=100,

   temperature=0.7,

   top_k=50,

   top_p=0.95,

   num_return_sequences=1,

)

print(sequences(0)('generated_text'))

Ausgabe

In machine studying, regularization is the method of stopping overfitting.
Overfitting happens when a mannequin is skilled on a particular dataset and
performs effectively on that dataset however doesn't generalize effectively to new, unseen
information. Regularization methods, reminiscent of L1 and L2 regularization, are used
to scale back the complexity of a mannequin and stop it from overfitting.

Wie benutze ich Open -Supply -Modelle?

In diesem Beispiel wird GPT 2 verwendet. Es ist ein Open -Supply -Modell, das hier für die Textgenerierung verwendet wird. Da es sich um Open Supply handelt, können Sie sich seinen Code ansehen oder ihn ändern.

from transformers import TFGPT2LMHeadModel, GPT2Tokenizer

#get massive GPT2 tokenizer and GPT2 mannequin

tokenizer = GPT2Tokenizer.from_pretrained("gpt2-large")

GPT2 = TFGPT2LMHeadModel.from_pretrained("gpt2-large", pad_token_id=tokenizer.eos_token_id)

Textgenerierung durchführen

input_sequence = "I do not find out about you, however there's just one factor I need to do after a protracted day of labor"

# encode context the era is conditioned on

input_ids = tokenizer.encode(input_sequence, return_tensors="tf")

# generate textual content till the output size (which incorporates the context size) reaches 50

greedy_output = GPT2.generate(input_ids, max_length = MAX_LEN)

print(tokenizer.decode(greedy_output(0), skip_special_tokens = True))

Ausgabe

I do not find out about you, however there's just one factor I need to do after a protracted
day of labor: go to the fitness center.

I am not speaking concerning the fitness center that is proper subsequent to my home. I am speaking
concerning the fitness center that is proper subsequent to my workplace.

Daher können wir sehen, dass GPT 2 Textual content erfolgreich erzeugt hat.

Abschluss

Wenn Sie den Unterschied zwischen offenen Gewichten und Open -Supply -Modellen kennen, können Sie durch die Welt der LLMs navigieren. Offene Gewichte ermöglichen einen einfachen Zugriff auf die Verwendung vorgebliebener Modelle. Open -Supply -Modelle bieten Transparenz, die Fähigkeit, Änderungen vorzunehmen und die Unterstützung der Group. Geschlossene Quellmodelle bieten Leichtigkeit und Unterstützung, begrenzen jedoch Zugriff und Kontrolle.

Das Verständnis dieser Optionen hilft Entwicklern und Forschern, den besten Ansatz für ihre Ziele, Ressourcen und Werte zu wählen, wenn die KI weiter wächst. Auch ich warte sehr auf die Realase von Openai’s Neues offenes Gewichtsmodell, lassen Sie mich wissen, was Sie aus dem Modell im Kommentarbereich unten erwarten.

Harsh Mishra ist ein KI/ML -Ingenieur, der mehr Zeit damit verbringt, mit großen Sprachmodellen zu sprechen als mit tatsächlichen Menschen. Leidenschaft über Genai, NLP und Maschinen schlauer (damit sie ihn noch nicht ersetzen). Wenn er Fashions nicht optimiert, optimiert er wahrscheinlich seine Kaffeeaufnahme. 🚀☕

Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert