In einem Satz liefern viele Informationen, wie das, was sie in der realen Welt bedeuten, wie sie sich mit anderen Wörtern verbinden, wie sie die Bedeutung anderer Wörter verändern, und manchmal kann ihre wahre Bedeutung mehrdeutig sein und sogar Menschen verwirren!

All dies muss herausgefunden werden, um Anwendungen mit zu erstellen Natürliches Sprachverständnis Fähigkeiten. Drei Hauptaufgaben helfen dabei, verschiedene Arten von Informationen aus dem Textual content zu erfassen:
- STEC-STECKGING (POS) -Tagging
- Abhängigkeits Parsen
- Genannte Entitätserkennung
Teil des Sprachausschusses (POS)

Beim POS -Tagging klassifizieren wir Wörter in bestimmten Kategorien, basierend auf ihrer Funktion in einem Satz. Zum Beispiel möchten wir ein Substantiv von einem Verb differenzieren. Dies kann uns helfen, die Bedeutung eines Textes zu verstehen.
Die häufigsten Tags sind die folgenden.
- SUBSTANTIV: Nennt eine Particular person, einen Ort, eine Sache oder eine Idee (zB „Hund“, „Stadt“).
- VERB: Beschreibt eine Aktion, einen Zustand oder ein Vorkommen (z. B. „rennen“, „IS“).
- Adj: Verändert ein Substantiv, um seine Qualität, Quantität oder Ausdehnung zu beschreiben (z. B. „groß“, „glücklich“).
- Adv: Ändert ein Verb, ein Adjektiv oder ein anderes Adverb, was häufig auf Artwork, Zeit oder Abschluss hinweist (z. B. „schnell“, „sehr“).
- Pron: Ersetzt ein Substantiv- oder Substantivphrase (z. B. „er“, „sie“).
- Det: Führt oder gibt ein Substantiv ein (z. B. „The“, „A“).
- ADP: Zeigt die Beziehung eines Substantivs oder eines Pronomen zu einem anderen Wort (z. B. „in“, „on“).
- Num: Repräsentiert eine Zahl oder Menge (z. B. „eins“, „fünfzig“).
- Konj: Verbindet Wörter, Phrasen oder Klauseln (z. B. „und“, „aber“).
- Prt: Ein Teilchen, oft Teil einer Verbphrase oder Präposition (z. B. „Up“ in „aufgeben“).
- Punktieren: Markierende Interpunktionsymbole (z. B. „.“, „,“).
- X: Catch-All für andere oder unklare Kategorien (z. B. Fremdwörter, Symbole).
Diese werden genannt Universelle Tags. Dann kann jede Sprache detailliertere Tags haben. Zum Beispiel können wir das „Substantiv“ -Tag erweitern, um die Singular-/Pluralinformationen usw. hinzuzufügen.
In Spacy -Tags werden Tags mit Akronymen wie „VBD“ dargestellt. Wenn Sie sich nicht sicher sind, worauf ein Akronym bezieht, können Sie Spacy bitten, mit spacy.clarify () zu erklären, um zu erklären.
Lassen Sie uns einige Beispiele sehen.
import spacy
spacy.clarify("VBD")
>>> verb, previous tense
Versuchen wir nun, die POS -Tags eines gesamten Satzes zu untersuchen
nlp = spacy.load("en_core_web_sm")
doc = nlp("I like Rome, it's the finest metropolis on the earth!"
)
for token in doc:
print(f"{token.textual content} --> {token.tag_}--> {spacy.clarify(token.tag_)}")

Das Tag eines Wortes hängt von den Wörtern in der Nähe, ihren Tags und dem Wort selbst ab.
POS -Tagger basieren auf statistischen Modellen. Wir haben hauptsächlich
- Regelbasierte Tagger: Verwenden Sie handgefertigte sprachliche Regeln (z. B. „Ein Wort nach ‚das‘ ist oft ein Substantiv“).
- Statistische Tagger: Verwenden Sie probabilistische Modelle wie Hidden Markov -Modelle (HMMS) oder bedingte Zufallsfelder (CRFs), um Tags auf der Grundlage von Wort- und Tag -Sequenzen vorherzusagen.
- Neuronale Netzwerk-Tagger: Verwenden Sie Deep-Studying-Modelle wie rezidische neuronale Netzwerke (RNNs), Lengthy Quick-Time period Reminiscence (LSTM) -Netzwerke oder Transformers (z. B. Bert), um Kontext zu erfassen und Tags vorherzusagen.
Abhängigkeits Parsen
Mit POS -Tagging können wir die Wörter im Out -Dokument kategorisieren, aber wir wissen nicht, welche Beziehungen zu den Wörtern sind. Genau das tut die Abhängigkeits -Parsen. Dies hilft uns, die Struktur eines Satzes zu verstehen.
Wir können eine Abhängigkeit als direkte Kante/Hyperlink denken, die von einem übergeordneten Wort zu einem Variety übergeht, das die Beziehung zwischen den beiden definiert. Aus diesem Grund verwenden wir Abhängigkeitsbäume, um die Struktur von Sätzen darzustellen. Siehe das folgende Bild.

In einer Abhängigkeitsbeziehung haben wir immer eine ElternteilAlso nannte das Kopfund a abhängigauch die genannt Variety. In der Phrase „Crimson Automobile“ ist Auto der Kopf und rot ist das Variety.

In Spacy wird dem Variety immer zugewiesen und kann mit dem Attribut zugegriffen werden token.dep_
doc = nlp("purple automotive")
for token in doc:
print(f"{token.textual content}, {token.dep_} ")
>>> purple, amod
>>> automotive, ROOT
Wie Sie in einem Satz sehen können, hat das Hauptwort, normalerweise ein Verb, in diesem Fall ein Substantiv, die Rolle der Wurzel. Aus der Wurzel bauen wir unseren Abhängigkeitsbaum auf.
Es ist wichtig zu wissen, dass ein Wort mehrere Kinder haben kann, aber nur einen Elternteil.
Additionally in diesem Fall was das macht Amod Beziehung sagt es uns?
Die Beziehung gilt, ob die Bedeutung des Substantivs auf kompositorische Weise modifiziert wird (z. B., z. Großes Haus) oder eine idiomatische Artwork (Sizzling Canines).
In der Tat ist das „Rot“ ein Wort, das das Wort „Auto“ ändert, indem einige Informationen hinzugefügt werden.
Ich werde jetzt die grundlegendste Beziehung auflisten, die Sie in einer Abhängigkeits -Parsen und ihrer Bedeutung finden können.
FOT eine umfassende Liste Überprüfen Sie diese Web site: https://universaldependencies.org/u/dep/index.html
- Wurzel
- Bedeutung: Das Hauptprädikat oder Kopf des Satzes, typischerweise ein Verb, das den Abhängigkeitsbaum verankert.
- Beispiel: In „She Runs“ ist „Runs“ die Wurzel.
- nsubj (Nominales Subjekt)
- Bedeutung: Eine Substantivphrase, die als Gegenstand eines Verbs fungiert.
- Beispiel: In „The Cat Sleeps“ ist „Katze“ der Nsubj von „Sleeps“.
- obj (Objekt)
- Bedeutung: Eine Substantivphrase, die direkt die Aktion eines Verbs erhält.
- Beispiel: In „Sie tritt den Ball“, „Ball“ ist das Obj von „Kicked“.
- IOBJ (Indirektes Objekt)
- Bedeutung: Eine Nominalphrase, die indirekt vom Verb betroffen ist, oft ein Empfänger.
- Beispiel: In „Sie hat ihm ein Buch gegeben“ ist „er“ der IOBJ von „Gegeben“.
- obl (Schräg nominal)
- Bedeutung: Eine Substantivphrase, die als Nicht-Kern-Argument oder Zusatz (z. B. Zeit, Ort) fungiert.
- Beispiel: In „Sie rennt im Park“, „Park“ ist die OBL von „Runs“.
- advmod (Adverbialmodifikator)
- Bedeutung: Ein Adverb, das ein Verb, ein Adjektiv oder ein Adverb modifiziert.
- Beispiel: In „Sie rennt schnell“, „schnell“ ist der Advmod von „Runs“.
- Amod (Adjektivmodifikator)
- Bedeutung: Ein Adjektiv, das ein Substantiv modifiziert.
- Beispiel: In „A Crimson Apple“ ist „Rot“ die Amod von „Apple“.
- det (Determiner)
- Bedeutung: Ein Wort, das die Referenz eines Substantivs angibt (z. B. Artikel, Demonstrationen).
- Beispiel: In „The Cat“ ist „The“ der Det von „Cat“.
- Fall (Fallmarkierung)
- Bedeutung: Ein Wort (z. B. Präposition), das die Rolle einer Substantivphrase markiert.
- Beispiel: In „im Park“ ist „in“ der Fall „Park“.
- Konj (Konjunkt)
- Bedeutung: ein koordiniertes Wort oder eine Phrase, die über eine Konjunktion verknüpft ist.
- Beispiel: In „She Runs and Jumps“ ist „Jumps“ die Konjunktur „Runs“.
- CC (Koordinierende Konjunktion)
- Bedeutung: Eine Konjunktion, die koordinierte Elemente verbindet.
- Beispiel: In „She Runs and Jumps“ ist „und“ der CC.
- Aux (Hilfs)
- Bedeutung: Ein Hilfsverb, das das Hauptverb (Zeitform, Stimmung, Aspekt) unterstützt.
- Beispiel: In „Sie hat gegessen“ ist „Has“ der Aux von „Eaten“.
Wir können den Abhängigkeitsbaum in Spacy mit dem visualisieren Anzeige Modul. Lassen Sie uns ein Beispiel sehen.
from spacy import displacy
sentence = "A dependency parser analyzes the grammatical construction of a sentence."
nlp = spacy.load("en_core_web_sm")
doc = nlp(sentence)
displacy.serve(doc, type="dep")

Genannte Entitätserkennung (NER)
Ein POS -Tag bietet Informationen über die Rolle eines Wortes in einem Satz. Wenn wir NER ausführen, suchen wir nach Wörtern, die Objekte in der realen Welt darstellen: einen Firmennamen, einen Eigennamen, einen Ort usw.
Wir beziehen uns auf diese Wörter als genannte Entität. Siehe dieses Beispiel.

Im Satz “Rom ist die Hauptstadt Italiens„Rom und Italien werden als Entität bezeichnet, während es nicht daran liegt, dass es ein generisches Substantiv ist.
Spacy unterstützt bereits viele genannte Entitäten, um sie zu visualisieren:
nlp.get_pipe("ner").labels
Benannte Entität ist in Spacy mit dem zugänglich doc.ents Attribut
sentence = "A dependency parser analyzes the grammatical construction of a sentence."
nlp = spacy.load("en_core_web_sm")
doc = nlp("Rome is the bast metropolis in Italy based mostly on my Google search")
doc.ents
>>> (Rome, Italy, Google)
Wir können auch bitten, dass Spacy eine Erklärung zu den genannten Einheiten gibt.
doc(0), doc(0).ent_type_, spacy.clarify(doc(0).ent_type_)
>>> (Rome, 'GPE', 'Nations, cities, states')
Auch hier können wir uns auf die Unzufriedenheit verlassen, um die Ergebnisse von NER zu visualisieren.
displacy.serve(doc, type="ent")

Letzte Gedanken
Zu verstehen, wie Sprache strukturiert ist und wie sie funktioniert, ist der Schlüssel zum Erstellen besserer Instruments, die auf sinnvolle Weise mit Textual content umgehen können. Techniken wie Teil des Speech-Taggings, Abhängigkeitsanalyse und benannte Entitätserkennung helfen dabei, Sätze abzubauen, damit wir sehen können, wie Wörter funktionieren, wie sie sich verbinden und auf welche realen Dinge sie sich beziehen.
Diese Methoden geben uns eine praktische Möglichkeit, nützliche Informationen aus dem Textual content herauszuholen, wie zu identifizieren, wer was an wem getan wurde, oder Namen, Daten und Orte zu entdecken. Bibliotheken wie Spacy erleichtern es einfacher, diese Ideen zu erforschen, und bieten klare Möglichkeiten, um zu sehen, wie Sprache zusammenpasst.
