Willkommen zum zweiten Teil unserer NLP-Reihe. Wenn du erwischt hast Teil 1Sie werden sich erinnern, dass die Herausforderung, der wir uns stellen, darin besteht, Textual content in Zahlen zu übersetzen, damit wir ihn in unsere Modelle für maschinelles Lernen oder neuronale Netze einspeisen können.
Zuvor haben wir einige grundlegende (und ziemlich naive) Ansätze hierfür untersucht, wie Bag of Phrases und TF-IDF. Obwohl diese Methoden ihre Aufgabe erfüllen, haben wir auch ihre Grenzen gesehen – vor allem, dass sie die tiefere Bedeutung von Wörtern oder die Beziehungen zwischen ihnen nicht erfassen.
Hier ist Worteinbettungen Kommen Sie ins Spiel. Sie bieten eine intelligentere Möglichkeit, Textual content als Zahlen darzustellen und erfassen nicht nur die Wörter selbst, sondern auch ihre Bedeutung und ihren Kontext.
Lassen Sie es uns mit einer einfachen Analogie aufschlüsseln, die dieses Konzept sehr intuitiv macht.
Stellen Sie sich vor, wir möchten Filme als Zahlen darstellen. Nimm den Movie Messer raus als Beispiel.
Wir können einen Movie numerisch darstellen, indem wir ihn anhand verschiedener Merkmale bewerten, z. B.