In diesem Aufsatz soll die Entwicklung der Algorithmen word2vec und GloVe im Hinblick auf einen sekundären Zweck erörtert werden, für den diese Algorithmen eingesetzt wurden: die Analyse von Konzepten in Textkorpora. Zunächst wird der word2vec-Algorithmus im Lichte seines historischen Kontexts erörtert. Anschließend wird die Analogievervollständigungsaufgabe beschrieben, die das Potenzial der semantischen Arithmetik hervorhob, die mit word2vec-Einbettungen möglich ist. Abschließend wird die Entwicklung des GloVe-Algorithmus mit der des word2vec-Algorithmus verglichen.
Der word2vec-Algorithmus (Mikolov et al., 2013a) kombiniert zwei wichtige technische Erkenntnisse: (1) kontinuierliche Vektoren können zur Darstellung semantischer Informationen verwendet werden (2) und die von neuronalen Netzwerken erlernten internen Darstellungen sind konzeptionell sinnvoll. Als der Algorithmus 2013 eingeführt wurde, waren jedoch weder die kontinuierliche Darstellung semantischer Informationen noch der konzeptionelle Wert interner Darstellungen neue Ideen. Genauer gesagt wurden im Bereich der Informationsbeschaffung die latente semantische Analyse (LSA; Deerwester et al., 1990) und die latente Dirichlet-Allokation (Blei et al., 2003) als statistische Methoden vorgeschlagen, die die in Texten latenten semantischen Informationen nutzen, um Methoden zu verbessern, die Wörter als indexikalische Merkmale behandelten (die existieren…