Studie: Datensätze zum Trainieren großer Sprachmodelle sind oft nicht clear | MIT Information
Um leistungsfähigere große Sprachmodelle zu trainieren, verwenden Forscher umfangreiche Datensatzsammlungen, die unterschiedliche Daten aus Tausenden von Webquellen kombinieren. Doch wenn diese Datensätze immer wieder zu mehreren Sammlungen kombiniert werden, gehen…