So können Sie anhand von Wikipedia-Daten die Popularität von Spitzensportlern und olympischen Sportarten visualisieren
Wir haben gerade drei wunderbare Sportwochen erlebt, als die Olympischen Spiele 2024 in Paris stattfanden. Millionen von Menschen verfolgten die Streams und feuerten ihre Favoriten an. Gleichzeitig sahen wir, wie bekannte Namen wieder alles gaben und die nächste Era statistischer Athleten heranwuchs.
Als neugieriger Datenwissenschaftler begann ich mich zu fragen, wie sich die kollektive Meinung dahinter entwickelt – welche Sportarten sind die beliebtesten und welche Sportler sind auf dem Vormarsch? Um dies mit Daten zu untermauern, beschloss ich, eine umfangreiche Datensammlung aus Wikipedia durchzuführen, die sowohl Wikipedia-Profile als auch Informationen zu Aufrufzahlen enthält, und dann die Popularität verschiedener Sportarten sowie Spitzensportler zu vergleichen. Nachfolgend finden Sie meine Ergebnisse und den gesamten Python-Code, der zur Reproduktion dieser Ergebnisse erforderlich ist.
Alle Bilder wurden vom Autor erstellt.
Besuchen wir zunächst die Wikipedia-Seite der Olympischen Sommerspiele 2024 und laden sie mithilfe der Requests-Bibliothek herunter. Dann verwende ich das BeautifulSoup-Paket, um Informationen aus dem HTML zu extrahieren – nämlich die Liste aller Sommersportarten und ihre Wiki-Website-Hyperlinks. Um die Sportarten zu extrahieren, folge ich zusätzlich meinem Handbuch…