

Bild vom Herausgeber
# Einführung
Daten stehen im Mittelpunkt der Arbeit eines jeden Datenexperten. Ohne nützliche und valide Datenquellen können wir unserer Verantwortung nicht nachkommen. Darüber hinaus führen minderwertige oder irrelevante Daten nur dazu, dass unsere Arbeit verschwendet wird. Deshalb ist der Zugriff auf zuverlässige Datensätze ein wichtiger Ausgangspunkt für Datenexperten.
Information Commons ist eine Open-Supply-Initiative von Google, um die weltweit verfügbaren Daten zu organisieren und für jedermann zugänglich zu machen. Es ist für jedermann kostenlos, öffentlich verfügbare Daten abzufragen. Der Unterschied zwischen Information Commons und anderen öffentlichen Datensatzprojekten besteht darin, dass die schematische Arbeit bereits ausgeführt wird und die Daten somit viel schneller einsatzbereit sind.
Angesichts des Nutzens von Information Commons für unsere Arbeit wird der Zugriff darauf für viele Datenaufgaben immer wichtiger. Glücklicherweise stellt Information Commons einen neuen Python-API-Consumer für den Zugriff auf diese Datensätze bereit.
# Zugriff auf Information Commons mit Python
Information Commons organisiert Daten in einem abfragbaren Wissensgraphen, der Informationen aus verschiedenen Quellen vereint. Im Kern nutzt es das schemabasierte Modell von schema.org Datendarstellungen zu standardisieren.
Mithilfe dieses Schemas kann Information Commons Daten aus verschiedenen Quellen in einem einzigen Diagramm verbinden, in dem Knoten Entitäten (wie Städte, Orte und Personen), Ereignisse und statistische Variablen darstellen. Kanten stellen die Beziehungen zwischen diesen Knoten dar. Jeder Knoten ist einzigartig und durch eine DCID (Information Commons ID) identifizierbar, und viele Knoten enthalten Beobachtungen – Messungen, die mit der Variablen, der Entität und dem Zeitraum verknüpft sind.
Mit der Python-API können wir einfach auf den Wissensgraphen zugreifen, um die erforderlichen Daten zu erfassen. Probieren wir mal aus, wie wir das machen können.
Zuerst müssen wir ein kostenloses erwerben API-Schlüssel um auf Information Commons zuzugreifen. Erstellen Sie ein kostenloses Konto und kopieren Sie den API-Schlüssel an einen sicheren Ort. Sie können auch die verwenden Check-API-Schlüsselaber der Zugang ist eingeschränkter.
Als nächstes installieren Sie die Information Commons Python-Bibliothek. Wir werden den V2-API-Consumer verwenden, da es sich um die aktuellste Model handelt. Führen Sie dazu den folgenden Befehl aus, um den Information Commons-Consumer mit optionaler Unterstützung für zu installieren Pandas Auch DataFrames.
pip set up "datacommons-client(Pandas)"
Wenn die Bibliothek installiert ist, können wir Daten mit dem Information Commons Python-Consumer abrufen.
Führen Sie den folgenden Code aus, um den Consumer zu erstellen, der auf die Daten aus der Cloud zugreift.
from datacommons_client.shopper import DataCommonsClient
shopper = DataCommonsClient(api_key="YOUR-API-KEY")
Eines der wichtigsten Konzepte in Information Commons ist die Entität, die sich auf eine dauerhafte und physische Sache in der realen Welt bezieht, beispielsweise eine Stadt oder ein Land. Es wird zu einem wichtigen Bestandteil beim Abrufen von Daten, da die meisten Datensätze die Angabe der Entität erfordern. Sie können die besuchen Information Commons Place Seite, um mehr über alle verfügbaren Entitäten zu erfahren.
Für die meisten Benutzer sind die Daten, die wir erfassen möchten, spezifischer: die in Information Commons gespeicherten statistischen Variablen. Um die Daten auszuwählen, die wir abrufen möchten, müssen wir die DCID der statistischen Variablen kennen, die Sie über finden können Statistischer Variablen-Explorer.

Sie können Variablen filtern und einen Datensatz aus den oben genannten Optionen auswählen. Wählen Sie beispielsweise den Datensatz der Weltbank für „Geldautomaten professional 100.000 Erwachsene“. In diesem Fall können Sie die DCID erhalten, indem Sie die im Explorer bereitgestellten Informationen überprüfen.

Wenn Sie auf die DCID klicken, können Sie alle Informationen zum Knoten sehen, einschließlich der Verbindung zu anderen Informationen.

Für die statistische Variable DCID müssen wir auch die Entitäts-DCID für die Geografie angeben. Wir können die oben erwähnte Information Commons Place-Seite erkunden oder den folgenden Code verwenden, um die verfügbaren DCIDs für einen bestimmten Ortsnamen anzuzeigen.
# Lookup DCIDs by place identify (returns a number of candidates)
resp = shopper.resolve.fetch_dcids_by_name(names="Indonesia").to_dict()
dcid_list = (c("dcid") for c in resp("entities")(0)("candidates"))
print(dcid_list)
Mit einer Ausgabe ähnlich der folgenden:
('nation/IDN', 'geoId/...' , '...')
Mit dem obigen Code rufen wir die DCID-Kandidaten ab, die für einen bestimmten Ortsnamen verfügbar sind. Unter den Kandidaten für „Indonesien“ können wir beispielsweise auswählen nation/IDN als Länder-DCID.
Alle benötigten Informationen stehen nun bereit und wir müssen nur noch den folgenden Code ausführen:
variable = ("worldBank/GFDD_AI_25")
entity = ("nation/IDN")
df = shopper.observations_dataframe(
variable_dcids=variable,
date="all",
entity_dcids=entity
)
Das Ergebnis ist im folgenden Datensatz dargestellt.

Der aktuelle Code gibt alle verfügbaren Beobachtungen für die ausgewählten Variablen und Entitäten über den gesamten Zeitraum zurück. Im obigen Code werden Sie außerdem feststellen, dass wir Pay attention statt einzelner Strings verwenden.
Dies liegt daran, dass wir mehrere Variablen und Entitäten gleichzeitig übergeben können, um einen kombinierten Datensatz zu erhalten. Der folgende Code ruft beispielsweise zwei unterschiedliche statistische Variablen und zwei Entitäten gleichzeitig ab.
variable = ("worldBank/GFDD_AI_25", "worldBank/SP_DYN_LE60_FE_IN")
entity = ("nation/IDN", "nation/USA")
df = shopper.observations_dataframe(
variable_dcids=variable,
date="all",
entity_dcids=entity
)
Mit einer Ausgabe wie der folgenden:

Sie können sehen, dass der resultierende DataFrame die zuvor festgelegten Variablen und Entitäten kombiniert. Mit dieser Methode können Sie die benötigten Daten erfassen, ohne für jede Kombination separate Abfragen ausführen zu müssen.
Das ist alles, was Sie über den Zugriff auf Information Commons mit dem neuen Python-API-Consumer wissen müssen. Nutzen Sie diese Bibliothek immer dann, wenn Sie für Ihre Arbeit zuverlässige öffentliche Daten benötigen.
# Zusammenfassung
Information Commons ist ein Open-Supply-Projekt von Google mit dem Ziel, den Datenzugriff zu demokratisieren. Das Projekt unterscheidet sich grundsätzlich von vielen öffentlichen Datenprojekten, da die Datensätze auf einem Information-Graph-Schema aufbauen, was die Vereinheitlichung der Daten erleichtert.
In diesem Artikel haben wir untersucht, wie man mit Python auf Datensätze innerhalb des Diagramms zugreift und dabei statistische Variablen und Entitäten nutzt, um Beobachtungen abzurufen.
Ich hoffe, das hat geholfen!
Cornellius Yudha Wijaya ist stellvertretender Supervisor und Datenautor im Bereich Information Science. Während er Vollzeit bei Allianz Indonesia arbeitet, teilt er gerne Python- und Datentipps über soziale Medien und Schreibmedien. Cornellius schreibt über eine Vielzahl von Themen zu KI und maschinellem Lernen.
