R-Code zum Extrahieren von Daten aus einzigartigen Datensätzen und deren Kombination in einem harmonisierten Datensatz, der für eine nahtlose Analyse bereit ist
Meine akademische Forschung umfasst überwiegend die Identifizierung von Datensätzen für die Gesundheitsforschung, deren Harmonisierung und die Kombination (Pooling) der einzelnen Datensätze, um sie gemeinsam zu analysieren. Dies bedeutet, Datensätze über Bevölkerungsgruppen, Studienorte oder Länder hinweg zu kombinieren. Es bedeutet auch, Variablen zu kombinieren, damit sie gemeinsam effektiv analysiert werden können. Mit anderen Worten, ich arbeite im Bereich Datenpooling, wo ich seit 2017 hauptberuflich tätig bin.
Ich werde die Methodik skizzieren, die ich anwende, um Daten aus einzelnen Datensätzen zu extrahieren und die einzelnen Datensätze zu einem gepoolten Datensatz zu kombinieren, der für die Analyse bereit ist. Dies basiert auf über sieben Jahren Erfahrung in akademischen Umgebungen weltweit. Diese Geschichte enthält Code in R.
Datenpooling – was ist das?
In den meisten Fällen erfassen wir neue Daten (Primärdatenerfassung) oder arbeiten nur mit einem Datensatz, der bereits für die Analyse verfügbar ist. Dieser eine Datensatz kann von einem Krankenhaus, einer bestimmten Bevölkerung (z. B. einer in einer Gemeinde durchgeführten epidemiologischen Studie) oder einer landesweit durchgeführten Gesundheitsumfrage (z. B. einer landesweit repräsentativen Gesundheitsumfrage) stammen.