Verdächtiges Datenmuster bei den jüngsten Wahlen in Venezuela

Luis Zambrano schreibt:

Hier ist ein kleines Juwel zum Thema „Pretend-Statistiken in freier Wildbahn“, das Sie und Ihre Anhänger, glaube ich, zumindest einigermaßen amüsant finden werden.

Angesichts massiver Betrugsvorwürfe bei den jüngsten Wahlen in Venezuela wurde auf Twitter kürzlich eine kuriose „statistische“ Tatsache in Umlauf gebracht, die allein schon ein starker Indikator für eklatanten Wahlbetrug zu sein scheint.

Am Sonntagabend, mehr als sechs Stunden nach Schließung der Wahllokale, verkündete der Präsident der Nationalen Wahlkommission den Wahlsieger: „Nachdem 80 % der Stimmen ausgezählt sind und ein starker und unumkehrbarer Development erkennbar ist, sind hier die offiziellen Ergebnisse der heutigen Abstimmung …“

Additionally… wie wäre es damit? Der Neugier halber erweitern wir die Dezimalzahlen auf die 7. Dezimalstelle:

Das kommt mir komisch vor … Kann es sein, dass jemand, anstatt die Prozentsätze anhand der Stimmenzahl zu berechnen, die Prozentsätze ermittelt und dann die Stimmenzahl berechnet hat?

Machen wir die Übung. Beginnen wir mit der Gesamtzahl der Stimmen und ordnen wir Maduro 51,2 % der Stimmen zu, seinem Hauptgegner 44,2 % und dem Relaxation des Feldes 4,6 %, um zu sehen, wohin uns das führt:

„Ups, es wäre komisch, wenn wir die Dezimalzahlen der Stimmen veröffentlichen würden, runden wir sie einfach auf die nächste Ganzzahl auf“:

Wenn das nicht an sich schon ein Beweis für Betrug ist, weiß ich nicht, was es sonst ist. Wie dem auch sei, das Bild der Chavista-Bosse, die die Ergebnisse mit einer Napkin und ihren Handyrechnern fälschen, erscheint mir ebenso plausibel wie amüsant.

Meine erste Reaktion ist: Nein, ich finde das nicht lustig. Eine politische Partei, die versucht, den Willen der Wähler durch den Einsatz physischer Gewalt und die Leugnung des Wahlergebnisses zu untergraben – das stört mich, wenn man bedenkt, dass es am 6. Januar 2021 in den Vereinigten Staaten passiert ist (siehe hier für eine Überprüfung der Beweise) und es stört mich, dass es gerade in Venezuela in viel extremerer Weise passiert. Ich stimme zu, dass der statistische Fehler irgendwie lustig ist, aber angesichts des verstörenden Kontexts fällt es mir schwer, mich darüber zu amüsieren.

Zambrano fährt fort:

Ich habe ein paar Fragen zu dieser fortlaufenden Geschichte:

1. Wie können wir das Drawback „Wie hoch ist die Wahrscheinlichkeit, dass so etwas zufällig passiert ist?“ lösen? Zuerst dachte ich, es wäre trivial. Aber je mehr ich darüber nachdenke, desto weniger einfach erscheint es mir.

2. Nicht in Bezug auf die scheinbar gefälschten Ergebnisse an sich, aber wenn man sich eine Welt vorstellt, in der die veröffentlichten Ergebnisse korrekt sind, erscheint es dennoch irgendwie ungewöhnlich, dass der Wahlrat einen Sieger in einer ziemlich knappen Wahl (4,6 % Unterschied laut ihnen) ermittelt hat, obwohl noch 20 % der Stimmen zu zählen waren. Mit einer geeigneten Modellierung kann dies wahrscheinlich mit hoher Sicherheit ermittelt werden. Und wir könnten erwarten, dass die Netzwerke, die um die Wette rennen, zuerst eine Entscheidung treffen, um solche Feststellungen zu treffen. Aber es erscheint seltsam aus der Sicht eines unparteiischen und offiziellen Gremiums, das keine Modellannahmen treffen sollte. Es wäre interessant, Ihre Gedanken dazu aus der Sicht eines Statistikers zu erfahren.

1. Ich stimme zu – das ist keine ganz triviale Frage! Man kann es sich zum Beispiel so vorstellen, indem man das Ergebnis in Venezuela vergleicht, bei dem die drei verschiedenen Stimmenzahlen mit einer einzigen Zahl für die Gesamtstimmenzahl übereinstimmen, die mit drei verschiedenen Vielfachen von 1/1000 multipliziert wird, und die jüngste Wahl im Iran, bei der die fünf verschiedenen Stimmenzahlen alle Vielfache von 3 (Sehr naiv betrachtet ergäbe dies einen p-Wert von 1/243, berücksichtigt dabei jedoch nicht die Tatsache, dass es Hunderte anderer Muster gibt, die ebenso bemerkenswert wären).

Wenn Sie einen p-Wert für das venezolanische Ergebnis erhalten möchten, können Sie das tun. . . . Sie müssen mit einem Wahrscheinlichkeitsmodell beginnen, aber das ist ziemlich einfach, da Sie mit jedem Modell im Wesentlichen das gleiche Ergebnis erhalten sollten, da Sie ein sehr lokales Verhalten überprüfen. Additionally, los geht‘s:
a. Beginnen Sie mit 10.058.774 Stimmen. Sie könnten hier auch Zufälligkeit hinzufügen, aber ich denke auch hier nicht, dass das eine Rolle spielt. Sie können es später überprüfen, wenn Sie möchten.
b. Teilen Sie sie nach dem Zufallsprinzip in drei Stapel auf. Die 51,2 % für Maduro sehen ein wenig verdächtig aus, so als wollten sie ihn ungefähr so weit über die 50 %-Grenze bringen, dass es keine Neuauszählung geben würde, und sie wollten auch keinen genauen Prozentsatz. Aber hey, lassen Sie uns einfach Kandidat A einen Stimmenanteil zuweisen, der zufällig zwischen 0,3 und 0,7 verteilt ist, und dann den Anderen einen Stimmenanteil zuweisen, der zufällig zwischen 0,01 und 0,10 verteilt ist. Auch hier können die Particulars keine Rolle spielen. Nehmen Sie diese Stimmenanteile, multiplizieren Sie sie mit 10.058.774 und runden Sie auf die nächste Ganzzahl. Dann nehmen Sie 10.058.774 – Stimmen für A – Stimmen für Andere, und das sind Stimmen für B.
c. Simulieren Sie Schritt b viele Male. Nehmen Sie für jede Simulation den Stimmenanteil für jede der drei Optionen, runden Sie ihn auf die nächsten 0,1 %, multiplizieren Sie ihn mit 10.058.774 und runden Sie ihn auf die nächste Ganzzahl. Wenn diese mit den tatsächlichen Stimmenzahlen übereinstimmen, haben Sie gewonnen.

Hier ist der R-Code (nach sehr kurzer Debugging-Section):

N <- 10058774
S <- 1e6
A <- spherical(N*runif(S, 0.30, 0.70))
C <- spherical(N*runif(S, 0.01, 0.10))
B <- N - A - C
A_round <- spherical(spherical(A/N, 3)*N)
B_round <- spherical(spherical(B/N, 3)*N)
C_round <- spherical(spherical(C/N, 3)*N)
sum(A_round==A & B_round==B & C_round==C)

Uuuuund das Ergebnis ist … 0. Das ist richtig: eine Million Simulationen, und nicht ein einziges Mal funktioniert diese Rundungssache.

Wir können das auch mit ein bisschen Mathematik überprüfen. Es gibt 1001 mögliche Stimmenzahlen, die man erhalten kann, indem man Prozentzahlen rundet, die ein Vielfaches von 0,01 sind, und es gibt 10.058.775 mögliche Stimmenzahlen, die man erhalten kann. Die Wahrscheinlichkeit, genau richtig zu liegen, liegt additionally bei ungefähr 1000/10.058.774, additionally etwa 1 zu 10.000. Die Wahrscheinlichkeit, dass Kandidat A und B beide dort landen, liegt additionally bei ungefähr (1/10.000)^2 oder 1 zu 100 Millionen. Und dann sollte Kandidat C automatisch funktionieren.

Und tatsächlich gibt es in der obigen Simulation etwa 100 Fälle, in denen der Stimmenanteil von Kandidat A möglichst genau auf ein Vielfaches von 0,001 genau übereinstimmt, und etwa 100 Fälle, in denen der Stimmenanteil von Kandidat B nicht übereinstimmt; sie treten nur zufällig nicht gleichzeitig auf.

Ich bin nicht der größte Fan von p-Werten, aber mein Korrespondent hat gefragt, additionally hier meine Antwort: Die Wahrscheinlichkeit, dass dieses spezielle Muster zufällig auftritt, liegt ungefähr bei 1 zu 100 Millionen.

Und um für einen Second meine Bayes-Perspektive aufzusetzen: Ja, es scheint tatsächlich eine believable Möglichkeit zu geben, wie diese Zahlen zustande gekommen sein könnten, wenn es Betrug gab, genau wie Zambrano oben spekuliert hat.

2. Ich stimme zu. Geben Sie den Gewinner erst bekannt, wenn alle oder quick alle Stimmen ausgezählt sind.

PS Ich habe keine dieser Nummern selbst überprüft. Ich gehe davon aus, dass die Screenshots, die Zambrano geschickt hat, echt sind. Wenn er mich hier betrügt, werde ich richtig wütend!

PPS Kommentator Ryan weist darauf hin dass man dieses Datenmuster auch als Ergebnis schlampiger Nachbearbeitung erklären könnte, wenn die Stimmen richtig gezählt, dann auf den nächsten Prozentpunkt gerundet gemeldet würden und dann ein Vermittler die (gerundeten) Prozentsätze irrtümlich mit der Gesamtstimmenzahl multipliziert und das gemeldet hätte. Ich habe keine Ahnung; Sie würden wissen wollen, woher diese konkreten Zahlen stammen.

Verdächtiges Datenmuster bei den jüngsten Wahlen in Venezuela

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

So erstellen Sie einen erweiterten, interaktiven Workflow für die explorative Datenanalyse mithilfe von PyGWalker und Characteristic-Engineered-Daten

KI, die Forschungsdiagramme automatisch generiert

Airbnb führt weltweit versatile Zahlungsoptionen ein

Lernen Sie Python, SQL und PowerBI, um diese Woche KOSTENLOS ein zertifizierter Datenanalyst zu werden

About

Categories

Tags

Recent Post

So erstellen Sie einen erweiterten, interaktiven Workflow für die explorative Datenanalyse mithilfe von PyGWalker und Characteristic-Engineered-Daten

KI, die Forschungsdiagramme automatisch generiert

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt