Hier am MIT veranstalten wir wieder die Konferenz über digitale Experimente (Code@MIT) diesen Herbst. Im Rahmen der Frist für Einreichungen am 12. September sprach das Organisationsteam einige Zeit mit Experten in der Industrie über relevante Themen, die auf der Konferenz möglicherweise unterrepräsentiert wurden. Mein Mitorganisator David Holtz schrieb über drei Themen Das kam auf, aber ich wollte hier ein bisschen mehr über einen sagen.
Eines der Dinge, die wir auf der Konferenz mehr sehen können – und ich würde gerne mehr in der akademischen Literatur und in der angewandten Praxis sehen – ist, über Experimente auf der Ebene eines gesamten Programms oder eines gesamten Experimentierens zu experimentieren.
Menschen versuchen oft, einzelne Experimente zu bewerten, um herauszufinden, ob sie sich lohnen oder wie viel Wert sie hinzugefügt haben. Vielleicht probierst du etwas Neues aus, das viele Menschen skeptisch waren, und das Experiment zeigt, dass es intestine funktioniert. Vielleicht häufiger beibehalten Sie die Nullhypothese ohne Wirkung und – wenn Sie Ihr Experiment angemessen angemessen haben – kann dies widerspiegeln, dass dies ein Beweis gegen einen „lohnenden“ Effekt ist. Und dann scheint eine Idee manchmal eine offensichtliche Verbesserung zu sein, aber es ist – zumindest in ihrer tatsächlich vorhandenen Model – wirklich schlecht und das Experiment rettet Sie davor, etwas Schädliches blind zu starten.
Sicher, wir können uns auf ein einzelnes Experiment konzentrieren und sehen, wo es zu diesen passt, aber es kann nützlicher sein, auf einem höheren Analyseebene darüber nachzudenken. Diese „offensichtliche Verbesserung“, die sich als schlecht herausstellte, ist etwas, auf das wir in der Lage sein könnten, mit Hilfe einer Reihe von Experimenten eine Model zu ergeben, die funktioniert. Und wenn wir zeigen, dass die Idee, die jeder gegenüber Werken struggle, möglicherweise mehr Menschen ermöglichen, Dinge auszuprobieren. Die daraus resultierende Reihe vieler Experimente wird wahrscheinlich viele Duds haben, aber auch nur viel mehr Dinge ausprobieren. Viele Experimente bieten uns auch mehr Likelihood, die Auswirkungen auf das zu schätzen, was uns wirklich wichtig ist – während viele einzelne Experimente für diesen Zweck möglicherweise zu kurz oder zu klein sein könnten.
Ich habe das Gefühl, dass dies normalerweise nicht das ist, was Statistiken, Ökonometrie usw. betrachten. In dem Maße, in dem sich eine Folge von Experimenten konzentriert, liegt es häufig im schmalen Rahmen von etwas bewaffneten Banditenproblemen und Bayesian-Optimierung-was wertvolle Werkzeuge sein kann, aber nicht so mit dem chaotischeren, kreativeren Innovationsprozess und Produktexperimenten verbunden ist. Und sie lassen uns nicht ohne weiteres über viele, scheinbar nicht verwandte Experimente nachdenken, die von derselben Organisation mit (teilweise) gemeinsamen Zielen durchgeführt wurden.
Hier sind einige Arbeiten, die für ganze Experimentenprogramme interessante quantitative oder methodische Linsen verleihen.
In „A/B -Checks mit fetten Schwänzen“Eduardo Azevedo, Alex Deng, José Luis Montiel Olea, Justin Rao und Glen Weyl überlegen, wie sich die Verteilung der Qualität (dh durchschnittliche Behandlungseffekte) neuer Ideen auf eine optimale Experimentierungsstrategie auswirkt. Wenn die Verteilung der Behandlungseffekte sehr schwere Schwänze aufweist, gibt es einige wirklich gute Ideen (na ja und einige wirklich schlechte) gemischt. Selbst kleine Experimente könnten dann intestine betrieben werden, um diese großen Effekte zu erkennen und diese zu finden, die den größten Teil des Wertes bieten. Ich magazine das konzeptionell sehr – und es ist schön, einige Daten über diese Verteilung zu haben. Aus diesem Grund habe ich diese Verteilung normalerweise (neben ein paar anderen) beim Unterrichten von Analysen:
Andere haben nachverfolgt auf diese Idee. Diese abstrakte Model des Issues entspricht meiner Meinung nach jedoch nicht viel Produktinnovation und Experimente. Sicher, Anfängerxperimentatoren sind oft besorgt über „überlappende“ Experimente, sodass alle ihre Experimente ausschließlich, nicht überlappend machen, und damit einen Kompromiss zwischen der Anzahl der Experimente und der Stichprobengröße professional Experiment erzeugt. Dies kann in einigen Fällen erforderlich sein, wenn zwei Innovationen tatsächlich ausschließt (nur ein Audiokomprimierungsalgorithmus kann gleichzeitig verwendet werden, und es kann einem Benutzer gleichzeitig nur ein Inhaltsranking angezeigt werden). Aber viele Experimente sollten wirklich unabhängig durchgeführt werden. Mir ist mir additionally nicht klar, dass dies der wahre Kompromiss in dieser State of affairs ist. Trotzdem kann es noch andere Arten von Budgetbeschränkungen für Experimente geben, die zu verwandten Schlussfolgerungen führen könnten.
In „Bewertung von Entscheidungsregeln in vielen schwachen Experimenten“Winston Chou, Colin Grey, Nathan Kallus, Aurélien Bibaut und Simon Ejdemyr überlegen, wie die Entscheidungsregeln, die verwendet werden, um Startentscheidungen zu treffen, empirisch bewerten und optimieren, sobald ein Crew ein Experiment durchführt. In der Praxis sind diese Entscheidungsregeln häufig eine Kombination aus dem Begin, wenn es statistisch signifikante constructive Auswirkungen auf einige Proxy -Metrik gibt, häufig ohne einen erkannten negativen Effekt auf eine Leitplanke. Es ist leicht zu erkennen, dass dies zu seltsamen Entscheidungen führen kann, die ein Bayes’sche Entscheidungsträger nicht treffen würde (Integrieren Sie Ihre Verlustfunktion immer über Ihren hinteren). Aber kann eine so einfache Regel eine gute empirische Leistung in Bezug auf die aggregierten Auswirkungen auf die Hauptmetrik des Interesses haben? Ja, aber die Standing Quo -Regel ist in dieser Entrance möglicherweise nicht die beste – und ist möglicherweise ziemlich schlecht. Wie in diesem Papier hervorhebt, kann die naive Bewertung einer Entscheidungsregel die Bewertung durchaus falsch machen. Dies liegt daran, dass viele der Experimente für die Auswirkungen auf die Hauptmetrik des Interesses untermacht werden, sodass es einen klaren „Gewinner des Gewinners“ geben kann. Und in einem Phänomen, das mit schwachen Instrumenten zusammenhängt, wird die naive Bewertung häufig falsch schätzt, wie diagnostisch die in einer Entscheidungsregel verwendeten Proxies um diese Auswirkungen sind. Dieses Papier bietet additionally einige bessere Möglichkeiten, um die aggregierten Auswirkungen der Anwendung einer Entscheidungsregel auf viele Experimente anzuwenden. (Es sagt uns jedoch nicht wirklich, ob wir die richtigen Experimente durchführten.)
Es wäre großartig, mehr methodische Arbeiten an Experimentierprogrammen zu sehen – ob ähnlich oder unähnlich wie diese beiden Beispiele. Und ich bin sicher, dass es auch zusätzliche, unbekannte Literatur zu diesem Thema gibt. Bitte lassen Sie es mich über sie wissen. Und wenn Sie diese Artwork von Arbeit machen, Senden Sie es zu Code@MITob in diesem Jahr oder in Zukunft.
Dieser Beitrag stammt von Dean Eckles. Da es um Analytics -Praxis hauptsächlich bei „Tech -Unternehmen“ geht, werde ich feststellen Andere AngabenMehrere Technologieunternehmen sind finanzielle Unterstützer von Code@MIT.

