Leitfaden für Datenwissenschaftler zur Auswahl von Datenanbietern | von Elad Cohen

Ein praktischer Leitfaden zur effektiven Auswertung und Entscheidung über Daten zur Bereicherung und Verbesserung Ihrer Modelle

Ein Datenwissenschaftler wählt aus Dutzenden von Datenanbietern | think about.artwork

Ich battle in den letzten fünf Jahren als Vizepräsident für Information Science, KI und Forschung bei zwei börsennotierten Unternehmen tätig. In beiden Rollen battle KI von zentraler Bedeutung für das Kernprodukt des Unternehmens. Wir arbeiteten mit Datenanbietern zusammen, die unsere Daten mit relevanten Funktionen anreicherten, die die Leistung unserer Modelle verbesserten. Nachdem ich meinen gerechten Anteil an Misserfolgen mit Datenanbietern hatte, dieser Beitrag hilft Ihnen, Zeit und Geld zu sparen beim Testen neuer Anbieter.

Warnung: Beginnen Sie diesen Prozess erst, wenn Sie klare Geschäftsmetriken für Ihr Modell haben und bereits eine beträchtliche Menge Zeit in die Optimierung Ihres Modells investiert haben. Die erste Zusammenarbeit mit den meisten Datenanbietern ist in der Regel ein langwieriger Prozess (bestenfalls Wochen, oft aber Monate) und kann sehr teuer sein (einige Datenanbieter, mit denen ich zusammengearbeitet habe, kosten Zehntausende von Greenback professional Jahr, andere haben bei großem Maßstab jährlich Millionen von Greenback ausgegeben).

Da es sich dabei in der Regel um eine große Investition handelt, Beginnen Sie den Prozess erst gar nicht, wenn Sie nicht klar formulieren können, wie die Go/No-Go-Entscheidung getroffen werden soll. Das ist der größte Fehler, den ich je gesehen habe, additionally lesen Sie diesen Satz bitte noch einmal. Für mich bedeutete das immer, dass ich alle Entscheidungsgrundlagen in Greenback umrechnen musste.

Beispielsweise könnte die Leistungsmetrik Ihres Modells die PRAUC eines Klassifikationsmodells Betrug vorhersagen. Nehmen wir an, Ihr PRAUC steigt mit den neuen Daten von 0,9 auf 0,92, was aus Sicht der Datenwissenschaft eine enorme Verbesserung sein könnte. Allerdings kostet es 25 Cent professional Anruf. Um herauszufinden, ob sich das lohnt, müssen Sie den inkrementellen PRAUC in Margendollar umrechnen. Diese Part kann einige Zeit in Anspruch nehmen und erfordert ein gutes Verständnis des Geschäftsmodells. Wie genau lässt sich ein höherer PRAUC in höhere Einnahmen/Margen für Ihr Unternehmen umsetzen? Für die meisten Datenwissenschaftler ist dies nicht immer so einfach.

Dieser Beitrag deckt nicht alle Aspekte der Auswahl eines Datenanbieters ab (z. B. diskutieren wir nicht über Vertragsaushandlungen), sondern behandelt die wichtigsten Aspekte, die von Ihnen als Leiter der Datenwissenschaft erwartet werden.

Wenn Sie der Entscheidungsträger sind und Ihr Unternehmen in großem Maßstab arbeitet, werden Sie höchstwahrscheinlich regelmäßig unaufgeforderte E-Mails von Anbietern erhalten. Ein beliebiger Anbieter kann zwar einen gewissen Wert haben, aber es ist normalerweise am besten, mit Branchenexperten zu sprechen und herauszufinden, welche Datenanbieter häufig verwendet werden. in dieser Branche. Bei der Arbeit mit Daten gibt es enorme Netzwerkeffekte und Skaleneffekte, sodass die größten und bekanntesten Anbieter in der Regel mehr Wert schaffen können. Vertrauen Sie nicht Anbietern, die Lösungen für jedes Downside/jede Branche anbieten, und denken Sie daran, dass die wertvollsten Daten in der Regel am mühsamsten zu erstellen sind und nicht einfach on-line zusammengetragen werden können.

Einige Punkte, die zu Beginn der ersten Gespräche angesprochen werden sollten:

Wer sind ihre Kunden? Wie viele Großkunden haben sie in Ihrer Branche?
Kosten (zumindest die Größenordnung), da dies ein frühes Dealbreaker sein könnte
Zeitreisefähigkeit: Verfügen sie über die technische Möglichkeit, „in der Zeit zurückzureisen“ und Ihnen zu sagen, wie die Daten zu einem früheren Zeitpunkt aussahen? Dies ist entscheidend, wenn ein historischer Proof of Idea durchgeführt wird (weitere Informationen dazu finden Sie weiter unten).
Technische Einschränkungen: Latenz (Profi-Tipp: Achten Sie immer auf p99 oder andere höhere Perzentile, nicht auf Durchschnittswerte), Betriebszeit-SLA usw.

Vorausgesetzt, der Anbieter hat die oben genannten Hauptpunkte überprüft, können Sie einen Proof-of-Idea-Check planen. Sie sollten über ein Benchmark-Modell mit einer klaren Bewertungsmetrik verfügen, die in Geschäftsmetriken übersetzt werden kann. Ihr Modell sollte über einen Trainingssatz und einen veralteten Testsatz verfügen (möglicherweise auch einen oder mehrere Validierungssätze). Normalerweise senden Sie die relevanten Funktionen des Trainings- und Testsatzes mit ihrem Zeitstempel, damit der Anbieter seine Daten so zusammenführen kann, wie sie historisch vorhanden waren (Zeitreise). Sie können Ihr Modell dann mit ihren Funktionen neu trainieren und den Unterschied im veralteten Testsatz auswerten.

Im Idealfall geben Sie Ihre Zielvariable nicht an den Anbieter weiter. Manchmal fordern Anbieter Ihre Zielvariable an, um ihr Modell zu „kalibrieren/optimieren“, ein maßgeschneidertes Modell zu trainieren, eine Merkmalsauswahl durchzuführen oder eine andere Artwork der Manipulation vorzunehmen, um ihre Merkmale besser an Ihre Anforderungen anzupassen. Wenn Sie die Zielvariable dennoch weitergeben, stellen Sie sicher, dass sie nur für das Trainingsset bestimmt ist. nie der Testsatz.

Wenn Sie beim Lesen des obigen Absatzes Gänsehaut bekommen haben, ein dickes Lob an Sie. Wenn man mit Anbietern zusammenarbeitet, sind diese immer bestrebt, den Wert ihrer Daten zu demonstrieren, und das gilt insbesondere für kleinere Anbieter (bei denen jeder Deal einen großen Unterschied machen kann).

Eine meiner schlimmsten Erfahrungen bei der Zusammenarbeit mit einem Anbieter machte ich vor ein paar Jahren. Ein neuer Datenanbieter hatte gerade eine Serie A unterzeichnet, einen Riesenhype ausgelöst und äußerst relevante Daten für eines unserer Modelle versprochen. Es handelte sich um ein neues Produkt, für das uns relevante Daten fehlten, und wir glaubten, dies könnte ein guter Weg sein, um die Dinge anzukurbeln. Wir machten weiter und starteten einen POC, bei dem ihr Modell unsere AUC auf unserem Trainingsset von 0,65 auf 0,85 verbesserte. Auf dem Testset stürzte ihr Modell komplett ab – sie hatten das Trainingsset lächerlich überangepasst. Nachdem wir dies mit ihnen besprochen hatten, forderten sie die Zielvariable des Testsets an, um die State of affairs zu analysieren. Sie setzten ihren leitenden Datenwissenschaftler ein und baten um eine zweite Iteration. Wir warteten noch ein paar Wochen, bis neue Daten gesammelt waren (die als neues, noch nicht gesehenes Testset dienen sollten). Wieder einmal verbesserten sie die AUC auf dem neuen Zug dramatisch, nur um auf dem Testset erneut zu scheitern. Unnötig zu sagen, dass wir nicht weiterkamen.

Legen Sie einen höheren ROI-Schwellenwert fest:
Beginnen Sie mit der Berechnung des ROI – schätzen Sie die inkrementelle Nettomarge, die das Modell im Verhältnis zu den Kosten generiert. Die meisten Projekte wollen einen schönen positiven Ertrag. Da es viel Raum für Probleme gibt, die Ihren Ertrag schmälern (Datendrift, schrittweise Bereitstellung, Nutzungsbeschränkung mit all Ihren Segmenten usw.), legen Sie einen höheren Schwellenwert fest, als Sie es normalerweise tun würden. Manchmal habe ich eine 5-fache finanzielle Rendite der Anreicherungskosten als Mindestanforderung verlangt, um mit einem Anbieter weiterzumachen, als Puffer gegen Datendrift, potenzielle Überanpassung und Unsicherheit in unserer ROI-Punktschätzung.
Partielle Anreicherung:
Vielleicht ist der ROI für das gesamte Modell nicht ausreichend. Einige Segmente weisen jedoch möglicherweise einen viel höheren Anstieg auf als andere. Es ist möglicherweise am besten, Ihr Modell in zwei Teile aufzuteilen und nur diese Segmente anzureichern. Beispielsweise führen Sie möglicherweise ein Klassifizierungsmodell aus, um betrügerische Zahlungen zu identifizieren. Vielleicht erzielen die getesteten neuen Daten einen hohen ROI in Europa, aber nicht anderswo.
Phasenweise Anreicherung: Wenn Sie über ein Klassifizierungsmodell verfügen, können Sie Ihre Entscheidung in zwei Phasen aufteilen:

Part 1 – Ausführen des vorhandenen Modells
Bereichern Sie nur die Beobachtungen in der Nähe Ihrer Entscheidungsschwelle (oder über Ihrer Schwelle, je nach Anwendungsfall). Über jede Beobachtung weiter von der Schwelle entfernt wird in Part 1 entschieden.
Part 2 – Führen Sie das zweite Modell aus, um die Entscheidung zu verfeinern

Dieser Ansatz kann sehr nützlich sein, um Kosten zu senken, indem eine kleine Teilmenge angereichert wird, während gleichzeitig der größte Teil der Leistung erzielt wird, insbesondere bei der Arbeit mit unausgewogenen Daten. Er ist nicht so nützlich, wenn das zweite Modell große Änderungen verursacht. Wenn beispielsweise scheinbar sehr sichere Bestellungen später aufgrund der angereicherten Daten als Betrug identifiziert werden, müssen Sie die meisten (wenn nicht alle) Daten anreichern, um diese Leistung zu erzielen. Wenn Sie Ihre Anreicherung schrittweise durchführen, verdoppelt sich möglicherweise auch Ihre Latenzzeit, da Sie zwei ähnliche Modelle nacheinander ausführen. Überlegen Sie sich additionally sorgfältig, wie Sie den Kompromiss zwischen Latenz, Kosten und Leistungssteigerung optimieren.

Die effektive Zusammenarbeit mit Datenanbietern kann ein langwieriger und mühsamer Prozess sein, die Leistung Ihrer Modelle kann jedoch erheblich gesteigert werden. Hoffentlich hilft Ihnen dieser Leitfaden, Zeit und Geld zu sparen. Viel Spaß beim Modellieren!

Leitfaden für Datenwissenschaftler zur Auswahl von Datenanbietern | von Elad Cohen | Juni 2024

Ein praktischer Leitfaden zur effektiven Auswertung und Entscheidung über Daten zur Bereicherung und Verbesserung Ihrer Modelle

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Ein intuitiver Überblick über schwache Aufsicht | von Essam Wisam | Juni 2024

Die Welt braucht mehr Cybersicherheitsanalysten!

Duplikatserkennung mit GenAI. Wie der Einsatz von LLMs und GenAI-Techniken… | von Ian Ormesher | Jul, 2024

So nutzen Sie Docker Cache zur Optimierung der Construct-Geschwindigkeit

About

Categories

Tags

Recent Post

Ein intuitiver Überblick über schwache Aufsicht | von Essam Wisam | Juni 2024

Die Welt braucht mehr Cybersicherheitsanalysten!