Häufige Fehler bei guten und schlechten Antworten
#1 Direkt ins Modell einsteigen
Einige Kandidaten springen direkt zu dem ML-Algorithmus, den sie zur Lösung des Issues verwenden würden, ohne zuerst die Geschäftsanwendung, das Ziel der Lösung und die Erfolgskennzahlen zu formulieren.
Schlechte Antwort: „Zur Betrugserkennung verwende ich ein tiefes neuronales Netzwerk, weil es so leistungsstark ist.“
Gute Antwort: „Wird diese Lösung zur Echtzeit-Betrugserkennung bei jedem Kartendurchzug verwendet? Das bedeutet, dass wir ein schnelles und effizientes Modell benötigen. Lassen Sie mich alle Daten identifizieren, die ich für dieses Modell verwenden kann. Erstens habe ich Transaktionsmetadaten wie Transaktionsbetrag, Ort und Zeit. Ich habe auch die vergangenen Transaktionsdaten dieser Karte – ich kann bis zu 30 Tage im Voraus nachsehen, um die Datenmenge zu reduzieren, die ich in Echtzeit analysieren muss, oder ich berechne abgeleitete kategorische/binäre Merkmale aus dem Transaktionsverlauf vorab, wie ‚ist_Transaktion_30_Tage‘, ‚am_häufigsten_Transaktion_Ort_30_Tage‘ usw. Zunächst werde ich eine logistische Regression verwenden, um eine Basislinie festzulegen, bevor ich bei Bedarf komplexere Modelle wie tiefe neuronale Netzwerke in Betracht ziehe.“
#2 Zu hohes Niveau
Sie möchten nicht nur eine Standardstrategie angeben, sondern in jedem Schritt auch spezifische Beispiele einbeziehen, die für das jeweilige Geschäftsproblem related sind.
Schlechte Antwort: „Ich werde eine explorative Datenanalyse durchführen, Ausreißer entfernen und ein Modell zur Vorhersage des Benutzerengagements erstellen.“
Gute Antwort: „Ich werde historische Benutzerdaten analysieren, einschließlich Seitenaufrufe, Klickraten und Verweildauer auf der Web site. Ich werde die kategorialen Merkmale wie Produktkategorie und Marke analysieren und sie entfernen, wenn mehr als 75 % der Werte fehlen. Bei diesem Schritt wäre ich jedoch vorsichtig, da das Fehlen einiger Merkmale manchmal auch sehr aufschlussreich sein kann. Ein logistisches Regressionsmodell kann als Ausgangspunkt dienen, gefolgt von komplexeren Modellen wie Random Forest, falls erforderlich.“
#3 Nur Lösungen für den glücklichen Fall
Es ist nicht schwer, einen Mangel an Branchenerfahrung zu erkennen, wenn der Kandidat nur über die Daten- und Modellierungsstrategie spricht, ohne auf Probleme mit der Datenqualität oder andere Nuancen einzugehen, die bei realen Daten und Anwendungen auftreten.
Schlechte Antwort: „Ich werde einen Klassifikator trainieren, indem ich für eine bestimmte Suchanfrage frühere Klicks auf Benutzerelemente verwende, um Anzeigenklicks vorherzusagen.“
Gute Antwort: „Frühere Klicks von Benutzern auf Elemente für die Abfrage können von Natur aus eine Positionsverzerrung aufweisen, da die Elemente, die an höheren Positionen in den Suchergebnissen angezeigt werden, mit höherer Wahrscheinlichkeit angeklickt werden. Ich werde diese Positionsverzerrung mithilfe der umgekehrt gewichteten Neigung korrigieren, indem ich die Klickwahrscheinlichkeit an jeder Place (die Neigung) schätze und dann alle Beschriftungen damit gewichte.“
#4 Beginnen Sie mit den komplexesten Modellen
Sie möchten eine Vorliebe für Maßnahmen zeigen, indem Sie einfach zu entwickelnde, weniger kostspielige und zeitaufwändige, leichte Modelle verwenden und Komplexität nach Bedarf einführen.
Schlechte Antwort: „Für das Empfehlungssystem verwende ich eine hochmoderne Twin-Encoder-Deep-Studying-Architektur.“
Gute Antwort: „Ich beginne mit einem einfachen kollaborativen Filteransatz, um eine Basislinie zu erstellen. Sobald wir seine Leistung verstanden haben, können wir Komplexität mit Matrixfaktorisierung oder Deep-Studying-Modellen wie einem Twin-Encoder einführen, wenn die ersten Ergebnisse dies erfordern.“
#5 Nicht umschwenken, wenn unerwartete Bälle geworfen werden
Der Interviewer unterbricht möglicherweise Ihre Strategie und stellt Folgefragen oder schlägt different Szenarien vor, um zu verstehen, wie intestine Sie verschiedene Techniken verstehen. Sie sollten in der Lage sein, Ihre Strategie zu ändern, wenn neue Herausforderungen oder Variationen eingeführt werden.
Schlechte Antwort: „Wenn wir keinen Zugriff auf die personenbezogenen Daten des Benutzers haben, können wir kein personalisiertes Modell erstellen.“
Gute Antwort: „Benutzer, die sich gegen die Weitergabe ihrer PII oder früherer Interaktionsdaten entscheiden (oder nicht), können wir als Kaltstartbenutzer behandeln und ihnen popularitätsbasierte Empfehlungen anzeigen. Wir können auch ein On-line-Sitzungs-RNN einbinden, um Empfehlungen basierend auf ihrer Sitzungsaktivität anzupassen.“
Antwortkalibrierung gemäß Stage
Mit steigendem Stellenniveau steigen auch die Erwartungen an Breite und Tiefe der Antwort. Dies lässt sich am besten anhand einer Beispielfrage erklären. Angenommen, Sie werden gebeten, ein Betrugserkennungssystem für eine On-line-Zahlungsplattform zu entwickeln.
Berufseinsteiger (0–2 Jahre relevante Branchenerfahrung)
Für diese Ebene sollte sich der Kandidat auf Daten (Funktionen, Vorverarbeitungstechniken), Modell (einfaches Basismodell, fortgeschritteneres Modell, Verlustfunktion, Optimierungsmethode) und Bewertungsmetriken (Offline-Metriken, A/B-Experimentdesign) konzentrieren. Ein guter Ablauf wäre:
- Merkmale identifizieren und vorverarbeiten: z. B. Transaktionsbetrag, Standort, Tageszeit und andere kategorische Merkmale, die den Zahlungsverlauf darstellen.
- Basismodell und erweitertes Modell: z. B. ein logistisches Regressionsmodell als Foundation, erwägen Sie für die nächste Model Gradient Boosted Timber.
- Bewertungsmaßstäbe: z. B. Präzision, Rückruf, F1-Rating.
Mittlere Erfahrung (3–6 Jahre relevante Branchenerfahrung)
Für diese Ebene sollte sich der Kandidat auf das Geschäftsproblem und die Nuancen bei der Bereitstellung von Modellen in der Produktion konzentrieren. Ein guter Ablauf wäre:
- Geschäftsanforderungen: z. B. Kompromiss zwischen Rückruf und Präzision, da wir den Betrugsumfang reduzieren und gleichzeitig die Falsch-Positiv-Price niedrig halten möchten, um das Benutzererlebnis zu verbessern; Hervorhebung der Notwendigkeit interpretierbarer Modelle.
- Datennuancen: Beispielsweise ist die Anzahl betrügerischer Transaktionen viel geringer als die nicht betrügerischer Transaktionen. Das Klassenungleichgewicht kann durch den Einsatz von Techniken wie SMOTE behoben werden.
- Modellkompromisse: z. B. ein heuristikbasiertes Basismodell, gefolgt von einer logistischen Regression, gefolgt von baumbasierten Modellen, da diese einfacher zu interpretieren sind als eine logistische Regression mit schwer zu interpretierenden nichtlinearen Merkmalstransformationen.
- Besprechen Sie die Nuancen der Bereitstellung: z. B. Transaktionsverarbeitung in Echtzeit und Aktualisierungsintervalle des Modells zur Anpassung an sich entwickelnde Betrugsmuster.
Erfahrung auf Führungs-/Mitarbeiter-/Schulleiterebene (6+ Jahre)
Für diese Ebene wird vom Kandidaten erwartet, dass er seine langjährige Erfahrung nutzt, um das breitere Ökosystem kritisch zu durchdenken, die Kernherausforderungen in diesem Bereich zu identifizieren und hervorzuheben, wie verschiedene ML-Subsysteme zusammenkommen können, um das größere Drawback zu lösen. Bewältigen Sie Herausforderungen wie die Echtzeit-Datenverarbeitung und die Gewährleistung der Modellrobustheit gegen feindliche Angriffe. Schlagen Sie einen mehrschichtigen Ansatz vor: regelbasierte Systeme zur sofortigen Kennzeichnung und Deep-Studying-Modelle zur Mustererkennung. Integrieren Sie Feedbackschleifen und Überwachungsschemata, um sicherzustellen, dass sich das Modell an neue Formen des Betrugs anpasst. Zeigen Sie außerdem, dass Sie über die neuesten Branchentrends auf dem Laufenden sind, sofern dies möglich ist (z. B. Verwendung von GPUs, Repräsentationslernen, Verstärkungslernen, Edge Computing, föderiertes ML, Erstellen von Modellen ohne PII-Daten, Equity und Voreingenommenheit in ML usw.).