In der Reihe „Creator Highlight“ unterhalten sich TDS-Redakteure mit Mitgliedern unserer Group über ihren Karriereweg in den Bereichen Datenwissenschaft und KI, ihr Schreiben und ihre Inspirationsquellen. Heute freuen wir uns, unser Gespräch mit Ihnen zu teilen Marco Hening Tallarico.
Marco ist Doktorand an der College of Toronto und Forscher bei Risklab, mit großem Interesse an angewandter Statistik und maschinellem Lernen. Marco wurde in Brasilien geboren und ist in Kanada aufgewachsen. Er schätzt die universelle Sprache der Mathematik.
Was motiviert Sie, umfangreiche akademische Konzepte (wie stochastische Differentialgleichungen) in zugängliche Tutorials für die breitere TDS-Group umzuwandeln?
Es ist ganz natürlich, alles in seiner natürlichen Reihenfolge lernen zu wollen. Algebra, Infinitesimalrechnung, Statistik usw. Wer aber schnell Fortschritte machen will, muss diese Neigung aufgeben. Wenn man versucht, ein Labyrinth zu lösen, ist es Betrug, sich einen Platz in der Mitte auszusuchen, aber beim Lernen gibt es keine Regel. Beginnen Sie am Ende und arbeiten Sie sich nach Belieben zurück. Es macht es weniger langweilig.
Dein Information Science-Herausforderung Der Artikel konzentrierte sich auf das Erkennen von Datenlecks im Code und nicht nur auf die Theorie. Welches stille Leck ist Ihrer Erfahrung nach das häufigste und gelangt auch heute noch in Produktionssysteme?
Bei der Datenanalyse oder bei der Verwendung von Aggregaten als Eingaben für das Modell kann es sehr leicht zu Datenlecks kommen. Vor allem jetzt, wo Mixture relativ einfach in Echtzeit berechnet werden können. Vor der grafischen Darstellung, bevor überhaupt ausgeführt wird .head() Funktion, ich denke, es ist wichtig, den Zugtest aufzuteilen. Überlegen Sie, wie die Aufteilung erfolgen soll, von Benutzerebene, Größe und Chronologie bis hin zu einer geschichteten Aufteilung: Es gibt viele Möglichkeiten, die Sie treffen können, und es lohnt sich, sich die Zeit zu nehmen.
Wenn Sie Metriken wie durchschnittliche Benutzer professional Monat verwenden, müssen Sie außerdem noch einmal überprüfen, dass die Gesamtheit nicht während des Monats berechnet wurde, den Sie als Testsatz verwenden. Diese sind schwieriger, da sie indirekt sind. Es ist nicht immer so offensichtlich, dass man keine Black-Field-Daten verwendet, wenn man vorhersagen will, welche Flugzeuge abstürzen werden. Wenn Sie die Black Field haben, ist das keine Vorhersage; Das Flugzeug ist abgestürzt.
Das erwähnen Sie Das Erlernen der Grammatik allein aus Daten ist rechenintensiv. Glauben Sie, dass hybride Modelle (statistisch + formal) langfristig die einzige Möglichkeit sind, eine nachhaltige KI-Skalierung zu erreichen?
Wenn wir zum Beispiel LLMs nehmen, gibt es viele einfache Aufgaben, mit denen sie Schwierigkeiten haben, etwa das Hinzufügen einer Liste mit Zahlen oder das Umwandeln einer Textseite in Großbuchstaben. Es ist nicht unangemessen zu glauben, dass eine bloße Vergrößerung des Modells diese Probleme lösen würde, aber das ist keine gute Lösung. Es ist viel zuverlässiger, wenn es a aufruft .sum() oder .higher() Funktion in Ihrem Namen und nutzen Sie die sprachliche Argumentation, um Eingaben auszuwählen. Dies ist wahrscheinlich das, was die großen KI-Modelle mit cleverem Immediate Engineering bereits tun.
Es ist viel einfacher, mithilfe formaler Grammatik unerwünschte Artefakte wie das Gedankenstrich-Downside zu entfernen, als ein weiteres Drittel der Internetdaten zu extrahieren und weiteres Coaching durchzuführen.
Sie kontrastieren Vorwärts- und Umkehrprobleme in der PDE-Theorie. Können Sie ein reales Szenario außerhalb der Temperaturmodellierung vorstellen, bei dem ein inverser Problemansatz die Lösung sein könnte?
Das Vorwärtsproblem ist tendenziell das, womit sich die meisten Menschen wohl fühlen. Wenn wir uns das Black-Scholes-Modell ansehen, wäre das Zukunftsproblem: Wie hoch ist angesichts einiger Marktannahmen der Optionspreis? Aber es gibt noch eine andere Frage, die wir stellen können: Welche Parameter hat das Modell angesichts einer Reihe beobachteter Optionspreise? Dies ist das umgekehrte Downside: Es ist eine Folgerung, es ist eine implizite Volatilität.
Wir können auch in Begriffen der Navier-Stokes-Gleichung denken, die die Strömungsdynamik modelliert. Das Vorwärtsproblem: Berechnen Sie bei gegebener Flügelform, Anfangsgeschwindigkeit und Luftviskosität das Geschwindigkeits- oder Druckfeld. Wir könnten uns aber auch fragen, welche Type unser Flugzeugflügel hat, wenn ein Geschwindigkeits- und Druckfeld gegeben ist. Dies ist tendenziell viel schwieriger zu lösen. Angesichts der Ursachen ist es viel einfacher, die Auswirkungen zu berechnen. Wenn einem aber eine Reihe von Wirkungen vorliegen, ist es nicht unbedingt einfach, die Ursache zu berechnen. Dies liegt daran, dass mehrere Ursachen dieselbe Beobachtung erklären können.
Dies ist auch einer der Gründe, warum PINNs in letzter Zeit auf dem Vormarsch sind. Sie zeigen, wie neuronale Netze effizient aus Daten lernen können. Dies eröffnet einen ganzen Werkzeugkasten, wie Adam, SGD und Backpropagation, aber im Hinblick auf die Lösung von PDEs ist es genial.
Welchen Rat würden Sie als Masterstudent, der auch ein produktiver technischer Redakteur ist, anderen Studenten geben, die beginnen möchten, ihre Forschungsergebnisse auf Plattformen wie In direction of Information Science zu teilen?
Ich denke, dass es beim technischen Schreiben zwei konkurrierende Entscheidungen gibt, die man aktiv treffen muss; Sie können es sich als Destillation oder Verdünnung vorstellen. Forschungsartikel ähneln einem Wodka-Shot; In der Einleitung werden umfangreiche Studiengebiete in wenigen Sätzen zusammengefasst. Während der bittere Geschmack von Wodka durch Verdunstung entsteht, ist beim Schreiben die Hauptursache die Fachsprache. Mit diesem verbalen Komprimierungsalgorithmus können wir abstrakte Ideen wie den Fluch der Dimensionalität oder Datenlecks in nur wenigen Worten diskutieren. Es ist ein Werkzeug, das Ihnen auch zum Verhängnis werden kann.
Das Unique-Deep-Studying-Papier umfasst 7 Seiten. Es gibt auch Deep-Studying-Lehrbücher mit 800 Seiten (im Vergleich dazu eine Piña Colada). Beide sind aus demselben Grund großartig: Sie bieten dem entsprechenden Publikum den richtigen Detaillierungsgrad. Um den richtigen Detaillierungsgrad zu verstehen, müssen Sie das Style einlesen, das Sie veröffentlichen möchten.
Natürlich kommt es darauf an, wie man Spirituosen verdünnt; Niemand will ein Teil warmes Wasser und ein Teil Titos Monstrosität. Einige Rezepte, die den Textual content greifbarer machen, umfassen die Verwendung einprägsamer Analogien (dadurch bleibt der Inhalt hängen, wie eine Piña Colada auf einer Tischplatte), die Konzentration auf einige zentrale Konzepte und die Ausarbeitung anhand von Beispielen.
Aber auch beim technischen Schreiben findet eine Destillation statt, und das läuft darauf hinaus, „unnötige Worte wegzulassen“, ein altes Sprichwort von Strunk & White, das immer wahr bleibt und Sie daran erinnert, etwas über das Handwerk des Schreibens zu lesen. Roy Peter Clark ist einer meiner Favoriten.
Du schreibst auch Forschungsartikel. Wie passen Sie Ihre Inhalte anders an, wenn Sie für ein allgemeines Datenwissenschaftspublikum schreiben als für ein forschungsorientiertes Publikum?
Ich würde auf jeden Fall Metaphern im Zusammenhang mit Alkohol vermeiden. Eigentlich jede Bildsprache. Bleiben Sie beim Beton. In Forschungsartikeln müssen Sie vor allem kommunizieren, welche Fortschritte erzielt wurden. Wo das Feld früher battle und wo es jetzt ist. Es geht nicht ums Lehren; Sie gehen davon aus, dass das Publikum es weiß. Es geht darum, eine Idee zu verkaufen, sich für eine Methode einzusetzen und eine Hypothese zu unterstützen. Sie müssen zeigen, wie es zu einer Lücke kam, und erklären, wie Ihre Arbeit diese Lücke gefüllt hat. Wenn Sie diese beiden Dinge können, haben Sie eine gute Forschungsarbeit.
Um mehr über Marcos Arbeit zu erfahren und über seine neuesten Artikel auf dem Laufenden zu bleiben, können Sie seine besuchen Webseite und folge ihm weiter TDS, oder LinkedIn.
