Dieser Beitrag stammt von Lizzie.
Am Ende eines kürzlichen Kurses, den ich in Bayesian -Ansätzen unterrichtete (was mich daran erinnert, sollte ich ein Replace dazu bloggen), fragte ein Schüler: „Wann teilen wir unsere Daten in Take a look at und Coaching auf?“ Dies hat mich ein wenig gestoppt, da der gesamte Kurs auf einem Workflow -Ansatz für Wissenschaft und Statistiken conflict, von dem ich gehofft hatte, dass er nach Hause hämmerte, wie man mechanistische Erkenntnisse aus simulierten Daten sammelte und Sie auf weitere Erkenntnisse vorbereitete, indem Sie retroditive Überprüfungen zu einem Modell für Ihre empirischen Daten usw. machten. Ich hätte auch nicht überraschen dürfen, da Ökologen in großer Zeit zum maschinellen Lernen gehen (gibt es andere Verwendungen für Take a look at-/Trainingsdaten? Ja, aber das ist der dominierende Ort, an dem diese Sprache jetzt in meinem Gebiet verwendet wird, IMHO), und wir (ich) treten nicht zurück und lehren die verschiedenen Ansätze.
Bei der Erörterung dieser mit einem Statistikkollegen erwähnte er kürzlich die endlose Suche nach automatischer Inferenz. „Feed in Daten, ziehen Sie Kurbel, erhalten Sie wissenschaftliche Schlussfolgerungen.“ Es ist das Gegenteil des Workflows für mich. Ich denke auch, dass es nicht intestine funktionieren wird, aber es ist eindeutig der Traum, und ein alarmierender Prozentsatz der Ökologie ist ihm gewidmet, ohne es zu wissen.
Maschinelles Lernen ist die neue beste Hoffnung auf automatische Schlussfolgerung für Ökologie (und viele andere Bereiche), ohne dass jemand zu bemerken scheint, was er nicht bekommt. Es ist erstaunlich für mich, wie viele Schüler sich dessen nicht bewusst sind, was maschinelles Lernen Ihnen geben wird-(gute) Vorhersagen für Daten außerhalb der Stichprobe, aber es ist schwierig, interpretierbare Parameter und die gesamte Wissenschaft zu finden, die mit ihnen passieren kann. (Und ja, ich weiß, dass einige der Ansätze des maschinellen Lernens daran arbeiten, dies zu ändern.) Additionally sehen sie es als Die Inferenzansatz.
Die bisherige beste Hoffnung auf automatische Inferenz conflict der Modellvergleich (LO ist die neue Magie, AIC conflict ein großer – großer – Treffer, bevor dies eine schrittweise Regression mit einer alarmierenden Anzahl von Ökologen conflict, die nie Potenzial für Probleme mit der schrittweisen Regression lernten, aber ich schweife ab) und in einigen Kreisen immer noch stark. Passen Sie 6 oder 600 Modelle an und vergleichen Sie sie, um herauszufinden, welche am besten ist. In meiner Area Ballon, da wir keine Ahnung haben, welcher klimatische Fahrer einbezieht. Zum Beispiel denke ich, dass Wasser für Bäume von Bedeutung ist, die draußen wachsen. Sollte ich für eine Niederschlagsvariable totaler Niederschlag verwenden? Unsere vielleicht gerade während der Vegetationsperiode? Oder warten Sie, vielleicht teilen Sie die Wachstums- und Nicht-Wachstums-Saison auf. Aber dann sollte ich für die nicht wachsende Saison Schneeschinne verwenden? Schneewasseräquivalent (SWE)? Das ist so schwer und es gibt keine klare Antwort.
Automatische Schlussfolgerung in die Rettung! Sie können sie alle mit dem Modellvergleich einfügen, einschließlich einer Reihe möglicher Interaktionen, und sehen, welche wirklich wichtig sind. Yay!
Hat das funktioniert? Überhaupt nicht, wenn du mich fragst. Ich habe kürzlich einen Baumringgespräch gesehen, der dies tat, aber Sie können erkennen, dass das am besten passende Modell tatsächlich keinen biologischen Sinn gemacht hat, nachdem sie mehr darüber nachgedacht haben, und präsentierten das „zweitbeste Modell“. Und ich bin mir ziemlich sicher, dass das zweit- und drittbeste Modell in jeder Vergleichsmetrik, die Sie auf sie werfen wollten, ziemlich ähnlich conflict, und sie haben möglicherweise wirklich unterschiedliche Antworten darauf, wie die Welt funktioniert. (Ökologen haben es in einer Möglichkeit versucht – die Mittelung des Modells, was ich auch nicht für viel anbietet.) Ich bin mir nicht sicher, warum alle dies tun (1) Wir haben alle stillschweigend zugestimmt, dass es in Ordnung ist und (2) die andere Possibility scheint härter, unsicherer und vielleicht nicht alle stillschweigend zustimmen, dass es in Ordnung ist.
Was haben wir? niemals Ich kann mir so intestine sagen, dass ich sagen kann:
(a) Wir sehen neue Muster in diesen Modellvergleiche und sagen: „Hey – all diese Zusammenarbeit zeigt wirklich, dass wir uns in diesem Zusammenhang auf SWE konzentrieren sollten. Gott sei Dank, wir haben einen Modellvergleich durchgeführt, da es keinen anderen Weg gibt, den wir das herausgefunden hätten. ‚
(b) Wir verwenden etwas, das wir im Modellvergleich gelernt haben, um ein Experiment zu entwerfen, das uns etwas Neues lehrt. Wie ‚Wow, ich hätte nie gedacht, dass excessive Hitze im August so wichtig wäre, dass ich nun ein Experiment einrichten werde, um die Rolle der extremen Hitze im August zu testen. Ich bin so froh, dass ich diesen Prädiktor-und excessive Hitze in allen zweiten Monaten und in 3 Monaten Fenstern-in mein Modell aufgenommen habe, damit ich das herausfinden konnte. ‚
(c) Das Gefühl der Freude zu sagen: ‚Schauen Sie sich mein minimales angemessenes Modell an! Das ist großartig und so hilfreich. ‚
Wir bekommen diese Dinge nie, weil die Ergebnisse quick immer ein Chaos sind. Wir alle wissen, dass ich das so intestine wie möglich kann, damit wir sie nicht einmal als Rezensenten mehr genau ansehen.
Was ist die andere Possibility?
Die andere Possibility für mich ist, dass Sie Ihre wenigen, verdammten Variablen auswählen-diejenigen, die Sie vorhersagen und die funktionale Beziehung zu Ihren Antwortvariablen beschreiben können, und Sie stellen diese in Ihr Modell ein. Vielleicht passen Sie ein paar Modelle ein, aber keine endlosen Modelle. Nach meiner Erfahrung erhält mich der erste Schritt in diesem Prozess (die Auswahl dieser Variablen) viel mehr Einblicke als jeder Modellvergleich jemals. Warum? Weil es das Gegenteil von automatischer Inferenz ist. Ich muss denken.
Was ist der Nachteil dieser anderen Possibility? Einer wäre sein, dass wir die falschen Prädiktoren auswählen und nie diesen erstaunlichen Prädiktor sehen, den wir gerade beim Modellvergleich geworfen hätten. Angesichts der Tatsache, wo wir über 20 Jahre Modellvergleich uns gebracht haben, suche ich diese Möglichkeit. Das andere – und genau das ist es, worüber die Schüler in meinen Klassen wirklich besorgt sind – ist, dass wir nicht alle stillschweigend einverstanden sind, dass dies in Ordnung ist. Viele Schüler, ich empfehle dies, dass es nicht intestine hält, dass es in Ordnung ist. Sie sehen, wie weit verbreitet das Modellvergleich und seine Ilk sind und befürchten, dass sie ohne ihn nicht veröffentlicht werden können. Sie sind nicht einmal darin geschult, diese Variablen auszuwählen.
Wir sind so übertrieben, dass wir unsere Schüler nicht einmal auf etwas anderes vorbereitet haben. Und schlimmer noch, wir sagen ihnen, dass sie (gute) Wissenschaft machen.
Mit maschinellem Lernen* rutschen wir noch weiter von der Wissenschaft weg und unser Coaching wird noch schlechter, als ich es beurteilen kann. Die Schüler von UBC in Information Science lernen, Daten zu „ordnen“, als ob es in diesem Prozess keine Area -Experience gibt. „Tidy“ bedeutet, Ausreißer, Hole -Füllung und andere Dinge zu entfernen, die mich entsorgen, wenn ich die Schüler in ihrer ersten Amtszeit lernen kann. Wie um alles in der Welt wissen sie, was für ein Ausreißer ist, wenn sie nicht einmal wissen, was die Daten sind? Danach lernen sie zufällige Wälder und einige einfache neuronale Netze. Wissenschaft gemacht.
Was ist die Lösung? Ich hoffe verzweifelt, dass die Menschen intelligenter als ich an dieser Frage arbeiten. Eine Antwort ist offensichtlich, dass unsere Requirements und die Diskontierungsarbeiten erhöht werden, die uns nicht wirklich aus dem von ihnen verwendeten Modellvergleich nicht viel gibt. Ein weiteres besseres Coaching – ich denke, wir alle müssen zugeben, dass sich das Coaching mit maschinellem Lernen auf dem Vormarsch verändern muss. Viele Schüler, mit denen ich zusammenarbeite, nehmen jetzt nur Information Science – sie lernen nur maschinelles Lernen und wissen nicht, was eine Regression ist, oder derenkt, dass es alles ist, was sie verwenden. Sie müssen sehen, wie miteinander verbunden alle Inferenzmethoden sind und welche Ziele jeder vorerst (und nicht) intestine funktioniert, und sich darauf vorbereiten lassen, dass sich dies ändern könnte. Dies scheint verwirrbar. Was weniger nachgefertigt erscheint, ist eine bessere Ausbildung in der Wissenschaft – die Ausbildung von Schülern, um zu wissen, dass es keine automatische Schlussfolgerung für die Wissenschaft gibt und nützliche Erkenntnisse zu erhalten, ist tatsächlich chaotischer, schwieriger und beinhaltet mehr Unsicherheit als die meisten Menschen Ihnen sagen (aber wenn Sie mich fragen, macht es auch viel mehr Spaß).
*Wir nennen jetzt auch den größten Teil des maschinellen Lernens ‚KI‘ in der Ökologie. Tun andere Felder das? Warum (ich meine, außer dass Sie klingen wollen, als ob Sie die absolut coolste und modernste Sache tun)?

