Das ist Jessica. In letzter Zeit denke ich darüber nach, wie KI-Critiques den wissenschaftlichen Bewertungsprozess verändern und darüber hinaus, welche Anreize Autoren zur Berichterstattung haben. Einige spekulieren, dass die wissenschaftliche Arbeit als Zusammenfassung der Forschung für andere Menschen kurz davor stehen könnte, obsolet zu werden oder zumindest an Bedeutung zu verlieren. Stattdessen sehen wir möglicherweise eher grobe Zusammenfassungen nur der Fakten. Die Idee dahinter ist, dass wir, wenn LLMs immer mehr zu den Konsumenten von Forschung werden, nicht wirklich den ganzen Ballast an Erzählungen und Illustrationen brauchen, um die Dinge für den Menschen verständlicher zu machen.
Letzten November, Tom Dietterich in den sozialen Medien nach Meinungen gefragt darüber, was arXiv mit Artikeln tun soll, die Aufzählungslisten enthalten, z Das:
Ein Teil der Impulse, die Erzählung in Aufsätzen zu reduzieren, geht auf LLMs zurück. Beispielsweise wurde schon vor dem Erscheinen von Chatbots im Jahr 2022 argumentiert, dass wir das tun sollten beseitigen, abschütteln oder Diskussionsabschnitte neu strukturieren in wissenschaftlichen Arbeiten, weil Autoren oft versucht sind, damit in die Rhetorik abzudriften („drehen“) und ungerechtfertigte Spekulationen. Aber die meisten Papiere enthalten sie immer noch. Vielleicht sind LLMs der Anstoß, der die Norm tatsächlich verschiebt.
Es gibt jedoch viele Möglichkeiten, wissenschaftliche Beiträge zu kontextualisieren, die nicht nur Rhetorik sind und denen bereits mehr Anreize entzogen werden, als sie sein sollten. Einige gehen vom Hinzufügen von Interpretationen in die entgegengesetzte Richtung, so dass ihr Weglassen dem Vorenthalten der Informationen gleichkommt, die der Leser für die Beurteilung des Werks benötigt.
Einer meiner größten Kritikpunkte an der Artwork und Weise, wie viele Arbeiten zu KI und maschinellem Lernen geschrieben werden, ist zum Beispiel, dass die Darstellung von Beispielen der Aufgabe nachrangig behandelt wird, um mehr Ergebnisse einzubringen, insbesondere in den Haupttext der Arbeit. Es ist sehr schwer zu beurteilen, wie wichtig Leistungsverbesserungen sind, wenn Ihnen kein einziges konkretes Beispiel für das zu lösende Downside gegeben wird! Sie haben einen LLM-Rezensenten erstellt, der hervorragend darin ist, Fehler in Arbeiten zu finden? Zeigen Sie mir einige Beispiele für die Artwork von Fehlern, die es erkennt, damit ich einschätzen kann, wie sehr dies unsere Fähigkeit, Wissenschaft zu überprüfen, voranbringt. Sie haben einen Maßstab für die Equity visueller Sprachmodelle erstellt? Zeigen Sie mir, wie die Bild- und Textaufforderungen aussehen, an denen Sie das Modell testen, damit ich beurteilen kann, ob ich der Meinung bin, dass Sie etwas Sinnvolles im Vergleich zu der Vorstellung einiger Leute darüber bewerten, was politisch korrekt ist. Stattdessen erhalten wir allgemeine verbale Beschreibungen der Artwork der Aufgabe („Fehler erkennen“, „Equity“, „Inhaltsmoderation“) und/oder Verweise auf Datensätze, gefolgt von Hear mit Metriken und Vergleichen der Leistung verschiedener Modelle oder Algorithmen.
Das Seltsame ist, wie angenehm es sein kann, dass ganze Fachgebiete die Prozesse der Bewertung durchlaufen, ohne die Aufgabe selbst als Teil der Wissenschaft zu betrachten. Autoren werden jedoch durch enge Platzbeschränkungen im Haupttext dazu angeregt, die Particulars zu verdecken und den Rezensenten nicht mehr Auswahlmöglichkeiten zu geben.
Für uns als menschliche Leser führt der Anblick der Beispiele oft zu einer Artwork gesunden Menschenverstandsurteil darüber, wie „actual“ das Downside ist, was es für Autoren schwieriger macht, Forschungsergebnisse, die Fortschritte bei erfundenen Problemen erzielen, als falsch darzustellen. Aber wie wichtig eine Aufgabe in der Welt sein dürfte, können aktuelle KI-Modelle nicht besonders intestine beurteilen. Das lässt mich an viele andere „Zeig es mir einfach…“-Richtlinien denken, die dazu neigen, die Fähigkeit der Menschen, Wissenschaft zu beurteilen, zu verbessern:
Zeig mir die Handlung: Gib mir keine große Zahlentabelle, Zeichnen Sie Ihre Koeffizienten auf Effektgröße und Unsicherheit dominieren additionally gegenüber der Signifikanz (obwohl Sie dies immer noch leicht ermitteln können, wenn Sie möchten, indem Sie sehen, welche Schätzungen 0 enthalten).
Zeig mir die Varianz: Zeigen Sie mir nicht nur die Unsicherheit bei Parameterschätzungen, sondern zeichnen Sie auch die Messabweichung auf. Wir fanden heraus, dass dies die Überschätzung der Behandlungseffekte durch Laien deutlich reduzierte in diesem Papierund meine Co-Autoren fanden es auch ähnliche Effekte bei Experten.
Zeig mir die Schnittstelle: Wenn Sie Daten von Menschen sammeln (sei es Grundwahrheitsbezeichnungen für das Coaching oder die Ausrichtung eines Modells oder Verhaltensreaktionen auf eine experimentelle Aufgabe), zeigen Sie mir, was sie gesehen haben und wie ihnen die Fragen gestellt wurden, damit ich beurteilen kann, wie schwierig ihre Aufgabe conflict, welche Vorurteile auftreten könnten usw.
Zeigen Sie mir die Eingabeaufforderung: Die LLM-Model des Obigen. Wenn es lang ist, haben Sie möglicherweise keinen Platz im Hauptteil des Dokuments, aber alle Eingabeaufforderungen, die Sie verwendet haben, sollten irgendwo auftauchen.
Zeigen Sie mir die Fehlerfälle: Zu sehen, welche Instanzen ein Modell oder System aus der Fassung bringen, sagt viel darüber aus, wie viel Fortschritt erzielt wurde und wie das Modell in den anderen Fällen erfolgreich sein könnte.
Zeigen Sie mir die Grundlinien: Verbesserungen sind bedeutungslos, wenn der Leser keine Ahnung hat, was verbessert wird. Geben Sie dem Leser eine kleine Vorstellung davon, wie die anderen Ansätze funktionieren, einschließlich der dummen, die Sie unbedingt besiegen sollten.
Zeigen Sie mir die Designanalyse: Letzte Woche nahm ich an einem Open-Science-Panel teil, bei dem jemand gefragt hat, worauf er als Gutachter achten und worüber er bei seinen eigenen Experimenten berichten sollte, um den Lesern bei der Bewertung über offene Daten und Code hinaus zu helfen. Ich sagte, dass ich bei der Durchsicht empirischer Arbeiten häufig nach Informationen darüber frage, wie die Autoren das Studiendesign und die Stichprobengröße gewählt haben, einschließlich der von ihnen priorisierten Effektschätzungen mit dem beabsichtigten Maß an Präzision oder Aussagekraft. Es ist einfacher, das Gelernte zu verstehen, wenn man weiß, was die Autoren versucht haben.
Zeigen Sie mir die Rohausgabe: Wenn Sie eine qualitative Kodierung von Modellausgaben (oder menschlichen Antworten) durchführen, zeigen Sie mir ein paar Beispiele der Originaltexte für jeden möglichen Code.
Einige davon können sowohl für LLM-Rezensenten als auch für Menschen informativ sein, da sie ihnen dabei helfen, ein gemeinsames menschliches Urteil über die Arbeit vorherzusagen, andere (z. B. Diagramme anstelle von Zahlentabellen) jedoch wahrscheinlich nicht so sehr.

