# Einführung
Die letzte Prüfung der Menschheit (HLE) ist ein Benchmark zur Messung der Argumentations- und Tiefenwissensfähigkeiten der meisten modernen KI-Systeme. Sein charakteristisches Merkmal: Die zugrunde liegende Bewertung ist auf die Spitze getrieben. Betrachten Sie es als die heutige Weiterentwicklung der Turing-Exams, die vor einigen Jahrzehnten geboren wurden.
Dieser Artikel wirft einen sanften Blick auf diesen Benchmark, erläutert, warum er erstellt wurde, stellt unterschiedliche Meinungen von Expertengruppen auf diesem Gebiet dazu dar und schließt mit einer Zusammenfassung des am weitesten verbreiteten Urteils ab.
# Warum wurde es gebaut und woraus besteht es?
Traditionelle Testmethoden, die in klassischen KI-Systemen verwendet wurden, wurden mit der Weiterentwicklung dieser Systeme obsolet und begannen, ohne großen Aufwand perfekte Ergebnisse zu erzielen. Aus diesem Grund ist die Zentrum für KI-Sicherheit hat nebenbei einen neuartigen Benchmark namens HLE erstellt KI skalieren mit Hilfe von Weltexperten. Der Benchmark wurde veröffentlicht in Naturder bisher renommiertesten wissenschaftlichen Zeitschrift, im Januar 2026. Sie wurde sorgfältig entwickelt, um sich wiederholende Muster zu vermeiden, wie dies bei früheren Bewertungsrahmen der Fall warfare.
Worum geht es additionally bei HLE? Nun, es handelt sich um eine Prüfung, die von hochmodernen KI-Systemen wie Sprachmodellen abgelegt werden muss, und sie besteht aus über 2.500 Fragen auf Expertenebene aus über hundert akademischen Disziplinen, darunter, aber nicht beschränkt auf, Physik, Mathematik, Biologie, Geisteswissenschaften und viele mehr. Wichtig ist, dass die Fragen nicht durch Auswendiglernen beantwortet werden können und auch nicht auf einfaches Abrufen von Informationen oder A number of-Selection-Antworten beschränkt sind. Stattdessen erfordern sie komplexes deduktives Denken und ein tiefes Verständnis.
Hier ist ein Beispiel für zwei solcher Fragen:

Zwei Beispiel-HLE-Fragen. Bildquelle: Zentrum für KI-Sicherheit
Lassen Sie uns über die Ergebnisse sprechen, die die fortschrittlichsten Modelle von heute bisher erzielt haben: Selbst die fortschrittlichsten Grenzmodelle wie GPT, Gemini oder Claude überschreiten kaum die Genauigkeitsschwelle von insgesamt 45–50 %. Die Zahlen sprechen für sich und zeigen, wie unglaublich schwierig die Prüfung ist. Darüber hinaus scheitern sie häufig daran, dass sie sich bei falsch beantworteten Fragen übermütig verhalten.
# Was ist die Meinung der vorherrschenden Experten zu HLE?
Die ehrliche Antwort lautet: Darüber besteht wenig Konsens. Die Meinung ist in der Tech-, Entwickler- und akademischen Gemeinschaft eher geteilt, aber es gibt eine subtile, vorherrschende Tendenz, einen echten Nutzen von HLE zu akzeptieren. Es gibt jedoch kritische Nuancen.
Im Allgemeinen halten Experten und die breitere Bevölkerung, die mit HLE vertraut sind, es nicht für eine völlig bedeutungslose Initiative, sondern berufen sich auf eine übertriebene, scheinbar marketingorientierte Artwork, es zu benennen.
Im Großen und Ganzen gibt es drei vorherrschende Meinungsgruppen zu HLE:
// 1. HLE ist wirklich nützlich und notwendig
Ungefähr 60 % der Meinungen neigen zu dieser kollektiven Meinung, wonach es einen technischen Grund gibt, warum HLE derzeit von größter Bedeutung ist: Frühere Benchmarks und Take a look at-Frameworks für KI-Systeme, einschließlich nicht ganz so alter Sprachmodell-Benchmarks wie Large Multitask Language Understanding (MMLU), waren gesättigt oder veraltet, wobei quick jede moderne KI bei ihnen über 90 % erreichte. Dies machte es unmöglich, die neuesten Modelle wirklich miteinander zu vergleichen, um festzustellen, welches das beste ist. Ein wichtiger Grund, warum HLE von vielen Experten gelobt wird, ist, dass es misst, ob die KI bereit ist, „Ich weiß nicht“ zu sagen, anstatt über komplexe Probleme oder Fragen zu halluzinieren, die sie nicht beantworten kann.
// 2. HLE ist eine Ablenkung von echter KI
Diese skeptische Sichtweise wird von etwa 30 % der Meinungen vertreten. Diese Experten sind der Ansicht, dass der Take a look at die Leistung und den Erfolg der KI in alltäglichen Lebensszenarien nicht wirklich bewertet, da er ausschließlich auf übermäßig akademischem und unklarem Wissen basiert. Einige Ingenieure wagen es sogar, ironischerweise zu sagen, dass, sobald die KI anfängt, in HLE massiv über 90 % zu erreichen, Unternehmen sich beeilen werden, HLE 2 zu entwickeln, und so weiter, und so ein Advertising and marketing-Hamsterrad zugunsten großer Konzerne konsolidiert.
// 3. HLE ist fehlerhaft
Dies ist die dritte und kleinste der drei vorherrschenden Meinungen und wird beispielsweise in Information-Science-Foren diskutiert. Sie behaupten, dass HLE bei einigen als richtig gekennzeichneten Antworten Fehler aufweist, insbesondere bei einigen Nischenfragen aus Bereichen wie Chemie und fortgeschrittener Mathematik. Poetischerweise waren es die leistungsstärksten KI-Systeme selbst, die begannen, solche Fehler im Benchmark zu erkennen.
# Zusammenfassung
Zusammenfassend lässt sich sagen, dass die Nützlichkeit von HLE nicht geleugnet wird und in gewissem Maße seine Bedeutung von vielen Experten unterstrichen wird, obwohl seine Benennung weithin als pures Marketingdrama angesehen wird. Die Nutzung dieses Maßstabs scheint nicht sehr wahrscheinlich über die Geburt einer Tremendous-KI oder deren tatsächliches Auftauchen zu entscheiden Künstliche allgemeine Intelligenz (AGI): ein Konzept, das bereits seit vielen Jahren diskutiert wird, aber immer noch eher Fiktion als Realität ist. Dennoch wird das Benchmarking als ein sehr ehrgeiziges Instrument angesehen, um herauszufinden, welche KI oder welches Unternehmen das beste Modell mit Gedächtnis und logischen Fähigkeiten besitzt.
Iván Palomares Carrascosa ist ein führender Autor, Redner und Berater in den Bereichen KI, maschinelles Lernen, Deep Studying und LLMs. Er schult und leitet andere darin, KI in der realen Welt zu nutzen.
