zur

OpenAI veröffentlicht LifeSciBench, einen 750-Aufgaben umfassenden Benchmark zur Bewertung von KI-Modellen für reale lebenswissenschaftliche Forschung mit von Experten verfassten Rubriken

Die meisten Biologie-Benchmarks stellen eng gefasste, faktenbasierte Fragen mit klaren Antworten. Wissenschaftler wägen unvollständige Beweise ab und treffen Entscheidungen. OpenAI hat LifeSciBench veröffentlicht und zielt direkt auf diese Lücke. Selbst…

ClawHub-Sicherheitssignale: Ein Codierungsleitfaden zur Finish-to-Finish-Sicherheitssignalanalyse und Urteilsklassifizierung im KI-Fähigkeitsdatensatz

TEXT_COL = "skill_md_content" NUM_COLS = ("skillspector_score", "static_finding_count", "skillspector_issue_count", "virustotal_malicious_count") TARGET = "clawscan_verdict" def prep(df): out = df.copy() out(TEXT_COL) = out(TEXT_COL).fillna("").astype(str).str.slice(0, 6000) for c in NUM_COLS: out(c) = pd.to_numeric(out(c), errors="coerce") return…