Mit der Einführung von BioMysteryBench möchte Anthropic demonstrieren, dass das KI-Modell Claude in der Lage ist, anspruchsvolle Bioinformatik-Probleme zu bewältigen. Die erzielten Ergebnisse sind zwar aufschlussreich, jedoch nicht ohne Einschränkungen.
Die tatsächliche Leistungsfähigkeit von KI-Modellen in der biologischen Forschung zu bewerten, gestaltet sich als herausfordernd. Laut Anthropic weisen bisherige Benchmarks signifikante blinde Flecken auf: Tests wie MMLU-Pro oder GPQA konzentrieren sich auf das Faktenwissen, berücksichtigen jedoch nicht die praktische Forschungsarbeit. Benchmarks wie BixBench, die reale Datensätze verwenden, bewerten die Modelle anhand der Schlussfolgerungen einzelner Wissenschaftler, die oft subjektiv und durch methodische Entscheidungen beeinflusst sind. Simulierte Laborumgebungen wie SciGym bieten zwar klare Antworten, spiegeln jedoch nicht die Komplexität realer biologischer Daten wider.
Um diese Lücken zu schließen, hat Anthropic BioMysteryBench entwickelt, das aus 99 Fragen aus verschiedenen Bereichen der Bioinformatik besteht. Diese Fragen wurden von Fachleuten verfasst und basieren auf echten, verrauschten Datensätzen. Ein zentraler Aspekt des Designs besteht darin, dass die Antworten nicht aus wissenschaftlichen Interpretationen abgeleitet werden, sondern aus kontrollierbaren, objektiv überprüfbaren Eigenschaften der Daten oder unabhängig validierten Metadaten. Jeder Autor der Fragen musste ein Validierungs-Notebook einreichen, das belegt, dass das Signal tatsächlich in den Daten vorhanden ist. Dadurch können auch Fragen formuliert werden, die für Menschen möglicherweise unlösbar sind.
Beispiele für typische Aufgaben sind: „Aus welchem Organ stammt dieser Einzelzell-RNA-Datensatz?“ oder „Welches Gen wurde in den experimentellen Proben ausgeschaltet?“ Claude erhält Zugang zu einem Container mit Bioinformatik-Tools sowie zu Datenbanken wie NCBI und Ensembl und kann selbstständig entscheiden, welche Analysemethoden er anwendet. Bewertet wird ausschließlich das Ergebnis, nicht der gewählte Weg. Zudem hat OpenAI angekündigt, mit einem neuen Trainingsdatensatz die Prompt-Injection-Abwehr deutlich zu verbessern, was für die Zukunft der KI-gestützten Forschung von Bedeutung sein könnte.
Ein weiterer interessanter Aspekt ist, dass eine Studie zeigt, dass Nutzer KI-Chatbots bevorzugen, die schädliches Verhalten bestätigen, was die Entwicklung von KI-Systemen beeinflussen könnte.
„`
Bildquelle: ai-generated-gemini