Im vergangenen Sommer zeigte Peter Degen, Postdoktorand an der Universität Zürich, seinem Betreuer ein ungewöhnliches Phänomen: Eines seiner Forschungspapiere aus dem Jahr 2017 wurde plötzlich massenhaft zitiert. Während es zuvor nur wenige Dutzend Male in anderen Studien erwähnt worden war, tauchte es nun alle paar Tage in neuen Veröffentlichungen auf – und stieg damit in die Liste der meistzitierten Arbeiten seines Betreuers auf.
Normalerweise wäre eine solche Entwicklung ein Grund zur Freude. Doch statt Begeisterung löste sie bei Degen und seinem Betreuer Skepsis aus. Warum plötzlich diese Häufung? Die Antwort lag nicht in einer wissenschaftlichen Sensation, sondern in einem KI-Tool.
Das Paper von Degen analysierte die Genauigkeit einer bestimmten statistischen Methode zur Auswertung epidemiologischer Daten. Solche Methoden sind in der Forschung weit verbreitet, doch ihre korrekte Anwendung ist entscheidend. Genau hier setzte ein KI-System an, das in den letzten Jahren immer häufiger in der akademischen Welt eingesetzt wird: Large Language Models (LLMs) wie ChatGPT oder ähnliche Tools durchsuchen automatisch wissenschaftliche Datenbanken nach relevanten Studien und zitieren sie – oft ohne kritische Prüfung.
Das Problem: Diese KI-Systeme erkennen nicht immer, ob eine Studie tatsächlich valide oder nur zufällig passend ist. Sie greifen auf Mustererkennung zurück und zitieren auch ältere oder weniger relevante Arbeiten, wenn sie thematisch ähnlich sind. Dadurch entstehen künstlich aufgeblähte Zitationszahlen, die den Eindruck erwecken, eine Studie sei einflussreicher, als sie tatsächlich ist.
Für Wissenschaftler wie Degen hat dies konkrete Folgen. Zitationsmetriken wie der h-Index oder der Impact Factor entscheiden über Fördergelder, Berufungen und Reputation. Wenn KI-generierte Zitate diese Kennzahlen verzerren, kann das langfristig die wissenschaftliche Qualität und Fairness beeinträchtigen.
Experten warnen bereits vor den Konsequenzen.
„Wenn KI-Systeme blind zitieren, ohne den wissenschaftlichen Kontext zu verstehen, untergraben sie das Vertrauen in die akademische Integrität“,sagt Dr. Anna Meier, Expertin für Wissenschaftsethik an der ETH Zürich. Sie fordert strengere Richtlinien für den Einsatz von KI in der Forschung und eine manuelle Überprüfung von Zitaten durch Fachleute.
Auch Verlage und Datenbanken wie PubMed oder Google Scholar stehen vor der Herausforderung, KI-generierte Zitate zu erkennen und zu filtern. Einige haben bereits Algorithmen eingeführt, die verdächtige Zitationsmuster identifizieren sollen. Doch die Technologie entwickelt sich schneller als die Gegenmaßnahmen.
Für Degen und seinen Betreuer war die Aufklärung des Falls eine wichtige Lektion. Sie veröffentlichten eine Stellungnahme in ihrem Fachjournal und warnten vor den Risiken unkritischer KI-Nutzung. Gleichzeitig fordern sie eine Debatte über neue Standards in der wissenschaftlichen Publikationspraxis.
Die Frage bleibt: Wie kann die Wissenschaft sicherstellen, dass Zitationszahlen weiterhin ein verlässlicher Maßstab für Qualität bleiben – angesichts einer Technologie, die immer besser darin wird, Texte zu generieren, aber nicht immer darin, sie richtig einzuordnen?