
Wissenschaftler, die im Bereich der KI-Forschung tätig sind, stehen vor einem Glaubwürdigkeitsproblem, das sie nicht länger ignorieren können.
Große Konferenzen im Bereich der KI-Forschung reagierten, nachdem die Begutachtungssysteme durch minderwertige Einreichungen überlastet waren.
Die Organisatoren stellten einen starken Anstieg an Beiträgen und Peer-Reviews fest, die mit minimalem menschlichen Aufwand erstellt wurden. Die Sorge gilt nicht dem Stil, sondern der Genauigkeit. Fehler schleichen sich in Bereiche ein, in denen Präzision früher entscheidend war.
Forscher warnten frühzeitig davor, dass der unkontrollierte Einsatz automatisierter Schreibwerkzeuge dem Fachgebiet schaden könnte. Inioluwa Deborah Raji, KI-Forscherin an der University of California, Berkeley, sagte, die Situation sei schnell chaotisch geworden.
„Es ist schon etwas ironisch, dass so viel Begeisterung für die Entwicklung anderer Bereiche durch KI herrscht, wo doch unser Fachgebiet in Wirklichkeit aufgrund des weitverbreiteten Einsatzes von KI diese chaotische Erfahrung durchgemacht hat“, sagte sie.
Harte Fakten belegen das Ausmaß des Problems. Eine im August veröffentlichte Studie der Stanford University ergab, dass bis zu 22 Prozent der Informatik-Veröffentlichungen Anzeichen für die Verwendung großer Sprachmodelle aufwiesen.
Das Textanalyse-Start-up Pangram analysierte Einreichungen und Peer-Reviews auf der International Conference on Learning Representations 2025. Laut Pangram wurden 21 Prozent der Reviews vollständig von KI generiert, während mehr als die Hälfte KI für Aufgaben wie das Lektorat nutzte. Zudem stellte dass bei 9 Prozent der eingereichten Arbeiten mehr als die Hälfte des Inhalts auf diese Weise erstellt wurde.
Das Problem spitzte sich im November zu. Gutachter der ICLR-Konferenz beanstandeten eine Arbeit, die mutmaßlich von einer KI generiert worden war und dennoch zu den besten 17 Prozent der bewerteten Arbeiten zählte. Im Januar meldete das Unternehmen GPTZero, das sich auf die Erkennung automatisierter Fehler spezialisiert hat, über 100 Fehler in 50 Beiträgen, die auf der NeurIPS-Konferenz – dem wichtigsten Forum für Spitzenforschung auf diesem Gebiet – präsentiert wurden.
Angesichts wachsender Bedenken aktualisierte die ICLR vor der Konferenz ihre Nutzungsregeln. Beiträge, die den umfassenden Einsatz von Sprachmodellen , werden nun abgelehnt. Gutachter, die minderwertige, automatisiert erstellte Bewertungen einreichen, riskieren Sanktionen, bis hin zur Ablehnung ihrer eigenen Beiträge.
Hany Farid, ein Informatikprofessor an der University of California, Berkeley, sagte: „Wenn man wirklich minderwertige Arbeiten veröffentlicht, die einfach falsch sind, warum sollte die Gesellschaft uns als Wissenschaftlern vertrauen?“
Dem Bericht zufolge gingen bei NeurIPS im Jahr 2025 21.575 Beiträge ein, gegenüber 17.491 im Jahr 2024 und 9.467 im Jahr 2020. Ein Autor reichte in einem einzigen Jahr mehr als 100 Beiträge ein, weit mehr als üblicherweise für einen einzelnen Forscher.
Thomas G. Dietterich, emeritierter Professor an der Oregon State University und Vorsitzender der Informatiksektion von arXiv, sagte, dass auch die Uploads in das offene Repository stark angestiegen seien.
Dennoch betonen Forscher, dass die Ursache nicht einfach ist. Einige argumentieren, der Anstieg sei auf den zunehmenden Einstieg von Personen in dieses Forschungsgebiet zurückzuführen. Andere sehen die Hauptrolle im intensiven Einsatz von KI-Tools. Die Erkennung bleibt schwierig, da es keinen einheitlichen Standard zurdentautomatisierter Texte gibt. Laut Dietterich zählen erfundene Quellenangaben und fehlerhafte Abbildungen zu den häufigsten Warnzeichen. Autoren, die dabei erwischt werden, können vorübergehend von arXiv gesperrt werden.
Auch der kommerzielle Druck spielt eine Rolle. Aufsehenerregende Demos, steigende Gehälter und aggressiver Wettbewerb haben Teile der Branche dazu veranlasst, sich auf Quantität zu konzentrieren. Raji sagte, dass solche Hype-Momente Außenstehendetrac, die schnelle Ergebnisse erwarten.
Gleichzeitig betonen Forscher, dass einige Anwendungsfälle legitim seien. Dietterich merkte an, dass sich die Schreibqualität chinesischer Arbeiten verbessert habe, vermutlich weil Sprachlernprogramme dabei helfen, englische Texte verständlicher zu formulieren.
Das Problem reicht mittlerweile über den Verlagswesen hinaus. Unternehmen wie Google, Anthropic und OpenAI bewerben ihre Modelle als Forschungspartner, die Entdeckungen in Bereichen wie den Lebenswissenschaften beschleunigen können. Diese Systeme werden mit wissenschaftlichen Texten trainiert.
Farid warnte davor, dass die Modellleistung sinken kann, wenn die Trainingsdaten zu viel synthetisches Material enthalten. Frühere Studien haben gezeigt, dass große Sprachmodelle zu Unsinn verkommen können, wenn sie mit ungefilterten, automatisierten Daten gefüttert werden.
Farid erklärte, Unternehmen, die Forschungsergebnisse sammeln, hätten eintronInteresse daran, zu wissen, welche Arbeiten von Menschen verfasst wurden. Kevin Weil, Wissenschaftsleiter bei OpenAI, sagte, die Tools erforderten weiterhin menschliche Kontrollen. „Es kann ein enormer Beschleuniger sein“, sagte er. „Aber man muss es überprüfen. Das entbindet einen nicht von der Sorgfaltspflicht.“
Wenn Sie dies lesen, sind Sie schon auf dem Laufenden. Bleiben Sie mit unserem Newsletter auf dem Laufenden .