W ubiegłym lecie Peter Degen, doktorant na stażu podoktorskim, otrzymał nietypowe zadanie od swojego promotora: jeden z jego artykułów naukowych był cytowany zbyt często. Cytowania stanowią bowiem podstawowy miernik wpływu badań w świecie akademickim, jednak w tym przypadku coś było nie tak.

Opublikowana w 2017 roku praca Degen’a dotyczyła oceny dokładności określonej metody statystycznej stosowanej w analizie danych epidemiologicznych. Przez lata cytowano ją jedynie kilkadziesiąt razy – do czasu, gdy nagle liczba odwołań zaczęła rosnąć lawinowo. Obecnie artykuł jest cytowany nawet kilka razy dziennie, co plasuje go wśród najczęściej przywoływanych prac promotora Degen’a. Podczas gdy inny naukowiec mógłby cieszyć się z takiego sukcesu, promotor poprosił go o wyjaśnienie tej sytuacji.

Dochodzenie Degen’a ujawniło niepokojący trend: coraz więcej artykułów naukowych, szczególnie tych opartych na sztucznej inteligencji, jest cytowanych w innych publikacjach z niespotykaną dotąd częstotliwością. Problem dotyczy nie tylko pojedynczych przypadków, ale staje się coraz bardziej powszechny, zagrażając fundamentom rzetelności naukowej.

Czemu AI generuje tak wiele cytowań?

Głównym powodem jest rosnąca liczba badań wykorzystujących modele uczenia maszynowego i generatywne AI. Artykuły te często zawierają obszerne analizy danych, które są automatycznie cytowane przez inne prace – nie zawsze ze względu na ich merytoryczną wartość, ale dlatego, że stanowią standardowe narzędzie w danej dziedzinie. Ponadto, algorytmy generatywne, takie jak te używane do pisania tekstów naukowych, mogą produkować setki podobnych artykułów w krótkim czasie, co prowadzi do wzrostu liczby cytowań.

Eksperci ostrzegają, że ten trend może prowadzić do zniekształcenia wskaźników cytowalności, które są kluczowe dla oceny dorobku naukowego i przyznawania grantów. Jeśli prace o niskiej jakości lub powielające te same wyniki będą cytowane częściej niż te wartościowe, system nauki straci na wiarygodności.

Skutki dla nauki i finansowania

Nadmierne cytowania prac opartych na AI mogą mieć poważne konsekwencje. Po pierwsze, zagrożona jest jakość badań – naukowcy mogą skupiać się na ilości, a nie na jakości, aby zwiększyć swoje wskaźniki cytowalności. Po drugie, system finansowania nauki, który opiera się na metrykach cytowań, może zacząć faworyzować prace, które niekoniecznie wnoszą nowej wiedzy, ale są łatwe do wygenerowania przez AI.

Według raportu opublikowanego przez Nature, już teraz obserwuje się wzrost liczby artykułów, które są cytowane wyłącznie dlatego, że zawierają popularne narzędzia lub algorytmy, a nie ze względu na ich unikalny wkład w daną dziedzinę. To z kolei prowadzi do efektu „bańki cytowań”, gdzie pewne prace stają się nieproporcjonalnie wpływowe, niekoniecznie z powodu ich wartości naukowej.

Co robić, aby zapobiec temu zjawisku?

  • Wprowadzenie bardziej rygorystycznych kryteriów oceny – redakcje czasopism naukowych powinny weryfikować, czy cytowane prace rzeczywiście wnoszą nową wiedzę, czy jedynie powtarzają istniejące wyniki.
  • Ograniczenie automatycznego cytowania – systemy takie jak Google Scholar powinny uwzględniać kontekst cytowania, aby nie faworyzować prac generowanych przez AI.
  • Promowanie badań o wysokim potencjale innowacyjności – instytucje finansujące naukę powinny premiować prace, które wnoszą przełomowe odkrycia, a nie te, które jedynie powielają istniejące metody.

Problem nadmiernych cytowań prac AI to nie tylko kwestia statystyki, ale fundamentów nauki. Jeśli system nie zostanie odpowiednio dostosowany, ryzyko utraty wiarygodności badań naukowych może stać się realnym zagrożeniem dla postępu ludzkości.

Źródło: The Verge