Wikipedia. Czy sztuczna inteligencja zniszczy ten projekt?

Sztuczna inteligencja została wyszkolona w dużej mierze na treściach Wikipedii. Obecnie ok. 5 proc. nowopowstałych treści tworzy się tam za pomocą AI i ten wskaźnik wcąż wzrasta. Czy czatboty zastąpią wolontariuszy?
Czy Wikipedia zostanie zniszczona przez AI? / Fot. Luke Chesser / Unsplash
Czy Wikipedia zostanie zniszczona przez AI? / Fot. Luke Chesser / Unsplash

Wikipedia to źródło danych, na których trenowane są algorytmy sztucznej inteligencji. Obecnie ok. 5 proc. nowopowstałych treści tworzy się tam za pomocą AI i ten wskaźnik wcąż wzrasta. Czy czatboty zastąpią wolontariuszy?

Gdy Elon Musk przymierzał się do kupna twittera, po platformie zaczęły krążyć porady: “zróbcie backup swojego konta, bo nie wiadomo, co się potem stanie”. Gdy później społeczność internetu ujrzała ChatGPT, pojawiły się trochę podobne apele: zróbmy backup całej Wikipedii, póki jest tworzona przez człowieka. Potem – twierdzono – nie wiadomo, co będzie, sztuczna inteligencja zepsuje encyklopedię i nie da się rozróżnić, które hasło zostało stworzone przez ludzkiego autora, a które przez czatbota. Wtedy brzmiało to na poły żartobliwie, a na poły dystopijnie. Dwa lata później – już tak nie jest.

Badania pokazują, że nawet 5 proc. treści stworzonych na anglojęzycznej Wikipedii w sierpniu 2024 r. zostało wygenerowane przy pomocy AI.

Naukowcy z Princeton w swojej pracy wykorzystali dwa różne narzędzia – popularny GPTZero oraz otwartoźródłowy Binoculars, aby zbadać wpływ sztucznej inteligencji na tworzenie treści w Wikipedii. Porównano teksty utworzone w sierpniu 2024 r. z wcześniej wyselekcjonowanym zbiorem artykułów powstałych przed marcem 2022 r. Oba detektory ujawniły znaczny wzrost treści wygenerowanych przez AI.

Jeśli chodzi o edycję niemiecką, francuską czy włoską – odnotowano teoretycznie mniejszy wzrost – ale, jak zauważają sami badacze, nie wiadomo, na ile wiarygodne są te różnice. Detektory były bowiem szkolone na treściach anglojęzycznych – i z innymi językami mogą sobie tak dobrze nie poradzić.

Artykuły wskazane przez oba narzędzia zostały dodatkowo przeanalizowane przez samych badaczy – sprawdzono historię edycji oraz samych autorów. Część tekstów wyszła spod ręki (tudzież spod promtu) tych samych osób – co świadczy o tym, iż osoby przekonane do używania AI w pracy wikipedysty będą z niej korzystać częściej.

Naukowcy starali się także poznać motywacje, które stały za wykorzystaniem właśnie takich narzędzi. Te zdawały się być różne, dominowały jednak dwie tendencje.

Pierwsza to autopromocja, druga – próba wypromowania konkretnego podejścia w polaryzujących politycznie tematach. Pojawiły się więc strony, w których jedynym linkiem był ten prowadzący do strony restauracji albo artykuł, który wyglądał jak reklama posiadłości – akurat wystawionej na sprzedaż, zawierający wyłącznie nieaktywne (“martwe”) odnośniki i jeden działający, ale nie powiązany z tematem.

Inny użytkownik z kolei stworzył pięć artykułów dotyczących albańskiej historii, wdał się w wojnę edycyjną, a finalnie został zablokowany – gdy mimo ostrzeżeń usunął tekst pomocniczy i wygenerował nowy za pomocą AI.

Czy przy takiej skali to jednak w ogóle stanowi jakikolwiek problem?

Fenomen Wikipedii

Moje pokolenie zna Wikipedię od lat, młodsze – w zasadzie od zawsze. Popularna internetowa encyklopedia jest czymś na tyle oczywistym, że rzadko zastanawiamy się nad tym, z jakim fenomenem mamy do czynienia.

Chociaż dla nas – ludzi z bańki technologicznej – sposób funkcjonowania Wikipedii jest znany (i to lepiej i dłużej, niż mechanizmy socialmediów), użytkownicy spoza naszego środowiska nieraz nie zdają sobie z niego sprawy. Dla współczesnego nastolatka to takie same źródło wiedzy, jakim dla mojego pokolenia była Encyklopedia PWN. Kwestia “kto napisał hasło, na jakich zasadach i na ile wiarygodnie” zajmuje ich podobnie, jak nas w czasach szkolnych analogiczny problem przy odrabianiu pracy domowej – jeśli nie mniej. Warto więc uświadomić sobie, z czym mamy do czynienia i co odróżnia Wikipedię od innych źródeł informacji.

Z jednej strony, w porównaniu z wszechobecnymi wpisami w mediach czy social mediach, mamy do czynienia z portalem, gdzie artykuły muszą mieć charakter encyklopedyczny, być napisane w sposób neutralny światopoglądowo i mieć oparcie w źródłach. Z drugiej zaś strony, w porównaniu z przeciętnymi publikacjami naukowymi lub popularnonaukowymi, za opracowanie poszczególnych wpisów nie odpowiada konkretny, wyspecjalizowany w temacie autor.

Nieraz powtarza się, że za Wikipedią nie stoi redakcja, lecz społeczność. Chociaż formalnie projektowi przewodzi amerykańska Fundacja Wikimedia oraz lokalne organizacje siostrzane (w Polsce Wikimedia Polska), odpowiedzialne i za samą encyklopedię, i za projekty pokrewne – to wikipedystką lub wikipedystą może zostać praktycznie każdy.

W internecie jest sporo miejsc tworzonych lub współtworzonych przez użytkowniczki i użytkowników – ale jeśli chodzi o skalę, to Wikipedia jest jednym z niewielu, jeśli nie jedynym tego typu dużym projektem, który nie został stworzony ani przejęty przez korporacje technologiczne.

Ze względu na liczbę użytkowników, serwis został nawet zaliczony przez Komisję Europejską do grona VLOP-ów (czyli bardzo dużych platform online, podlegających specjalnym wymogom stawianym przez DSA). Mimo, że opiera się głównie na wolontariacie, nie ma z nałożonymi wymogami takich problemów, jakie zgłaszają podlegające tej samej regulacji Big Techy.

Czy Wikipedia jest wiarygodnym źródłem informacji?

Połączenie encyklopedycznego charakteru z rzeszą autorek i autorów, podejmujących decyzje za pomocą konsensusu, nieraz budziło wątpliwości odnośnie wiarygodności Wikipedii.

Podczas gdy jedni uważają ją za nieodpowiednią nawet do zwykłego odrabiania szkolnych prac domowych, inni wykorzystują ją w orzecznictwie sądowym. Ci drudzy zwracają uwagę na “społeczne rozumienie pewnych pojęć” i weryfikowalność źródeł – a z tym bywa różnie.

Już wcześniej zdarzały się sytuacje, w których źródła, na które powoływano się w Wikipedii, wprowadzały w błąd. W Polsce jedna z najbardziej znanych tego typu sytuacji miała miejsce, gdy znana pisarka Joanna Bator, zorientowała się że w haśle na jej temat widnieje błędna data urodzenia. Mimo, iż próbowała sprawę wyjaśnić – nie zdołała wymóc umieszczenia w artykule poprawionej daty. Dopiero jej felieton w “Gazecie Wyborczej”, w którym pisała o rozmowie “awatara z awatarem”, został uznany przez wikipedystów za wiarygodne źródło.

Wraz z rozwojem sztucznej inteligencji problem jedynie się nasilił. Chociaż dotyczy w zasadzie całego internetu, to w przypadku Wikipedii jest szczególnie niepokojący. Z encyklopedii korzystają także ludzie, którzy nie zaglądają na TikToka czy Instagrama. Mimo mniej lub bardziej licznych kontrowersji, Wikipedia wciąż ma – słusznie – zdecydowanie lepszą renomę, niż social media. Uchodzi za bardziej neutralną i wolną od uprzedzeń.

Dodatkowo przypisy linkujące do źródeł zwiększają jej wiarygodność. Wszystko to może uśpić czujność użytkowniczek i użytkowników przekonanych, że gdzie jak gdzie – ale w Wikipedii na dezinformację nie natrafią. “Przecież to nie media społecznościowe, nie ma polaryzujących algorytmów, a nad poprawnością haseł czuwa cała społeczność. Skoro tyle osób czuwa – to ktoś na pewno już wszystko sprawdził, zweryfikował, nie ma co w tym grzebać, można podać dalej” – mniej więcej tak można sobie wyobrazić to rozumowanie.

Realnie jednak patrząc, w podane pod hasłem linki mało kto się zagłębia. A jeśli halucynującej AI będzie brakować źródeł na potwierdzenie jakiejś tezy – po prostu je wymyśli. Paradoksalnie sztucznie wygenerowana nieprawidłowa informacja może na pierwszy rzut oka wyglądać bardziej wiarygodnie od tej prawdziwej. Wystarczy, że będzie zawierać kilka przypisów, podczas gdy prawdziwa wiadomość zostanie opatrzona wprawdzie wiarygodnym linkiem, ale tylko jednym.

Wiarygodność to nie jedyny problem

Poza tym – to właśnie Wikipedia i jej otwarte zasoby stanowią jedno z głównych źródeł danych treningowych, na których szkolona jest sztuczna inteligencja. Polska Wikipedia liczy ponad 1,6 mln artykułów, angielska – prawie 7 milionów.

Nawet osoby związane nie z encyklopedią, a rozwojem sztucznej inteligencji ostrzegają przed przysłowiowym wężem zjadającym własny ogon. Obawiają się, że przy wzroście sztucznie wygenerowanych treści, halucynacje AI staną się materiałem treningowym do szkolenia tejże właśnie technologii.

Samo szkolenie korporacyjnych technologii na otwartych zasobach też siłą rzeczy budzi kontrowersje. Wikimedia współpracują z różnymi instytucjami kultury czy archiwami, aby włączyć zdigitalizowane dobra kultury, będące częścią dziedzictwa narodowego, do swoich zasobów. Ma to ułatwić dostęp do nich użytkownikom i użytkowniczkom – ale w praktyce ułatwia także algorytmom sztucznej inteligencji.

Humaniści stanęli obecnie przed kolejnym wyzwaniem: chcąc dotrzeć z kulturą do odbiorców postanowili wyjść na przeciw ich oczekiwaniom, zdigitalizować zbiory i włączać je do otwartych internetowych zasobów. Tymczasem odbiorcy ci niejednokrotnie wybierają papkę na TikToku czy Instagramie, proponowaną im przez korporacje, podczas gdy z otwartych zasobów kultury i pracy wolontariuszy najbardziej korzystają… też korporacje technologiczne, szkolące na nich swoje algorytmy.

Mniej oczywisty, a wciąż realny problem dotyczy używania AI do tłumaczenia treści. Nieprawidłowe tłumaczenie maszynowe może doprowadzić do opublikowania artykułów z błędami, które – zwłaszcza przy ich większej ilości i bardziej specjalistycznych dziedzinach, dość długo mogą zostać niewykryte. Nie bez znaczenia jest też powielanie uprzedzeń i stereotypów przez LLM-y. Jeden z popularniejszych translatorów notorycznie zamienia polityczkę w polityka, pielęgniarza w pielęgniarkę.

Poza zagrożeniami zwraca się jednak uwagę na korzyści, jakie AI może przynieść wolnej encyklopedii. Już teraz korzysta się tam z narzędzia “automoderator”, bazującego na uczeniu maszynowym, które ma pomagać w radzeniu sobie z wandalizmem w serwisie. Badacze podkreślają, że AI zwiększa produktywność, a tłumaczenia maszynowe ułatwiają komunikację.

Reakcja społeczności: od odrzucenia po fascynację

Samo środowisko wikipedystów reprezentuje całe spektrum reakcji: od entuzjazmu i fascynacji, poprzez ostrożną ciekawość, po niechęć i całkowite odrzucenie. Pojawiają się pytania, czy używać AI w Wikipedii, w jakim zakresie, oraz o to, czy odróżnienie treści wytworzonych przez czatbota od tych napisanych przez człowieka jest w ogóle możliwe.

W lipcu 2023 r. przeprowadzono ankietę w niemieckojęzycznej społeczności wikipedystek i wikipedystów: jedna trzecia głosowała za zachowaniem artykułów wygenerowanych przez AI (o ile nie zawierają żadnych błędów), prawie połowa domagała się ich usuwania. Nie ma więc konsensusu – jest jednak świadomość problemu i różne pomysły odnośnie tego, jak sobie z nim radzić.

Przy anglojęzycznej Wikipedii powstał projekt AI Cleanup – 91 ludzi ma sprzątać encyklopedię ze źle napisanych artykułów wygenerowanych przez sztuczną inteligencję. W Niemczech z kolei stworzono WikiProjekt KI – stanowiący bardziej inicjatywę badawczą, niż sprzątającą. W razie problemów wolontariusze przedsięwzięcia kontaktują się z osobą stojącą za artykułem, gdy ta nie odpowiada – usuwają treść stworzoną przez LLM.

Dyskusja przetoczyła się także przez polską edycję Wikipedii. Dowodzono, że skoro za artykuł lub jego edycję odpowiada autor, to wprowadzanie zakazów, czy nawet zasad dotyczących używania sztucznej inteligencji, jest niepotrzebne. Zwracano uwagę na zalety płynące z korzystania z ChatuGPT, który daje “dobre wyniki” i “upraszcza pracę”. Argumentowano, aby decyzja, z jakich narzędzi skorzystać, leżała ostatecznie po stronie autora czy edytora, a jeden z wikipedystów przyznał wprost, że wykrywanie przez pojedynczych wolontariuszy treści wygenerowanych przez AI wydaje mu się po prostu niemożliwe.

Finalnym efektem są póki co zalecenia w formie propozycji – a więc nieobowiązujących zasad. Szczęśliwie bazują na wersji angielskiej, więc uwzględniają też kwestie potencjalnych zagrożeń. Proponowane zasady zezwalają na korzystanie z generatywnej sztucznej inteligencji przy tworzeniu kodu, list czy stron pomocy oraz jako “narzędzia przy pisaniu i opracowywaniu artykułów”.

Czatbot mógłby wprawdzie napisać konspekt, szkic lub poprawić błędy, ale już nie stworzyć ostateczną wersję tekstu. Zakazane ma być także wykorzystanie sztucznej inteligencji do tworzenia listy źródeł bez ich wcześniejszej weryfikacji. Podkreślono rolę użytkownika – który powinien podchodzić krytycznie do wygenerowanych przez AI zaleceń i być świadomy potencjalnych problemów.

Polska odpowiedź na problem wydaje się więc uboga na tle rozwiązań zaproponowanych przez społeczność niemiecko- czy anglojęzyczną, które i tak mogą okazać się niewystarczające. Jak słusznie zauważył Ben Bergleiter w artykule dla serwisu Netzpolitik, 91 wolontariuszy projektu AICleanup za pomocą raczej słabo działających narzędzi będzie musiało sobie poradzić z prawie 7 mln artykułów.

Z drugiej strony, wolontariacki projekt encyklopedyczny “starego internetu”, jakim Wikipedia wciąż zdaje się pozostawać, może być ze swej natury odporniejszy na dezinformację czy polaryzację, niż komercyjne social media. Zawarte w niej wiadomości są z definicji bardziej weryfikowalne i neutralne, nie ma algorytmów prowokujących kłótnie, zaś społeczność wikipedystek i wikipedystów pracujących nad moderacją treści jest zdecydowanie liczniejsza, niż moderatorów popularnych serwisów społecznościowych.

Uwzględniając, jakimi środkami dysponują Wikimedia, a jakimi Meta, X/Twitter czy TikTok można sobie wyobrazić, jak wiele osiągnęłyby Big Techy w w walce z dezinformacją czy polaryzacją, gdyby po prostu im na tym zależało. Pozostaje więc nadzieja, że mimo niewystarczających zasobów społeczność Wikipedii będzie trzymać rękę na pulsie i poradzi sobie z zagrożeniami płynącymi ze strony AI. Łatwo nie będzie – ale już teraz wolontariusze projektu z wieloma problemami radzą sobie lepiej, niż – teoretycznie lepiej do tego przygotowane – korporacje.

Źródła

Anna Biselli, Was die neuen EU-Regeln für die Wikipedia bedeuten – netzpolitik.org, 11.04.2023
Wikipedia wkracza do orzecznictwa sądów – rp.pl, 10.11.2008
Ben, Die freie und KI-generierte Enzyklopädie? – netzpolitik.org, 6.11.2024
Creston Brooks, Samuel Eggert, Denis Peskoff, The Rise of AI-Generated Content in Wikipedia https://arxiv.org/abs/2410.08044
Dyskusja Wikipedii:Zalecenia dotyczące zastosowania sztucznej inteligencji w polskiej Wikipedii, dostęp 11.11.2024
Wikipedia:Zalecenia dotyczące zastosowania sztucznej inteligencji w polskiej Wikipedii, dostęp 11.11.2024
Natalia Szafran-Kozakowska, Spojrzenie wolontariuszy Wikipedii na sprawę biogramu Joanny Bator – wikimedia.pl, 24.11.2012
Joanna Bator, Awatary wierzą tylko w linki, wyborcza.pl 21.11.2012

Total
0
Shares
Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Powiązane teksty
Total
0
Share