Media i internet

Algorytmy OpenAI szkolą się na otwartych tekstach z mediów. To duży problem

Algorytmy firmy OpenAI – twórców słynnego modelu ChatGPT – szkolą się na tekstach z mediów, takich, jak np. dziennik „Wall Street Journal” czy strona internetowa stacji CNN. To duży problem – i nie chodzi tu wyłącznie o licencje na treści czy pieniądze.

przezGosia Fraser

21/02/2023

4 min

Fot. Jon Tyson / Unsplash

„Każdy, kto chce wykorzystywać pracę dziennikarzy Wall Street Journal do trenowania sztucznej inteligencji, powinien pozyskać na to właściwą licencję od firmy Dow Jones” – powiedział cytowany przez agencję Bloomberga prawnik tej należącej do potężnego koncernu medialnego News Corp spółki, Jason Conti.

„Wall Street Journal” i 19 innych redakcji, w tym stacja telewizyjna CNN, uważają że ich materiały wykorzystywane są przez firmę OpenAI do szkolenia algorytmów wchodzących w skład modelu ChatGPT, doskonale imitującego tekst pisany przez człowieka.

Conti dodaje, że Dow Jones nie ma obecnie żadnej umowy podpisanej z OpenAI, która umożliwiałaby firmie pozyskiwanie takich licencji, a „nadużycia wobec pracy dziennikarzy są brane na poważnie”. Jak podkreśla prawnik, wydawca „WSJ” „przygląda się tej sytuacji”.

Media – żerowisko dla sztucznej inteligencji

Cała sprawa zaczęła się od wpisu dziennikarza Francesca Marconiego, który stwierdził, że ma dowody na to iż m.in. jego praca (oraz dorobek innych dziennikarzy) została wykorzystana do trenowania ChatGPT.

Marconi powiedział przy tym, że zapytał ten model o listę serwisów informacyjnych, na podstawie których był trenowany – i bez problemu uzyskał odpowiedź, w ramach której generatywna sztuczna inteligencja podała mu 20 różnych serwisów.

ChatGPT is trained on a large amount of news data from top sources that fuel its AI. It's unclear whether OpenAI has agreements with all of these publishers. Scraping data without permission would break the publishers' terms of service. pic.twitter.com/RXEjMHWXiI
— Francesco Marconi (@fpmarconi) February 15, 2023

Zapytana o komentarz przez Bloomberga firma OpenAI do tej pory nie odniosła się do sprawy.

Internet pełen padliny

Wydawcy medialni to kolejna grupa podmiotów zaniepokojona tym, jak generatywna sztuczna inteligencja traktuje (a raczej, całkowicie ignoruje) kwestie praw autorskich i towarzyszących im praw pokrewnych.

Treści z otwartych serwisów informacyjnych, takich jak TECHSPRESSO, ale i strony agencji Associated Press, czy agencji Reutera, pobierane są przez firmy trenujące swoje algorytmy w ramach praktyki scrappingu, czyli masowego gromadzenia danych z otwartych źródeł w sieci. To praktyka legalna, niestety – wątpliwa etycznie.

Posłuchaj odcinka podcastu TECHSPRESSO CAFE o tym, czym jest ChatGPT

Wskazywali już na to artyści wizualni, tacy jak graficy cyfrowi i fotografowie, którzy w obrazach generowanych przez słynny model Midjourney znaleźli ślady swojego stylu i podkreślają, że algorytm ten karmi się ich pracą, nierzadko stanowiącą dorobek życia prezentowany w ramach cyfrowego portfolio – a następnie generuje łudząco podobne obrazy, które po prostu są sztucznie wytworzoną imitacją, dodatkowo powstałą w wyniku naruszeń praw własności intelektualnej.

Czy sztuczna inteligencja zastąpi dziennikarzy?

To pytanie, które w kontekście rozmów o AI przewija się najczęściej – w różnych odmianach, bo przecież debatujemy też nad tym, czy przez algorytmy przestaną być potrzebni prawnicy, artyści wizualni, a nawet muzycy.

Niektóre tytuły – jak ostatnio w Polsce portal Interia – testują różne zastosowania sztucznej inteligencji. W USA, serwis technologiczny Cnet korzystał z algorytmów do generowania krótkich informacji na tematy gospodarcze, podobnie gazeta „Men’s Journal” – jednak za każdym razem teksty „pisane” przez sztuczną inteligencję były pełne błędów i wymagały od redakcji korekty, a w przypadku Cnetu – przeproszenia odbiorców, że nie przyznano się wcześniej do korzystania z algorytmów i teksty przez nie tworzone podpisywano po prostu „Redakcja”, stwarzając iluzję, że stoi za nimi „autor białkowy”.

Sztuczna inteligencja nie zastąpi zatem – powiedzmy sobie uczciwie – dobrych dziennikarzy (można mieć wątpliwości co do mediaworkerów). Nie wyłapuje wielu subtelności językowych, nie przekazuje faktów (nie do tego została stworzona, ale po to, aby brzmieć przekonująco).

Pulpa informacyjna i treści za paywallem

Jeśli algorytmy generatywnej sztucznej inteligencji będą na tyle dobre w tworzeniu treści, że – tak jak w przypadku redakcji serwisu BuzzFeed – będą zastępowały mediaworkerów zajmujących się tworzeniem najprostszych komunikatów, przeciętny czytelnik nie odczuje różnicy.

Różnicę odczują jednak ci, którzy polegają na wielu otwartych, ale rzetelnych źródłach informacji – jak choćby publicznie dostępne strony agencji informacyjnych czy dostępne w sieci artykuły mediów takich, jak choćby dziennik „Guardian”.

Dlaczego?

Media te, nie chcąc być żerowiskiem dla sztucznej inteligencji, będą powoli ogradzać się murami – i to literalnie, bo właśnie taką funkcję będą pełniły paywalle (sic!). Nawet, jeśli treści nie będą kosztowały bardzo niewiele – to będą płatne.

Sztuczna inteligencja zmieni więc raz na zawsze model internetu, w którym wiedza dostępna jest dla każdego, gdy mówimy o mediach z misją edukacyjną taką, jak ta towarzysząca TECHSPRESSO – wsparcie projektu jest dobrowolne w ramach platformy Patronite, a treści z niej dostępne są i tak dla wszystkich, nawet, jeśli nie chcą wesprzeć jej działalności, lub aktualnie nie mogą sobie na to pozwolić.

Wartościowe treści będą płatne – w tej części sieci, w której wciąż będą dostępne bezpłatne artykuły i inne materiały, będziemy mieli do czynienia najprawdopodobniej z gorszą niż obecnie pulpą informacyjną, którą wydawcy spiszą na straty – wiedząc, że to właśnie na niej karmić będą się algorytmy.

Jak Uroboros, zaczną tym samym w końcu pożerać własny ogon – bo łatwo można się domyśleć, że bezpłatne pozostaną przede wszystkim te teksty, które generuje „autor cyfrowy”. Ten „białkowy” wciąż będzie analizował, myślał i czuł – i będzie za to chciał być należycie wynagradzany, jednocześnie zachowując godność i nie stając się padliną, na której karmią się duże modele językowe.

Kup nam kawę na BuyCoffeeTo:

Autor

Gosia Fraser

Dziennikarka i filozofka, specjalizuje się w zagadnieniach prywatności w internecie i cyberbezpieczeństwa, a także wpływu niekontrolowanego rozwoju nowych technologii na społeczeństwo i gospodarkę.

1 komentarz

Paweł Nowacki pisze:

21/02/2023 o 21:31

Bardzo celnie Gosia, zgoda co co ryzyka jakie niesie dziś “dowolny wypas” algorytmów AI na treściach jakościowych. Znowu nie wszyscy widzą właściwą perspektywą i dyskusja w wielu miejscach toczy się obok problemu.

Odpowiedz

Dodaj komentarz Anuluj pisanie odpowiedzi

Powiązane teksty

Czytaj dalej

Asystenci głosowi: szansa czy zagrożenie dla prasy?

Urządzenia z funkcją asystenta głosowego zaczęły być w ostatnim czasie postrzegane przez koncerny medialne jako szansa na odbudowę pozycji prasy tradycyjnej. Pojawiają się jednak obawy, że mogą jeszcze bardziej uzależnić ludzi od algorytmów kontrolowanych przez wielkie firmy technologiczne i w przyszłości mogą stać się zagrożeniem dla pluralizmu informacyjnego.

przezRonald Muroń

Czytaj dalej

Rosja wycofuje się z zakazu korzystania z Telegrama, bo… nie potrafiła go skutecznie egzekwować

Od czwartku znów można legalnie korzystać z komunikatora Telegram na terenie Federacji Rosyjskiej, która przez dwa lata blokowała działanie aplikacji w całym kraju. Co się wydarzyło? Nic wielkiego – jedynie egzekucja zakazu korzystania z Telegrama i jego blokada okazały się zbyt trudne w realizacji.

przezGosia Fraser

Czytaj dalej

Media i internet

Społeczność Twittera zagłosowała za odejściem Muska; w odpowiedzi miliarder odbiera jej prawo głosu

Ponad 57 proc. głosujących w ankiecie utworzonej przez Elona Muska na jego profilu na Twitterze oceniło, że powinien on odejść ze stanowiska szefa tej platformy. Miliarder obiecał, że spełni życzenie uczestników głosowania, jednak najnowsze jego decyzje wskazują, że zmienił zdanie – kolejny raz.

przezGosia Fraser

Czytaj dalej

Media i internet

Już wkrótce ruszy Apple Music Classical – tylko z muzyką klasyczną

Już wkrótce ruszy nowa usługa Apple Music wyłącznie z muzyką klasyczną, która będzie dostępna dla obecnych abonentów i abonentek tego serwisu. Według zapowiedzi koncernu, Apple Music Clasical ma być dostępna jeszcze w tym miesiącu.

przezTECHSPRESSO.CAFE

The Latest

WhatsApp już od 13 roku życia? Meta w ogniu krytyki

Izrael głównym celem cyberataków na Bliskim Wschodzie

Rosja sabotuje europejską kolej. Czechy ostrzegają

Walka z dezinformacją musi być tam, gdzie jest jej najwięcej

Algorytmy OpenAI szkolą się na otwartych tekstach z mediów. To duży problem

Media – żerowisko dla sztucznej inteligencji

Internet pełen padliny

Czy sztuczna inteligencja zastąpi dziennikarzy?

Pulpa informacyjna i treści za paywallem

Dlaczego?

Kup nam kawę na BuyCoffeeTo:

1 komentarz

Dodaj komentarz Anuluj pisanie odpowiedzi