Zdaniem prezesa spółki OpenAI Samuela Altmana, trenowanie dużych modeli językowych bez wykorzystania treści chronionych prawem autorskim jest niemożliwe. Co jego zdaniem jest problemem? Bynajmniej nie działania firmy, ale prawo własności intelektualnej.
Jedną z najważniejszych wiadomości końca ubiegłego roku była informacja o tym, że dziennik “New York Times” pozwał firmę OpenAI oraz wspierającą ją spółkę Microsoft w związku z nadużyciami, których dokonano podczas szkolenia dużych modeli językowych GPT. Nadużycia obejmują bezprawne użycie materiałów chronionych prawem autorskim – tj. w tym przypadku pracy dziennikarzy słynnej gazety.
OpenAI: wspieramy dziennikarstwo
Firma OpenAI odpowiedziała na pozew publikując w poniedziałek 8 stycznia post na swoim blogu. Już na wstępie spółka Samuela Altmana deklaruje, że “wspiera dziennikarstwo” oraz współpracuje z organizacjami z sektora mediów. Twierdzi także, że pozew “NYT” jest pozbawiony zasadności.
“Choć nie zgadzamy się z twierdzeniami zawartymi w pozwie New York Timesa, uważamy, że jest on okazją do wyjaśnienia kwestii związanych z naszym biznesem, intencjami oraz tym, jak budujemy nasze technologie” – czytamy we wpisie.
OpenAI wskazało cztery punkty, które podsumowują jej stanowisko:
- współpraca z organizacjami z sektora mediów i tworzenie nowych możliwości;
- szkolenie algorytmów to dozwolony użytek danych, natomiast firma umożliwia ochronę przed nim, bo “to właściwa postawa”;
- regurgitacja może się zdarzać – ale to błąd, nad którym firma pracuje. Czym jest regurgitacja w tym kontekście? Wyrzucaniem na odpowiednie zapytanie całych tekstów dziennikarskich lub ich fragmentów, na których szkolone były algorytmy;
- “New York Times” ma poza tym zdaniem OpenAI nie mówić całej prawdy o sprawie.
Dozwolony użytek – czy aby na pewno?
OpenAI twierdzi, że wykorzystanie publicznie dostępnych danych do szkolenia algorytmów to dozwolony użytek. “Uważamy, że zasada ta jest uczciwa w stosunku do twórców, niezbędna dla innowatorów i krytycznie ważna dla konkurencyjności USA” – pisze firma.
Spółka wskazuje przy tym na dużą liczbę przykładów narzędzi trenowanych na publicznie dostępnych danych, a także na zwyczajową legitymizację tej praktyki w środowiskach naukowych, grupach działających na rzecz praw obywatelskich, startupach, jak i wśród twórców oraz autorów.
Dodatkowo, w tekście OpenAI czytamy, iż szkolenie algorytmów na publicznie dostępnych danych – nawet jeśli są objęte one prawami autorskimi – jest dozwolone przez regulacje prawne w UE, Japonii, Singapurze i Izraelu.
Firma ponadto twierdzi, że udostępniła publicznie narzędzia, które mogą zablokować skanowanie stron wydawców przez roboty gromadzące dane dla algorytmów – i “New York Times” skorzystał z nich w sierpniu 2023 r.
Czego zdaniem OpenAI nie mówi “New York Times”?
Pozew dziennika z 27 grudnia miał być dla OpenAI niespodzianką, bo wcześniej – zdaniem firmy Altmana – z wydawcą prowadzony był “konstruktywny dialog”.
W czasie tego dialogu dziennik podkreślał jednak, że widzi, jak model ChatGPT zwraca fragmenty treści pochodzących z gazety, choć – zdaniem firmy – nie przedstawił żadnych przykładów tego rodzaju zachowania. OpenAI twierdzi, że regurgitacja nastąpiła w odniesieniu do tekstów, które były bardzo stare i pojawiały się powielone na licznych zewnętrznych w stosunku do gazety stronach internetowych, zatem prawa ochrony własności intelektualnej w ich przypadku zostały naruszone już dawno temu i przez inne podmioty.
OpenAI zarzuca “NYT” celową manipulację zapytaniami do ChatuGPT po to, aby uzyskać wyniki zwracające fragmenty artykułów – wobec czego pozew przeciwko firmie Altmana uznaje ona za bezzasadny.
To prawo ochrony własności intelektualnej jest problemem?
Dużym modelom językowym i związanym z nimi kwestiom prawnym uważnie przygląda się również Wielka Brytania. W przekazanym specjalnej komisji ds. cyfrowych brytyjskiej parlamentarnej Izby Lordów dokumencie, OpenAI stwierdziło, że trenowanie modeli takich jak GPT-4 bez wykorzystania danych objętych ochroną praw autorskich nie byłoby możliwe.
“Prawa ochrony własności intelektualnej dotyczą dzisiaj właściwie każdej formy ludzkiej ekspresji, w tym – postów na blogach, zdjęć, wpisów na forach, fragmentów kodu oprogramowania, a także dokumentów rządowych” – stwierdziła firma OpenAI.
“Trenowanie wiodących dziś modeli AI bez wykorzystania materiałów objętych prawem autorskim nie byłoby możliwe” – dodała spółka. Jak twierdzi, ograniczenie prawne możliwości wykorzystania publicznie dostępnych danych jedynie do tych, które nie są objęte prawami autorskimi, doprowadzi do tworzenia systemów AI, które są “niedostateczne”, bo dane te powstały niejednokrotnie ponad 100 lat temu. “To ciekawy eksperyment, ale to nie doprowadzi do powstania modeli, które spełniają potrzeby dzisiejszego społeczeństwa” – twierdzi OpenAI.
Kolejny raz mamy więc do czynienia z sytuacją, w której firmy z sektora sztucznej inteligencji jak OpenAI, a wcześniej Big Techy – jak Google, które pracuje nad czatbotem Bard – krytykują istniejące mechanizmy ochrony własności intelektualnej, domagając się możliwości wykorzystania wszystkich istniejących zasobów internetu na rzecz udoskonalania swoich produktów.
Firmy posługują się przy tym mesjanistyczną retoryką – ich duże modele językowe oczywiście działają dla dobra ludzkości i stanowią ogromną korzyść dla społeczeństwa. Warto jednak tym uważniej przyjrzeć się, jak drapieżną politykę gromadzenia danych i korzystania z cudzej pracy prowadzą tego rodzaju firmy – i zastanowić się, czy w perspektywie ich działalność nie przełoży się na praktyczną likwidację mediów, dziennikarzy oraz innych twórców w sieci, których działalność – zastąpiona przez algorytmy – nie będzie już nikomu – zdaniem tych firm – potrzebna.