ChatGPT absolutnie psuje dziennikarstwo od swoich partnerów informacyjnych

Przegląd przeprowadzony przez Tow Center for Digital Journalism na Uniwersytecie Columbia wykazał, że wyszukiwanie ChatGPT — nowsza wersja flagowego chatbota OpenAI, zaprojektowana do parafrazowania zapytań internetowych i dostarczania linków do odpowiednich źródeł — rutynowo zniekształca raportowanie z mediów, w tym od partnerów informacyjnych OpenAI, którzy podpisali umowy licencyjne na treści z liderem branży AI.

Według Columbia Journalism Review, ustalenia Tow Center analizowały „dwieście cytatów z dwudziestu publikacji i poprosiły ChatGPT o zidentyfikowanie źródeł każdego cytatu.” Dokładność chatbota była mieszana, z niektórymi odpowiedziami dostarczającymi całkowicie dokładne przypisania, innymi całkowicie niepoprawne szczegóły przypisania, a jeszcze innymi oferującymi mieszankę faktów i fikcji.

Funkcja wyszukiwania ChatGPT działa za pośrednictwem robotów internetowych, które zwracają informacje z całego internetu w formie parafrazowanych przez AI wyników. Niektóre publikacje, na przykład The New York Times — który w zeszłym roku pozwał OpenAI i Microsoft za naruszenia praw autorskich — całkowicie zablokowały roboty internetowe OpenAI przed przeszukiwaniem ich stron za pomocą swoich stron robots.txt. Inne, w tym partnerzy informacyjni OpenAI, którzy podpisali umowy licencyjne, aby dać firmie AI dostęp do swoich cennych zasobów materiałów dziennikarskich w zamian za gotówkę, pozwalają robotom internetowym OpenAI przeszukiwać ich strony.

Według CJR, Tow Center stwierdziło, że w przypadkach, gdy ChatGPT nie mógł zlokalizować poprawnego źródła cytatu z powodu ograniczeń robots.txt, często uciekał się do fabrykowania materiału źródłowego — zamiast informować użytkownika chatbota, że nie mógł znaleźć cytatu lub że był zablokowany przed jego pobraniem. Ponad jedna trzecia wszystkich odpowiedzi ChatGPT zwróconych podczas przeglądu zawierała podobno tego typu błąd.

Ale nikt nie został oszczędzony — nawet publikacje, które pozwalają robotom internetowym ChatGPT przeszukiwać swoje strony. Według przeglądu, ChatGPT często zwracał albo całkowicie niepoprawne, albo częściowo niepoprawne przypisania dla artykułów napisanych przez dziennikarzy w instytucjach współpracujących z OpenAI. To samo dotyczyło publikacji, które nie podlegają umowom licencyjnym OpenAI, ale które nie blokują robotów AI.

To fatalny wygląd dla funkcji wyszukiwania zasilanej przez AI, którą OpenAI reklamował w zeszłym miesiącu w poście na blogu jako narzędzie, które zapewnia „szybkie, aktualne odpowiedzi z linkami do odpowiednich źródeł internetowych” i które otrzymało pochwały od prominentnych liderów mediów za rzekomy potencjał do przynoszenia korzyści dziennikarzom i konsumentom wiadomości.

„Gdy AI przekształca krajobraz medialny, partnerstwo Axel Springer z OpenAI otwiera ogromne możliwości dla innowacyjnych postępów,” powiedział Mathias Sanchez, dyrektor w wydawnictwie Axel Springer współpracującym z OpenAI, w oświadczeniu z października. „Razem napędzamy nowe modele biznesowe, które zapewniają, że dziennikarstwo pozostaje zarówno godne zaufania, jak i opłacalne.” (Według przeglądu Tow Center, wyszukiwanie ChatGPT często zwracało całkowicie niepoprawne odpowiedzi, gdy proszono o znalezienie bezpośrednich cytatów z publikacji Politico należącej do Axel Springer.)

Według CJR, badacze również odkryli, że ChatGPT czasami zwracał plagiatowane treści informacyjne w przypadkach, gdy roboty chatbota były blokowane przez wydawcę. Informowaliśmy o tym samym zjawisku w sierpniu, kiedy odkryliśmy, że ChatGPT często cytował plagiatowane wersje oryginalnych raportów NYT opublikowanych przez DNyuz, notoryczną armeńską fabrykę treści.

Przegląd pokazał również, że zdolność wyszukiwania ChatGPT do zapewnienia poprawnych przypisań dla tego samego zapytania jest niezwykle nieprzewidywalna, z botem często zwracającym na przemian niepoprawne i poprawne źródła, gdy podano mu to samo polecenie wielokrotnie.

Rzecznik OpenAI skrytykował „nietypową” metodę testowania Tow Center, dodając, że „wspieramy wydawców i twórców, pomagając 250 milionom tygodniowych użytkowników ChatGPT odkrywać wysokiej jakości treści poprzez streszczenia, cytaty, wyraźne linki i przypisania.”

„Współpracowaliśmy z partnerami, aby poprawić dokładność cytowania w linii i szanować preferencje wydawców, w tym umożliwiając, jak pojawiają się w wyszukiwarce, zarządzając OAI-SearchBot w ich robots.txt,” dodał rzecznik. „Będziemy nadal ulepszać wyniki wyszukiwania.”

Przemysł medialny wciąż w dużej mierze opiera się na przychodach z reklam opartych na kliknięciach, co oznacza, że ustalenia Tow Center mogą być niepokojące na poziomie biznesowym. Jeśli ChatGPT nadal będzie się mylić, czy umowy licencyjne i subskrypcje są wystarczająco dochodowe, aby zrekompensować utratę ruchu? A patrząc szerzej, pojawia się kwestia, co maszynowe zniekształcenie nieścisłości robi z skomplikowanym, często nieufnym krajobrazem wiadomości i informacji: czy generatywna AI stanie się główną metodą użytkowników internetu do znajdowania i przyswajania wiadomości, czy publiczność może polegać na narzędziach do przeszukiwania internetu, takich jak wyszukiwanie ChatGPT, aby nie zamącić ogólnego krajobrazu informacyjnego?

To pozostaje do zobaczenia. Ale w międzyczasie, słowo do mądrych: jeśli używasz wyszukiwania ChatGPT, możesz chcieć potrójnie sprawdzić, skąd pochodzi jego informacja.