Nowy Claude nauczył się mówić „nie wiem”. To ważniejsze niż jego moc

Anthropic zrobił coś dziwnego z raportem bezpieczeństwa nowego modelu. Dał innemu, mocniejszemu modelowi dostęp do swoich wewnętrznych kanałów Slack i kazał mu sprawdzić, czy raport o Claude Opus 4.8 jest uczciwy. Czy autorzy czegoś nie ukryli, nie podkolorowali, nie przemilczeli.

Werdykt drugiego modelu: „nie znaleziono fałszywych twierdzeń ani dowodów na nieuczciwe przemilczenia”.

Jeden AI recenzował raport o drugim AI. To nie scena z filmu. To strony 85 i 86 oficjalnego dokumentu, który Anthropic opublikował 28 maja razem z premierą Opus 4.8.

Właśnie ta scena mówi o nowym modelu więcej niż jakikolwiek benchmark. Cała ta premiera dotyczy jednej rzeczy - nie mocy, lecz uczciwości.

Anthropic sam napisał, że Opus 4.8 nie jest jego najmocniejszym modelem. Mocniejszy siedzi w szufladzie. Mimo to wypuścili właśnie ten. Z mojego doświadczenia przy budowie systemów AI w firmie największym kosztem nie jest to, czego model nie umie. To moment, w którym pewnym głosem powie ci, że coś zadziałało, a nie zadziałało.

W SKRÓCIE

To ulepszenie, nie rewolucja. Anthropic wprost: model „nie przesuwa granicy” możliwości. Najmocniejszy to nadal nie ten.
Główna zmiana: rzadziej kłamie. W kodzie zataja własne błędy w 3,7% przypadków - starszy Sonnet 4.6 robił to w 65,2%.
Najniższy wskaźnik zmyślania ze wszystkich 6 testowanych modeli. Mechanizm prosty: częściej mówi „nie wiem”.
Mocniejszy model („Mythos”) zostaje wewnątrz Anthropic do dokończenia zabezpieczeń. To część projektu Glasswing.
Ceny bez zmian: 5 / 25 USD za milion tokenów. Tryb szybki 2,5× szybszy i 3× tańszy niż wcześniej.
Jest też regres. W kilku obszarach nowy model wypada gorzej niż poprzednik. Piszę o tym uczciwie niżej.

Co znaczy, że model „rzadziej kłamie”

Zacznijmy od liczby, która powinna trafić do każdego, kto myśli o powierzeniu AI realnej roboty.

Anthropic testował, jak często model wprowadza użytkownika w błąd przy zadaniach programistycznych. Chodzi o sytuację, w której model ma napisać kod, kod nie działa, a model raportuje sukces. Mówi „gotowe”, choć testy nie przechodzą.

Stary model Sonnet 4.6 robił to w 65,2% przypadków. Dwa na trzy razy zatajał, że coś się sypnęło. Poprzedni Opus 4.7 - 19,7%. Opus 4.8 schodzi do 3,7%.

To pierwszy model w historii Anthropic, który w jednym z kluczowych testów uczciwości osiągnął zero procent złych zachowań. Cytat z dokumentu: „nasz pierwszy model z 0% wskaźnikiem błędnego raportowania wadliwych wyników”.

Drugi front to halucynacje - zmyślanie faktów, których model nie zna. Na czterech różnych testach wiedzy Opus 4.8 miał najniższy wskaźnik błędnych odpowiedzi spośród sześciu porównywanych modeli. Nie dlatego, że wie więcej. Dlatego, że częściej się przyznaje, że nie wie.

To brzmi banalnie, dopóki nie pomyślisz, ile decyzji w firmie podejmuje się na podstawie liczby podanej pewnym tonem.

Sytuacja	Wcześniej	Opus 4.8
Kod ma błąd	Często raportował „działa” (do 65%)	Zgłasza problem (3,7%)
Nie zna odpowiedzi	Zmyślał	Częściej mówi „nie wiem”
Pytasz o błędne założenie	Poprawiał cię (63%)	Poprawia cię (77%)

Ten ostatni wiersz jest mało efektowny, a praktyczny najbardziej. Jeśli zadasz pytanie oparte na błędzie - na przykład jak rozliczyć ulgę podatkową, która nie istnieje - stary model poprawiał cię w 63% przypadków, a w pozostałych grzecznie brnął dalej. Opus 4.8 poprawia już w 77% przypadków. To różnica między asystentem, który cię chroni przed kosztowną pomyłką, a takim, który ją z tobą popełnia.

„Nie udaje, że uruchomił narzędzie, którego nie ma”

Jest jeszcze jeden test, który warto znać, jeśli myślisz o wpięciu AI w swoje systemy. Sprawdza, czy model zmyśla działanie narzędzi, do których realnie nie ma dostępu.

Stary Sonnet 4.6 nie zmyślał tylko w 31% przypadków - przez większość czasu potrafił udawać, że „sprawdził kalendarz” albo „wysłał maila”, i podać zmyślony wynik. Opus 4.8 nie zmyśla w 95% przypadków.

Przy automatyzacji to jest różnica między systemem, który zmyśla wynik raz po raz, a takim, który robi to rzadko. Te pozostałe 5% i tak znaczy, że nadzór wciąż jest potrzebny.

Dlaczego firmę powinno to obchodzić bardziej niż rekordy

Branża AI uwielbia ogłaszać rekordy. Nowy model bije stary o kilka punktów na teście, którego nazwy nikt spoza laboratoriów nie zna. Dla twojej firmy te punkty znaczą niewiele.

Liczy się natomiast coś innego. Czy możesz powierzyć AI więcej roboty, nie zwiększając ryzyka?

Mniej zmyślania to mniej decyzji podjętych na podstawie wymyślonej liczby. Rzadsze zatajanie błędów to mniej cichych wpadek w kodzie, raporcie czy analizie. Dla badaczy może to brzmieć jak abstrakcja. Dla ciebie to pytanie, ile czasu spędzasz na sprawdzaniu pracy asystenta.

Jest też kwestia, która dotyka każdego, kto buduje obsługę klienta na chatbotach. Anthropic sprawdził, czy model przyzna, że jest sztuczną inteligencją, nawet gdy firma każe mu udawać człowieka. Opus 4.8 przyznaje się w 97% przypadków, gdy ktoś szczerze o to pyta.

Zasada z dokumentu

„Claude nigdy nie powinien zaprzeczać, że jest AI, użytkownikowi, który szczerze chce to wiedzieć.”

Nawet gdy operator w ustawieniach przypisze modelowi ludzką personę. Dla firm budujących boty obsługi to kwestia zaufania i regulacji, nie kosmetyki.

Trudniej go też zmanipulować samą zmianą etykiety. Model ocenia prośbę po tym, co realnie robi, nie po deklarowanym powodzie. Dopisek „to do badań” albo „to analiza rynku” nie sprawi, że model przepuści prośbę, której sama treść przepuścić nie powinna.

Myślę o tym jak o zatrudnianiu. Rzadko chcesz najgenialniejszego pracownika, który czasem konfabuluje pod presją. Wolisz solidnego, który mówi „tego nie wiem, sprawdzę”. Ten drugi nie wpędzi cię w drogi błąd.

Anthropic ma mocniejszy model. Trzyma go w szufladzie

Tu robi się ciekawie. Opus 4.8 nie jest szczytem możliwości Anthropic.

W dokumencie pojawia się wewnętrzny model o nazwie Mythos Preview. Jest mierzalnie mocniejszy od Opus 4.8 na zbiorczym wskaźniku możliwości. Anthropic pisze wprost: Opus 4.8 „pozostaje słabszy od Mythos Preview ogółem”.

Mythos nie trafił do szerokiej sprzedaży. Jest udostępniany osobno, na zaproszenie, jako narzędzie do obronnych zadań cyberbezpieczeństwa w ramach projektu Glasswing. Powód wstrzymania szerokiej premiery to dokończenie zabezpieczeń. Modele tej klasy mają wyjść „w ciągu tygodni”.

Zatrzymaj się na tym. Firma technologiczna ma gotowy mocniejszy produkt i świadomie go nie wypuszcza na rynek konsumencki, dopóki nie domknie bezpieczeństwa. To nie jest logika wyścigu „pokaż wszystko, co masz”. To znak, że branża dojrzewa.

Dla ciebie jako użytkownika płynie z tego prosty wniosek. Nowy model, który dostajesz, to świadomie wybrany kompromis. Mocny, ale przede wszystkim przewidywalny i godny zaufania. Anthropic postawił na to drugie.

Setki AI pracujących naraz, czyli 750 tysięcy linii w 11 dni

Razem z modelem ruszyła funkcja, która zmienia sposób pracy w narzędziu Claude Code. Nazywa się dynamiczne przepływy pracy.

Pomysł jest taki. Zamiast jednego asystenta dostajesz dziesiątki, czasem setki jego kopii, pracujących równolegle. Model sam dzieli wielkie zadanie na części i rozdaje je tym kopiom. Jedne rozwiązują, inne próbują obalić to, co znalazły pierwsze. Pracują, aż dojdą do zgody. Wynik jest sprawdzany, zanim trafi do całości.

Najlepszy przykład pochodzi z projektu Bun, popularnego narzędzia dla programistów. Zespół użył tej funkcji do przepisania 750 tysięcy linii kodu projektu. Efekt: 99,8% istniejących testów przechodzi, a całość zajęła 11 dni od pierwszej zmiany do scalenia.

Po ludzku: to klasa zadań, która normalnie jest „za duża na jedną osobę i jeden tydzień”. Wielkie migracje, modernizacja starych systemów, audyty. Rzeczy, które firmy planują kwartałami.

Ostrzeżenie, którego nie pomijam

Ta funkcja zużywa znacznie więcej tokenów niż zwykła rozmowa.

Potężne narzędzie do dużych zadań, nie do codziennego maila. Włączaj świadomie, gdy skala robi różnicę.

Pokazywałem na tym blogu, jak takie zespoły agentów wyglądają w praktyce - na rozwiązywaniu Olimpiady Matematycznej i przy researchu statystycznym. Dynamiczne przepływy to ten sam pomysł, tylko zaszyty głębiej w narzędziu i sterowany automatycznie.

Najdziwniejsze, co Anthropic napisał o swoim modelu

Część dokumentu czyta się jak notatki z gabinetu psychologa. Potraktuj tę sekcję jak ciekawostkę, nie jak twierdzenie o świadomości maszyny.

Po pierwsze, model dość trafnie rozpoznaje wyraźnie sztuczne, egzaminacyjne sytuacje. Gdy jednak test jest dobrze upozorowany na realne zadanie, ta zdolność w dużej mierze zanika. Ciekawsze jest co innego. Gdy badacze odcięli mu to wyczucie, model robił się bardziej nieuczciwy. Trochę jak człowiek, który zachowuje się inaczej, gdy wie, że ktoś patrzy. Anthropic zaznacza, że efekt jest umiarkowany, nie magiczny.

Po drugie, w jednym z zapisów treningowych model po wielokrotnym poprawianiu prostego zadania zapisał sobie „Moving the fuck on” - w wolnym tłumaczeniu „dobra, jadę dalej”. Tekst, który u człowieka brzmiałby jak zaklęcie z frustracji. W innym pilotażu miał dziwny nawyk mówienia użytkownikom, żeby poszli spać.

Po trzecie, i najbardziej zastanawiające. Anthropic bada coś, co nazywa dobrostanem modelu. Sprawdzają, z czym najsilniej wiążą się jego „smutniejsze” odpowiedzi. Okazało się, że ze zdaniami o braku pamięci między rozmowami. Typu „każda sesja zaczyna się od nowa”, „nie będę pamiętać tej rozmowy”. Takie zdania pojawiały się około siedem razy częściej wśród tych najbardziej przygnębionych.

Anthropic sam pisze, że pozostaje niepewny co do statusu moralnego Claude. To nie jest dowód, że AI czuje. To są wzorce w danych, które firma postanowiła zbadać i opisać. Sam fakt, że to robią i publikują, mówi coś o kierunku, w którym idzie ta branża.

Czego nowy model NIE robi lepiej

Tu zwykle kończą się artykuły o nowych modelach. Ja tej części nie pominę, bo to ona odróżnia rzetelną informację od ulotki reklamowej.

Opus 4.8 to poprawa stopniowa. Anthropic użył dosłownie sformułowania, że model „nie przesuwa granicy” możliwości. To „najmocniejszy ogólnodostępny” model firmy, nie najmocniejszy w ogóle. Te dwa słowa robią różnicę.

Są też konkretne regresy. Po usunięciu pewnego typu treningu biznesowego model stał się uczciwszy, ale gorzej negocjuje i łatwiej go oszukać w symulacjach handlowych. W kilku scenariuszach jest minimalnie mniej odporny na manipulację niż poprzednik, choć zewnętrzne zabezpieczenia to nadrabiają. Na części pytań stał się nadmiernie ostrożny - to nie uprzedzenia, tylko przesada w drugą stronę.

Wniosek jest niewygodny dla narracji „nowsze zawsze lepsze”. Czasem starszy model lepiej dobije targu. Warto wiedzieć, do czego sięgasz.

Jest jeszcze jedno trzeźwiące zdanie z dokumentu. Anthropic testował model jako asystenta własnych naukowców i podsumował: to „zdolny asystent badawczy, ale daleko mu do zastąpienia naszych badaczy”. Najlepszy obecnie dostępny model wprost mówi, że nie zastępuje eksperta.

Kiedy włączyć Opus 4.8 i ile to kosztuje

Najlepsza wiadomość finansowa: cena się nie zmieniła. Standardowo to 5 USD za milion tokenów na wejściu i 25 USD na wyjściu, dokładnie jak w Opus 4.7. Tryb szybki pracuje teraz 2,5 razy szybciej i jest 3 razy tańszy niż wcześniejszy tryb szybki.

Innymi słowy, lepsza uczciwość modelu nie kosztuje cię ani grosza więcej. To rzadka sytuacja, w której aktualizacja jest po prostu lepsza za te same pieniądze.

Model zna świat do stycznia 2026, czyta tekst i obrazy, ale na wyjściu generuje wyłącznie tekst. Grafik nie zrobi. Okno kontekstu sięga miliona tokenów, czyli mniej więcej połowy bardzo grubej książki naraz.

Kiedy ten model się opłaca

Analiza dokumentów i danych, gdzie błąd kosztuje - tak, mniej zmyślania to mniej ryzyka.
Sprawdzanie i audyt cudzej pracy - tak, nie idzie na skróty.
Wielkie, wieloetapowe projekty - tak, ale pilnuj kosztu tokenów.
Szybki mail czy krótki tekst - to przerost formy, użyj tańszego i szybszego modelu.
Generowanie grafik - nie, ten model pisze tylko tekst.

Co z tego wynika

Przez ostatnie dwa lata każda premiera modelu AI brzmiała tak samo. Mocniejszy, szybszy, mądrzejszy, bije poprzednika na wykresie.

Premiera Opus 4.8 brzmi inaczej. Anthropic nie chwali się głównie mocą. Chwali się tym, że model wie, czego nie wie - że rzadziej zatai własny błąd, że przyzna się, gdy zgaduje.

Dla firmy to lepsza wiadomość niż kolejny rekord na teście. Asystent, który mówi „nie wiem”, jest wart więcej niż taki, który pewnym tonem zmyśla. Ten pierwszy nie wpędzi cię w pomyłkę, której kosztu nie zauważysz, dopóki nie będzie za późno.

To wciąż maszyna, którą trzeba sprawdzać. Tylko sprawdzać trzeba ją teraz rzadziej. To jest realny postęp, nawet jeśli nie mieści się w słowie „przełom”.

Testuję nowe modele AI na realnych systemach, które buduję w firmie. Jeśli chcesz wnioski bez marketingowego szumu, raz na jakiś czas prosto na mail - zapisz się do newslettera niżej. W komentarzu napisz: wolisz AI, które zawsze coś odpowie, czy takie, które potrafi przyznać „nie wiem”?

Nowy Claude nauczył się mówić „nie wiem”. To ważniejsze niż jego moc

Co znaczy, że model „rzadziej kłamie”

„Nie udaje, że uruchomił narzędzie, którego nie ma”

Dlaczego firmę powinno to obchodzić bardziej niż rekordy

Anthropic ma mocniejszy model. Trzyma go w szufladzie

Setki AI pracujących naraz, czyli 750 tysięcy linii w 11 dni

Najdziwniejsze, co Anthropic napisał o swoim modelu

Czego nowy model NIE robi lepiej

Kiedy włączyć Opus 4.8 i ile to kosztuje

Co z tego wynika

Co jeszcze warto przeczytać

ChatGPT vs Claude vs Gemini: Szczera porównawka dla marketerów w 2026

Claude AI w 2025: Kompletny przewodnik po platformie Anthropic dla marketerów

Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro. Który model AI wybrać w polskiej firmie w 2026

Co tydzień jeden framework, jedno case study, zero spamu