Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro. Który model AI wybrać w polskiej firmie w 2026
16 kwietnia 2026 Anthropic wypuścił Claude'a Opus 4.7. Koronę w kodowaniu odzyskał (87,6% SWE-bench Verified), ale zostawił polskim firmom prezent, którego nie chciały - do 35% drożej za polski tekst.
Tego nikt nie pisze. Recenzje zagraniczne porównują benchmarki i chwalą postęp. Polska firma płacąca za API ma jednak inny problem: nowy tokenizer Anthropic generuje o 35% więcej tokenów dla tekstu w języku polskim niż dla angielskiego. Zanim podpiszesz umowę z którymkolwiek z trzech flagowców, zobacz, co naprawdę się zmieniło.
W poniedziałek rozmawiałem z CEO firmy e-commerce z Poznania. Prowadzi sklep z artykułami dla domu, obrót 4 miliony złotych rocznie, budżet na AI 800 złotych miesięcznie. Pytanie, które zadał, było proste: „Czy mam przepiąć się z Claude na GPT-5.4, czy zostać przy Opus 4.6?". Odpowiedź nie była prosta.
Trzy modele flagowe kwietnia 2026 to Claude Opus 4.7, GPT-5.4 i Gemini 3.1 Pro Preview. Każdy ma obszary dominacji. Każdy ma słabe punkty. Dla polskiego CEO MŚP najbardziej ukrytą zmienną są koszty, a te w nowym Opusie 4.7 wzrosły nie dlatego, że zmienił się cennik, lecz dlatego, że model inaczej liczy polski tekst.
Ten artykuł nie jest kolejnym reportażem „oto najnowszy Claude". Jest benchmarkiem decyzyjnym: jaki model wybrać do jakiego zadania w polskiej firmie i gdzie realne koszty różnią się od tych na stronie producenta.
Co się zmieniło 16 kwietnia 2026
Opus 4.7 to release iteracyjny, nie przełomowy. Anthropic nie przebudował architektury. Zmiany są ewolucyjne, ale w trzech obszarach istotne operacyjnie.
Pierwsza zmiana: adaptive thinking. W Opusie 4.6 deweloperzy ustawiali ręcznie „budżet myślenia" (thinking budget) dla zadań wymagających rozumowania. W 4.7 model sam decyduje, ile czasu poświęcić na przemyślenie odpowiedzi. API zwraca błąd 400 przy próbie manualnego ustawienia. Dla zespołów, które optymalizowały koszty przez precyzyjne budżety, to regresja funkcjonalna. Dla typowych użytkowników oszczędność czasu konfiguracji.
Druga zmiana: task budgets w agentach. Model pracujący w pętli agentowej (Orchestrator-Subagent, Agent Teams) widzi „odliczanie" dostępnych tokenów i sam zarządza priorytetami. W 4.6 zdarzało się, że agent kończył pracę „w połowie zdania", gdy kontekst się zapełniał. W 4.7 kończy ją gracefully, oddając częściowy, ale użyteczny wynik.
Trzecia zmiana: high-res vision. Opus 4.7 obsługuje obrazy do 2576 pikseli (3,75 megapiksela), trzy razy więcej niż 4.6. To realna różnica dla analizy skanów dokumentów z pieczątkami, screenshotów dashboardów BI z małym fontem czy zdjęć produktowych wymagających widzenia szczegółów.
Są też regresje. Anthropic ich nie reklamuje, ale niezależne analizy (Startup Fortune, llm-stats.com) odkryły spadek w teście Thematic Generalization Benchmark z 80,6 do 72,8 punktu. W Terminal-Bench 2.0 Opus 4.7 osiąga 69,4%, podczas gdy GPT-5.4 wciąż prowadzi z 75,1%. Simon Willison, jeden z najbardziej rzeczowych analityków AI, opublikował test, w którym lokalnie uruchomiony Qwen3.6-35B-A3B narysował lepszego pelikana na rowerze niż Opus 4.7. Gizmodo podsumował całość brutalnie: „Anthropic wypuścił Opus 4.7, żeby przypomnieć wszystkim, jak świetny jest Mythos". Skrajne, ale trafia w sedno - sam Anthropic deklaruje, że Opus 4.7 jest słabszy od nieudostępnionego publicznie Claude Mythos Preview. To nietypowe, gdy flagowiec pozycjonuje siebie jako „drugie miejsce".
Tabela benchmarków: trzej flagowcy kwietnia 2026
Cztery zwycięstwa Opus 4.7 w kodowaniu i wizji. Dwa zwycięstwa konkurencji: GPT-5.4 w terminalu, Gemini 3.1 Pro w wielkości kontekstu. Jedno remisowe GPQA. Jedna ostrzeżeniowa regresja. Obraz nie jest monolityczny - to benchmarki, które mówią różne historie dla różnych zadań.
Tabela cen z uwzględnieniem polskiego tokenizera
To jest sekcja, której nie znajdziesz w zagranicznych recenzjach. Ceny producentów są publiczne, ale polski tokenizer Anthropic w Opus 4.7 to dodatek, który zmienia kalkulację.
Na czym polega różnica w praktyce. Gdy wysyłasz polski tekst do Opus 4.7, model rozbija go na tokeny inaczej niż poprzednia wersja. Słowa z polskimi znakami diakrytycznymi (ą, ć, ę, ł, ń, ó, ś, ż, ź) i złożona morfologia polskiego (odmiana przez przypadki, różne końcówki) generują więcej tokenów niż ten sam tekst po angielsku.
Przykład konkretny. Zdanie „Proszę przygotować ofertę dla klienta z branży hotelarskiej uwzględniającą rabaty sezonowe i promocje świąteczne" w angielskim ma 17 tokenów. W polskim Opus 4.7 ma 26 tokenów. Ten sam prompt, 53% więcej tokenów. Na skali tysięcy zapytań dziennie to realny koszt.
Dla firmy wysyłającej 500 zapytań dziennie o średniej długości 200 tokenów wejścia i 400 tokenów wyjścia miesięczny koszt Opusa 4.7 na tekście angielskim to 165 USD. Ten sam workload po polsku może kosztować od 165 do 223 USD miesięcznie. Różnica do 58 USD, czyli do 230 złotych miesięcznie.
Gemini 3.1 Pro Preview w tej samej kalkulacji kosztuje 78 USD miesięcznie. Ponad dwa razy taniej niż polski Opus. W scenariuszu, gdzie kodowanie nie jest krytyczne, decyzja dla polskiej firmy jest ekonomicznie trudna do obrony na rzecz Opusa.
Trzy analogie, żeby zrozumieć różnice
Analogia pierwsza: trzej specjaliści w warsztacie samochodowym. Opus 4.7 to mechanik z 20-letnim stażem, który zna każdą markę i robi skomplikowane naprawy silników. Bierze 300 złotych za godzinę. GPT-5.4 to mechanik, który specjalizuje się w diagnostyce komputerowej i narzędziach warsztatowych, bierze 200 złotych. Gemini 3.1 Pro to mechanik uniwersalny, który zrobi dobrze 90% prostych napraw za 50 złotych za godzinę. Do wymiany oleju nie wynajmujesz seniora. Do rebuildu skrzyni biegów bierzesz specjalistę.
Analogia druga: trzy biura tłumaczeń. Opus 4.7 tłumaczy teksty medyczne i prawnicze z precyzją, ale każde polskie słowo liczy za 1,35 słowa w rachunku. GPT-5.4 tłumaczy równie dobrze techniczne teksty, po staremu za słowo. Gemini 3.1 Pro tłumaczy prosty tekst za ułamek ceny, czasem przeocząc niuans, ale na 200 stronach broszury produktowej tego nie zauważysz.
Analogia trzecia: trzy kalkulatory w firmie. Opus 4.7 to kalkulator naukowy Casio - liczy wszystko, także całki. GPT-5.4 to zaawansowany kalkulator biznesowy - stopa zwrotu, amortyzacja, prognozy. Gemini 3.1 Pro to duży kalkulator biurowy z taśmą papierową - dodawanie, odejmowanie, mnożenie, 10-krotnie taniej. Do księgowości wystarczy. Do modelowania finansowego już niekoniecznie.
Piszę o AI bez szumu i bez ściemy
Raz w tygodniu konkretny newsletter: co się zmieniło, co to znaczy dla Twojej firmy, co zrobić w tym tygodniu. Bez marketingowej papki.
Co to znaczy dla polskich małych i średnich firm
Opus 4.7 dla analiz, Gemini dla maili
Analiza umów, precedensów, orzeczeń - Opus 4.7 daje precyzję. Korespondencja, podsumowania, maile - Gemini 3.1 Pro wystarczy z nadmiarem.
Opus 4.7 dla vision, tańsze dla obsługi
Skany paszportów, OCR faktur, analiza zdjęć produktowych - Opus 4.7 z 3,75 MP vision. Chatbot gościnny, odpowiedzi na booking.com - Haiku 4.5 lub Gemini Flash.
Gemini dla skali, GPT dla konwersji
Opisy produktów (tysiące SKU) - Gemini 3.1 Pro za cenę. Personalizacja maili do klientów - GPT-5.4. Opus 4.7 niepotrzebny dla większości tasków.
Scenariusz pierwszy: kancelaria prawna. Klient w Warszawie, 8 prawników, 150 aktywnych spraw miesięcznie. Przez pół roku używali Claude Pro za 80 PLN na osobę miesięcznie, czyli 640 PLN. Efekt: świetna analiza pism procesowych, umów, orzeczeń. Problem pojawił się, gdy zaczęli masowo używać Claude do redakcji pism klientów. 40% budżetu szło na powtarzalne zadania, które równie dobrze obsłużyłby Gemini 3.1 Pro Preview przez API. Po przeorganizowaniu workflow: Opus 4.7 dla analiz (subskrypcja Pro), Gemini 3.1 Pro dla korespondencji (API za 80 USD miesięcznie razem). Koszt spadł o 60%, jakość pism nie ucierpiała.
Scenariusz drugi: hotel. Grupa hotelowa obsługuje 200 rezerwacji dziennie przez booking.com, własną stronę i telefon. Chatbot gościnny - Haiku 4.5 przez API, kilka groszy za rozmowę. Skany paszportów przy check-in, OCR faktur od dostawców, analiza zdjęć z pokoi do reklamacji - Opus 4.7 za high-res vision, ale tylko dla tych trzech zadań. Korespondencja z touroperatorami i umowy - Gemini 3.1 Pro. Trzy różne modele, każdy w swoim obszarze kompetencji. Koszt miesięczny API: około 300 USD (1200 PLN). Dla hotelu o obrocie 2 miliony PLN miesięcznie to inwestycja, nie koszt.
Scenariusz trzeci: e-commerce. Sklep internetowy z 8000 SKU, potrzebuje aktualizacji opisów produktów pod kątem SEO i wariantów językowych. Opus 4.7 na taki wolumen byłby zabójczy kosztowo. Gemini 3.1 Pro Preview generuje 8000 opisów (każdy po 300 słów polskich) za około 120 USD. GPT-5.4 wspiera personalizację kampanii mailingowych - tutaj jego umiejętności pisania maili konwertujących są udokumentowane lepiej niż w Opusie. Opus 4.7 w całej konfiguracji obsługuje przypadki brzegowe - do niego trafiają tylko zadania wymagające najwyższej precyzji rozumowania, na przykład analiza skomplikowanych reklamacji klientów.
Wniosek operacyjny: dla polskiej firmy średniej wielkości strategia jednego modelu jest przeszłością. Aktualne podejście to warstwowanie modeli według zadania i wolumenu. Szerzej o tym pisałem w Pięć wzorców zespołów AI według Anthropic - tam, gdzie tańszy model robi triaż, a flagowiec decyduje tylko w trudnych przypadkach.
Framework decyzyjny: który model do jakiego zadania
Trzy pułapki, które kosztują realne pieniądze
Pułapka pierwsza: wszystko na flagowcu, bo „najlepszy". To najczęstszy błąd polskiego CEO, który dopiero wdraża AI. Kupuje Claude Pro albo ChatGPT Plus dla całej firmy i każe pracownikom używać tego modelu do wszystkiego. Dla 80% zadań to nadmiar, czyli spalanie budżetu. Rozwiązanie: audyt zadań AI w firmie, przypisanie modelu do zadania, warstwowanie.
Pułapka druga: ignorowanie kosztu polskiego tokenizera. Zagraniczne recenzje Opus 4.7 nie wspominają o regresji tokenizera dla języków innych niż angielski. Polski CEO czyta, że cena się nie zmieniła, migruje z 4.6 na 4.7, po miesiącu dostaje rachunek o 25-35% wyższy. Rozwiązanie: przed migracją przetestuj 100 typowych zapytań Twojej firmy w obu wersjach, porównaj zużycie tokenów.
Pułapka trzecia: zakupy emocjonalne przy każdym wydaniu modelu. Rok 2026 to tempo, w którym nowy flagowiec pojawia się co 4-6 tygodni. Większość firm nie powinna migrować częściej niż raz na kwartał. Koszt rekonfiguracji promptów, szkolenia zespołu, zmiany integracji zwykle przewyższa zysk z niewielkiego wzrostu benchmarków. Rozwiązanie: kwartalny przegląd, nie tygodniowy.
Cztery kroki wdrożenia w najbliższych dwóch tygodniach
Co z tego zostaje
Opus 4.7 nie jest rewolucją. Jest iteracyjnym ulepszeniem z jedną prawdziwą regresją (tokenizer polski) i jednym strategicznie niepokojącym komunikatem (nasz flagowiec jest słabszy od tego, czego nie sprzedajemy publicznie). Dla zespołów developerskich wartościowy. Dla marketingu i copywritingu nieuzasadniony kosztowo.
Gemini 3.1 Pro Preview pozostaje najtańszym flagowcem i jedynym z kontekstem 2 milionów tokenów. Dla firm przetwarzających długie dokumenty, masowe treści lub czaty z tysiącami rozmów dziennie to często optymalny wybór. GPT-5.4 trzyma się w grze, prowadzi w DevOps, oferuje dobry stosunek ceny do jakości dla zadań konwersacyjnych.
Największy błąd, jaki może popełnić polski CEO MŚP w kwietniu 2026, to wybór jednego modelu do wszystkiego. Rok 2025 był rokiem hasła „wszyscy używają ChatGPT" albo „wszyscy przepinają się na Claude'a". Rok 2026 to rok warstwowania: tańszy model robi triaż i prostą pracę, flagowiec wchodzi tam, gdzie precyzja jest krytyczna.
Jeśli od dawna czekasz na „ten jeden najlepszy model", przestań czekać. Taki model nie istnieje. Istnieje odpowiednia kombinacja modeli dla Twojej firmy. Kwartalna rewizja tej kombinacji jest tańsza i skuteczniejsza niż migracja przy każdym nowym release.
Pytanie, które Ci zostawiam: czy wiesz, ile tokenów zużywa Twoja firma miesięcznie w każdym z używanych modeli? Jeśli nie, to jest moment, żeby to policzyć. Reszta decyzji rozwinie się z tej jednej liczby.
Następny artykuł trafi do skrzynek czytelników w poniedziałek. Twojej też?
Co tydzień jedna prawdziwa historia z polskiej firmy, jeden przegląd benchmarków albo frameworku, jedna akcja na ten tydzień. Zero marketingu modeli, zero pustych haseł.
Tagi
Powiązane artykuły
Co jeszcze warto przeczytać
Jeden agent AI to za mało. Pięć wzorców zespołów AI według Anthropic
Anthropic opublikował 10 kwietnia 2026 przewodnik po 5 wzorcach koordynacji agentów AI. Generator-Verifier, Orchestrator-Subagent, Agent Teams, Message Bus, Shared State. Co oznaczają, kiedy który działa i jak zastosować je w polskiej firmie.
Anthropic zamknął własne AI. Co liczba 181 mówi o przyszłości Twojej firmy
Anthropic wypuścił Claude Mythos Preview i od razu zamknął go w klatce. Model znalazł 181 exploitów tam, gdzie poprzedni znalazł 2. Co Project Glasswing i reakcja SANS Institute oznaczają dla polskich firm w kwietniu 2026.
7 dylematów AI w polskim biznesie. Co byś zrobił na moim miejscu?
7 realnych scenariuszy decyzyjnych z AI w polskim biznesie. RODO, junior z wyciekiem danych, Google AI Overview, konkurencja generująca 100 artykułów dziennie, klient pytający o AI, budżet 5000 PLN miesięcznie, pracownik bojący się o pracę. Sprawdź swój profil decyzyjny w interaktywnym narzędziu.
Newsletter Strategic AI Implementation
Co tydzień jeden framework, jedno case study, zero spamu
Dołącz do listy. Dostajesz to, czego nie wrzucam na bloga: kulisy moich wdrożeń, sprawdzone prompty, błędy do uniknięcia. Wypisujesz się jednym kliknięciem.