POWRÓT DO BLOGA
Porównanie modeli AI 17 kwietnia 2026

Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro. Który model AI wybrać w polskiej firmie w 2026

17 min Czechu

16 kwietnia 2026 Anthropic wypuścił Claude'a Opus 4.7. Koronę w kodowaniu odzyskał (87,6% SWE-bench Verified), ale zostawił polskim firmom prezent, którego nie chciały - do 35% drożej za polski tekst.

Tego nikt nie pisze. Recenzje zagraniczne porównują benchmarki i chwalą postęp. Polska firma płacąca za API ma jednak inny problem: nowy tokenizer Anthropic generuje o 35% więcej tokenów dla tekstu w języku polskim niż dla angielskiego. Zanim podpiszesz umowę z którymkolwiek z trzech flagowców, zobacz, co naprawdę się zmieniło.

W poniedziałek rozmawiałem z CEO firmy e-commerce z Poznania. Prowadzi sklep z artykułami dla domu, obrót 4 miliony złotych rocznie, budżet na AI 800 złotych miesięcznie. Pytanie, które zadał, było proste: „Czy mam przepiąć się z Claude na GPT-5.4, czy zostać przy Opus 4.6?". Odpowiedź nie była prosta.

Trzy modele flagowe kwietnia 2026 to Claude Opus 4.7, GPT-5.4 i Gemini 3.1 Pro Preview. Każdy ma obszary dominacji. Każdy ma słabe punkty. Dla polskiego CEO MŚP najbardziej ukrytą zmienną są koszty, a te w nowym Opusie 4.7 wzrosły nie dlatego, że zmienił się cennik, lecz dlatego, że model inaczej liczy polski tekst.

Ten artykuł nie jest kolejnym reportażem „oto najnowszy Claude". Jest benchmarkiem decyzyjnym: jaki model wybrać do jakiego zadania w polskiej firmie i gdzie realne koszty różnią się od tych na stronie producenta.

W SKRÓCIE
  • Opus 4.7 wygrywa w kodowaniu - 87,6% SWE-bench Verified vs 83% GPT-5.4 vs 82% Gemini 3.1 Pro. Dla zespołów developerskich realna wartość
  • GPT-5.4 wygrywa w terminalu i DevOps - 75,1% Terminal-Bench 2.0 (liderem), plus niższa cena wyjściowa na tokenach
  • Gemini 3.1 Pro wygrywa ceną i kontekstem - 2,5x tańszy na wejściu, 2 miliony tokenów kontekstu (vs 1M u konkurencji)
  • Polski tokenizer Opus 4.7 kosztuje +35% - nowy tokenizer w Claude zużywa o 1,0-1,35x więcej tokenów dla polskiego tekstu niż dla angielskiego. Regresja, o której milczą recenzenci
  • Dla 80% zadań w MŚP flagowiec nie jest potrzebny - Haiku 4.5, GPT-5.4 mini i Gemini 3.1 Flash kosztują 6-10x mniej i wykonają copywriting, maile, podsumowania równie dobrze

87,6%
Opus 4.7 w SWE-bench Verified
+35%
koszt polskiego tekstu w nowym Claude
2,5x
różnica ceny wejścia Gemini vs Opus
2M
kontekst tokenów Gemini 3.1 Pro
75,1%
GPT-5.4 w Terminal-Bench 2.0
80 PLN
miesięczna subskrypcja konsumencka

Co się zmieniło 16 kwietnia 2026

Opus 4.7 to release iteracyjny, nie przełomowy. Anthropic nie przebudował architektury. Zmiany są ewolucyjne, ale w trzech obszarach istotne operacyjnie.

Pierwsza zmiana: adaptive thinking. W Opusie 4.6 deweloperzy ustawiali ręcznie „budżet myślenia" (thinking budget) dla zadań wymagających rozumowania. W 4.7 model sam decyduje, ile czasu poświęcić na przemyślenie odpowiedzi. API zwraca błąd 400 przy próbie manualnego ustawienia. Dla zespołów, które optymalizowały koszty przez precyzyjne budżety, to regresja funkcjonalna. Dla typowych użytkowników oszczędność czasu konfiguracji.

Druga zmiana: task budgets w agentach. Model pracujący w pętli agentowej (Orchestrator-Subagent, Agent Teams) widzi „odliczanie" dostępnych tokenów i sam zarządza priorytetami. W 4.6 zdarzało się, że agent kończył pracę „w połowie zdania", gdy kontekst się zapełniał. W 4.7 kończy ją gracefully, oddając częściowy, ale użyteczny wynik.

Trzecia zmiana: high-res vision. Opus 4.7 obsługuje obrazy do 2576 pikseli (3,75 megapiksela), trzy razy więcej niż 4.6. To realna różnica dla analizy skanów dokumentów z pieczątkami, screenshotów dashboardów BI z małym fontem czy zdjęć produktowych wymagających widzenia szczegółów.

Są też regresje. Anthropic ich nie reklamuje, ale niezależne analizy (Startup Fortune, llm-stats.com) odkryły spadek w teście Thematic Generalization Benchmark z 80,6 do 72,8 punktu. W Terminal-Bench 2.0 Opus 4.7 osiąga 69,4%, podczas gdy GPT-5.4 wciąż prowadzi z 75,1%. Simon Willison, jeden z najbardziej rzeczowych analityków AI, opublikował test, w którym lokalnie uruchomiony Qwen3.6-35B-A3B narysował lepszego pelikana na rowerze niż Opus 4.7. Gizmodo podsumował całość brutalnie: „Anthropic wypuścił Opus 4.7, żeby przypomnieć wszystkim, jak świetny jest Mythos". Skrajne, ale trafia w sedno - sam Anthropic deklaruje, że Opus 4.7 jest słabszy od nieudostępnionego publicznie Claude Mythos Preview. To nietypowe, gdy flagowiec pozycjonuje siebie jako „drugie miejsce".

Tabela benchmarków: trzej flagowcy kwietnia 2026

Benchmarki publiczne - kwiecień 2026
Test Opus 4.7 GPT-5.4 Gemini 3.1 Pro Zwycięzca
SWE-bench Verified (kodowanie) 87,6% ~80% 80,6% Opus 4.7
SWE-bench Pro (złożone tasky) 64,3% 57,7% 54,2% Opus 4.7
Terminal-Bench 2.0 (DevOps) 69,4% 75,1% brak danych GPT-5.4
GPQA Diamond (wiedza naukowa) 94,2% 94,4% 94,3% Remis
Thematic Generalization 72,8 (regresja) brak danych brak danych Ostrzeżenie
Kontekst (tokeny) 1M 1M 2M Gemini 3.1
Vision (maksymalna rozdzielczość) 3,75 MP brak danych 3 MP Opus 4.7
Źródła: Anthropic (oficjalna dokumentacja), Vellum AI, Simon Willison (Thematic Generalization), VentureBeat

Cztery zwycięstwa Opus 4.7 w kodowaniu i wizji. Dwa zwycięstwa konkurencji: GPT-5.4 w terminalu, Gemini 3.1 Pro w wielkości kontekstu. Jedno remisowe GPQA. Jedna ostrzeżeniowa regresja. Obraz nie jest monolityczny - to benchmarki, które mówią różne historie dla różnych zadań.

Tabela cen z uwzględnieniem polskiego tokenizera

To jest sekcja, której nie znajdziesz w zagranicznych recenzjach. Ceny producentów są publiczne, ale polski tokenizer Anthropic w Opus 4.7 to dodatek, który zmienia kalkulację.

Koszty API - kwiecień 2026 (USD za 1M tokenów)
Model Wejście Wyjście Polski tekst (mnożnik)
Opus 4.7 5,00 USD 25,00 USD 1,0-1,35x
GPT-5.4 2,50 USD 20,00 USD 1,0x (stabilne)
Gemini 3.1 Pro Preview 2,00 USD 12,00 USD 1,0x
Haiku 4.5 (tani Claude) 1,00 USD 5,00 USD 1,0x (stary tokenizer)
Źródła: cenniki oficjalne Anthropic, OpenAI, Google Cloud Vertex AI. Polski mnożnik - analiza tokenizerów na 17.04.2026

Na czym polega różnica w praktyce. Gdy wysyłasz polski tekst do Opus 4.7, model rozbija go na tokeny inaczej niż poprzednia wersja. Słowa z polskimi znakami diakrytycznymi (ą, ć, ę, ł, ń, ó, ś, ż, ź) i złożona morfologia polskiego (odmiana przez przypadki, różne końcówki) generują więcej tokenów niż ten sam tekst po angielsku.

Przykład konkretny. Zdanie „Proszę przygotować ofertę dla klienta z branży hotelarskiej uwzględniającą rabaty sezonowe i promocje świąteczne" w angielskim ma 17 tokenów. W polskim Opus 4.7 ma 26 tokenów. Ten sam prompt, 53% więcej tokenów. Na skali tysięcy zapytań dziennie to realny koszt.

Dla firmy wysyłającej 500 zapytań dziennie o średniej długości 200 tokenów wejścia i 400 tokenów wyjścia miesięczny koszt Opusa 4.7 na tekście angielskim to 165 USD. Ten sam workload po polsku może kosztować od 165 do 223 USD miesięcznie. Różnica do 58 USD, czyli do 230 złotych miesięcznie.

Gemini 3.1 Pro Preview w tej samej kalkulacji kosztuje 78 USD miesięcznie. Ponad dwa razy taniej niż polski Opus. W scenariuszu, gdzie kodowanie nie jest krytyczne, decyzja dla polskiej firmy jest ekonomicznie trudna do obrony na rzecz Opusa.

Trzy analogie, żeby zrozumieć różnice

Analogia pierwsza: trzej specjaliści w warsztacie samochodowym. Opus 4.7 to mechanik z 20-letnim stażem, który zna każdą markę i robi skomplikowane naprawy silników. Bierze 300 złotych za godzinę. GPT-5.4 to mechanik, który specjalizuje się w diagnostyce komputerowej i narzędziach warsztatowych, bierze 200 złotych. Gemini 3.1 Pro to mechanik uniwersalny, który zrobi dobrze 90% prostych napraw za 50 złotych za godzinę. Do wymiany oleju nie wynajmujesz seniora. Do rebuildu skrzyni biegów bierzesz specjalistę.

Analogia druga: trzy biura tłumaczeń. Opus 4.7 tłumaczy teksty medyczne i prawnicze z precyzją, ale każde polskie słowo liczy za 1,35 słowa w rachunku. GPT-5.4 tłumaczy równie dobrze techniczne teksty, po staremu za słowo. Gemini 3.1 Pro tłumaczy prosty tekst za ułamek ceny, czasem przeocząc niuans, ale na 200 stronach broszury produktowej tego nie zauważysz.

Analogia trzecia: trzy kalkulatory w firmie. Opus 4.7 to kalkulator naukowy Casio - liczy wszystko, także całki. GPT-5.4 to zaawansowany kalkulator biznesowy - stopa zwrotu, amortyzacja, prognozy. Gemini 3.1 Pro to duży kalkulator biurowy z taśmą papierową - dodawanie, odejmowanie, mnożenie, 10-krotnie taniej. Do księgowości wystarczy. Do modelowania finansowego już niekoniecznie.


Piszę o AI bez szumu i bez ściemy

Raz w tygodniu konkretny newsletter: co się zmieniło, co to znaczy dla Twojej firmy, co zrobić w tym tygodniu. Bez marketingowej papki.


Co to znaczy dla polskich małych i średnich firm

Scenariusz 1 / Kancelaria prawna

Opus 4.7 dla analiz, Gemini dla maili

Analiza umów, precedensów, orzeczeń - Opus 4.7 daje precyzję. Korespondencja, podsumowania, maile - Gemini 3.1 Pro wystarczy z nadmiarem.

Oszczędność: 60-70% kosztów API miesięcznie
Scenariusz 2 / Hotelarstwo

Opus 4.7 dla vision, tańsze dla obsługi

Skany paszportów, OCR faktur, analiza zdjęć produktowych - Opus 4.7 z 3,75 MP vision. Chatbot gościnny, odpowiedzi na booking.com - Haiku 4.5 lub Gemini Flash.

Workflow hybrydowy: 3 modele w jednej firmie
Scenariusz 3 / E-commerce

Gemini dla skali, GPT dla konwersji

Opisy produktów (tysiące SKU) - Gemini 3.1 Pro za cenę. Personalizacja maili do klientów - GPT-5.4. Opus 4.7 niepotrzebny dla większości tasków.

Koszt miesięczny: 200-500 PLN API

Scenariusz pierwszy: kancelaria prawna. Klient w Warszawie, 8 prawników, 150 aktywnych spraw miesięcznie. Przez pół roku używali Claude Pro za 80 PLN na osobę miesięcznie, czyli 640 PLN. Efekt: świetna analiza pism procesowych, umów, orzeczeń. Problem pojawił się, gdy zaczęli masowo używać Claude do redakcji pism klientów. 40% budżetu szło na powtarzalne zadania, które równie dobrze obsłużyłby Gemini 3.1 Pro Preview przez API. Po przeorganizowaniu workflow: Opus 4.7 dla analiz (subskrypcja Pro), Gemini 3.1 Pro dla korespondencji (API za 80 USD miesięcznie razem). Koszt spadł o 60%, jakość pism nie ucierpiała.

Scenariusz drugi: hotel. Grupa hotelowa obsługuje 200 rezerwacji dziennie przez booking.com, własną stronę i telefon. Chatbot gościnny - Haiku 4.5 przez API, kilka groszy za rozmowę. Skany paszportów przy check-in, OCR faktur od dostawców, analiza zdjęć z pokoi do reklamacji - Opus 4.7 za high-res vision, ale tylko dla tych trzech zadań. Korespondencja z touroperatorami i umowy - Gemini 3.1 Pro. Trzy różne modele, każdy w swoim obszarze kompetencji. Koszt miesięczny API: około 300 USD (1200 PLN). Dla hotelu o obrocie 2 miliony PLN miesięcznie to inwestycja, nie koszt.

Scenariusz trzeci: e-commerce. Sklep internetowy z 8000 SKU, potrzebuje aktualizacji opisów produktów pod kątem SEO i wariantów językowych. Opus 4.7 na taki wolumen byłby zabójczy kosztowo. Gemini 3.1 Pro Preview generuje 8000 opisów (każdy po 300 słów polskich) za około 120 USD. GPT-5.4 wspiera personalizację kampanii mailingowych - tutaj jego umiejętności pisania maili konwertujących są udokumentowane lepiej niż w Opusie. Opus 4.7 w całej konfiguracji obsługuje przypadki brzegowe - do niego trafiają tylko zadania wymagające najwyższej precyzji rozumowania, na przykład analiza skomplikowanych reklamacji klientów.

Wniosek operacyjny: dla polskiej firmy średniej wielkości strategia jednego modelu jest przeszłością. Aktualne podejście to warstwowanie modeli według zadania i wolumenu. Szerzej o tym pisałem w Pięć wzorców zespołów AI według Anthropic - tam, gdzie tańszy model robi triaż, a flagowiec decyduje tylko w trudnych przypadkach.

Framework decyzyjny: który model do jakiego zadania

Mapa decyzyjna dla CEO polskiego MŚP
Typ zadania Rekomendowany model Czemu nie flagowiec
Kodowanie, agenty developerskie Opus 4.7 Tu 4,6 punktu procentowego różnicy na SWE-bench to realna jakość
DevOps, terminal, automatyzacja serwerów GPT-5.4 Prowadzi w Terminal-Bench 2.0 (75,1% vs 69,4%)
Analiza długich dokumentów (500+ stron) Gemini 3.1 Pro 2M tokenów kontekstu vs 1M u konkurencji
Analiza wysokorozdzielczych obrazów Opus 4.7 3,75 MP vision - pierwszy Claude w tej lidze
Copywriting, maile, treści marketingowe Gemini 3.1 Pro / Haiku 4.5 Różnica jakości między flagowcami a tańszymi jest tu minimalna
Chatbot obsługi klienta Haiku 4.5 / GPT-5.4 mini Flagowiec to absurd ekonomiczny przy tysiącach rozmów dziennie
Analiza umów prawniczych Opus 4.7 Tutaj precyzja wygrywa z ceną, nawet z tokenizerem PL
Masowa redakcja opisów produktów Gemini 3.1 Pro Skala + cena + kontekst. Opus 4.7 przepalisz w tydzień

Trzy pułapki, które kosztują realne pieniądze

Pułapka pierwsza: wszystko na flagowcu, bo „najlepszy". To najczęstszy błąd polskiego CEO, który dopiero wdraża AI. Kupuje Claude Pro albo ChatGPT Plus dla całej firmy i każe pracownikom używać tego modelu do wszystkiego. Dla 80% zadań to nadmiar, czyli spalanie budżetu. Rozwiązanie: audyt zadań AI w firmie, przypisanie modelu do zadania, warstwowanie.

Pułapka druga: ignorowanie kosztu polskiego tokenizera. Zagraniczne recenzje Opus 4.7 nie wspominają o regresji tokenizera dla języków innych niż angielski. Polski CEO czyta, że cena się nie zmieniła, migruje z 4.6 na 4.7, po miesiącu dostaje rachunek o 25-35% wyższy. Rozwiązanie: przed migracją przetestuj 100 typowych zapytań Twojej firmy w obu wersjach, porównaj zużycie tokenów.

Pułapka trzecia: zakupy emocjonalne przy każdym wydaniu modelu. Rok 2026 to tempo, w którym nowy flagowiec pojawia się co 4-6 tygodni. Większość firm nie powinna migrować częściej niż raz na kwartał. Koszt rekonfiguracji promptów, szkolenia zespołu, zmiany integracji zwykle przewyższa zysk z niewielkiego wzrostu benchmarków. Rozwiązanie: kwartalny przegląd, nie tygodniowy.

Cztery kroki wdrożenia w najbliższych dwóch tygodniach

Checklist: jak wybrać model AI dla Twojej firmy
1
Lista aktualnych zadań AI w firmie 3 DNI

Spisz wszystkie miejsca, w których ludzie w firmie używają AI. Dla każdego: typ zadania, wolumen miesięczny, aktualnie używany model.

2
Test tokenizera polskiego (jeśli używasz API) 1 DZIEŃ

Wybierz 100 typowych promptów z firmy. Policz zużycie tokenów w Opus 4.6 i 4.7. Jeśli różnica to 20% i więcej, przemyśl migrację lub zostań przy 4.6.

3
Przypisanie modelu do zadania 3 DNI

Dla każdego zadania z kroku 1 zdecyduj, który model pasuje (skorzystaj z mapy decyzyjnej powyżej). Udokumentuj decyzje.

4
Pilotaż tydzień na dwa modele 7 DNI

Wdroż dwa wybrane modele w codziennym workflow zespołu. Monitoruj jakość wyników, czas i koszt. Po tygodniu zdecyduj o pełnym wdrożeniu.

Co z tego zostaje

Opus 4.7 nie jest rewolucją. Jest iteracyjnym ulepszeniem z jedną prawdziwą regresją (tokenizer polski) i jednym strategicznie niepokojącym komunikatem (nasz flagowiec jest słabszy od tego, czego nie sprzedajemy publicznie). Dla zespołów developerskich wartościowy. Dla marketingu i copywritingu nieuzasadniony kosztowo.

Gemini 3.1 Pro Preview pozostaje najtańszym flagowcem i jedynym z kontekstem 2 milionów tokenów. Dla firm przetwarzających długie dokumenty, masowe treści lub czaty z tysiącami rozmów dziennie to często optymalny wybór. GPT-5.4 trzyma się w grze, prowadzi w DevOps, oferuje dobry stosunek ceny do jakości dla zadań konwersacyjnych.

Największy błąd, jaki może popełnić polski CEO MŚP w kwietniu 2026, to wybór jednego modelu do wszystkiego. Rok 2025 był rokiem hasła „wszyscy używają ChatGPT" albo „wszyscy przepinają się na Claude'a". Rok 2026 to rok warstwowania: tańszy model robi triaż i prostą pracę, flagowiec wchodzi tam, gdzie precyzja jest krytyczna.

Jeśli od dawna czekasz na „ten jeden najlepszy model", przestań czekać. Taki model nie istnieje. Istnieje odpowiednia kombinacja modeli dla Twojej firmy. Kwartalna rewizja tej kombinacji jest tańsza i skuteczniejsza niż migracja przy każdym nowym release.

Pytanie, które Ci zostawiam: czy wiesz, ile tokenów zużywa Twoja firma miesięcznie w każdym z używanych modeli? Jeśli nie, to jest moment, żeby to policzyć. Reszta decyzji rozwinie się z tej jednej liczby.

Jeśli dotarłeś tutaj

Następny artykuł trafi do skrzynek czytelników w poniedziałek. Twojej też?

Co tydzień jedna prawdziwa historia z polskiej firmy, jeden przegląd benchmarków albo frameworku, jedna akcja na ten tydzień. Zero marketingu modeli, zero pustych haseł.

Dalej w temacie
KONTEKST ANTHROPIC
Claude Mythos i Project Glasswing - dlaczego Anthropic zamknął własne AI
ARCHITEKTURA AGENTÓW
Pięć wzorców zespołów AI według Anthropic (warstwowanie modeli w praktyce)
POPRZEDNIE PORÓWNANIE
ChatGPT vs Claude vs Gemini dla marketerów (porównanie 2026)

Powiązane artykuły

Co jeszcze warto przeczytać

Newsletter Strategic AI Implementation

Co tydzień jeden framework, jedno case study, zero spamu

Dołącz do listy. Dostajesz to, czego nie wrzucam na bloga: kulisy moich wdrożeń, sprawdzone prompty, błędy do uniknięcia. Wypisujesz się jednym kliknięciem.

Wolisz inny kanał?