GPT-5.5 ma lepiej rozumieć intencje i samodzielnie prowadzić złożone zadania
Według OpenAI najważniejszą zmianą w GPT-5.5 jest zdolność do szybszego zrozumienia, co użytkownik próbuje osiągnąć, oraz przejęcia większej części pracy. Firma opisuje model jako system, który dobrze radzi sobie z pisaniem i debugowaniem kodu, researchem online, analizą danych, tworzeniem dokumentów i arkuszy kalkulacyjnych, obsługą oprogramowania oraz przechodzeniem między narzędziami do momentu zakończenia zadania. To wyraźnie inny sposób opisywania sztucznej inteligencji niż jeszcze kilka lat temu, gdy głównym punktem odniesienia była jakość odpowiedzi w rozmowie.
OpenAI podkreśla, że użytkownik nie musi już zarządzać każdym etapem pracy tak szczegółowo jak wcześniej. GPT-5.5 ma przyjmować nieuporządkowane, wieloczęściowe zadania, planować działania, używać narzędzi, kontrolować wynik, poruszać się w niejednoznacznych sytuacjach i kontynuować pracę. W praktyce oznacza to model projektowany pod bardziej wymagające scenariusze niż pojedyncze pytanie i pojedyncza odpowiedź. Chodzi o zadania, w których trzeba utrzymać kontekst, podjąć serię decyzji, wrócić do wcześniejszych ustaleń, sprawdzić założenia i doprowadzić pracę do użytecznego rezultatu.
To podejście jest szczególnie istotne w środowisku zawodowym. Praca biurowa, programistyczna, analityczna czy badawcza rzadko składa się z jednego prostego kroku. Zwykle wymaga zebrania danych, ich interpretacji, wyboru właściwego narzędzia, przygotowania wyniku i sprawdzenia, czy wszystko jest spójne. OpenAI pozycjonuje GPT-5.5 właśnie jako model, który ma lepiej radzić sobie z taką pełną pętlą pracy. Nie jest to jeszcze obietnica pełnej autonomii bez nadzoru człowieka, ale komunikat jasno pokazuje ambicję: AI ma być coraz mniej narzędziem do pojedynczych odpowiedzi, a coraz bardziej systemem wspierającym realne wykonywanie zadań na komputerze.
Introducing GPT-5.5
A new class of intelligence for real work and powering agents, built to understand complex goals, use tools, check its work, and carry more tasks through to completion. It marks a new way of getting computer work done.
Now available in ChatGPT and Codex. pic.twitter.com/rPLTk99ZH5
— OpenAI (@OpenAI) April 23, 2026
Największe postępy OpenAI wskazuje w kodowaniu agentowym
Jednym z najmocniej eksponowanych obszarów GPT-5.5 jest kodowanie agentowe. OpenAI określa nowy model jako swój najsilniejszy dotąd system do tego typu pracy. Chodzi o programowanie, w którym model nie tylko tworzy fragment kodu, ale potrafi planować działania, wykonywać złożone operacje w środowisku command-line, iterować, korzystać z narzędzi, diagnozować błędy i przeprowadzać zmiany przez szerszy kontekst projektu. Według danych podanych przez OpenAI GPT-5.5 osiąga 82,7% w Terminal-Bench 2.0, podczas gdy GPT-5.4 uzyskał 75,1%. W wewnętrznym benchmarku Expert-SWE model osiągnął 73,1% wobec 68,5% dla GPT-5.4, a w publicznym SWE-Bench Pro uzyskał 58,6%.
OpenAI zaznacza, że w trzech wskazanych ewaluacjach GPT-5.5 poprawia wyniki GPT-5.4, jednocześnie zużywając mniej tokenów. To istotne, ponieważ w praktyce praca programistyczna z modelem AI nie zależy wyłącznie od jakości pojedynczej odpowiedzi. Liczy się również to, jak długo model potrafi utrzymać cel, czy rozumie strukturę systemu, czy potrafi przewidywać skutki zmian i czy nie wymaga zbyt wielu poprawek. Według OpenAI mocne strony GPT-5.5 szczególnie dobrze widać w Codexie, gdzie model może realizować zadania od implementacji i refaktoryzacji po debugowanie, testowanie i walidację.
Firma przywołuje opinie wczesnych testerów, którzy wskazywali, że GPT-5.5 lepiej rozumie „kształt systemu”: dlaczego coś nie działa, gdzie powinna trafić poprawka i które elementy kodu mogą zostać nią dotknięte. W komunikacie pojawiają się także przykłady złożonych zadań, takich jak stworzenie aplikacji z renderowaniem trajektorii misji Artemis II na podstawie danych NASA/JPL Horizons czy rozwiązanie problemów z większymi zmianami frontendowymi i refaktoryzacją. OpenAI podkreśla również, że seniorzy testujący model oceniali GPT-5.5 jako silniejszy od GPT-5.4 pod względem rozumowania, autonomii i przewidywania potrzeb testowych oraz review.
GPT-5.5 ma wzmacniać codzienną pracę z dokumentami, arkuszami i narzędziami
OpenAI przedstawia GPT-5.5 nie tylko jako model dla programistów, lecz także jako system do szeroko rozumianej pracy wiedzy. Firma pisze, że te same cechy, które pomagają modelowi w kodowaniu, mają przekładać się na codzienną pracę na komputerze. GPT-5.5 ma lepiej rozumieć intencję użytkownika i sprawniej przechodzić przez cały proces: wyszukanie informacji, zrozumienie tego, co istotne, użycie narzędzi, sprawdzenie wyniku i zamianę surowych materiałów w użyteczny rezultat.
W Codexie GPT-5.5 ma być lepszy od GPT-5.4 w generowaniu dokumentów, arkuszy kalkulacyjnych i prezentacji. OpenAI podaje też, że testerzy alfa wskazywali na lepsze wyniki w zadaniach takich jak research operacyjny, modelowanie w arkuszach oraz przekształcanie nieuporządkowanych danych biznesowych w plany. Szczególnie ważna jest tu integracja z umiejętnościami obsługi komputera: model ma zbliżać się do scenariusza, w którym AI widzi, co dzieje się na ekranie, klika, wpisuje dane, porusza się po interfejsach i korzysta z różnych narzędzi z większą precyzją.
OpenAI pokazuje również, że korzysta z tych możliwości we własnych procesach. Według komunikatu ponad 85% firmy używa Codexa co tydzień w różnych zespołach, w tym w inżynierii oprogramowania, finansach, komunikacji, marketingu, data science i product management. W zespole komunikacji GPT-5.5 w Codexie miał pomóc przeanalizować sześć miesięcy danych dotyczących zaproszeń do wystąpień, zbudować framework oceny i ryzyka oraz zweryfikować automatycznego agenta Slack. W finansach Codex został użyty do przeglądu 24 771 formularzy K-1 obejmujących 71 637 stron, przy workflow wykluczającym dane osobowe, co miało przyspieszyć zadanie o dwa tygodnie względem poprzedniego roku. Zespół go-to-market miał z kolei zautomatyzować generowanie cotygodniowych raportów biznesowych, oszczędzając od 5 do 10 godzin tygodniowo.
Wyniki benchmarków pokazują przewagę w pracy zawodowej i obsłudze narzędzi
OpenAI przedstawia GPT-5.5 jako model osiągający bardzo mocne wyniki w benchmarkach związanych z pracą zawodową, obsługą narzędzi, użyciem komputera i analizą danych. W GDPval, czyli ewaluacji sprawdzającej zdolność agentów do tworzenia dobrze określonych wyników pracy w 44 zawodach, GPT-5.5 uzyskał 84,9% w kategorii zwycięstw lub remisów. Dla porównania GPT-5.4 osiągnął 83,0%, GPT-5.4 Pro 82,0%, Claude Opus 4.7 80,3%, a Gemini 3.1 Pro 67,3%. W OSWorld-Verified, mierzącym zdolność modelu do działania w rzeczywistych środowiskach komputerowych, GPT-5.5 uzyskał 78,7%, wobec 75,0% dla GPT-5.4.
Model osiąga również 98,0% w Tau2-bench Telecom przy oryginalnych promptach, bez dostrajania promptów, podczas gdy GPT-5.4 uzyskał 92,8%. W FinanceAgent v1.1 GPT-5.5 osiągnął 60,0%, w wewnętrznych zadaniach modelowania bankowości inwestycyjnej 88,5%, a w OfficeQA Pro 54,1%. W obszarze użycia narzędzi OpenAI podaje między innymi 84,4% w BrowseComp, 75,3% w MCP Atlas oraz 55,6% w Toolathlon. Warto przy tym pamiętać, że część wyników pochodzi z ewaluacji wewnętrznych lub specjalistycznych, a sama firma zaznacza, że testy GPT były prowadzone z reasoning effort ustawionym na xhigh i w środowisku badawczym, co może dawać nieco inne rezultaty niż produkcyjne użycie ChatGPT.
Mimo tego zestaw benchmarków dobrze pokazuje, co OpenAI próbuje udowodnić w tej premierze. GPT-5.5 nie jest prezentowany jako model, który po prostu wie więcej. Jest prezentowany jako model, który ma lepiej wykonywać działania: operować narzędziami, analizować dokumenty, pracować w środowiskach komputerowych, rozwiązywać zadania zawodowe i utrzymywać jakość przy dłuższych procesach. To przesuwa punkt ciężkości z klasycznego testowania wiedzy na testowanie wykonania pracy. Dla firm może to mieć większe znaczenie niż sama jakość odpowiedzi tekstowych, bo realna wartość AI pojawia się wtedy, gdy model skraca czas wykonania zadania i zmniejsza liczbę poprawek potrzebnych po stronie człowieka.
GPT-5.5 w badaniach naukowych: genetyka, bioinformatyka i matematyka
OpenAI podkreśla, że GPT-5.5 pokazuje również postępy w workflowach naukowych i technicznych. Firma zaznacza, że badania naukowe wymagają więcej niż odpowiedzi na trudne pytanie. Naukowiec musi eksplorować hipotezę, zebrać dowody, sprawdzić założenia, zinterpretować wyniki i zdecydować, jaki krok wykonać dalej. Według OpenAI GPT-5.5 jest lepszy od innych modeli w utrzymywaniu pracy przez taką pętlę, szczególnie w zadaniach wymagających rozumowania przez kontekst i działania w czasie.
W GeneBench, nowej ewaluacji koncentrującej się na wieloetapowej analizie danych w genetyce i biologii ilościowej, GPT-5.5 uzyskał 25,0%, wobec 19,0% dla GPT-5.4. GPT-5.5 Pro osiągnął w tym benchmarku 33,2%, podczas gdy GPT-5.4 Pro 25,6%. OpenAI zaznacza, że zadania tego typu wymagają radzenia sobie z niejednoznacznymi lub obarczonymi błędami danymi, ukrytymi czynnikami zakłócającymi, problemami kontroli jakości oraz poprawnym wdrażaniem i interpretowaniem nowoczesnych metod statystycznych. Firma wskazuje, że tego rodzaju problemy często odpowiadają wielodniowym projektom dla ekspertów naukowych.
W BixBench, benchmarku dotyczącym realnych zadań bioinformatycznych i analizy danych, GPT-5.5 osiągnął 80,5%, wobec 74,0% dla GPT-5.4. OpenAI przywołuje też przykład wewnętrznej wersji GPT-5.5 z niestandardowym środowiskiem, która miała pomóc w odkryciu nowego dowodu dotyczącego liczb Ramseya, później zweryfikowanego w Lean. W komunikacie pojawiają się również przykłady użycia modelu przez badaczy, między innymi analiza datasetu ekspresji genów obejmującego 62 próbki i prawie 28 000 genów oraz stworzenie aplikacji z zakresu geometrii algebraicznej na podstawie pojedynczego promptu. W interpretacji OpenAI GPT-5.5 zaczyna więc działać mniej jak jednorazowy generator odpowiedzi, a bardziej jak partner wspierający przejście od pytania, przez eksperyment, do wyniku.
OpenAI deklaruje wyższą efektywność bez kompromisu w szybkości
Jedną z najważniejszych deklaracji OpenAI jest to, że GPT-5.5 ma oferować wzrost inteligencji bez pogorszenia szybkości względem GPT-5.4. Firma pisze, że większe i bardziej zdolne modele często są wolniejsze w obsłudze, ale GPT-5.5 ma dorównywać GPT-5.4 pod względem per-token latency w realnym serwowaniu, jednocześnie działając na wyższym poziomie inteligencji. OpenAI dodaje też, że GPT-5.5 używa znacząco mniejszej liczby tokenów do wykonywania tych samych zadań w Codexie, co ma czynić go nie tylko bardziej zdolnym, lecz także bardziej efektywnym.
To istotne, ponieważ w praktycznym użyciu modeli AI liczy się nie tylko sama jakość odpowiedzi, lecz także koszt i czas doprowadzenia zadania do wyniku. Model, który daje lepszy rezultat, ale wymaga wielu prób, długiego oczekiwania i ogromnego zużycia tokenów, może być mniej atrakcyjny operacyjnie niż system, który szybciej kończy pracę i rzadziej wymaga poprawiania. OpenAI wyraźnie próbuje pokazać GPT-5.5 jako model mocniejszy, ale jednocześnie lepiej zoptymalizowany dla rzeczywistych workflowów.
Firma ujawnia również szczegóły infrastrukturalne. Według komunikatu GPT-5.5 był współprojektowany, trenowany i serwowany na systemach NVIDIA GB200 oraz GB300 NVL72. OpenAI podaje, że Codex i GPT-5.5 odegrały rolę w osiągnięciu celów wydajnościowych, pomagając zespołowi szybciej przechodzić od pomysłów do implementacji, szkicować podejścia, uruchamiać eksperymenty i identyfikować optymalizacje warte dalszej pracy. Jednym z przykładów była poprawa heurystyk load balancingu i partycjonowania. Codex miał przeanalizować tygodnie wzorców ruchu produkcyjnego i napisać algorytmy lepszego dzielenia oraz równoważenia pracy. Według OpenAI przełożyło się to na wzrost szybkości generowania tokenów o ponad 20%.
Bezpieczeństwo GPT-5.5: mocniejsze modele wymagają mocniejszych zabezpieczeń
OpenAI podkreśla, że GPT-5.5 jest wdrażany z najmocniejszym dotąd zestawem zabezpieczeń firmy. Celem ma być ograniczenie nadużyć przy jednoczesnym zachowaniu dostępu do korzystnych zastosowań. Model został oceniony w ramach pełnego zestawu safety i preparedness frameworks, przeszedł pracę z wewnętrznymi i zewnętrznymi redteamerami, a także dodatkowe testy ukierunkowane na zaawansowane możliwości w cyberbezpieczeństwie i biologii. OpenAI zebrało również feedback z rzeczywistych zastosowań od prawie 200 zaufanych partnerów z wczesnym dostępem.
Szczególnie dużo miejsca w komunikacie poświęcono cyberbezpieczeństwu. OpenAI pisze, że modele frontierowe stają się coraz bardziej zdolne w tym obszarze, a te możliwości będą szerzej dystrybuowane. Według firmy najlepszą drogą jest zapewnienie, aby mogły służyć do przyspieszania cyberobrony i wzmacniania ekosystemu bezpieczeństwa. Wraz z GPT-5.5 OpenAI wdraża surowsze klasyfikatory potencjalnego ryzyka cyber, co — jak sama firma przyznaje — może początkowo irytować część użytkowników, zanim systemy zostaną dostrojone.
OpenAI wskazuje, że po raz pierwszy wprowadziło cyber-specific safeguards wraz z GPT-5.2 i od tego czasu je testowało, dopracowywało oraz rozwijało. Dla GPT-5.5 firma przygotowała ściślejsze kontrole wokół działań wyższego ryzyka, wrażliwych zapytań cybernetycznych oraz ochronę przed powtarzalnym nadużyciem. Jednocześnie zapowiedziano szerszy dostęp dla zweryfikowanych obrońców przez Trusted Access for Cyber, początkowo w Codexie. OpenAI klasyfikuje biologiczno-chemiczne i cyberbezpieczne możliwości GPT-5.5 jako High w Preparedness Framework, zaznaczając jednak, że model nie osiągnął poziomu Critical w cyberbezpieczeństwie. Według OpenAI jego możliwości cybernetyczne są krokiem naprzód względem GPT-5.4, dlatego wymagają silniejszych zabezpieczeń, monitoringu i sprawniejszej reakcji na poważne nadużycia.
Dostępność i ceny GPT-5.5
GPT-5.5 jest wdrażany dla użytkowników planów Plus, Pro, Business i Enterprise w ChatGPT oraz Codexie. GPT-5.5 Pro trafia do użytkowników Pro, Business i Enterprise w ChatGPT. W ChatGPT dostępny jest GPT-5.5 Thinking dla planów Plus, Pro, Business i Enterprise, natomiast GPT-5.5 Pro został opisany jako wariant przeznaczony do jeszcze trudniejszych pytań i pracy wymagającej wyższej dokładności. W Codexie GPT-5.5 jest dostępny dla planów Plus, Pro, Business, Enterprise, Edu i Go z oknem kontekstowym 400K.
OpenAI zapowiada również udostępnienie GPT-5.5 i GPT-5.5 Pro w API. Według komunikatu gpt-5.5 ma wkrótce trafić do Responses API i Chat Completions API w cenie 5 dolarów za milion tokenów wejściowych oraz 30 dolarów za milion tokenów wyjściowych, z oknem kontekstowym 1M. Dostępne mają być także Batch i Flex pricing na poziomie połowy standardowej stawki oraz Priority processing w cenie 2,5 razy wyższej od standardowej. OpenAI zapowiada również gpt-5.5-pro w API, z ceną 30 dolarów za milion tokenów wejściowych i 180 dolarów za milion tokenów wyjściowych.
Firma przyznaje, że GPT-5.5 jest droższy od GPT-5.4, ale argumentuje, że model jest jednocześnie bardziej inteligentny i bardziej efektywny tokenowo. W Codexie doświadczenie ma być dostrojone tak, aby GPT-5.5 dostarczał lepsze wyniki przy mniejszym zużyciu tokenów niż GPT-5.4 dla większości użytkowników, przy zachowaniu szerokich limitów użycia na poziomie subskrypcji. To ważny element pozycjonowania modelu. OpenAI nie przedstawia GPT-5.5 jako najtańszej opcji, ale jako system, który ma uzasadniać wyższą cenę większą skutecznością i mniejszą liczbą kroków potrzebnych do wykonania zadania.
Podsumowanie: GPT-5.5 to model projektowany pod pracę, nie tylko rozmowę
GPT-5.5 to premiera, która dobrze pokazuje aktualny kierunek rozwoju OpenAI. Firma nie skupia się wyłącznie na tym, że model odpowiada lepiej, szybciej lub bardziej szczegółowo. Główny przekaz jest inny: GPT-5.5 ma wykonywać więcej realnej pracy na komputerze. Ma rozumieć intencję, planować, używać narzędzi, kontrolować wynik, działać przez dłuższy kontekst i lepiej radzić sobie z wieloetapowymi zadaniami. To właśnie dlatego w komunikacie tak dużo miejsca zajmują kodowanie agentowe, dokumenty, arkusze, obsługa oprogramowania, badania naukowe i cyberbezpieczeństwo.
Najmocniejsze dane dotyczą kodowania i pracy narzędziowej. GPT-5.5 poprawia wyniki GPT-5.4 w Terminal-Bench 2.0, Expert-SWE, GDPval, OSWorld-Verified, BrowseComp, GeneBench, BixBench czy CyberGym. Jednocześnie OpenAI podkreśla, że model ma utrzymywać latencję porównywalną z GPT-5.4 i zużywać mniej tokenów w zadaniach Codexa. Jeżeli te deklaracje przełożą się na codzienne użycie, GPT-5.5 może być istotnym krokiem w stronę AI, która nie tylko pomaga pisać, ale realnie przejmuje część procesu pracy.
Dane pochodzą z komunikatu OpenAI, część benchmarków ma charakter wewnętrzny, a sama firma zaznacza, że ewaluacje były prowadzone w środowisku badawczym z określonymi ustawieniami reasoning effort. GPT-5.5 nie powinien być więc traktowany jako magiczny system bezbłędnie wykonujący każde zadanie. To nadal model wymagający kontroli, szczególnie w obszarach wysokiego ryzyka. Premiera pokazuje jednak bardzo wyraźnie, że walka największych firm AI będzie coraz mniej dotyczyła samych odpowiedzi, a coraz bardziej tego, który model potrafi skuteczniej wykonać realną pracę od początku do końca.
Dziękujemy za przeczytanie artykułu na Techoteka.pl.
Publikujemy codziennie informacje o sztucznej inteligencji, nowych technologiach, IT oraz rozwoju agentów AI.
Obserwuj nas na Facebooku, aby nie przegapić kolejnych artykułów.



