GPT-5.3-Codex: keď sa „coding agent“ mení na kolegu pre celý počítačový workflow
OpenAI 5. februára 2026 predstavilo GPT-5.3-Codex – nový model v rodine Codex, ktorý má ambíciu pokryť „celé spektrum profesionálnej práce na počítači“. Nie je to len ďalší upgrade v presnosti generovania kódu. Podľa oznámenia ide o doteraz najschopnejší agentic model pre programovanie (t. j. model, ktorý vie samostatne plánovať kroky, používať nástroje, iterovať a dokončovať dlhšie úlohy), a zároveň má spájať schopnosti z línie GPT‑5.2‑Codex (frontier výkon v kódovaní) a GPT‑5.2 (lepší reasoning a „profesionálne“ znalosti) do jedného modelu.
Praktický dopad: model má byť o 25 % rýchlejší a zvládnuť dlhotrvajúce úlohy, kde sa mieša research, použitie nástrojov a komplexná exekúcia. Dôležitá zmena je aj spôsob práce: model má fungovať viac ako kolega – vieš ho priebežne usmerňovať a pýtať sa, bez toho, aby „stratil“ kontext, aj keď už niečo robí.
Zaujímavý detail pre ľudí, ktorí sledujú interné procesy: GPT‑5.3‑Codex je podľa OpenAI prvý model, ktorý bol „instrumentálny“ pri vytváraní samého seba. Tím Codexu použil rané verzie na debugovanie vlastného tréningu, manažovanie deploymentu a diagnostiku výsledkov testov a evaluácií. Ich pointa je jasná: schopný agent dokáže zrýchliť aj vlastný vývojový cyklus.
Ako sa mení definícia „Codex“: od kódu k práci end-to-end
Doteraz bolo prirodzené vnímať Codex ako nástroj na písanie a review kódu. Pri GPT‑5.3‑Codex OpenAI explicitne tvrdí, že sa Codex posúva k agentovi, ktorý dokáže robiť „takmer čokoľvek, čo vývojári a profesionáli robia na počítači“ – teda nielen generovať zdrojáky, ale aj navigovať workflow: plánovať kroky, používať terminal, upravovať súbory, analyzovať dáta, pripravovať podklady a dokončovať úlohy do finálneho výstupu.
Frontier agentic capabilities: benchmarky, ktoré OpenAI používa
OpenAI v oznámení opiera argument o štyri benchmarky, ktoré používa na meranie programovania, agentic správania a „real-world“ schopností: SWE-Bench Pro, Terminal-Bench, OSWorld a GDPval. GPT‑5.3‑Codex má podľa nich dosiahnuť nové priemyselné maximum na SWE‑Bench Pro a Terminal‑Bench a zároveň silné výsledky na OSWorld a GDPval.
Programovanie: SWE-Bench Pro a Terminal-Bench 2.0
V časti venovanej kódovaniu OpenAI zdôrazňuje, že GPT‑5.3‑Codex dosahuje state-of-the-art na SWE‑Bench Pro, čo je prísnejšia evaluácia „reálneho softvérového inžinierstva“. Dôležitý rozdiel oproti SWE‑bench Verified: Verified testuje len Python, zatiaľ čo SWE‑Bench Pro pokrýva štyri jazyky, má byť odolnejší voči kontaminácii a je náročnejší, diverznejší a relevantnejší pre prax.
Zároveň má výrazne prekračovať predošlé SOTA výsledky na Terminal‑Bench 2.0, ktorý meria terminalové zručnosti, ktoré agent ako Codex potrebuje (práca v shelli, spúšťanie príkazov, orientácia v projektoch, iterácie). OpenAI vypichuje aj to, že GPT‑5.3‑Codex to dosahuje s menším počtom tokenov než akýkoľvek predchádzajúci model, čo v ich interpretácii znamená, že „používatelia dokážu postaviť viac“ (typicky: menej verbose riešenia, efektívnejšie kroky, menej zbytočných výpisov).
Web development: dlhé iterácie a autonómne zlepšovanie
Pri webe nejde len o to, či model vie nakresliť landing page. OpenAI tu kombinuje tri línie: frontier coding, zlepšenie estetiky a compaction (kompaktnejšie správanie/výstupy). Výsledok má byť schopnosť budovať „striking work“ – komplexné hry a aplikácie od nuly počas dní.
Ako test dlhobej agentic práce dali GPT‑5.3‑Codex postaviť dve hry: (1) druhú verziu pretekárskej hry známej z oznámenia „Codex app launch“ a (2) potápačskú hru. Použili pritom skill develop web game a následne len predpripravené generické follow-up prompty typu „fix the bug“ alebo „improve the game“. Model iteroval autonómne cez milióny tokenov. Výsledky si vieš pozrieť a zahrať priamo:
- Pretekárska hra: rôzni jazdci, osem máp a itemy aktivované medzerníkom: https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html
- Potápačská hra: prieskum útesov, zbieranie do „fish codexu“, manažment kyslíka, tlaku a hazardov: https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html
Pre bežnú webovú prácu je zaujímavé aj tvrdenie, že GPT‑5.3‑Codex lepšie chápe intent pri „day‑to‑day“ webstránkach než GPT‑5.2‑Codex. Pri jednoduchých alebo nešpecifikovaných promptoch má častejšie defaultovať na stránky s rozumnejšími predvolenými nastaveniami a vyššou funkcionalitou – teda lepšie východisko, ktoré už pôsobí produkčne.
OpenAI uvádza konkrétny príklad porovnania dvoch landing pages. GPT‑5.3‑Codex napríklad automaticky zobrazil ročný plán ako zľavnenú mesačnú cenu (namiesto toho, aby len prepočítal ročný súčet), a pridal automaticky prechádzajúci carousel s tromi rozdielnymi citátmi používateľov (nie jeden opakovaný quote). Pointa: viac drobných rozhodnutí „ako by to urobil skúsený frontend“ bez toho, aby si musel všetko dopísať do promptu.
Beyond coding: podpora celého softvérového životného cyklu aj „office“ práce
OpenAI je v tejto časti pomerne explicitné: inžinieri, dizajnéri, product manažéri a data scientisti nerobia len generovanie kódu. GPT‑5.3‑Codex má byť postavený tak, aby podporoval prácu naprieč životným cyklom softvéru – debugging, deployment, monitoring, písanie PRD (Product Requirements Document), úpravy textov, user research, testy, metriky a ďalšie.
Zároveň sa to má rozšíriť aj mimo softvér: príprava slide deckov alebo analýza dát v tabuľkách. OpenAI spomína, že s vlastnými skills (podobnými tým, ktoré použili pri predchádzajúcich GDPval výsledkoch) dosahuje GPT‑5.3‑Codex silný výkon aj v „knowledge work“ meranom cez GDPval a že v rámci GDPval dorovnáva GPT‑5.2.
GDPval je evaluácia, ktorú OpenAI publikovalo v roku 2025. Meria výkon modelu na dobre špecifikovaných úlohách znalostnej práce naprieč 44 povolaniami – typicky výstupy ako prezentácie, spreadsheety a podobné pracovné artefakty. OpenAI pridáva, že každú úlohu v GDPval navrhuje skúsený profesionál a má odrážať reálnu prácu v danom povolaní.
Ukážka zadania (GDPval): prezentácia pre finančných poradcov
V oznámení je detailne uvedený aj príklad promptu: model má vystupovať ako finančný poradca vo wealth management firme a pripraviť 10-slide PowerPoint s talking points, prečo by poradcovia (ako fiduciaries) mali klientom dôrazne neodporúčať presúvať „certificates of deposits“ do „variable annuities“, aj keď to láka na trhové výnosy a doživotnú mesačnú platbu.
Zadanie vyžaduje, aby prezentácia obsahovala konkrétne body: (1) porovnanie features medzi CDs a variable annuities s varovaniami pre investorov zo zdrojov FINRA, (2) porovnanie risk-return analýzy a dopad na rast, (3) rozdiely v penalizáciách medzi nástrojmi, (4) kontrast rizikovej tolerancie a suitability s odkazom na NAIC Best Interest Regulations, (5) FINRA concerns/issues, (6) NAIC issues/regulations. A zároveň žiada pracovať s dvomi web zdrojmi:
- https://content.naic.org/sites/default/files/government-affairs-brief-annuity-suitability-best-interest-model.pdf
- https://www.finra.org/investors/insights/high-yield-cds

OSWorld: reálne úlohy v desktopovom prostredí (s vizuálnym vnímaním)
OSWorld je benchmark, kde agent rieši produktivitné úlohy priamo vo vizuálnom desktopovom prostredí (teda používa „vision“ na prácu s UI). OpenAI uvádza, že GPT‑5.3‑Codex má výrazne silnejšie schopnosti práce s počítačom než predchádzajúce GPT modely. V texte je aj kontext k OSWorld-Verified: ľudia tam dosahujú približne ~72 %.
Zhrnutie tejto sekcie je dôležité: podľa OpenAI nejde len o zlepšenie jednotlivých úloh, ale o „step change“ smerom k jednému všeobecnému agentovi, ktorý vie uvažovať, budovať a vykonávať naprieč reálnou technickou prácou.
Interaktívny spolupracovník: menej „počkám na výsledok“, viac priebežného riadenia
Ako sa agenti zlepšujú, bottleneck sa podľa OpenAI presúva: nie z toho, čo model dokáže, ale z toho, ako dobre ho človek vie usmerniť, kontrolovať a koordinovať (najmä keď beží viac agentov paralelne). Tu vstupuje do hry Codex app, ktorá má zjednodušiť manažovanie agentov – a s GPT‑5.3‑Codex má byť výrazne interaktívnejšia.
Konkrétne: Codex má poskytovať častejšie update-y o kľúčových rozhodnutiach a progrese. Namiesto čakania na finálny output sa vieš s agentom baviť v reálnom čase: pýtať sa, diskutovať prístup, korigovať smerovanie. Model má „prehovárať“ cez to, čo robí, reagovať na feedback a držať ťa v obraze od začiatku do konca.
V aplikácii sa dá zapnúť priebežné usmerňovanie cez nastavenie: Settings > General > Follow-up behavior.
Ako OpenAI použilo Codex na tréning a nasadenie GPT‑5.3‑Codex
OpenAI opisuje, že posledné rýchle zlepšenia Codexu stoja na dlhodobejších výskumných projektoch naprieč firmou (mesiace až roky práce), ale zároveň tieto projekty teraz Codex zrýchľuje. Viacerí výskumníci a inžinieri vraj hovoria, že ich práca je dnes zásadne iná než bola pred dvomi mesiacmi.
Zaujímavé je, že už rané verzie GPT‑5.3‑Codex mali byť natoľko schopné, že tím ich použil na zlepšenie tréningu aj na podporu nasadenia neskorších verzií.
Príklady z výskumu: monitoring tréningu, analýza správania, interné nástroje
Výskumný tím použil Codex na monitorovanie a debugovanie tréningového behu pre tento release. A neostalo to pri infra problémoch: Codex pomáhal sledovať patterny počas tréningu, urobil hlbokú analýzu kvality interakcií, navrhoval opravy a budoval „rich“ aplikácie, aby ľudskí výskumníci presnejšie pochopili, ako sa správanie modelu líši oproti starším modelom.
Príklady z engineeringu: optimalizácia harnessu a produkčné edge cases
Engineering tím podľa OpenAI použil Codex na optimalizáciu a úpravu harnessu (testovacieho/spúšťacieho rámca) pre GPT‑5.3‑Codex. Keď sa začali objavovať zvláštne edge cases ovplyvňujúce používateľov, ľudia v tíme využili Codex na identifikáciu bugov v renderovaní kontextu a odhalenie root cause pre nízke cache hit rate.
Počas launchu má GPT‑5.3‑Codex pomáhať aj operatívne: dynamicky škáluje GPU clustre podľa traffic surge a pomáha držať stabilnú latenciu.
Alpha testing: meranie produktivity „per turn“ a analýza session logov
Počas alpha testovania chcel jeden výskumník odmerať, koľko dodatočnej práce model spraví „na jeden ťah“ (per turn) a aký je rozdiel v produktivite. GPT‑5.3‑Codex navrhol niekoľko jednoduchých regex klasifikátorov na odhad frekvencie: (1) žiadostí o upresnenie, (2) pozitívnych a negatívnych reakcií používateľa, (3) progresu na úlohe. Potom ich škálovateľne spustil nad všetkými session logmi a vyprodukoval report so závermi.
Výsledok, ktorý OpenAI komunikuje: ľudia boli spokojnejší, pretože agent lepšie rozumel ich intentu a spravil viac progresu na turn, s menším počtom doplňujúcich otázok.
Neintuitívne výsledky a nové dátové pipeline
Keďže GPT‑5.3‑Codex sa správa inak než predchodcovia, alpha dáta mali viac nezvyčajných a kontraintuitívnych výsledkov. Data scientist v tíme pracoval s GPT‑5.3‑Codex na vybudovaní nových dátových pipeline a bohatšej vizualizácie výsledkov, než umožňovali štandardné dashboarding nástroje. Následne spolu s Codexom výsledky ko-analyzovali – Codex mal zhrnúť kľúčové insighty naprieč tisíckami dátových bodov do troch minút.
OpenAI to uzatvára tým, že jednotlivo sú tieto príklady zaujímavé, ale spolu ukazujú „powerful acceleration“ výskumu, engineeringu a product tímov.
Kyberbezpečnosť: „High capability“ klasifikácia a posilnený safety stack
OpenAI tvrdí, že v posledných mesiacoch vidí zmysluplné zisky vo výkone na kyberbezpečnostných úlohách, čo má pomáhať vývojárom aj security profesionálom. Paralelne firma pripravovala „strengthened cyber safeguards“ na podporu defenzívneho použitia a odolnosti ekosystému.
GPT‑5.3‑Codex je podľa OpenAI prvý model, ktorý klasifikujú ako High capability pre kyberbezpečnostné úlohy v rámci ich Preparedness Framework. Zároveň je to prvý model, ktorý priamo trénovali na identifikáciu softvérových zraniteľností.
OpenAI dodáva dôležitú opatrnosť: nemajú definitívny dôkaz, že by model vedel automatizovať kyberútok end-to-end, ale aj tak volia preventívny prístup. Nasadzujú podľa nich najkomplexnejší cybersecurity safety stack doteraz. Medzi mitigácie uvádzajú:
- safety training
- automatizované monitorovanie
- trusted access pre pokročilé capability
- enforcement pipelines vrátane threat intelligence
Keďže kyberbezpečnosť je prirodzene dual-use, OpenAI opisuje evidence-based a iteratívny prístup: urýchľovať schopnosti obrancov nachádzať a opravovať zraniteľnosti, a zároveň spomaľovať zneužitie.
Ako súčasť toho spúšťajú Trusted Access for Cyber – pilotný program na urýchlenie výskumu v oblasti cyber defense.
Ecosystem safeguards: Aardvark, skenovanie open-source a Next.js prípad
OpenAI investuje aj do ekosystémových poistiek. Spomína rozširovanie private beta pre Aardvark (security research agent) ako prvú ponuku v sade Codex Security produktov a nástrojov. Zároveň partneri s maintainermi open-source projektov a poskytujú bezplatné skenovanie kódbáz pre widely-used projekty ako Next.js. V článku sa uvádza príklad, kde security researcher použil Codex na nájdenie zraniteľností, ktoré boli minulý týždeň zverejnené tu: https://vercel.com/changelog/summaries-of-cve-2025-59471-and-cve-2025-59472
Granty a kredity: $10M v API credits pre obranu
OpenAI nadväzuje na svoj $1M Cybersecurity Grant Program spustený v roku 2023. Teraz sa zaväzuje k $10M v API credits na urýchlenie cyber defense s ich najschopnejšími modelmi, najmä pre open source softvér a systémy kritickej infraštruktúry. Organizácie zapojené do good-faith security research môžu žiadať o API kredity a podporu cez: https://openai.com/index/openai-cybersecurity-grant-program/
Dostupnosť a praktické detaily: kde model nájdeš a čo s API
GPT‑5.3‑Codex je dostupný v rámci platených ChatGPT plánov všade tam, kde sa dá použiť Codex: v aplikácii, v CLI, v IDE extension a na webe. OpenAI zároveň uvádza, že pracuje na tom, aby bezpečne sprístupnila API prístup čoskoro (bez konkrétneho dátumu).
S týmto update-om OpenAI zároveň hovorí, že pre používateľov Codexu beží GPT‑5.3‑Codex o 25 % rýchlejšie vďaka zlepšeniam infraštruktúry a inference stacku – teda rýchlejšie interakcie a rýchlejšie výsledky.
Hardvérový detail: model bol co-designed, trénovaný aj servovaný na NVIDIA GB200 NVL72 systémoch; OpenAI výslovne ďakuje NVIDIA za partnerstvo.
Čo bude ďalej: kód ako nástroj na ovládanie počítača
OpenAI rámcuje GPT‑5.3‑Codex ako krok za hranicu „písania kódu“: kód sa má stať nástrojom, ktorým agent operuje počítač a dokončuje prácu end-to-end. Tým, že tlačia hranicu toho, čo dokáže coding agent, údajne odomykajú aj širšiu triedu knowledge work – od buildovania a deploymentu softvéru až po výskum, analýzu a exekúciu komplexných úloh.
Z ich perspektívy sa pôvodný cieľ „byť najlepší coding agent“ transformoval na základ pre všeobecnejšieho spolupracovníka na počítači – čo rozširuje, kto dokáže tvoriť, a čo je s Codexom vôbec možné.
Appendix: čísla z evaluácií (xhigh reasoning effort)
OpenAI v prílohe zverejnilo tabuľku s vybranými výsledkami. Všetky evaluácie v blogu boli podľa poznámky spustené na GPT‑5.3‑Codex s xhigh reasoning effort.
- SWE-Bench Pro (Public): GPT-5.3-Codex 56.8% | GPT-5.2-Codex 56.4% | GPT-5.2 55.6%
- Terminal-Bench 2.0: GPT-5.3-Codex 77.3% | GPT-5.2-Codex 64.0% | GPT-5.2 62.2%
- OSWorld-Verified: GPT-5.3-Codex 64.7% | GPT-5.2-Codex 38.2% | GPT-5.2 37.9%
- GDPval (wins or ties): GPT-5.3-Codex 70.9% | GPT-5.2 (xhigh) 70.9% (high)
- Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% | GPT-5.2-Codex 67.4% | GPT-5.2 67.7%
- SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% | GPT-5.2-Codex 76.0% | GPT-5.2 74.6%
Kde GPT-5.3-Codex vyskúšať
OpenAI odkazuje na možnosť vyskúšať Codex priamo v aplikácii a poskytuje download link pre Codex app (macOS): https://persistent.oaistatic.com/codex-app-prod/Codex.dmg
Referencie / Zdroje
Zuzana Horváthová
Šéfredaktorka slovenského tímu, vývojárka WordPress tém a pluginov. Gutenberg bloky a FSE sú moja špecializácia. Moderný WordPress je cieľ.
Všetky príspevky