Ugrás a tartalomra
GPT-5.3-Codex: amikor a kódoló agent tényleg „gépen dolgozik” helyetted
Nagy Eszter
Nagy Eszter 2026. február 5. · 15 perc olvasás

GPT-5.3-Codex: amikor a kódoló agent tényleg „gépen dolgozik” helyetted

Az OpenAI 2026. február 5-én bejelentette a GPT‑5.3-Codex modellt, amit a Codex pozicionálásának következő nagy lépéseként érdemes nézni: nem „csak” a legjobb agentic coding (ügynökszerű, több lépéses feladatvégrehajtásra képes kódolós) modelljük lett, hanem egyre inkább olyan, mint egy általános számítógépes munkatárs, aki kutat, eszközöket használ, végrehajt, ellenőriz, és közben te folyamatosan irányítod.

A bejelentés szerint a GPT‑5.3-Codex egy modellben hozza össze a GPT‑5.2-Codex kódolási csúcsát és a GPT‑5.2 érvelési + szakmai tudás jellegű képességeit, ráadásul 25%-kal gyorsabban fut. Ez a sebesség és „kompaktabb” működés azért fontos, mert hosszú ütemű, sok iterációs munkáknál nagyon gyorsan elmegy az idő (és a token), ha az agent túl sokat beszél vagy túl drágán gondolkodik.

Mit jelent itt az, hogy „agentic”?

Az „agentic” kifejezést (magyarul kb. ügynökszerű működés) itt érdemes úgy érteni, hogy a modell nem egyetlen válaszban próbál mindent megoldani, hanem folyamatban gondolkodik: megtervezi a lépéseket, eszközöket használ (például terminal műveletek, fájlműveletek, webes feladatok), ellenőriz, javít, újrapróbálkozik, és közben a cél felé halad – akár nagyon hosszú futásidővel is.

A GPT‑5.3-Codex célja a bejelentés szerint az, hogy a Codex „kódíró és kódreviewzó agentből” olyan agentté váljon, ami közel bármit meg tud csinálni, amit egy fejlesztő vagy egy profi felhasználó meg tud csinálni egy számítógépen.

Frontier képességek: benchmarkok, amiket az OpenAI kiemel

A GPT‑5.3-Codex-nél az OpenAI négy benchmarkot emel ki, amikkel a kódolási, agentic és valós világbeli számítógépes képességeket mérik: SWE-Bench Pro, Terminal-Bench, OSWorld és GDPval.

Kódolás: SWE-Bench Pro + Terminal-Bench 2.0

A bejelentés alapján a GPT‑5.3-Codex új iparági csúcsot állít be SWE‑Bench Pro és Terminal‑Bench alatt.

A SWE‑Bench Pro-t külön azért hangsúlyozzák, mert míg a SWE‑bench Verified csak Pythonra fókuszál, a SWE‑Bench Pro négy nyelvet fed le, és az OpenAI szerint jobban ellenáll a „contamination” (tanítóadat-szennyeződés / benchmark-átfedés) jellegű problémáknak. A leírásuk alapján „rigorous”, azaz kifejezetten szigorú, valós szoftvermérnöki feladatokra épített értékelés, iparági relevanciával.

A Terminal‑Bench 2.0 pedig azt méri, hogy egy Codex-szerű agent mennyire tud ténylegesen a terminálban dolgozni (parancsok, kimenetek értelmezése, iterálás, hibakezelés). A GPT‑5.3-Codex itt a bejelentés szerint jóval a korábbi state-of-the-art fölé megy.

Külön érdekes állítás: a GPT‑5.3‑Codex mindezt kevesebb tokenből hozza, mint a korábbi modellek. Ez a gyakorlatban több „helyet” és keretet hagy arra, hogy az agent tényleg építsen, refaktoráljon, teszteljen, dokumentáljon, és ne a saját szövegével égesse el a budgetet.

Webfejlesztés: többnapos, autonóm iterációk (játékteszt)

Az OpenAI a webfejlesztési és hosszú futású agentic képességek tesztelésére két konkrét feladatot adott a modellnek: egy autós játék 2. verzióját (a korábbi Codex app launch példájuk folytatását), illetve egy búvárkodós játékot.

A leírás szerint a GPT‑5.3-Codex a „develop web game” skill (egy célzott, előkészített képesség / workflow) és előre kiválasztott, általános follow-up promptok mellett dolgozott, olyanokkal, mint például: „fix the bug” vagy „improve the game”. A modell ezekre támaszkodva autonóm módon iterált a projekteken milliós token nagyságrendben.

  • Az autós játékban több versenyző, 8 pálya, és még space bar-ral használható itemek is vannak. Játszható itt: https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html
  • A búvárkodós játékban különböző zátonyokat fedezel fel, gyűjthető elemekkel („fish codex” teljesítés), miközben oxigént, nyomást és veszélyeket kell menedzselni. Játszható itt: https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

A bejelentés szerint a GPT‑5.3-Codex a mindennapi webes feladatoknál is jobban „érti a szándékot” a GPT‑5.2-Codex-hez képest: ha a prompt egyszerű vagy alulspecifikált, akkor is funkcionálisabb, értelmes alapértelmezésekkel induló weboldalt ad, ami jobb kiinduló vászon a további finomításhoz.

Konkrét példa: két landing page összehasonlítása

A cikkben bemutatnak egy landing page példát, ahol ugyanarra a kérésre a GPT‑5.3-Codex „készebb” felületet rak össze: a bejelentés szerint a modell például a yearly csomagot automatikusan kedvezményes havi árként jelenítette meg (nem úgy, hogy a teljes éves árat osztja/összegzi rossz UX-szel), illetve létrehozott egy automatikusan léptető testimonial carousel-t (három külön idézettel, nem egyetlen ismételt blokkal). Ettől az oldal összhatása „production-ready”-bbnek érződik alapból.

A példa promptban olyan részletek is szerepelnek, mint: soft SaaS esztétika, üvegszerű kártyák, levendula–kék gradiens, finom blur, Satoshi (vagy hasonló geometrikus sans) betű, 14px radius gombok, erős fókuszállapotok, és egy ízléses scroll alapú reveal animáció.

Beyond coding: tudásmunka (GDPval) + „desktop agent” (OSWorld)

A GPT‑5.3-Codex pozicionálása egyértelmű: a szoftverfejlesztés életciklusában (és azon túl) rengeteg olyan feladat van, ami nem kódsorok legenerálása. A bejelentés szerint a modell a teljes életciklusban támogat: debug, deploy, monitoring, PRD írás, szövegek szerkesztése, user research, tesztek, metrikák és még sok minden.

A modell tudásmunkás részét az OpenAI a GDPval értékeléssel támasztja alá. A GDPval egy 2025-ben bemutatott értékelésük, ami 44 foglalkozás jól specifikált tudásmunka-feladatait méri. Ilyenek például: prezentációk, táblázatok (spreadsheets), és egyéb „work product”-ok elkészítése. A bejelentés szerint a GPT‑5.3-Codex GDPval-ban hozza a GPT‑5.2 szintjét.

Konkrét példaként bemutatnak egy feladatot, ahol a modellnek egy 10 diás PowerPointot kell összeraknia belső felhasználásra: pénzügyi tanácsadóknak beszélőpontokat arról, miért nem prudens döntés CD-ket (certificate of deposit) változó annuitásba (variable annuity) görgetni. A feladat része, hogy FINRA és NAIC (Best Interest Regulations) anyagokra támaszkodjon, és megadott forrásokat is használjon:

  • https://content.naic.org/sites/default/files/government-affairs-brief-annuity-suitability-best-interest-model.pdf
  • https://www.finra.org/investors/insights/high-yield-cds
A GDPval példában generált pénzügyi tanácsadói prezentáció részlete (képernyőkép)
A bejelentésben szereplő GDPval példa: prezentációs kimenet képernyőképe. — Forrás: OpenAI

Az OpenAI azt is kiemeli, hogy a GDPval feladatokat tapasztalt szakemberek tervezik, és valódi, az adott foglalkozásból származó feladatokat tükröznek.

A „géphasználat” dimenzióját az OSWorld hozza be: ez egy agentic „computer-use” benchmark, ahol az agentnek vizuális desktop környezetben kell produktivitási feladatokat elvégeznie. A bejelentés szerint a GPT‑5.3-Codex itt sokkal erősebb, mint a korábbi GPT modellek, és a cikk megemlíti, hogy OSWorld-Verified esetén az emberek kb. 72% körül teljesítenek.

Interaktív együttműködés: nem a végére vársz, hanem közben irányítasz

Ahogy az agentek egyre többet tudnak, a szűk keresztmetszet sokszor nem a képesség, hanem az, hogy hogyan tudod őket felügyelni és terelni – főleg ha több agent dolgozik párhuzamosan. A Codex app ebben a bejelentés szerint sokat lép előre a GPT‑5.3-Codex-szel: a modell gyakori státuszfrissítéseket ad, hogy lásd a fontos döntéseket és a haladást.

A workflow lényege: nem passzívan várod a „final outputot”, hanem valós időben be tudsz szólni. Kérdezhetsz, vitathatsz meg megközelítéseket, visszajelzést adhatsz, és kormányozhatod a megoldás felé. A bejelentés alapján a GPT‑5.3-Codex közben „átbeszéli” mit csinál, reagál a feedbackre, és végig képben tart.

A steering (irányítás) bekapcsolása a Codex appban itt található: Settings > General > Follow-up behavior.

A legérdekesebb rész: a GPT‑5.3-Codex a saját fejlesztésében is dolgozott

A bejelentés egyik legerősebb állítása, hogy a GPT‑5.3‑Codex az első olyan OpenAI modell, ami érdemben hozzájárult a saját elkészítéséhez. A Codex csapat korai verziókkal dolgozott: a modell segített a tréning debugolásában, a deployment menedzselésében, valamint a teszteredmények és értékelések diagnosztikájában. Az OpenAI szerint a csapatot meglepte, mennyire fel tudta gyorsítani a modell a saját fejlesztési ciklusát.

Hogyan használta az OpenAI a Codex-et tréninghez és élesítéshez?

A cikk alapján a Codex utóbbi gyors fejlődése hosszabb (hónapok–évek) OpenAI kutatási projektek eredménye, de ezekre a folyamatokra a Codex most már vissza is hat: több kutató és mérnök úgy írja le, hogy a munkája „alapvetően más”, mint két hónappal korábban.

Néhány konkrét példa, amit a bejelentés felsorol:

  • A kutatócsapat a Codex-et használta a tréning futás monitorozására és debugolására ehhez a kiadáshoz.
  • Nem csak infra jellegű hibákban segített: a tréning során mintázatokat követett, mély elemzést adott az interaction quality (interakcióminőség) alakulásáról, javításokat javasolt, és gazdag, emberi elemzőknek szánt alkalmazásokat épített, hogy pontosan érthető legyen, miben viselkedik másként az új modell a korábbiakhoz képest.
  • A mérnökcsapat a Codex-et használta a GPT‑5.3-Codex harness (teszt-/értékelő futtatókörnyezet) optimalizálására és adaptálására.
  • Amikor furcsa edge case-ek kezdtek felbukkanni a felhasználóknál, a Codex segített context rendering bugokat azonosítani és a low cache hit rate (alacsony gyorsítótár-találati arány) problémák gyökérokát feltárni.
  • A bejelentés szerint a GPT‑5.3-Codex a launch alatt is segít: dinamikusan skáláz GPU clustereket a forgalmi tüskékhez, és stabilan tartja a latency-t.
  • Alpha teszt alatt egy kutató azt akarta mérni, hogy turn-önként mennyi „extra munka” készül el, és ez hogyan csapódik le produktivitásban. A GPT‑5.3-Codex egyszerű regex alapú klasszifikátorokat talált ki, amikkel lehet becsülni: tisztázó kérdések gyakorisága, pozitív/negatív user reakciók, feladatelőrehaladás. Ezt skálázhatóan lefuttatta session logokon, és riportot készített a konklúziókkal.
  • A csapat megfigyelése szerint az emberek boldogabbak voltak a Codex-szel, mert az agent jobban értette a szándékot, turn-önként többet haladt, és kevesebbet kérdezett vissza.
  • A GPT‑5.3-Codex nagy eltérése a korábbi verziókhoz képest szokatlan, néha ellentmondásos alpha eredményeket hozott. Egy data scientist a modellel együtt új data pipeline-okat épített, és a standard dashboarding eszközöknél jóval gazdagabb vizualizációkat készített.
  • A kimeneteket a Codex-szel közösen elemezték: a modell több ezer adatpont kulcsinsightjait 3 percen belül összefoglalta.

Ezek együtt az OpenAI állítása szerint nem csak érdekes use case-ek, hanem összhatásukban érdemi gyorsítást adtak a kutatási, mérnöki és termékcsapatoknak.

Cybersecurity: „High capability” besorolás és erősített védelmi csomag

A bejelentés a kiberbiztonságot külön nagy blokkban kezeli. Az OpenAI szerint az elmúlt hónapokban érdemi javulást láttak cybersecurity jellegű feladatokon, ami a fejlesztőknek és security szakembereknek is hasznos. Ezzel párhuzamosan a cikk hivatkozik arra, hogy készültek megerősített cyber safeguardokkal is (defenzív felhasználás és ökoszisztéma ellenállóképessége). Forrás: https://openai.com/index/strengthening-cyber-resilience/

A GPT‑5.3-Codex az első modelljük, amit a cybersecurity feladatokra „High capability” kategóriába sorolnak a Preparedness Framework szerint, és az első olyan modell, amit direkt módon arra is tanítottak, hogy szoftversebezhetőségeket azonosítson. System Card hivatkozás: https://openai.com/index/gpt-5-3-codex-system-card/ – Preparedness Framework frissítés: https://openai.com/index/updating-our-preparedness-framework/

A cikk fontos óvatossági mondatot is tartalmaz: nincs definitív bizonyítékuk arra, hogy a modell end-to-end képes lenne automatizálni kibertámadásokat, de elővigyázatosságból a „valaha volt legátfogóbb cybersecurity safety stack”-kel deployolják.

  • safety training
  • automatizált monitoring
  • trusted access az advanced capability-khez
  • enforcement pipeline-ok, threat intelligence-szel megtámogatva

Mivel a cybersecurity tipikusan dual-use (védekezésre és visszaélésre is alkalmas), az OpenAI leírása alapján evidence-based, iteratív megközelítést követnek: a védekező oldalt gyorsítani, a visszaélést lassítani.

Ennek részeként indul a Trusted Access for Cyber pilot program, aminek célja a cyber defense kutatás felgyorsítása: https://openai.com/index/trusted-access-for-cyber/

Ökoszisztéma szinten is lépnek: bővítik az Aardvark privát bétáját (security research agent), mint a Codex Security termékcsalád első eleme: https://openai.com/index/introducing-aardvark/

Emellett open-source maintainerekkel is együttműködnek, hogy ingyenes codebase scanninget adjanak széles körben használt projektekre, példaként a Next.js szerepel. A cikk szerint egy security researcher Codex-szel talált sebezhetőségeket, amiket a Vercel múlt héten publikált összefoglalóban (CVE-k): https://vercel.com/changelog/summaries-of-cve-2025-59471-and-cve-2025-59472

Támogatási oldalon is nagyot emelnek: a 2023-ban indított $1M Cybersecurity Grant Program folytatásaként $10M API kredit vállalást jelentenek be, hogy a legképzettebb modellekkel gyorsítsák a védelmet, különösen open source és kritikus infrastruktúra rendszerek esetén. Jelentkezési és részletek: https://openai.com/index/openai-cybersecurity-grant-program/

Elérhetőség és gyakorlati részletek

A bejelentés szerint a GPT‑5.3-Codex elérhető a fizetős ChatGPT csomagokkal, mindenhol, ahol a Codex használható: app, CLI, IDE extension és web.

API oldalról óvatosak: azt írják, hogy dolgoznak rajta, hogy biztonságosan engedélyezzék az API hozzáférést hamarosan (tehát a közlés pillanatában még nem általánosan elérhető API-n).

A 25%-os gyorsulást itt két dologhoz kötik: infrastruktúra és inference stack fejlesztések. Ez Codex felhasználói szinten gyorsabb interakciókat és gyorsabb végeredményeket jelent a bejelentés szerint.

Hardver oldalon megemlítik, hogy a modellt NVIDIA GB200 NVL72 rendszerekre co-designolták, azon tanították és azon is szolgálják ki, és külön megköszönik az NVIDIA partnerségét.

Mi jön ezután: Codex mint általános „számítógépes kollaborátor”

A „What’s next” rész üzenete: a Codex a GPT‑5.3-Codex-szel túllép a kódíráson, és a kódot eszközként használva képes számítógépen end-to-end feladatokat befejezni. Ezzel nem csak a fejlesztés (build + deploy) lesz gyorsabb, hanem egy tágabb tudásmunka-osztály is megnyílik: kutatás, elemzés, komplex végrehajtás.

A bejelentés narratívája szerint ami eredetileg „a legjobb kódoló agent” céljával indult, az mára egy általános, számítógépen dolgozó együttműködő társsá kezd válni – és ezzel bővül, hogy kik tudnak építeni, és mit lehet reálisan megcsinálni Codex-szel.

Appendix: a bejelentésben közölt számok (xhigh reasoning effort)

Az OpenAI a cikk végén egy táblázatban összehasonlítja a GPT‑5.3-Codex (xhigh) eredményeit a GPT‑5.2-Codex (xhigh) és GPT‑5.2 (xhigh) modellekkel. A lábjegyzet szerint minden itt szereplő értékelést xhigh reasoning effort beállítással futtattak a GPT‑5.3-Codex-en.

  • SWE-Bench Pro (Public): GPT‑5.3-Codex 56.8% | GPT‑5.2-Codex 56.4% | GPT‑5.2 55.6%
  • Terminal-Bench 2.0: GPT‑5.3-Codex 77.3% | GPT‑5.2-Codex 64.0% | GPT‑5.2 62.2%
  • OSWorld-Verified: GPT‑5.3-Codex 64.7% | GPT‑5.2-Codex 38.2% | GPT‑5.2 37.9%
  • GDPval (wins or ties): GPT‑5.3-Codex 70.9% | GPT‑5.2-Codex – | GPT‑5.2 70.9% (high)
  • Cybersecurity Capture The Flag Challenges: GPT‑5.3-Codex 77.6% | GPT‑5.2-Codex 67.4% | GPT‑5.2 67.7%
  • SWE-Lancer IC Diamond: GPT‑5.3-Codex 81.4% | GPT‑5.2-Codex 76.0% | GPT‑5.2 74.6%

Codex app: letöltési link

Codex app (macOS .dmg) Codex.dmg
GPT-5.3-Codex System Card illusztráció
A bejelentés a System Card dokumentumra is hivatkozik a kiberbiztonsági besorolás kapcsán. — Forrás: OpenAI
Codex app landing page grafika
A Codex app bemutatóanyagának kiemelt képe. — Forrás: OpenAI
GPT-5.2-Codex bejelentés grafika
A bejelentés több helyen a GPT-5.2-Codex-hez viszonyít. — Forrás: OpenAI

Csatlakozz a HelloWP közösséghez!

Beszélgess velünk a WordPressről, a webfejlesztésről, és oszd meg a tapasztalataidat más fejlesztőkkel.

- tag
- online
Csatlakozás

Sütiket használunk az élményed javítása érdekében. A folytatással elfogadod a Sütikre vonatkozó irányelveinket.