Liigu sisu juurde
GPT-5.3-Codex: Codexist saab agent, kes teeb arvutis ära peaaegu kogu professionaalse töö
Martin Kask
Martin Kask 5. February 2026 · 12 min lugemist

GPT-5.3-Codex: Codexist saab agent, kes teeb arvutis ära peaaegu kogu professionaalse töö

OpenAI tõi välja GPT‑5.3‑Codexi – mudeli, mille eesmärk on laiendada Codexi võimekust kogu professionaalse arvutitöö spektrile. Praktikas tähendab see, et Codex ei piirdu enam “kirjuta mulle funktsioon” või “review’ s PR” tüüpi ülesannetega, vaid suudab võtta ette ka pikki ja mitmeetapilisi töövooge: uurida tausta, kasutada tööriistu, teha keerukamaid muudatusi ning jooksutada/diagnoosida asju keskkonnas.

Oluline detail arendaja vaates: GPT‑5.3‑Codex ühendab endas kaks suunda, mida varem nägime eraldi rõhuasetustega – GPT‑5.2‑Codexi frontier-tasemel koodivõimekuse ning GPT‑5.2 tugevama arutlus- ja professionaalse teadmistepagasi – ning teeb seda OpenAI sõnul ühes mudelis, mis töötab Codexi kasutajatele ka 25% kiiremini. See kiirusevõit on nende kirjelduse järgi seotud taristu ja inference stack’i parendustega.

Teine märgiline aspekt: GPT‑5.3‑Codex on OpenAI sõnul nende esimene mudel, mis oli otseselt “instrumentaalne” omaenda loomisel. Codexi tiim kasutas varaseid versioone, et debug’ida treeningut, hallata deploy’d ning diagnoosida testide ja hindamiste tulemusi – ehk agent aitas kiirendada enda arendustsüklit.

Frontier agentic capabilities: mida nad täpselt mõõtsid?

OpenAI positsioneerib GPT‑5.3‑Codexi kui seni võimekaimat agentic coding model’it. Nad toovad välja neli benchmark’i, millega nad hindavad koodioskust, agentlikkust ja päris-maailma võimekust: SWE‑Bench Pro, Terminal‑Bench, OSWorld ja GDPval.

Kooditöö: SWE‑Bench Pro ja Terminal‑Bench 2.0

Koodi poolel rõhutavad nad kahte asja. Esiteks: GPT‑5.3‑Codex saavutab state‑of‑the‑art taseme SWE‑Bench Pro’s, mis on mõeldud reaalse tarkvaraarenduse ülesannete hindamiseks. OpenAI märgib eraldi, et kui SWE‑bench Verified testib ainult Pythonit, siis SWE‑Bench Pro katab nelja keelt ning on nende väitel paremini contamination‑resistant (ehk raskemini “treeningandmetega saastatav”), mitmekesisem ja tööstusele relevantsam.

Teiseks: Terminal‑Bench 2.0 (mis mõõdab terminalioskusi, mida Codexi-sugune agent vajab) osas ületab GPT‑5.3‑Codex varasemaid tipptulemusi. Nad toovad välja ka huvitava praktilise nüansi: GPT‑5.3‑Codex saavutab need tulemused vähemate token’itega kui ükski varasem mudel, mis tähendab kasutaja jaoks rohkem “tööd sama eelarve sees” (ja sageli vähem iteratsioone, kui agent ei raiska konteksti tühjale jutule).

Veebiarendus: pikad autonoomsed iteratsioonid (miljonid tokenid)

Veebiarenduse osas räägivad nad kombinatsioonist: frontier-koodi võimekus + parem esteetika + compaction (sisuliselt parem “kokkusurumine” ehk oskus hoida lahendus kompaktsena ja terviklikuna). Selle tulemusena olevat mudel võimeline ehitama nullist keerukaid mänge ja rakendusi mitme päeva jooksul.

Et testida just pika jooksuga agentlikku veebiarendust, lasi OpenAI GPT‑5.3‑Codexil ehitada kaks mängu: (1) võidusõidumängu versioon 2 (viidates Codexi rakenduse launch’i näitele) ja (2) sukeldumismängu. Nad kasutasid “develop web game” skill’i ning ettevalitud, üldisi järelprompte stiilis “fix the bug” ja “improve the game” – ja mudel itereris autonoomselt üle miljonite token’ite.

  • Võidusõidumäng: erinevad sõitjad, 8 kaarti ning isegi “itemid”, mida saab kasutada tühikuklahviga. Mängitav demo: https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html
  • Sukeldumismäng: uurid erinevaid riffe, kogud need, et täita oma fish codex; samal ajal haldad hapnikku, rõhku ja ohte. Mängitav demo: https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

Lisaks toovad nad välja “igapäevaste” veebilehtede ehitamise konteksti: võrreldes GPT‑5.2‑Codexiga mõistab GPT‑5.3‑Codex paremini kavatsust (intent). Kui prompt on lihtne või alaspetsifitseeritud, kipub tulemus nende sõnul vaikimisi olema funktsionaalsem, mõistlike default’idega – ehk saad tugevama lähtepunkti.

Näiteks kirjeldavad nad landing page’i ülesannet, kus GPT‑5.3‑Codex tegi automaatselt aastaplaani hinnastuse nii, et see näitaks soodustatud kuuhinda (mitte ei korrutaks lihtsalt aastasummat), ja lisas automaatselt vahetuva testimonial carousel’i kolme erineva kasutajatsitaadiga. Eesmärk: tulem oleks vaikimisi terviklikum ja production‑ready’likum.

Beyond coding: kogu tarkvaratsükkel ja üldine teadmistepõhine töö

OpenAI rõhutab, et tarkvaratiimide töö ei ole ainult koodi genereerimine. GPT‑5.3‑Codex on nende järgi mõeldud toetama kogu elutsüklit: debugging, deploy, monitooring, PRD‑de kirjutamine, copy toimetamine, user research, testid, meetrikad jne. Ning agentlikkuse piir ei jää isegi tarkvara juurde – sama mudelit positsioneeritakse ka slaidipakkide koostajaks või spreadsheet’ide analüüsijaks.

Nad seovad selle GDPval’iga (OpenAI 2025. aastal avaldatud hindamine), mis mõõdab mudeli sooritust hästi määratletud knowledge‑work ülesannetes 44 ametikoha lõikes. OpenAI sõnul näitab GPT‑5.3‑Codex GDPval’is tugevat tulemust ja “matches GPT‑5.2” – ning nad mainivad, et ülesanded sisaldavad näiteks presentatsioonide ja tabelite (spreadsheets) loomist.

Näidisülesanne GDPval’ist: finantsnõustaja sisemine slaidipakk

Allikas toob ühe väga konkreetse prompt’i näite. Ülesanne: finantsnõustaja wealth management firmas peab tegema 10‑slaidise PowerPointi, mis annaks field advisor’itele jutupunktid, miks fiduciary rollis soovitada klientidel mitte rullida certificate of deposits (CD) vahendeid variable annuity’desse – kuigi lubadus turu tootlusest ja eluaegsest kuumaksest kõlab ahvatlevalt.

  • Võrrelda CD‑de ja variable annuity’te omadusi, tuginedes FINRA materjalile ning tuua investoritele ettevaatussoovitused
  • Võrrelda risk–tulu analüüsi ja mõju kasvule
  • Eristada karistuste/penalty’de erinevused nende kahe instrumendi vahel
  • Vastandada riskitaluvuse (risk tolerance) ja sobivuse (suitability) teema, tuginedes NAIC Best Interest Regulations’ile
  • Tuu esile FINRA mured/teemad
  • Tuu esile NAIC teemad/regulatsioonid
  • Arvestada, et NAIC ja FINRA on loonud best interest ja suitability juhised variable annuity’te soovitamiseks (toote keerukuse tõttu)

Prompt’is anti ka kaks veebiallikat, mida slaidide koostamisel arvesse võtta: https://content.naic.org/sites/default/files/government-affairs-brief-annuity-suitability-best-interest-model.pdf ja https://www.finra.org/investors/insights/high-yield-cds . OpenAI toob selle näite juurde ka üldise printsiibi: GDPval’i ülesanded disainib kogenud professionaal ning need peegeldavad päris teadmistepõhist tööd.

Näide GPT-5.3-Codexi loodud finantsnõustamise slaidipakist (GDPval ülesanne)
OpenAI näide GDPval hindamisest: 10-slaidine sisemine PowerPoint field advisor’itele. — Forrás: OpenAI

OSWorld: “arvutikasutus” kui benchmark

OSWorld on OpenAI kirjelduse järgi agentic computer‑use benchmark, kus agent peab visuaalses desktop‑keskkonnas tegema produktiivsusülesandeid. GPT‑5.3‑Codex näitab seal nende sõnul oluliselt tugevamat arvutikasutuse võimekust kui varasemad GPT mudelid. Allikas lisab orientiiriks, et OSWorld‑Verified variandis on inimeste skoor umbes 72%.

Kokkuvõte nende vaates: tulemused koodi, frontendi, arvutikasutuse ja reaalse töö kontekstis viitavad sammumuutusele ühe üldotstarbelise agendi suunas, mis suudab mõelda, ehitada ja teostada üle terve tehnilise töö spektri.

Interaktiivne koostöö: vähem “oota lõpptulemust”, rohkem reaalajas juhendamist

Kui agendid muutuvad võimekamaks, liigub pudelikael OpenAI hinnangul selle peale, kui lihtsalt inimene suudab mitut paralleelselt töötavat agenti suunata ja järelevalvata. Codex app on nende järgi just see koht, kus agentide haldamine ja suunamine muutub lihtsamaks – ja GPT‑5.3‑Codexiga ka interaktiivsemaks.

Uue mudeliga annab Codex sagedasemaid vahekokkuvõtteid, et oleksid kursis võtmeotsuste ja progressiga. Selle asemel, et oodata lõpuks ühte suurt output’i, saad töö käigus küsida, arutada lähenemist ja “keerata rooli” lahenduse suunas. OpenAI rõhutab, et GPT‑5.3‑Codex räägib lahti, mida ta teeb, reageerib tagasisidele ja hoiab sind loop’is algusest lõpuni.

Kui tahad, et mudel küsiks töö käigus järelküsimusi ja võtaks juhiseid vastu, saab seda Codexi rakenduses sisse lülitada: Settings > General > Follow-up behavior (Enable steering while the model works in the app).

Kuidas Codex aitas GPT‑5.3‑Codexi treenida ja välja viia

OpenAI kirjeldab üsna detailselt, kuidas Codexi kasutati nii research’i kui engineering’u töös, et see väljalase üldse sündida saaks. Ühisnimetaja: Codex tegi mitte ainult “koodi” tööd, vaid aitas jälgida, analüüsida, visualiseerida ja käivitada protsesse.

Research: treeningu monitoorimine, mustrite leidmine ja käitumise analüüs

Research-tiim kasutas Codexit treeningjooksu monitoorimiseks ja debug’imiseks. Aga nende kirjeldus läheb siit edasi: Codex aitas treeningu jooksul mustreid jälgida, analüüsis süvitsi interaction quality’t, pakkus parandusi ning ehitas rikkalikumaid rakendusi, et inimuurijad saaksid täpselt aru, kuidas uue mudeli käitumine erineb varasematest.

Engineering: harness’i optimeerimine, edge case’id, cache hit rate ja GPU skaleerimine

Engineering-tiim kasutas Codexit, et optimeerida ja kohandada GPT‑5.3‑Codexi harness’i. Kui kasutajaid mõjutasid veidrad edge case’id, aitas Codex tuvastada context rendering bug’e ning leida root cause madalale cache hit rate’ile.

Launch’i ajal jätkab GPT‑5.3‑Codex nende sõnul abistamist operatiivses pooles: see skaleerib dünaamiliselt GPU klastreid, et reageerida liikluse hüpetele, ja aitab hoida latentsust stabiilsena.

Alpha andmed: regex-klassifikaatorid, logide skaleeritav analüüs ja rikkalikumad visualiseeringud

Üks alpha testimise näide: uurija soovis hinnata, kui palju lisatööd GPT‑5.3‑Codex “turn” kohta ära teeb ning mis on produktiivsuse erinevus. GPT‑5.3‑Codex pakkus välja mitu lihtsat regex‑klassifikaatorit, et hinnata: kui tihti on vaja täpsustusi, kui palju on positiivseid vs negatiivseid kasutajareaktsioone, kui palju on progressi – ja jooksutas need skaleeritavalt üle session logide ning koostas raporti koos järeldustega.

Tulemuse tõlgendus OpenAI poolt: Codexi kasutajad olid õnnelikumad, sest agent mõistis paremini intent’i ja liikus ühe vahetuse kohta rohkem edasi, esitades vähem täpsustavaid küsimusi.

Teine alpha andmete näide: kuna GPT‑5.3‑Codex erineb eelkäijatest, olid testandmetes mitmed ebatavalised ja intuitiivselt üllatavad tulemused. Meeskonna data scientist töötas koos GPT‑5.3‑Codexiga, et ehitada uued andmepipeline’id ja visualiseerida tulemusi rikkalikumalt kui standard dashboarding tööriistad võimaldasid. Seejärel co‑analyze’iti tulemused Codexiga: agent võttis tuhandete datapunktide pealt võtmeinsight’id kokku vähem kui kolme minutiga.

OpenAI kokkuvõte: üksikute näidetena on need huvitavad, kuid koosmõjus andsid need märgatava kiirenduse research-, engineering- ja product-tiimidele.

Küberturvalisus: High capability klassifikatsioon ja tugevdatud kaitsekiht

OpenAI ütleb, et viimastel kuudel on mudelite küberturbeülesannete sooritus märgatavalt paranenud – sellest võidavad nii arendajad kui security‑professionaalid. Samal ajal on nad ette valmistanud tugevdatud küberturbe kaitsemeetmeid, et toetada kaitsvat (defensive) kasutust ja kogu ökosüsteemi vastupidavust; viide: https://openai.com/index/strengthening-cyber-resilience/ .

GPT‑5.3‑Codex on OpenAI sõnul esimene mudel, mille nad klassifitseerivad küberturbeülesannetes kategooriasse “High capability” nende Preparedness Framework’i alusel. Nad viitavad ka konkreetsetele dokumentidele: system card https://openai.com/index/gpt-5-3-codex-system-card/ ja Preparedness Framework’i uuendus https://openai.com/index/updating-our-preparedness-framework/ .

Lisaks ütlevad nad otse välja olulise muutuse: see on esimene mudel, mida nad on otseselt treeninud tarkvarahaavatavusi (software vulnerabilities) tuvastama. Kuigi OpenAI sõnul puudub neil lõplik tõend, et mudel suudaks automatiseerida küberrünnakuid otsast lõpuni, võtavad nad ettevaatusprintsiibi ja deploy’vad seni kõige ulatuslikuma cybersecurity safety stack’i.

  • Safety training (turvalisuskoolitus/treening mudelile)
  • Automated monitoring (automaatne monitoorimine)
  • Trusted access for advanced capabilities (usaldusmudel/ligipääs tugevamatele võimetele)
  • Enforcement pipelines including threat intelligence (jõustamise pipeline’id, sh threat intelligence)

Kuna cybersecurity on olemuselt dual‑use, kirjeldavad nad evidence‑based ja iteratiivset lähenemist: kiirendada kaitsjate võimet haavatavusi leida ja parandada, samal ajal aeglustades väärkasutust.

Selle osana lansseerivad nad ka Trusted Access for Cyber programmi (pilot), et kiirendada kaitsva küberturbe uurimist: https://openai.com/index/trusted-access-for-cyber/ .

Ökosüsteemi tasemel investeeringutena mainitakse:

  • Aardvark’i privaatse beta laiendamist – security research agent ning esimene pakkumine Codex Security toodete ja tööriistade komplektis: https://openai.com/index/introducing-aardvark/
  • Partnerlust open-source maintainer’itega, et pakkuda tasuta codebase scanning’ut laialt kasutatavatele projektidele, nt Next.js. Viitena tuuakse juhtum, kus turvauurija kasutas Codexit haavatavuste leidmiseks ja need avalikustati eelmisel nädalal: https://vercel.com/changelog/summaries-of-cve-2025-59471-and-cve-2025-59472

Rahastuse poolel: nad ehitavad edasi 2023. aastal käivitatud $1M Cybersecurity Grant Program’ile ning võtavad kohustuse eraldada $10M API krediite, et kiirendada küberkaitset nende kõige võimekamate mudelitega, eriti open source’i ja kriitilise taristu (critical infrastructure) süsteemide jaoks. Heauskses (good‑faith) turvauuringus osalevad organisatsioonid saavad taotleda API krediite ja tuge Cybersecurity Grant Program’i kaudu: https://openai.com/index/openai-cybersecurity-grant-program/ .

Saadavus ja praktilised detailid: kus GPT‑5.3‑Codexi kasutada saab

OpenAI järgi on GPT‑5.3‑Codex saadaval tasuliste ChatGPT pakettidega kõikjal, kus Codexit kasutada saab: rakenduses (app), CLI-s, IDE extension’is ja veebis. API ligipääsu osas öeldakse, et nad töötavad selle nimel, et see turvaliselt peagi sisse lülitada (st API ei ole veel lubatud, kuid on plaan).

Samal uuendusel on kaks infrastruktuurset rõhuasetust:

  • Codexi kasutajatele jookseb GPT‑5.3‑Codex 25% kiiremini tänu taristu ja inference stack’i parandustele (ehk kiirem interaktsioon ja kiirem tulemus).
  • Mudelit co‑design’iti, treeniti ja serve’iti NVIDIA GB200 NVL72 süsteemidel; OpenAI toob eraldi välja tänu NVIDIA partnerluse eest.
Codex app (macOS .dmg) Codex.dmg

Mis suunas see liigub: koodist “arvuti opereerimiseni”

OpenAI “What’s next” osa mõte on üsna selge: GPT‑5.3‑Codexiga liigub Codex koodi kirjutamisest edasi koodi kasutamisele kui vahendile, et opereerida arvutit ja viia töövoog lõpuni. Frontier-tasemel coding agent’i edasiarendus avab nende sõnul laiemat klassi teadmistepõhist tööd: ehitamine ja deploy, uurimine, analüüs ja keerukate ülesannete täitmine.

Arendajale tähendab see eelkõige nihkumist tööjaotuses: kui agent suudab ise tööriistu kasutada ja pika workflow ära teha, muutub olulisemaks see, kuidas me ülesandeid formuleerime, kuidas loome kontrollpunkte (review, testid, turvapiirangud) ja kuidas suuname agenti nii, et tulem oleks usaldusväärne.

Appendix: benchmark-tabel (xhigh reasoning effort)

OpenAI lisas lõpuks tabeli, kus on kõrvuti GPT‑5.3‑Codex (xhigh), GPT‑5.2‑Codex (xhigh) ja GPT‑5.2 (xhigh) skoorid. Märkus: nende footnote’i järgi jooksutati kõik blogis olevad hindamised GPT‑5.3‑Codexil xhigh reasoning effort’iga.

  • SWE‑Bench Pro (Public): GPT‑5.3‑Codex 56.8%, GPT‑5.2‑Codex 56.4%, GPT‑5.2 55.6%
  • Terminal‑Bench 2.0: GPT‑5.3‑Codex 77.3%, GPT‑5.2‑Codex 64.0%, GPT‑5.2 62.2%
  • OSWorld‑Verified: GPT‑5.3‑Codex 64.7%, GPT‑5.2‑Codex 38.2%, GPT‑5.2 37.9%
  • GDPval (wins or ties): GPT‑5.3‑Codex 70.9%, GPT‑5.2‑Codex – , GPT‑5.2 70.9% (high)
  • Cybersecurity Capture The Flag Challenges: GPT‑5.3‑Codex 77.6%, GPT‑5.2‑Codex 67.4%, GPT‑5.2 67.7%
  • SWE‑Lancer IC Diamond: GPT‑5.3‑Codex 81.4%, GPT‑5.2‑Codex 76.0%, GPT‑5.2 74.6%
GPT-5.3-Codex System Card illustratsioon
Viide GPT-5.3-Codexi system card’ile. — Forrás: OpenAI
Codexi rakenduse landing page visuaal
OpenAI Codex app lansseerimisega seotud visuaal. — Forrás: OpenAI
GPT-5.2-Codexi blogipostituse illustratsioon
Taustaviide eelmisele GPT-5.2-Codexi väljalaskele. — Forrás: OpenAI

Liitu HelloWP kogukonnaga!

Vestle meiega WordPressist ja veebiarendusest ning jaga kogemusi teiste arendajatega.

- liiget
- võrgus
Liitu

Kasutame küpsiseid teie kogemuse parandamiseks. Jätkates nõustute meie Küpsiste poliitikaga.