WP-Bench: beidzot ir etalons, kas mēra, cik labi AI tiešām saprot WordPress

Ja ikdienā strādā ar WordPress, tu zini klasisko situāciju: AI modelis ātri uzģenerē “kaut ko līdzīgu” spraudnim, bet realitātē tur ir nepareizs add_action(), nepareiza datu sanitizācija, nejauši aizmirsts nonce vai arī kods vienkārši neizpildās, jo nav saprasts WordPress dzīves cikls. Tieši tāpēc WordPress AI komanda ir palaidusi WP-Bench — oficiālu WordPress AI benchmark (etalonu), kas mēra, cik labi valodas modeļi (LLM) saprot WordPress izstrādi.

Svarīgākais: WP-Bench nav tikai teorētisks tests. Tas kombinē zināšanu jautājumus ar koda ģenerēšanas uzdevumiem, kur rezultātu vērtē pati WordPress izpildvide (runtime), izmantojot statisko analīzi un runtime pārbaudes.

Kas ir WP-Bench un ko tas mēra

WP-Bench fokusējas uz WordPress specifiku: core API, coding standards, spraudņu arhitektūru, drošības labās prakses un tipiskos “WordPress slazdus”, kuros iekrīt gan jaunie izstrādātāji, gan modeļi.

Etalons ir sadalīts divās dimensijās:

Knowledge — multiple-choice jautājumi par WordPress konceptiem, API, hooks (darbību/filtru piesaistes mehānisms), drošības paņēmieniem un koda standartiem. Uzsvars likts arī uz salīdzinoši jaunām lietām, piemēram, Abilities API un Interactivity API.
Execution — koda ģenerēšanas uzdevumi, kur modelim jāuzraksta WordPress kods, un tad tas tiek pārbaudīts reālā WordPress izpildē ar statisko analīzi un assertiem (pārbaudēm).

Kāpēc WordPress pasaulei vajag atsevišķu AI etalonu

Vispārīgie programmēšanas benchmarki bieži pasaka tikai to, vai modelis prot “kaut ko” Python vai JavaScript stilā. Bet WordPress realitāte ir citāda: dzīves cikls, hooks, globālie stāvokļi, WP_Query nianses, datubāzes piekļuve ar $wpdb, drošība (nonce, capabilities, sanitizācija/validācija), kā arī coding standards.

WP-Bench aizpilda šo robu, jo mēra tieši WordPress specifiskas prasmes. No praktiskā skatu punkta tam ir trīs ieguvumi:

Saprast šodienas modeļus. Ja būvē AI-funkcionalitāti spraudņos vai vienkārši izmanto koda asistentu, tev ir svarīgi zināt, kuri modeļi tiešām tiek galā ar WordPress prasībām (ne tikai ar “glītu kodu”).
Ietekmēt rītdienas modeļus. Ideja ir panākt, lai AI laboratorijas un modeļu piegādātāji pirms izlaišanas vērtē arī WordPress veiktspēju šādos uzdevumos, nevis atstāj to kā sekundāru niansi.
Atvērts rezultātu salīdzinājums. Komanda strādā pie publiska leaderboard (rezultātu saraksta), lai kopienai būtu caurspīdīgi dati par to, kā modeļi strādā ar WordPress uzdevumiem.

Kā notiek vērtēšana: WordPress kā “tiesnesis”

Interesantākais WP-Bench elements ir tas, ka vērtētājs nav kāds abstrakts skripts, bet pati WordPress izpildvide. Process izskatās šādi:

Harness (testa palaidējs) nosūta modelim promptu ar prasību uzģenerēt WordPress kodu.
Uzģenerētais kods tiek nodots WordPress runtime (caur WP-CLI).
Runtime veic statisko analīzi: sintaksi, coding standards un drošības aspektus.
Kods tiek izpildīts sandbox vidē, un uzdevums tiek pārbaudīts ar runtime assertiem (piemēram, gaidāmiem rezultātiem, stāvokļa pārmaiņām u. tml.).
Rezultāti atgriežas kā JSON ar punktiem un detalizētu atgriezenisko saiti.

Kāpēc tas ir nozīmīgi

Modelis var “zināt” pareizo atbildi teorijā, bet WordPress izstrādē svarīgākais ir, vai kods tiešām strādā un ievēro drošības un stila prasības. Execution dimensija to noķer daudz labāk nekā vienkārša teksta pārbaude.

Ātra palaišana lokāli (Quick Start)

WP-Bench repozitorijs ir publiski pieejams GitHub, un palaišana paredz divas galvenās daļas: Python harness un WordPress runtime (grader), kas darbojas atsevišķi.

1) Instalācija (Python harness)

python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

2) API atslēgas (.env)

Izveido .env failu un ieliec tajā savu modeļu piegādātāju atslēgas (tikai tās, ko reāli izmantosi):

OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
GOOGLE_API_KEY=...

OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
GOOGLE_API_KEY=...

3) Startē WordPress runtime (grader)

cd runtime
npm install
npm start

cd runtime
npm install
npm start

4) Palaid benchmarku

cd ..
wp-bench run --config wp-bench.example.yaml

cd ..
wp-bench run --config wp-bench.example.yaml

Rezultāti tiek saglabāti output/results.json, bet detalizēti pa testiem — output/results.jsonl.

Vairāku modeļu salīdzināšana vienā skrējienā

Ja gribi salīdzināt, piemēram, vienu “lielo” modeli pret “mini/flash” variantu, WP-Bench to atbalsta tieši konfigurācijā. Modelu nosaukumi seko LiteLLM konvencijām.

models:
  - name: gpt-4o
  - name: gpt-4o-mini
  - name: claude-sonnet-4-20250514
  - name: claude-opus-4-5-20251101
  - name: gemini/gemini-2.5-pro
  - name: gemini/gemini-2.5-flash

models:
  - name: gpt-4o
  - name: gpt-4o-mini
  - name: claude-sonnet-4-20250514
  - name: claude-opus-4-5-20251101
  - name: gemini/gemini-2.5-pro
  - name: gemini/gemini-2.5-flash

Harness izpildīs modeļus secīgi un izvadīs salīdzinājuma tabulu, turklāt saglabās izejas failus, lai tos var analizēt pēc tam.

Konfigurācija: kas parasti jāpielāgo

Praktiski ērtākais sākums ir nokopēt wp-bench.example.yaml un pielāgot dataset avotu, izvēlēto testu komplektu (suite), modeli un palaides parametrus (limit, concurrency).

dataset:
  source: local              # 'local' or 'huggingface'
  name: wp-core-v1           # suite name

models:
  - name: gpt-4o

grader:
  kind: docker
  wp_env_dir: ./runtime      # path to wp-env project

run:
  suite: wp-core-v1
  limit: 10                  # limit tests (null = all)
  concurrency: 4

output:
  path: output/results.json
  jsonl_path: output/results.jsonl

dataset:
  source: local              # 'local' or 'huggingface'
  name: wp-core-v1           # suite name

models:
  - name: gpt-4o

grader:
  kind: docker
  wp_env_dir: ./runtime      # path to wp-env project

run:
  suite: wp-core-v1
  limit: 10                  # limit tests (null = all)
  concurrency: 4

output:
  path: output/results.json
  jsonl_path: output/results.jsonl

Noderīgas CLI komandas

wp-bench run --config wp-bench.yaml          # palaiž ar konfigurācijas failu
wp-bench run --model-name gpt-4o --limit 5   # ātrs tests vienam modelim
wp-bench dry-run --config wp-bench.yaml      # validē config, nesauc modeļus

wp-bench run --config wp-bench.yaml          # palaiž ar konfigurācijas failu
wp-bench run --model-name gpt-4o --limit 5   # ātrs tests vienam modelim
wp-bench dry-run --config wp-bench.yaml      # validē config, nesauc modeļus

Kā ir sakārtots repozitorijs

Struktūra ir gana loģiska, un pēc tās var ātri saprast, kur ko meklēt:

.
├── python/          # Benchmark harness (pip installable)
├── runtime/         # WordPress grader plugin + wp-env config
├── datasets/        # Test suites (local JSON + Hugging Face builder)
├── notebooks/       # Results visualization and reporting
└── output/          # Benchmark results (gitignored)

.
├── python/          # Benchmark harness (pip installable)
├── runtime/         # WordPress grader plugin + wp-env config
├── datasets/        # Test suites (local JSON + Hugging Face builder)
├── notebooks/       # Results visualization and reporting
└── output/          # Benchmark results (gitignored)

Testu komplekti (suites): knowledge + execution

Testu komplekti glabājas datasets/suites/<suite-name>/. Katram suite ir divas mapes:

execution/ — koda ģenerēšanas uzdevumi ar assertiem (parasti pa kategorijām, katra kā atsevišķs JSON).
knowledge/ — multiple-choice jautājumi (arī pa kategorijām JSON failos).

Noklusējuma suite wp-core-v1 fokusējas uz WordPress core API, hooks, darbībām ar datubāzi un drošības rakstiem.

Ielāde no Hugging Face

Ja vēlies izmantot dataset no Hugging Face, konfigurācijā jānorāda atbilstošs avots un nosaukums:

dataset:
  source: huggingface
  name: WordPress/wp-bench-v1

dataset:
  source: huggingface
  name: WordPress/wp-bench-v1

Pašreizējais stāvoklis un zināmie ierobežojumi

WP-Bench ir agrīnā laidienā, un tas ir atklāti noformulēts arī kā aicinājums kopienai palīdzēt. Šobrīd ir vairāki reāli ierobežojumi:

Dataset apjoms. Pašreizējais testu komplekts vēl ir salīdzinoši mazs, tāpēc, lai etalons kļūtu “visaptverošs”, vajag vairāk testu dažādām API un rakstiem.
Versiju pārklājums. Benchmark šobrīd nosveras uz WordPress 6.9 laika iespējām (piemēram, Abilities API un Interactivity API). Tas daļēji ir apzināti, jo tieši jaunās API modeļiem mēdz būt grūtākas, bet tajā pašā laikā tas var radīt nobīdi, jo šīs iespējas var būt pēc modeļu treniņdatiem.
Saturācija vecākos tematos. Agrīnie mērījumi parādīja, ka modeļi par “klasiskajiem” WordPress konceptiem mēdz dabūt ļoti augstus rezultātus. Līdz ar to benchmarkam vajag sarežģītākus, praksē biežāk kļūdainus scenārijus, kas dod labāku signālu.

Kur tas noder ikdienas darbā

Ja tu komandā izvēlies modeli koda asistentam vai būvē AI funkcijas spraudnī, WP-Bench var kalpot kā pragmatisks filtrs:

Modeļi, kas labi izpilda execution uzdevumus, parasti labāk tiek galā ar WordPress dzīves ciklu un niansēm (hooks, sanitizācija, pareiza API lietošana).
Detalizētie JSONL logi palīdz saprast, kā modelis kļūdās: vai tā ir drošība, coding standards, vai reāla loģikas kļūda, kas izkrīt runtime assertos.
Vairāku modeļu salīdzināšana vienā skrējienā ļauj pamatot “kāpēc izvēlamies šo modeli” ar reproducējamu rezultātu kopumu.

Resursi

WP-Bench GitHub repozitorijs: https://github.com/WordPress/wp-bench
AI Building Blocks for WordPress: https://make.wordpress.org/ai/2025/07/17/ai-building-blocks/
#core-ai Slack kanāls: https://wordpress.slack.com/archives/C08TJ8BPULS