WP-Bench: oficiální benchmark, který konečně měří, jak dobře AI rozumí WordPressu

Používat AI asistenty při vývoji WordPress pluginů nebo řešení na míru už je běžné. Jenže ve chvíli, kdy dojde na hooks, WP-CLI, práci s databází přes $wpdb, bezpečnostní vzory nebo coding standards, kvalita odpovědí modelů se umí dramaticky lišit. Projekt WordPress teď přichází s nástrojem, který tohle začne měřit systematicky: WP-Bench – oficiální AI benchmark zaměřený přímo na WordPress.

WP-Bench najdeš jako open-source projekt na GitHubu: WP-Bench. Cíl je jednoduchý: zjistit, jak dobře modely zvládají WordPress specifika – nejen teoreticky, ale i prakticky v běžícím prostředí.

Proč dává WordPress-specifický benchmark smysl

WordPress pohání velkou část webu, ale hodnocení jazykových modelů se často točí kolem obecných programátorských úloh. To vytváří slepé místo: model může excelovat v „běžném“ kódu, ale v WordPress světě tápat v detailech, které rozhodují o bezpečnosti a udržitelnosti řešení.

Lepší výběr nástrojů dnes: Pokud stavíš AI‑powered pluginy nebo jen vybíráš coding assistant do týmu, potřebuješ vědět, které modely jsou ve WordPressu skutečně silné.
Tlak na zlepšení modelů zítra: Záměr je, aby se WP-Bench stal standardem, který budou AI laby a poskytovatelé modelů pouštět při interních evaluacích – a WordPress výkon tak nebude „až někdy potom“.
Transparentní srovnání: Tým směřuje k otevřenému leaderboardu, který bude průběžně ukazovat výsledky modelů na WordPress úlohách.

Co přesně WP-Bench měří: Knowledge vs Execution

WP-Bench hodnotí modely ve dvou osách, které dohromady dávají podstatně realističtější obrázek než samotné „napiš mi funkci“ prompty.

1) Knowledge (znalosti)

Znalostní část používá multiple‑choice otázky na WordPress koncepty a postupy: core API, hooky (akce a filtry), bezpečnostní patterny, coding standards a podobně. Důraz je i na novější oblasti jako Abilities API a Interactivity API (novější rozhraní, kde se modely často lámou – mimo jiné proto, že vznikly později než tréninková data řady modelů).

2) Execution (provedení v praxi)

Druhá část je pro vývojáře obvykle zajímavější: model generuje kód a ten se pak hodnotí v reálném WordPress runtime. Nejde jen o to, jestli je to „hezké“ – ale jestli to projde kontrolami a dá se to spustit.

Jak probíhá grading: WordPress jako hodnotitel

Klíčová myšlenka WP-Bench je, že grader není jen skript, ale přímo WordPress prostředí. Generovaný kód se pošle do sandboxu, zkontroluje a spustí. Výstupem je strukturovaný JSON se skóre a detailním feedbackem.

Harness (spouštěcí část) pošle modelu prompt se zadáním WordPress kódu.
Vygenerovaný kód se předá do WordPress runtime přes WP-CLI (CLI nástroj pro správu WordPressu).
Runtime provede statickou analýzu (syntax, coding standards, bezpečnostní kontroly).
Kód se spustí v sandboxu a vyhodnotí se pomocí runtime assertionů (testovacích očekávání).
Výsledky se vrátí jako JSON: skóre + detailní logy.

Rychlý start: jak WP-Bench lokálně rozjet

WP-Bench má dvě hlavní části: Python „harness“ (který volá modely a řídí běh) a runtime (WordPress prostředí pro grading). Instalace i spuštění je přímočaré, ale počítej s tím, že budeš potřebovat API klíče k providerům.

1) Instalace (Python venv + editable install)

python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

2) API klíče přes .env

V kořeni projektu vytvoř .env a doplň klíče podle providerů, které chceš testovat:

OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
GOOGLE_API_KEY=...

OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
GOOGLE_API_KEY=...

3) Spuštění WordPress runtime (graderu)

cd runtime
npm install
npm start

cd runtime
npm install
npm start

4) Spuštění benchmarku

cd ..
wp-bench run --config wp-bench.example.yaml

cd ..
wp-bench run --config wp-bench.example.yaml

Výsledky se ukládají do output/results.json a per-test logy do output/results.jsonl. To je praktické, když chceš výsledky dále vizualizovat nebo filtrovat podle kategorií úloh.

Srovnání více modelů v jednom běhu

WP-Bench umí pustit stejnou sadu testů postupně nad více modely a vypsat porovnání. V konfiguraci jen uvedeš seznam models. Názvy modelů se drží konvencí LiteLLM (viz dokumentace providerů v LiteLLM).

models:
  - name: gpt-4o
  - name: gpt-4o-mini
  - name: claude-sonnet-4-20250514
  - name: claude-opus-4-5-20251101
  - name: gemini/gemini-2.5-pro
  - name: gemini/gemini-2.5-flash

models:
  - name: gpt-4o
  - name: gpt-4o-mini
  - name: claude-sonnet-4-20250514
  - name: claude-opus-4-5-20251101
  - name: gemini/gemini-2.5-pro
  - name: gemini/gemini-2.5-flash

Konfigurace: dataset, grader, běh a výstupy

Základní workflow je vzít wp-bench.example.yaml, zkopírovat ho a upravit. Důležité jsou hlavně: odkud se berou testy, jaký grader používáš a kolik testů chceš pustit (limit/concurrency).

dataset:
  source: local              # 'local' or 'huggingface'
  name: wp-core-v1           # suite name

models:
  - name: gpt-4o

grader:
  kind: docker
  wp_env_dir: ./runtime      # path to wp-env project

run:
  suite: wp-core-v1
  limit: 10                  # limit tests (null = all)
  concurrency: 4

output:
  path: output/results.json
  jsonl_path: output/results.jsonl

dataset:
  source: local              # 'local' or 'huggingface'
  name: wp-core-v1           # suite name

models:
  - name: gpt-4o

grader:
  kind: docker
  wp_env_dir: ./runtime      # path to wp-env project

run:
  suite: wp-core-v1
  limit: 10                  # limit tests (null = all)
  concurrency: 4

output:
  path: output/results.json
  jsonl_path: output/results.jsonl

Užitečné CLI přepínače

wp-bench run --config wp-bench.yaml          # run with config file
wp-bench run --model-name gpt-4o --limit 5   # quick single-model test
wp-bench dry-run --config wp-bench.yaml      # validate config without calling models

wp-bench run --config wp-bench.yaml          # run with config file
wp-bench run --model-name gpt-4o --limit 5   # quick single-model test
wp-bench dry-run --config wp-bench.yaml      # validate config without calling models

Jak vypadají test suites a co je v defaultu

Testovací sady (suites) leží v datasets/suites/<suite-name>/ a dělí se na dvě složky: knowledge/ (otázky) a execution/ (generování kódu + assertions). Defaultní sada wp-core-v1 míří na WordPress core API, hooky, práci s databází a bezpečnostní postupy.

Dataset z Hugging Face

Pokud nechceš používat lokální dataset, konfigurace umí načítat i z Hugging Face:

dataset:
  source: huggingface
  name: WordPress/wp-bench-v1

dataset:
  source: huggingface
  name: WordPress/wp-bench-v1

Aktuální stav a limity, se kterými je potřeba počítat

WP-Bench je zatím v rané fázi a autoři otevřeně popisují několik slabších míst. To je důležité hlavně při interpretaci výsledků – skóre je signál, ne absolutní pravda.

Velikost datasetu: současná sada je relativně malá, bude potřeba doplnit víc případů napříč API a reálnými patterns.
Pokrytí verzí: benchmark je posunutý směrem k novějším WordPress 6.9 featureům (např. Abilities API a Interactivity API). Zčásti záměr (tam modely často padají), zčásti bias vůči modelům trénovaným na starších datech.
Saturace jednoduchých témat: v raném testování modely dosahovaly vysokých skóre na „starších“ konceptech, takže je potřeba hledat úlohy, které jsou opravdu náročné, ne jen známé.

Co si z toho vzít při čtení výsledků

Pokud model vyjde dobře ve wp-core-v1, neznamená to automaticky, že ti bude generovat bezchybné pluginy. Ale je to mnohem přesnější vodítko než obecné programátorské benchmarky, protože se hodnotí v reálném WordPress runtime a se standardy, které ve WordPress světě řešíš denně.

Struktura repozitáře: kde co hledat

.
├── python/          # Benchmark harness (pip installable)
├── runtime/         # WordPress grader plugin + wp-env config
├── datasets/        # Test suites (local JSON + Hugging Face builder)
├── notebooks/       # Results visualization and reporting
└── output/          # Benchmark results (gitignored)

.
├── python/          # Benchmark harness (pip installable)
├── runtime/         # WordPress grader plugin + wp-env config
├── datasets/        # Test suites (local JSON + Hugging Face builder)
├── notebooks/       # Results visualization and reporting
└── output/          # Benchmark results (gitignored)

K čemu je to prakticky dobré pro vývojáře

WP-Bench může být užitečný ve chvíli, kdy chceš standardizovat, jak v týmu posuzujete AI tooling: místo dojmů máš opakovatelné testy. Stejně tak může pomoct při interním výběru modelu pro generování boilerplate pro pluginy, pro refaktoring nebo pro asistované psaní unit/integration testů – protože se měří konkrétní WordPress schopnosti (API, bezpečnost, standardy) a ne jen obecná „kvalita kódu“.

Užitečné odkazy

Repozitář: https://github.com/WordPress/wp-bench
Kontext k AI iniciativám ve WordPressu: https://make.wordpress.org/ai/2025/07/17/ai-building-blocks/
Slack kanál projektu: https://wordpress.slack.com/archives/C08TJ8BPULS