WP-Bench: So misst WordPress jetzt offiziell, wie gut KI-Modelle WordPress wirklich können

Wer regelmäßig mit LLMs (Large Language Models, also Sprachmodellen wie ChatGPT/Claude/Gemini) in WordPress-Projekten arbeitet, kennt das Problem: Allgemeine Programmier-Benchmarks sagen wenig darüber aus, ob ein Modell WordPress-spezifisch sauber arbeitet. WP-Bench setzt genau dort an und bringt einen offiziellen WordPress AI Benchmark an den Start: WP-Bench auf GitHub.

Die Idee dahinter ist pragmatisch: Nicht nur „kann das Modell PHP generieren?“, sondern „versteht es WordPress-APIs, Coding Standards, Plugin-Architektur und Security-Best-Practices – und produziert es Code, der im echten WordPress-Runtime-Kontext funktioniert?“.

Warum ein WordPress-spezifischer KI-Benchmark überhaupt nötig ist

WordPress treibt einen großen Teil des Webs an, aber KI-Modelle werden in der Praxis häufig mit generischen Coding-Aufgaben bewertet. Das führt dazu, dass ein Modell in klassischen Aufgaben glänzt, bei WordPress aber an typischen Details scheitert: korrekte Nutzung von Hooks, Nonces, Capability-Checks, Datenbankzugriffe über $wpdb, oder das Einhalten von WordPress Coding Standards.

WP-Bench will diese Lücke schließen – mit Messwerten, die für WordPress-Entwicklung relevant sind. Das hilft in zwei Richtungen: (1) Entwickelnde können Tools und Modelle besser vergleichen, (2) Modellanbieter bekommen WordPress-Leistung als eigenes Qualitätskriterium auf den Radar – statt als Randnotiz.

Was WP-Bench konkret misst: Knowledge vs. Execution

WP-Bench teilt die Bewertung in zwei Dimensionen auf, die im Alltag oft auseinanderlaufen: Ein Modell kann WordPress-Begriffe erklären (Knowledge), aber trotzdem Code ausgeben, der nicht läuft oder Sicherheitslücken baut (Execution).

1) Knowledge: WordPress-Verständnis als Multiple-Choice

Der „Knowledge“-Teil besteht aus Multiple-Choice-Fragen zu WordPress-Konzepten und APIs: Hooks, Security-Patterns, Coding Standards und Core-Konzepte. Laut Ankündigung liegt ein Fokus auch auf moderneren Zugängen wie der Abilities API und der Interactivity API – also Bereichen, in denen Modelle typischerweise eher schwächeln, weil diese Themen neuer sind.

2) Execution: Code-Generierung, die im echten Runtime-Kontext geprüft wird

Der „Execution“-Teil ist für WordPress-Entwicklung der spannendere: Hier muss das Modell Code erzeugen, der anschließend in einer WordPress-Runtime geprüft wird. Es geht also nicht nur um „sieht plausibel aus“, sondern um lauffähigen, überprüfbaren Code mit statischer Analyse und Assertions zur Laufzeit.

So funktioniert das Grading (WordPress als Prüfer)

Ein Kernpunkt von WP-Bench ist, dass WordPress selbst als „Grader“ eingesetzt wird. Der Ablauf ist dabei klar strukturiert:

Der Harness (das Benchmark-Framework) sendet einen Prompt an das Modell und fordert WordPress-Code an.
Der generierte Code wird über WP-CLI an die WordPress-Runtime übergeben.
Die Runtime prüft statisch (Syntax, Coding Standards, Security-Aspekte).
Dann wird der Code in einer sandboxed Umgebung ausgeführt; Assertions prüfen erwartetes Verhalten.
Am Ende kommen Ergebnisse als JSON zurück – inklusive Score und detailliertem Feedback.

Das ist ein wichtiger Unterschied zu vielen „nur Text“-Evaluierungen: WP-Bench misst nicht nur Wissen, sondern auch die Fähigkeit, korrekt in einer WordPress-Umgebung zu arbeiten.

Quickstart: WP-Bench lokal ausprobieren

Wenn du WP-Bench selbst laufen lassen willst, ist der Einstieg relativ geradlinig: Python-Harness installieren, API-Keys setzen, WordPress-Runtime starten und dann den Run ausführen.

1) Installation (Python venv + editable install)

python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

2) API-Keys per .env konfigurieren

WP-Bench kann verschiedene Provider ansprechen; die Keys werden per .env hinterlegt:

OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
GOOGLE_API_KEY=...

OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
GOOGLE_API_KEY=...

3) WordPress-Runtime (Grader) starten

cd runtime
npm install
npm start

cd runtime
npm install
npm start

4) Benchmark ausführen

cd ..
wp-bench run --config wp-bench.example.yaml

cd ..
wp-bench run --config wp-bench.example.yaml

Die Ergebnisse landen in output/results.json, plus per-Test Logs in output/results.jsonl.

Mehrere Modelle in einem Lauf vergleichen (Multi-Model Benchmarking)

Praktisch für Teams ist die Möglichkeit, mehrere Modelle in einem Run gegeneinander laufen zu lassen. In der Config listest du einfach mehrere Model-Namen auf; der Harness arbeitet sie nacheinander ab und gibt eine Vergleichstabelle aus. Die Modellnamen orientieren sich an den Konventionen von LiteLLM (einheitliche Provider-Namensgebung).

models:
  - name: gpt-4o
  - name: gpt-4o-mini
  - name: claude-sonnet-4-20250514
  - name: claude-opus-4-5-20251101
  - name: gemini/gemini-2.5-pro
  - name: gemini/gemini-2.5-flash

models:
  - name: gpt-4o
  - name: gpt-4o-mini
  - name: claude-sonnet-4-20250514
  - name: claude-opus-4-5-20251101
  - name: gemini/gemini-2.5-pro
  - name: gemini/gemini-2.5-flash

Konfiguration: Dataset, Grader, Run-Parameter, Output

Die Beispiel-Config (wp-bench.example.yaml) ist ein guter Ausgangspunkt. Typisch sind vier Bereiche: Dataset-Quelle, Modelle, Grader (Docker + wp-env Projekt) und Run-/Output-Settings.

dataset:
  source: local              # 'local' or 'huggingface'
  name: wp-core-v1           # suite name

models:
  - name: gpt-4o

grader:
  kind: docker
  wp_env_dir: ./runtime      # path to wp-env project

run:
  suite: wp-core-v1
  limit: 10                  # limit tests (null = all)
  concurrency: 4

output:
  path: output/results.json
  jsonl_path: output/results.jsonl

dataset:
  source: local              # 'local' or 'huggingface'
  name: wp-core-v1           # suite name

models:
  - name: gpt-4o

grader:
  kind: docker
  wp_env_dir: ./runtime      # path to wp-env project

run:
  suite: wp-core-v1
  limit: 10                  # limit tests (null = all)
  concurrency: 4

output:
  path: output/results.json
  jsonl_path: output/results.jsonl

Nützliche CLI-Optionen

wp-bench run --config wp-bench.yaml          # run with config file
wp-bench run --model-name gpt-4o --limit 5   # quick single-model test
wp-bench dry-run --config wp-bench.yaml      # validate config without calling models

wp-bench run --config wp-bench.yaml          # run with config file
wp-bench run --model-name gpt-4o --limit 5   # quick single-model test
wp-bench dry-run --config wp-bench.yaml      # validate config without calling models

Aufbau des Repos: wo was liegt

Wenn du tiefer einsteigen oder selbst Tests ergänzen willst, hilft die Repo-Struktur als Orientierung:

.
├── python/          # Benchmark harness (pip installable)
├── runtime/         # WordPress grader plugin + wp-env config
├── datasets/        # Test suites (local JSON + Hugging Face builder)
├── notebooks/       # Results visualization and reporting
└── output/          # Benchmark results (gitignored)

.
├── python/          # Benchmark harness (pip installable)
├── runtime/         # WordPress grader plugin + wp-env config
├── datasets/        # Test suites (local JSON + Hugging Face builder)
├── notebooks/       # Results visualization and reporting
└── output/          # Benchmark results (gitignored)

Test-Suites: Knowledge- und Execution-Datensätze

Test-Suites liegen unter datasets/suites/<suite-name>/ und sind in zwei Verzeichnisse aufgeteilt:

execution/: Code-Generierungsaufgaben inklusive Assertions (je Kategorie eine JSON-Datei)
knowledge/: Multiple-Choice-Fragen (je Kategorie eine JSON-Datei)

Die Standard-Suite wp-core-v1 deckt laut Beschreibung u. a. Core-APIs, Hooks, Datenbankoperationen und Security-Patterns ab.

Datasets von Hugging Face laden

Alternativ zu lokalen Datensätzen kann WP-Bench Suites auch von Hugging Face beziehen, konfiguriert über dataset.source:

dataset:
  source: huggingface
  name: WordPress/wp-bench-v1

dataset:
  source: huggingface
  name: WordPress/wp-bench-v1

Aktueller Stand und bekannte Grenzen

WP-Bench ist als Early Release gestartet – entsprechend sind Einschränkungen offen benannt:

Dataset-Größe: Die aktuelle Suite ist noch relativ klein; für einen belastbaren Benchmark braucht es mehr Fälle über mehr WordPress-APIs und typische Patterns hinweg.
Versions-Bias: Der Fokus liegt teilweise auf WordPress-6.9-nahen Themen (u. a. Abilities API, Interactivity API). Das ist nützlich, weil genau dort viele Modelle Schwierigkeiten haben – kann aber gleichzeitig Modelle benachteiligen, deren Trainingsdaten diese Features noch kaum enthalten.
Benchmark-Sättigung: Erste Tests zeigten wohl sehr hohe Scores bei älteren WordPress-Konzepten; diese Fragen liefern dann wenig Signal. Schwierige, aber realistische Aufgaben zu finden ist die eigentliche Benchmark-Arbeit.

Warum das für Plugin- und Agentur-Alltag relevant ist

In der Praxis werden KI-Assistenten in WordPress-Projekten meist für drei Dinge genutzt: Boilerplate erstellen, unbekannte APIs nachschlagen/erklären und Code-Review/Refactoring. WP-Bench zielt genau auf die Frage, welche Modelle dabei zuverlässig sind – nicht nur eloquent. Gerade bei Security (Nonces, Sanitization/Escaping, Capability-Checks) oder bei korrekt angebundenen Hooks entscheidet „funktioniert wirklich“ über den Nutzen.

Open Source Ausrichtung: Leaderboard und Community-Beiträge

WP-Bench ist als Open-Source-Projekt angelegt. Neben dem Tool selbst arbeitet das Team laut Ankündigung auf ein öffentliches Leaderboard hin, das Modell-Performance auf WordPress-Aufgaben transparent macht. Zusätzlich ist explizit Community-Mitarbeit vorgesehen – denn die Qualität eines Benchmarks steht und fällt mit der Qualität der Testfälle und der Strenge der Auswertung.

Offizielle Einstiegspunkte sind das GitHub-Repository und die WordPress-AI-Ressourcen: WP-Bench GitHub Repository, AI Building Blocks for WordPress sowie der Slack-Channel #core-ai.