WP-Bench: το επίσημο benchmark του WordPress για να μετράμε πραγματικά τα LLMs

Τα language models (LLMs) έχουν γίνει κομμάτι της καθημερινότητάς μας: από code completion μέχρι ολόκληρα snippets για plugins. Το πρόβλημα είναι ότι τα περισσότερα benchmarks τα αξιολογούν σε γενικά προγραμματιστικά tasks, όχι στις ιδιαιτερότητες του WordPress: hooks, coding standards, nonces, capabilities, WP_Query, database access patterns, plugin architecture.

Γι’ αυτό το WordPress project παρουσίασε το WP-Bench, ένα επίσημο WordPress AI benchmark που στοχεύει να μετρά με πιο ουσιαστικό τρόπο το κατά πόσο ένα μοντέλο καταλαβαίνει WordPress development και το κατά πόσο μπορεί να παράγει κώδικα που όντως τρέχει σωστά μέσα σε WordPress runtime.

Τι ακριβώς είναι το WP-Bench (και τι μετράει)

Το WP-Bench αξιολογεί μοντέλα σε δύο άξονες:

Knowledge: multiple-choice ερωτήσεις πάνω σε WordPress έννοιες, APIs, hooks, security patterns και coding standards. Υπάρχει έμφαση και σε πιο σύγχρονες προσθήκες όπως το Abilities API και το Interactivity API (δηλαδή APIs που έχουν εμφανιστεί πρόσφατα και συχνά «ξεφεύγουν» από τα training δεδομένα πολλών μοντέλων).
Execution: tasks παραγωγής κώδικα που βαθμολογούνται από πραγματικό WordPress runtime. Δεν αρκεί να γράψει “καλό-looking” PHP· ο κώδικας περνά static analysis και μετά εκτελείται σε sandbox με assertions.

Γιατί έχει σημασία ένα WordPress-specific benchmark

Στο WordPress οικοσύστημα, το «σωστό» δεν είναι μόνο να δουλεύει. Είναι να δουλεύει με τρόπο συμβατό με standards και ασφαλή.

Πιο σωστές επιλογές εργαλείων: αν χτίζεις AI-powered λειτουργίες (π.χ. μέσα σε plugin) ή απλά χρησιμοποιείς coding assistants, έχει αξία να ξέρεις ποια μοντέλα αποδίδουν καλύτερα σε WordPress-specific δουλειές.
Πίεση προς τους providers: ο στόχος είναι το WP-Bench να γίνει standard αξιολόγησης ώστε labs/provides να το τρέχουν πριν από releases. Έτσι η απόδοση στο WordPress δεν θα είναι «δευτερεύον», αλλά μετρήσιμο KPI.
Διαφάνεια με leaderboard: η ομάδα δουλεύει προς ένα open source, δημόσιο leaderboard ώστε να υπάρχει ορατότητα στα αποτελέσματα και πρακτική σύγκριση ανά μοντέλο.

Πώς γίνεται η βαθμολόγηση: WordPress ως “grader”

Το πιο ενδιαφέρον στοιχείο του WP-Bench είναι ότι δεν κάνει grading θεωρητικά ή με heuristics. Χρησιμοποιεί το ίδιο το WordPress για να κρίνει την εκτέλεση.

Η ροή αξιολόγησης (high level)

Το harness στέλνει prompt στο μοντέλο ζητώντας WordPress κώδικα για συγκεκριμένο task.
Ο παραγόμενος κώδικας προωθείται στο WordPress runtime μέσω WP-CLI (command-line interface για WordPress εργασίες).
Το runtime κάνει static checks (syntax, coding standards, security).
Ο κώδικας εκτελείται σε sandbox περιβάλλον με test assertions.
Τα αποτελέσματα επιστρέφουν ως JSON με σκορ και αναλυτικό feedback.

Γιατί έχει αξία αυτό το μοντέλο grading

Στην πράξη, πολλά «AI σωστά» snippets αποτυγχάνουν σε λεπτομέρειες: λάθος hook, λάθος escaping, μη σωστό nonce check, χρήση API που δεν υπάρχει, ή κώδικας που δεν περνά standards. Το WP-Bench βάζει όλα αυτά μέσα στη μέτρηση, γιατί τρέχει σε πραγματικό WordPress περιβάλλον.

Quick start: τρέξε το WP-Bench τοπικά

Αν θέλεις να δοκιμάσεις γρήγορα πώς στέκονται τα μοντέλα που χρησιμοποιείς, το repo δίνει μια σχετικά straight διαδικασία: Python harness + WordPress runtime (grader).

1) Εγκατάσταση του harness (Python)

python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

2) Ρύθμιση API keys (providers)

Δημιούργησε ένα .env με τα keys των providers που θα χρησιμοποιήσεις:

OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
GOOGLE_API_KEY=...

OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
GOOGLE_API_KEY=...

3) Εκκίνηση του WordPress runtime (grader)

cd runtime
npm install
npm start

cd runtime
npm install
npm start

4) Εκτέλεση benchmark run

cd ..
wp-bench run --config wp-bench.example.yaml

cd ..
wp-bench run --config wp-bench.example.yaml

Τα αποτελέσματα γράφονται στο output/results.json, ενώ τα per-test logs βρίσκονται στο output/results.jsonl.

Σύγκριση πολλών μοντέλων σε ένα run

Μπορείς να τρέξεις πολλά μοντέλα σειριακά στο ίδιο run (ώστε να πάρεις συγκριτικό πίνακα) δηλώνοντάς τα στο config. Τα ονόματα μοντέλων ακολουθούν conventions του LiteLLM.

models:
  - name: gpt-4o
  - name: gpt-4o-mini
  - name: claude-sonnet-4-20250514
  - name: claude-opus-4-5-20251101
  - name: gemini/gemini-2.5-pro
  - name: gemini/gemini-2.5-flash

models:
  - name: gpt-4o
  - name: gpt-4o-mini
  - name: claude-sonnet-4-20250514
  - name: claude-opus-4-5-20251101
  - name: gemini/gemini-2.5-pro
  - name: gemini/gemini-2.5-flash

Τεκμηρίωση για τα provider/model naming conventions: LiteLLM conventions.

Παράδειγμα configuration που αξίζει να κρατήσεις ως βάση

Το wp-bench.example.yaml είναι καλό σημείο εκκίνησης. Σε γενικές γραμμές, ρυθμίζεις dataset source, μοντέλα, grader και run parameters (limit/concurrency), καθώς και τα output paths.

dataset:
  source: local              # 'local' or 'huggingface'
  name: wp-core-v1           # suite name

models:
  - name: gpt-4o

grader:
  kind: docker
  wp_env_dir: ./runtime      # path to wp-env project

run:
  suite: wp-core-v1
  limit: 10                  # limit tests (null = all)
  concurrency: 4

output:
  path: output/results.json
  jsonl_path: output/results.jsonl

dataset:
  source: local              # 'local' or 'huggingface'
  name: wp-core-v1           # suite name

models:
  - name: gpt-4o

grader:
  kind: docker
  wp_env_dir: ./runtime      # path to wp-env project

run:
  suite: wp-core-v1
  limit: 10                  # limit tests (null = all)
  concurrency: 4

output:
  path: output/results.json
  jsonl_path: output/results.jsonl

Χρήσιμες CLI επιλογές

wp-bench run --config wp-bench.yaml          # run with config file
wp-bench run --model-name gpt-4o --limit 5   # quick single-model test
wp-bench dry-run --config wp-bench.yaml      # validate config without calling models

wp-bench run --config wp-bench.yaml          # run with config file
wp-bench run --model-name gpt-4o --limit 5   # quick single-model test
wp-bench dry-run --config wp-bench.yaml      # validate config without calling models

Δομή repository και πού βρίσκονται τα test suites

Το repo είναι οργανωμένο με καθαρό διαχωρισμό μεταξύ του harness, του runtime (grader) και των datasets:

.
├── python/          # Benchmark harness (pip installable)
├── runtime/         # WordPress grader plugin + wp-env config
├── datasets/        # Test suites (local JSON + Hugging Face builder)
├── notebooks/       # Results visualization and reporting
└── output/          # Benchmark results (gitignored)

.
├── python/          # Benchmark harness (pip installable)
├── runtime/         # WordPress grader plugin + wp-env config
├── datasets/        # Test suites (local JSON + Hugging Face builder)
├── notebooks/       # Results visualization and reporting
└── output/          # Benchmark results (gitignored)

Τα test suites βρίσκονται στο datasets/suites/<suite-name>/ και χωρίζονται σε:

execution/: code generation tasks με assertions (ένα JSON ανά κατηγορία).
knowledge/: multiple-choice ερωτήσεις (ένα JSON ανά κατηγορία).

Το default suite, wp-core-v1, καλύπτει WordPress core APIs, hooks, database operations και security patterns.

Datasets από Hugging Face

Αντί για local suite, μπορείς να φορτώσεις dataset από Hugging Face ως εξής:

dataset:
  source: huggingface
  name: WordPress/wp-bench-v1

dataset:
  source: huggingface
  name: WordPress/wp-bench-v1

Τρέχουσα κατάσταση και γνωστοί περιορισμοί

Το WP-Bench είναι σε early release και το αναφέρουν ξεκάθαρα. Υπάρχουν μερικά σημεία που επηρεάζουν το πώς διαβάζεις τα scores:

Μικρό dataset (προς το παρόν): το υπάρχον suite δεν είναι ακόμα «τεράστιο», οπότε χρειάζεται επέκταση για πιο ολοκληρωμένο σήμα σε περισσότερα APIs και patterns.
Bias προς νεότερα features: υπάρχει κλίση προς λειτουργίες που αντιστοιχούν σε WordPress 6.9 (π.χ. Abilities API, Interactivity API). Αυτό είναι εν μέρει σκόπιμο (εκεί δυσκολεύονται τα μοντέλα), αλλά μπορεί να αδικεί μοντέλα που δεν έχουν δει αυτά τα APIs σε training data.
Benchmark saturation σε παλιότερες έννοιες: σε πρώιμες δοκιμές κάποια μοντέλα έπιαναν πολύ υψηλά σε παλαιότερα WordPress concepts, άρα αυτά τα tests δεν ξεχωρίζουν πλέον επαρκώς. Το δύσκολο είναι να βρεθούν προβλήματα που είναι πραγματικά απαιτητικά, όχι απλώς «καινούρια».

Πρακτικό take: πού βοηθάει έναν WordPress dev σήμερα

Αν δουλεύεις επαγγελματικά με WordPress (plugins, custom blocks, integrations), το WP-Bench μπορεί να λειτουργήσει σαν κοινή γλώσσα για να συγκρίνεις assistants και μοντέλα με μετρήσιμο τρόπο. Ειδικά ο άξονας Execution είναι αυτό που λείπει από πολλά “AI evals”: να αποδεικνύεται ότι το output είναι εκτελέσιμο, ασφαλές και συμβατό μέσα σε πραγματικό WordPress περιβάλλον.

Παράλληλα, αν ο στόχος για δημόσιο leaderboard προχωρήσει, θα υπάρχει μια πιο ξεκάθαρη εικόνα για το πώς στέκονται τα μοντέλα σε tasks που μας καίνε καθημερινά (hooks, nonces, escaping/sanitization, σωστή χρήση WP APIs) χωρίς να βασιζόμαστε σε εντυπώσεις.