WP-Bench: oficjalny benchmark WordPressa do testowania modeli AI

W praktyce wszyscy już korzystamy z modeli językowych: raz do wygenerowania kawałka kodu, raz do refaktoryzacji, a czasem do szybkiego audytu bezpieczeństwa. Problem w tym, że większość modeli jest oceniana na ogólnych zadaniach programistycznych, które słabo oddają realia WordPressa: specyficzne API, wzorce bezpieczeństwa, konwencje (WordPress Coding Standards) i sposób, w jaki działa ekosystem wtyczek.

Dlatego pojawił się WP-Bench — oficjalny benchmark WordPressa do sprawdzania, jak dobrze modele AI radzą sobie z zadaniami typowo wordpressowymi. Projekt jest dostępny publicznie w repozytorium: github.com/WordPress/wp-bench.

Po co nam benchmark „pod WordPressa”?

WordPress napędza ogromną część sieci, a mimo to w rankingach modeli AI trudno znaleźć twarde dane: który model lepiej ogarnia WP_Query, który konsekwentnie stosuje nonces, a który generuje kod, który przechodzi realne uruchomienie w środowisku WP.

Lepsze decyzje narzędziowe tu i teraz. Jeśli budujesz wtyczkę opartą o AI albo po prostu wybierasz asystenta kodu do pracy w WP, chcesz wiedzieć, które modele faktycznie dowożą w WordPressie, a nie tylko w zadaniach „Hello World w Pythonie”.
Presja na dostawców modeli. Z założenia WP-Bench ma stać się punktem odniesienia, który laboratoria AI będą brały pod uwagę w swoich ewaluacjach. To sygnał: WordPress nie jest niszą — to środowisko, w którym jakość generowanego kodu ma realne konsekwencje dla milionów stron.
Transparentność wyników. Zespół pracuje nad publicznym leaderboardem, który ma pokazywać wyniki modeli na zadaniach wordpressowych. To ułatwi porównania i rozmowę o tym, gdzie modele naprawdę mają braki.

Co dokładnie mierzy WP-Bench?

WP-Bench rozdziela ocenę na dwa obszary, które w WordPressie często „rozjeżdżają się” w modelach:

Knowledge — pytania wielokrotnego wyboru sprawdzające rozumienie pojęć i praktyk: API WordPressa, hooków (akcje/filtry), wzorców bezpieczeństwa, standardów kodowania. Duży nacisk położono na nowsze elementy, m.in. Abilities API i Interactivity API.
Execution — zadania polegające na generowaniu kodu, oceniane nie „na oko”, tylko przez realne uruchomienie w środowisku WordPressa, uzupełnione analizą statyczną i asercjami w runtime.

WP-Bench: oficjalny benchmark WordPressa do testowania modeli AI

Po co nam benchmark „pod WordPressa”?

Co dokładnie mierzy WP-Bench?

Najciekawsze: WordPress jest tu „sędzią”

Odniesienia / Źródła

Piotr Kowalski

Więcej od Piotr Kowalski

Dołącz do społeczności HelloWP!