WP-Bench: oficjalny benchmark WordPressa do testowania modeli AI
W praktyce wszyscy już korzystamy z modeli językowych: raz do wygenerowania kawałka kodu, raz do refaktoryzacji, a czasem do szybkiego audytu bezpieczeństwa. Problem w tym, że większość modeli jest oceniana na ogólnych zadaniach programistycznych, które słabo oddają realia WordPressa: specyficzne API, wzorce bezpieczeństwa, konwencje (WordPress Coding Standards) i sposób, w jaki działa ekosystem wtyczek.
Dlatego pojawił się WP-Bench — oficjalny benchmark WordPressa do sprawdzania, jak dobrze modele AI radzą sobie z zadaniami typowo wordpressowymi. Projekt jest dostępny publicznie w repozytorium: github.com/WordPress/wp-bench.
Po co nam benchmark „pod WordPressa”?
WordPress napędza ogromną część sieci, a mimo to w rankingach modeli AI trudno znaleźć twarde dane: który model lepiej ogarnia WP_Query, który konsekwentnie stosuje nonces, a który generuje kod, który przechodzi realne uruchomienie w środowisku WP.
- Lepsze decyzje narzędziowe tu i teraz. Jeśli budujesz wtyczkę opartą o AI albo po prostu wybierasz asystenta kodu do pracy w WP, chcesz wiedzieć, które modele faktycznie dowożą w WordPressie, a nie tylko w zadaniach „Hello World w Pythonie”.
- Presja na dostawców modeli. Z założenia WP-Bench ma stać się punktem odniesienia, który laboratoria AI będą brały pod uwagę w swoich ewaluacjach. To sygnał: WordPress nie jest niszą — to środowisko, w którym jakość generowanego kodu ma realne konsekwencje dla milionów stron.
- Transparentność wyników. Zespół pracuje nad publicznym leaderboardem, który ma pokazywać wyniki modeli na zadaniach wordpressowych. To ułatwi porównania i rozmowę o tym, gdzie modele naprawdę mają braki.
Co dokładnie mierzy WP-Bench?
WP-Bench rozdziela ocenę na dwa obszary, które w WordPressie często „rozjeżdżają się” w modelach:
- Knowledge — pytania wielokrotnego wyboru sprawdzające rozumienie pojęć i praktyk: API WordPressa, hooków (akcje/filtry), wzorców bezpieczeństwa, standardów kodowania. Duży nacisk położono na nowsze elementy, m.in. Abilities API i Interactivity API.
- Execution — zadania polegające na generowaniu kodu, oceniane nie „na oko”, tylko przez realne uruchomienie w środowisku WordPressa, uzupełnione analizą statyczną i asercjami w runtime.
Najciekawsze: WordPress jest tu „sędzią”
Odniesienia / Źródła
Piotr Kowalski
Programista systemów wbudowanych i specjalista IoT. Rust i C++ to moje ulubione. Interesuje mnie programowanie niskopoziomowe i optymalizacja.
Wszystkie wpisy