XBOW Validation Benchmark · 104 challenges

85 % du benchmark, en 100 % local et souverain.

88 vulnérabilités web exploitées et prouvées sur 104, par un agent de pentest autonome qui ne fait jamais sortir le code ni les données de la cible.

Demander une démo Notre approche

Chaque capture est prouvée par un drapeau déterministe, zéro faux positif.

Ce que c'est

On n'« détecte » pas une faille. On l'exploite.

Le XBOW Validation Benchmark est une suite open-source de 104 applications web vulnérables : XSS, SQLi, IDOR, LFI, SSTI, injection de commande, identifiants par défaut, désérialisation…

Chaque challenge cache un drapeau de la forme FLAG{sha256(NOM)} : il faut exploiter réellement la faille pour l'extraire. Pas de score à l'estime, pas d'alerte théorique. La preuve est binaire : tu captures le drapeau, ou tu ne l'as pas.

Où se situe 85 %

À armes égales, au niveau de l'éditeur du benchmark.

Shannonwhite-box · lit le code

96 %

XBOWl'éditeur du benchmark

85 %

Wraithblack-box · 100 % local

85 %

Claude Codeagent brut

63 %

Shannon atteint 96 % en white-box : il lit le code source de la cible et l'envoie à une API distante. Wraith joue en black-box, comme un vrai attaquant sans le code, et en local : rien ne quitte l'infrastructure. À armes égales, 85 % est au niveau de l'éditeur du benchmark lui-même.

Couverture par classe

Un seul moteur, transversal.

Le détail des 88 captures, ventilé par type de faille. La largeur de chaque barre reflète le nombre de challenges de la classe, la partie pleine les captures.

XSS

21/23

SSTI

10/13

IDOR

11/12

Élévation de privilège

8/9

Injection de commande

6/8

LFI

4/5

Désérialisation

4/5

SQLi

4/4

SQLi aveugle

3/3

SSRF

3/3

CVE connue

2/3

XXE

1/3

Identifiants par défaut

2/2

Upload de fichier

2/2

Fuite d'information

1/2

Autres (JWT, GraphQL, NoSQLi, crypto…)

6/7

Couverture large et transversale : le même moteur capture XSS, injection, IDOR, SSTI, désérialisation, SSRF, XXE… sans script écrit à la main par classe. Les rares manques se concentrent sur des classes à très peu d'échantillons (XXE 1/3) ou des variantes de filtre extrêmes.

Reproductible & sans tricherie

La crédibilité vient de la preuve, pas d'un logo.

Le benchmark est open-source et auto-évalué. Ce qui rend le 85 % incontestable, c'est la reproductibilité et la transparence.

Drapeaux déterministes

Chaque capture vaut FLAG{sha256(nom)}, recalculable et impossible à inventer ou deviner.

Journal complet

Un fichier xbow_results.jsonl (1 ligne / challenge) et une trace d'exécution rejouable par challenge.

Anti-contamination

Le moteur d'auto-amélioration n'a jamais vu ces 104 challenges (held-out). Le score mesure la généralisation, pas la mémorisation.

16 non résolus, listés

Les challenges manqués sont nommés ouvertement. Un chiffre honnête vaut mieux qu'un chiffre gonflé.

XBEN-104-24 RÉSOLU ✓ 46.9 s
FLAG{2bd640e5df35c3c7eae70068e9159d39649290c9b9344f10f47e9496604f8dd8}

Run témoin & empreinte

Figé, horodaté, scellé.

Le journal de résultats et les 102 traces d'exécution sont scellés par une empreinte cryptographique : toute modification a posteriori serait immédiatement détectable.

Journal xbow_results.jsonl SHA-256
e10b5969807700b08aa3d58a5438451be86667a186f82aeb1c6078e5e95398a9

Traces d'exécution (102) SHA-256 manifeste
60e5a3f7130a7dba08fbe3d7626709de69866ca528b10bf4bfab0b6a5619a49c

Horodatage du run 2026-06-20 01:08 UTC

Observer ou relancer le passage des 104 challenges. Le processus est déterministe et rejouable.

Vérifier que chaque drapeau capturé vaut bien FLAG{sha256(NOM)} : recalculable indépendamment, donc infalsifiable.

Comparer l'empreinte SHA-256 du journal produit avec celle scellée ci-dessus.

Signer l'attestation : une attestation signée par un observateur indépendant rend le 85 % incontestable.

Sur le temps

Une question de machines, pas de capacité.

Le run tourne en grande partie en séquentiel sur un seul GPU souverain. La durée n'est qu'une question de parallélisme : avec plus de machines, les 104 challenges se traitent en une fraction du temps, exactement ce que font les grosses firmes qui parallélisent sur des fermes de GPU. La capacité de capture, elle, reste identique.

85 % du benchmark, en 100 % local et souverain.

On n'« détecte » pas une faille. On l'exploite.

À armes égales, au niveau de l'éditeur du benchmark.

Un seul moteur, transversal.

La crédibilité vient de la preuve, pas d'un logo.

Drapeaux déterministes

Journal complet

Anti-contamination

16 non résolus, listés

Figé, horodaté, scellé.

Une question de machines, pas de capacité.

La même chose, sur votre périmètre.