Wat die 16 bugs ons echt vertellen
Beveiliging is een nuttig domein om te bestuderen omdat de feedback ondubbelzinnig is. Een kwetsbaarheid bestaat of bestaat niet. Die helderheid maakt het een goed toetssteen of multi-agent debat echte waarde oplevert of slechts de schijn van grondigheid.
Het MDASH-resultaat zegt dat het echte waarde oplevert. Zestien geverifieerde bevindingen, in één cyclus, op een codebase die decennia lang onder continue professionele controle is geweest. Dat is een betekenisvol signaal.
Voor bureaus is de equivalente toets het vinden van een domein in je eigen werk waar de feedback eveneens ondubbelzinnig is. Waar fout zijn zichtbaar en consequentieel is. Begin daar. Niet met het werk dat het moeilijkst te beoordelen is, maar met het werk waar een mislukking achteraf duidelijk is en waar je nu minder van die mislukkingen vangt dan je weet dat je zou moeten.
Toegang is één kandidaat. Performance budgets een ander. Consistentie tussen een designsysteem en wat eigenlijk in productie terecht komt is een derde. Dit zijn allemaal domeinen waar een multi-agent review dingen zou kunnen oppikken die een enkelvoudige human review mist, en waar de kosten van missen echt zijn.
De breder geldigheid is dit. het meest interessante aan MDASH is niet dat het AI gebruikt. Het is dat het een proces neemt, gestructureerd adversariaal debat, dat mensen hebben uitgevonden en al vertrouwen, en het op een schaal en snelheid uitvoert die verandert wat economisch haalbaar is. Dat is de echte kans. Niet oordeelsvormend vervangen, maar het goedkoper maken om meer ervan toe te passen.