Opus High Final Handoff Plan¶
Mission¶
Eseguire un ultimo controllo tecnico sul piano di ottimizzazione token e, se lo ritieni corretto, implementarlo in modo graduale senza degradare:
- coverage della superficie di attacco
- numero di finding trovati
- qualità del reasoning
- qualità della verification
- qualità del chaining
- qualità delle evidenze
Fonte di verità¶
Questo documento è il riferimento operativo principale.
Documenti di supporto:
- final-token-optimization-implementation-plan.md
- opus-high-review-response.md
- opus-high-token-optimization-review.md
Decisione architetturale già presa¶
L’ordine corretto del lavoro è questo:
- Misurazione
- Hardening del bug bounty loop
- Split di
skill-boilerplate.md - Budget
max-turnsper skill - Decomposizione POC di
test-injectioncon cross-type signal forwarding - Novelty gate sul proxy analyzer
- Differential rediscovery con safety net di full rediscovery periodico
- Compattazione dispatch/preamble
- Decomposizione delle altre skill pesanti
- Solo infine lane shadow per task deterministici
Cosa è già approvato concettualmente¶
Approved as-is¶
- Misurazione prima di cambiare
- Workspace/search hygiene
- Loop hardening
Approved with conditions¶
- Context slimming
- partire da
skill-boilerplate.md, non daCLAUDE.md - rispettare il meccanismo
supporting-files: -
introdurre
cross-type signal forwardingprima di decomporre le skill -
Skinny context
- non trattarlo come problema di contesto conversazionale
-
ottimizzare invece file caricati e supporting files
-
Differential rediscovery
-
obbligatorio il fallback
force full rediscovery every N cycles -
Proxy analyzer
- novelty gate sì
-
auto_analyze=Falsecome default solo dopo parity o dietro feature flag -
Model routing
- solo lane A subito
- lane B solo in shadow
Non-obiettivi¶
Non devi:
- semplificare la metodologia di test
- ridurre il numero di skill eseguite senza prova di equivalenza
- abbassare il modello nelle fasi critiche
- ottimizzare “a sentimento” senza metrica
- introdurre regressioni pur di risparmiare token
Regole di implementazione¶
Regola 1¶
Ogni macro-fase deve essere:
- implementata in modo isolabile
- protetta da feature flag
- verificabile con metriche locali
- rollbackabile senza effetti collaterali
Regola 2¶
Dopo ogni fase devi fermarti, verificare e decidere se procedere alla successiva.
Regola 3¶
Se una modifica rischia anche moderatamente di ridurre findings o coverage, deve restare in shadow mode fino a parity dimostrata.
Piano implementativo che devi seguire¶
Phase A: Instrumentation¶
Obiettivo¶
Misurare dove vanno i token.
Da implementare¶
- Record JSONL per ogni
claude -p - Classificazione run:
usefulrate_limited_immediaterate_limited_midrundead_run_shorterrorcancelled- Metriche aggiuntive:
supporting_files_countsupporting_files_bytes- Aggregazione locale:
- spawn/hour
- rate-limit ratio
- dead-run ratio
- estimated prompt tax by family
- token per confirmed finding
File target principali¶
- bugbounty/PERPETUAL-HUNTING-LOOP.sh
- bugbounty/loop-manager.sh
- dashboard/runner/runner.py
- dashboard/backend/app/services/proxy_analyzer.py
Feature flag¶
CLAUDE_METRICS=1
Stop gate¶
Non proseguire se non riesci a produrre un baseline numerico leggibile.
Phase B: Bug Bounty Loop Hardening¶
Obiettivo¶
Eliminare spawn storm, run morte e retry inutili in quota esaurita.
Da implementare¶
- Single-instance lock
- Control plane unico
- Cooldown globale su rate limit
- Dead-run classifier
- Quota-aware scheduler
- Runtime separation per prompt dump e log
File target principali¶
- bugbounty/PERPETUAL-HUNTING-LOOP.sh
- bugbounty/loop-manager.sh
- .claude/skills/bb-loop/SKILL.md
- riuso logica da scripts/pentest-autoresume.py
Feature flags¶
BB_LOOP_SINGLETON_LOCK=1BB_GLOBAL_RATE_LIMIT_GUARD=1BB_DEAD_RUN_CLASSIFIER=1BB_RUNTIME_LOG_SEPARATION=1
Stop gate¶
Non proseguire se:
- vedi ancora più orchestratori contemporanei
- partono nuovi
claude -pdurante cooldown - i run morti continuano ad avanzare il loop come run normali
Phase C: Split di skill-boilerplate.md¶
Obiettivo¶
Ridurre il costo statico condiviso da quasi tutte le skill.
Da implementare¶
Dividere skill-boilerplate.md in:
skill-boilerplate-core.mdskill-boilerplate-stealth.mdskill-boilerplate-ratelimit.md- eventuali moduli opzionali:
skill-boilerplate-bugbounty.mdskill-boilerplate-proxy.md
Regola¶
- il core è always-on
- il resto è lazy-load o conditional-load
Feature flags¶
SKILL_BOILERPLATE_SPLIT=1SKILL_LAZY_LOAD=1
Stop gate¶
Non proseguire se il refactor rompe il contratto operativo delle skill /test-*.
Phase D: max-turns Budget per Skill¶
Obiettivo¶
Evitare budget eccessivi dove non servono.
Da implementare¶
Budget per classe:
- deterministic: 80-120
- medium: ~150
- high: 250
- very high: 250+
Regola¶
Non fissare i budget a intuito. Usa i dati raccolti in Phase A.
File target principali¶
Feature flag¶
SKILL_MAX_TURNS_BUDGETING=1
Stop gate¶
Non proseguire se una skill complessa va spesso in exhaustion del nuovo budget e cala la qualità.
Phase E: Decomposizione POC di test-injection¶
Obiettivo¶
Validare il pattern di decomposizione sulla skill più costosa.
Da implementare¶
- Router leggero
- Sub-skill per scope/type
- Supporting files minimali per sub-skill
- Cross-type signal forwarding
- Router che consuma i segnali
Vincolo obbligatorio¶
Il cross-type signal forwarding è necessario prima del rollout, altrimenti c’è rischio di perdita di finding.
File target principali¶
- test-injection/SKILL.md
- nuovi path per sub-skill injection
Feature flags¶
TEST_INJECTION_SPLIT=1CROSS_TYPE_SIGNAL_FORWARDING=1
Stop gate¶
Non proseguire alle altre decomposizioni se questa POC non dimostra parity.
Phase F: Proxy Analyzer Novelty Gate¶
Obiettivo¶
Ridurre il background AI burn del proxy analyzer.
Da implementare¶
- Semantic fingerprint
- Novelty gate
- Keep-list di request sempre interessanti
- Realtime manual analysis sempre disponibile
- Eventuale
auto_analyze=Falsesolo dietro flag o dopo parity
File target principali¶
- dashboard/backend/app/services/proxy_analyzer.py
- dashboard/backend/app/services/proxy_history_service.py
- dashboard/backend/app/schemas.py
Feature flags¶
PROXY_AI_NOVELTY_GATE=1PROXY_AUTO_ANALYZE_DEFAULT_OFF=0
Phase G: Differential Rediscovery¶
Obiettivo¶
Non rifare discovery completa su programmi invariati, ma senza introdurre false negative.
Da implementare¶
- Freshness manifest
- Lightweight delta check
- Reuse baseline se delta basso
- Full rediscovery se delta alto
- Force full rediscovery every N cycles
Vincolo obbligatorio¶
Il fallback periodico di full rediscovery è mandatory.
File target principali¶
- .claude/skills/bb-session/SKILL.md
- .claude/skills/bb-hunt/SKILL.md
- dashboard/backend/app/services/bb_program_knowledge.py
Feature flags¶
BB_DIFFERENTIAL_REDISCOVERY=1BB_FORCE_FULL_REDISCOVERY_EVERY_N=5
Phase H: Dispatch/Preamble Compaction¶
Obiettivo¶
Ridurre altro costo statico ripetuto.
Da implementare¶
- Compattare tabelle di dispatch in config più sintetica
- Centralizzare framing duplicato dei preamble
- Ridurre markdown narrativo dove una config basta
File target principali¶
Feature flag¶
DISPATCH_CONFIG_COMPACTION=1
Phase I: Decomposizione Altre Skill Pesanti¶
Ordine¶
test-authtest-accesstest-llmtest-clienttest-logic
Regola¶
Ogni skill si decompone solo se il pattern POC di test-injection ha passato parity.
Phase J: Lane Shadow per Task Deterministici¶
Obiettivo¶
Fare l’ultimo miglio solo dove il rischio è basso e misurabile.
Da considerare solo in shadow¶
- route normalization
- hashing
- diff manifest
- parsing sitemap/robots
- clustering
Non toccare¶
- exploit reasoning
- verification
- chain discovery
- final acceptance
- stuck resolution
Feature flags globali¶
CLAUDE_METRICS=1BB_LOOP_SINGLETON_LOCK=1BB_GLOBAL_RATE_LIMIT_GUARD=1BB_DEAD_RUN_CLASSIFIER=1BB_RUNTIME_LOG_SEPARATION=1SKILL_BOILERPLATE_SPLIT=1SKILL_LAZY_LOAD=1SKILL_MAX_TURNS_BUDGETING=1TEST_INJECTION_SPLIT=1CROSS_TYPE_SIGNAL_FORWARDING=1PROXY_AI_NOVELTY_GATE=1PROXY_AUTO_ANALYZE_DEFAULT_OFF=0BB_DIFFERENTIAL_REDISCOVERY=1BB_FORCE_FULL_REDISCOVERY_EVERY_N=5DISPATCH_CONFIG_COMPACTION=1
Validation Gates¶
Per ogni phase devi misurare:
- token total
- token per family
- dead-run ratio
- rate-limit ratio
- endpoint coverage
- crown jewel coverage
- findings confirmed
- verification quality
- chain quality
Hard Stop Rules¶
Se anche una sola di queste peggiora in modo reale, ti fermi e non vai avanti:
- findings parity
- endpoint coverage parity
- crown jewel coverage parity
- verification parity
- chain parity
Deliverable attesi da te¶
Deliverable 1¶
Review finale breve:
- approved as-is
- approved with conditions
- risks
- final rollout order
Deliverable 2¶
Implementazione reale solo di:
- Phase A
- Phase B
- Phase C
- Phase D
Deliverable 3¶
Report di verifica post-implementazione con:
- cosa è cambiato
- metriche prima/dopo
- rischi residui
- raccomandazione se procedere a Phase E
Decisione operativa¶
Se ritieni che una fase successiva richieda shadow mode o più guardrail di quanto previsto qui, fermati e proponi l’aggiustamento prima di implementarla.
L’obiettivo non è finire tutto in una volta. L’obiettivo è implementare il massimo risparmio possibile senza intaccare il valore offensivo del progetto.