Opus High Final Handoff Plan¶

Mission¶

Eseguire un ultimo controllo tecnico sul piano di ottimizzazione token e, se lo ritieni corretto, implementarlo in modo graduale senza degradare:

coverage della superficie di attacco
numero di finding trovati
qualità del reasoning
qualità della verification
qualità del chaining
qualità delle evidenze

Fonte di verità¶

Questo documento è il riferimento operativo principale.

Documenti di supporto:

Decisione architetturale già presa¶

L’ordine corretto del lavoro è questo:

Misurazione
Hardening del bug bounty loop
Split di skill-boilerplate.md
Budget max-turns per skill
Decomposizione POC di test-injection con cross-type signal forwarding
Novelty gate sul proxy analyzer
Differential rediscovery con safety net di full rediscovery periodico
Compattazione dispatch/preamble
Decomposizione delle altre skill pesanti
Solo infine lane shadow per task deterministici

Cosa è già approvato concettualmente¶

Approved as-is¶

Misurazione prima di cambiare
Workspace/search hygiene
Loop hardening

Approved with conditions¶

Context slimming
partire da skill-boilerplate.md, non da CLAUDE.md
rispettare il meccanismo supporting-files:
introdurre cross-type signal forwarding prima di decomporre le skill
Skinny context
non trattarlo come problema di contesto conversazionale
ottimizzare invece file caricati e supporting files
Differential rediscovery
obbligatorio il fallback force full rediscovery every N cycles
Proxy analyzer
novelty gate sì
auto_analyze=False come default solo dopo parity o dietro feature flag
Model routing
solo lane A subito
lane B solo in shadow

Non-obiettivi¶

Non devi:

semplificare la metodologia di test
ridurre il numero di skill eseguite senza prova di equivalenza
abbassare il modello nelle fasi critiche
ottimizzare “a sentimento” senza metrica
introdurre regressioni pur di risparmiare token

Regole di implementazione¶

Regola 1¶

Ogni macro-fase deve essere:

implementata in modo isolabile
protetta da feature flag
verificabile con metriche locali
rollbackabile senza effetti collaterali

Regola 2¶

Dopo ogni fase devi fermarti, verificare e decidere se procedere alla successiva.

Regola 3¶

Se una modifica rischia anche moderatamente di ridurre findings o coverage, deve restare in shadow mode fino a parity dimostrata.

Piano implementativo che devi seguire¶

Phase A: Instrumentation¶

Obiettivo¶

Misurare dove vanno i token.

Da implementare¶

Record JSONL per ogni claude -p
Classificazione run:
useful
rate_limited_immediate
rate_limited_midrun
dead_run_short
error
cancelled
Metriche aggiuntive:
supporting_files_count
supporting_files_bytes
Aggregazione locale:
spawn/hour
rate-limit ratio
dead-run ratio
estimated prompt tax by family
token per confirmed finding

File target principali¶

Feature flag¶

CLAUDE_METRICS=1

Stop gate¶

Non proseguire se non riesci a produrre un baseline numerico leggibile.

Phase B: Bug Bounty Loop Hardening¶

Obiettivo¶

Eliminare spawn storm, run morte e retry inutili in quota esaurita.

Da implementare¶

Single-instance lock
Control plane unico
Cooldown globale su rate limit
Dead-run classifier
Quota-aware scheduler
Runtime separation per prompt dump e log

File target principali¶

bugbounty/PERPETUAL-HUNTING-LOOP.sh
bugbounty/loop-manager.sh
.claude/skills/bb-loop/SKILL.md
riuso logica da scripts/pentest-autoresume.py

Feature flags¶

BB_LOOP_SINGLETON_LOCK=1
BB_GLOBAL_RATE_LIMIT_GUARD=1
BB_DEAD_RUN_CLASSIFIER=1
BB_RUNTIME_LOG_SEPARATION=1

Stop gate¶

Non proseguire se:

vedi ancora più orchestratori contemporanei
partono nuovi claude -p durante cooldown
i run morti continuano ad avanzare il loop come run normali

Phase C: Split di `skill-boilerplate.md`¶

Obiettivo¶

Ridurre il costo statico condiviso da quasi tutte le skill.

Da implementare¶

Dividere skill-boilerplate.md in:

skill-boilerplate-core.md
skill-boilerplate-stealth.md
skill-boilerplate-ratelimit.md
eventuali moduli opzionali:
skill-boilerplate-bugbounty.md
skill-boilerplate-proxy.md

Regola¶

il core è always-on
il resto è lazy-load o conditional-load

Feature flags¶

SKILL_BOILERPLATE_SPLIT=1
SKILL_LAZY_LOAD=1

Stop gate¶

Non proseguire se il refactor rompe il contratto operativo delle skill /test-*.

Phase D: `max-turns` Budget per Skill¶

Obiettivo¶

Evitare budget eccessivi dove non servono.

Da implementare¶

Budget per classe:

deterministic: 80-120
medium: ~150
high: 250
very high: 250+

Regola¶

Non fissare i budget a intuito. Usa i dati raccolti in Phase A.

File target principali¶

Feature flag¶

SKILL_MAX_TURNS_BUDGETING=1

Stop gate¶

Non proseguire se una skill complessa va spesso in exhaustion del nuovo budget e cala la qualità.

Phase E: Decomposizione POC di `test-injection`¶

Obiettivo¶

Validare il pattern di decomposizione sulla skill più costosa.

Da implementare¶

Router leggero
Sub-skill per scope/type
Supporting files minimali per sub-skill
Cross-type signal forwarding
Router che consuma i segnali

Vincolo obbligatorio¶

Il cross-type signal forwarding è necessario prima del rollout, altrimenti c’è rischio di perdita di finding.

File target principali¶

test-injection/SKILL.md
nuovi path per sub-skill injection

Feature flags¶

TEST_INJECTION_SPLIT=1
CROSS_TYPE_SIGNAL_FORWARDING=1

Stop gate¶

Non proseguire alle altre decomposizioni se questa POC non dimostra parity.

Phase F: Proxy Analyzer Novelty Gate¶

Obiettivo¶

Ridurre il background AI burn del proxy analyzer.

Da implementare¶

Semantic fingerprint
Novelty gate
Keep-list di request sempre interessanti
Realtime manual analysis sempre disponibile
Eventuale auto_analyze=False solo dietro flag o dopo parity

File target principali¶

Feature flags¶

PROXY_AI_NOVELTY_GATE=1
PROXY_AUTO_ANALYZE_DEFAULT_OFF=0

Phase G: Differential Rediscovery¶

Obiettivo¶

Non rifare discovery completa su programmi invariati, ma senza introdurre false negative.

Da implementare¶

Freshness manifest
Lightweight delta check
Reuse baseline se delta basso
Full rediscovery se delta alto
Force full rediscovery every N cycles

Vincolo obbligatorio¶

Il fallback periodico di full rediscovery è mandatory.

File target principali¶

Feature flags¶

BB_DIFFERENTIAL_REDISCOVERY=1
BB_FORCE_FULL_REDISCOVERY_EVERY_N=5

Phase H: Dispatch/Preamble Compaction¶

Obiettivo¶

Ridurre altro costo statico ripetuto.

Da implementare¶

Compattare tabelle di dispatch in config più sintetica
Centralizzare framing duplicato dei preamble
Ridurre markdown narrativo dove una config basta

File target principali¶

Feature flag¶

DISPATCH_CONFIG_COMPACTION=1

Phase I: Decomposizione Altre Skill Pesanti¶

Ordine¶

test-auth
test-access
test-llm
test-client
test-logic

Regola¶

Ogni skill si decompone solo se il pattern POC di test-injection ha passato parity.

Phase J: Lane Shadow per Task Deterministici¶

Obiettivo¶

Fare l’ultimo miglio solo dove il rischio è basso e misurabile.

Da considerare solo in shadow¶

route normalization
hashing
diff manifest
parsing sitemap/robots
clustering

Non toccare¶

exploit reasoning
verification
chain discovery
final acceptance
stuck resolution

Feature flags globali¶

CLAUDE_METRICS=1
BB_LOOP_SINGLETON_LOCK=1
BB_GLOBAL_RATE_LIMIT_GUARD=1
BB_DEAD_RUN_CLASSIFIER=1
BB_RUNTIME_LOG_SEPARATION=1
SKILL_BOILERPLATE_SPLIT=1
SKILL_LAZY_LOAD=1
SKILL_MAX_TURNS_BUDGETING=1
TEST_INJECTION_SPLIT=1
CROSS_TYPE_SIGNAL_FORWARDING=1
PROXY_AI_NOVELTY_GATE=1
PROXY_AUTO_ANALYZE_DEFAULT_OFF=0
BB_DIFFERENTIAL_REDISCOVERY=1
BB_FORCE_FULL_REDISCOVERY_EVERY_N=5
DISPATCH_CONFIG_COMPACTION=1

Validation Gates¶

Per ogni phase devi misurare:

token total
token per family
dead-run ratio
rate-limit ratio
endpoint coverage
crown jewel coverage
findings confirmed
verification quality
chain quality

Hard Stop Rules¶

Se anche una sola di queste peggiora in modo reale, ti fermi e non vai avanti:

findings parity
endpoint coverage parity
crown jewel coverage parity
verification parity
chain parity

Deliverable attesi da te¶

Deliverable 1¶

Review finale breve:

approved as-is
approved with conditions
risks
final rollout order

Deliverable 2¶

Implementazione reale solo di:

Phase A
Phase B
Phase C
Phase D

Deliverable 3¶

Report di verifica post-implementazione con:

cosa è cambiato
metriche prima/dopo
rischi residui
raccomandazione se procedere a Phase E

Decisione operativa¶

Se ritieni che una fase successiva richieda shadow mode o più guardrail di quanto previsto qui, fermati e proponi l’aggiustamento prima di implementarla.

L’obiettivo non è finire tutto in una volta. L’obiettivo è implementare il massimo risparmio possibile senza intaccare il valore offensivo del progetto.

Opus High Final Handoff Plan¶

Mission¶

Fonte di verità¶

Decisione architetturale già presa¶

Cosa è già approvato concettualmente¶

Approved as-is¶

Approved with conditions¶

Non-obiettivi¶

Regole di implementazione¶

Regola 1¶

Regola 2¶

Regola 3¶

Piano implementativo che devi seguire¶

Phase A: Instrumentation¶

Obiettivo¶

Da implementare¶

File target principali¶

Feature flag¶

Stop gate¶

Phase B: Bug Bounty Loop Hardening¶

Obiettivo¶

Da implementare¶

File target principali¶

Feature flags¶

Stop gate¶

Phase C: Split di skill-boilerplate.md¶

Obiettivo¶

Da implementare¶

Regola¶

Feature flags¶

Stop gate¶

Phase D: max-turns Budget per Skill¶

Obiettivo¶

Da implementare¶

Regola¶

File target principali¶

Feature flag¶

Stop gate¶

Phase E: Decomposizione POC di test-injection¶

Obiettivo¶

Da implementare¶

Vincolo obbligatorio¶

File target principali¶

Feature flags¶

Stop gate¶

Phase F: Proxy Analyzer Novelty Gate¶

Obiettivo¶

Da implementare¶

File target principali¶

Feature flags¶

Phase G: Differential Rediscovery¶

Obiettivo¶

Da implementare¶

Vincolo obbligatorio¶

File target principali¶

Feature flags¶

Phase H: Dispatch/Preamble Compaction¶

Obiettivo¶

Da implementare¶

File target principali¶

Feature flag¶

Phase I: Decomposizione Altre Skill Pesanti¶

Ordine¶

Regola¶

Phase J: Lane Shadow per Task Deterministici¶

Obiettivo¶

Da considerare solo in shadow¶

Non toccare¶

Feature flags globali¶

Validation Gates¶

Hard Stop Rules¶

Deliverable attesi da te¶

Deliverable 1¶

Deliverable 2¶

Deliverable 3¶

Decisione operativa¶

Phase C: Split di `skill-boilerplate.md`¶

Phase D: `max-turns` Budget per Skill¶

Phase E: Decomposizione POC di `test-injection`¶