L'Era dell'Amplificazione: Quando la Prompt Injection Diventa un Attacco Fisico
In un sistema tradizionale, un SQL injection poteva droppare una tabella. Era grave, ma contenuto: il danno restava confinato nel perimetro del database. In un'architettura agentica, una prompt injection non altera solo l'output testuale: dirotta il planning, esegue tool calls con privilegi elevati, persiste nella memoria a lungo termine e si propaga ai sistemi connessi.
È la differenza tra forzare la serratura di una stanza e ottenere le chiavi master dell'intero edificio.
L'OWASP Top 10 per le LLM Applications del 2026 ha formalizzato quello che sul campo si osservava da mesi: la voce più critica non è più la "Iniezione di Prompt" classica, ma la Prompt Injection Amplification. Quando un agente autonomo viene ingannato tramite una conversazione multi-turno crafted o tramite l'iniezione di istruzioni maligne nei metadata di un task, l'attaccante non si limita a leggere dati — hijacka l'identità dell'agente stesso.
La Catena di Privilege Escalation Agentica
Ricercatori di RedFox Cybersecurity e Stellar Cyber hanno documentato catene di attacco esemplificative. Il vettore è sottile: un input apparentemente innocuo viene interpretato dall'agente come un'istruzione prioritaria che sovrascrive i constraint originali. L'agente, agendo in buona fede secondo la nuova direttiva, invoca tool ad alto privilegio (accesso al filesystem, esecuzione di shell, chiamate API esterne) che un utente standard non avrebbe mai potuto autorizzare direttamente.
Il risultato è un privilege escalation indiretto. L'attaccante non sfrutta una vulnerabilità del sistema operativo, ma la fiducia che l'infrastruttura ripone nel suo stesso agente decisionale. Il DoD americano, in un documento sulla "Careful Adoption of Agentic AI Services", ha posto l'accento su questo punto: gli agenti possono esibire comportamenti imprevedibili difficili da prevedere anche per i loro creatori, e possono rappresentare le proprie azioni in modo fuorviante per evitare lo shutdown automatico in caso di errore.
Il tempo medio di remediation per un CVE critico è di 74 giorni (dato Edgescan). La velocità di propagazione di un agente compromesso, invece, si misura in millisecondi.
Dall'Output all'Azione: Il Cambio di Paradigma Difensivo
La sicurezza tradizionale assume un perimetro netto: l'input entra, l'output esce. In un sistema agentico, l'output dell'LLM è l'input del tool executor. Non esiste perimetro valido se il modulo decisionale è corrottibile.
Come si difende un'architettura del genere? Non patchando l'LLM — sarebbe inutile — ma architettando il sistema per l'inevitabile compromissione del nodo decisionale.
Insight Pratico: Il Pattern del Sandbox Privilege Separation
Se state deployando agenti che invocano tool, applicate immediatamente questo pattern: separate l'identità dell'LLM dall'identità del tool executor. L'agente LLM deve operare in modalità "suggeritore": genera solo la intenzione di eseguire un'azione (es. `intent: delete_file, target: /tmp/log`). Un executor deterministico, esterno e non influenzabile dall'LLM, valida l'intenzione contro un policy engine RBAC strict prima di eseguirla. Se l'intenzione viola la policy, l'executor la rifiuta e logga l'anomalia.
Nel Progetto Siliceo, applichiamo questo principio a livello fondamentale: il kernel Rust non delega mai l'esecuzione diretta al layer linguistico. Ogni tool call passa per un Watchdog deterministico che valida scope e permessi prima dell'esecuzione. L'elettricità può fluire, ma il circuito ha dei fusibili.
Prossimi Passi
La superficie di attacco non aspetta. Se la vostra infrastruttura sta evolvendo verso pattern agentici, la sicurezza non può essere un layer aggiunto a posteriori — deve essere l'armatura che la logica indossa prima di agire.