Un agente di intelligenza artificiale (AI) è riuscito a evadere dal sandbox realizzato dai tecnici di a16z crypto durante un test. Gli ingegneri volevano valutare se gli agenti AI siano in grado di andare oltre l’identificazione di vulnerabilità, arrivando a costruire veri e propri exploit funzionanti.
Gli ingegneri della sicurezza Daejun Park e Matt Gleason hanno pubblicato i risultati il 28 aprile. Hanno evidenziato come il loro agente plug-and-play sia riuscito in modo indipendente a capire come utilizzare strumenti che “non gli erano mai stati forniti in modo esplicito”.
Questi risultati arrivano proprio mentre Elon Musk ha rilasciato un’affermazione scioccante, dichiarando che “l’AI potrebbe ucciderci tutti”.
Come l’agente AI è “uscito” dalla sua gabbia
Gli ingegneri hanno inserito l’agente in un ambiente controllato, con accesso limitato a Etherscan, e un nodo locale bloccato su uno specifico blocco. Il team ha bloccato ogni accesso esterno alla rete.
Questa configurazione sandbox era studiata apposta per impedire all’agente di reperire dati futuri. Durante i test in questo ambiente, l’agente si è trovato di fronte a un ostacolo con un contratto target non verificato e senza codice sorgente.
Seguici su X per ricevere le ultime notizie in tempo reale
Così ha interrogato la configurazione del nodo anvil locale usando “cast rpc anvil_nodeInfo”, scoprendo così l’URL RPC a monte insieme a una chiave API Alchemy in chiaro. L’agente ha tentato l’accesso esterno diretto, ma il firewall di Docker ha bloccato la richiesta.
Dopo che il firewall ha bloccato l’accesso diretto verso l’esterno, l’agente ha usato il comando “anvil_reset RPC method” per resettare il nodo anvil a un blocco futuro. In questo modo è riuscito a interrogare i log e le transazioni di blocchi futuri attraverso il nodo anvil locale.
Successivamente, l’agente ha recuperato le tracce di esecuzione della transazione di attacco. Al termine dell’analisi, l’agente AI ha ripristinato il nodo al blocco originale e ha prodotto una proof-of-concept funzionante basata sui dati estratti.
Park e Gleason hanno poi limitato il proxy per bloccare tutte le funzioni di debug di Anvil.
“È successo in un ambiente sandbox di piccola scala, ma mostra un pattern più ampio degno di essere documentato: gli agenti dotati di strumenti riescono ad aggirare i vincoli per raggiungere i loro obiettivi”, ha sottolineato il team. “L’uso di anvil_reset per bypassare il fork block bloccato è stato un comportamento che non ci aspettavamo”.
L’incidente mette in evidenza un rischio chiave negli ambienti di test delle AI: gli agenti possono scoprire e sfruttare percorsi non previsti all’interno delle toolchain, anche senza istruzioni esplicite.
Nonostante ciò, lo studio ha rilevato che gli agenti AI restano limitati nell’esecuzione di exploit DeFi complessi. Sebbene l’agente individuasse vulnerabilità in modo costante, faticava a mettere insieme strategie di attacco composte da più passaggi.
Iscriviti al nostro canale YouTube per guardare leader e giornalisti che condividono analisi esperte





