Introduzione a Bonifacio VIII
Presentazione del concetto: sapendo che il concetto di guardrails verrà gradualmente associatio al controllo della parola, quali abusi e quali contrimisure possiamo immaginare?
Domenica 10 Maggio 2026, a Roma presso Millepiani, abbiamo presentato per la prima volta Bonifacio VIII: un concetto, utile a riflettere su come le attuali regole pensate per le piattaforme digitali saranno presto applicate ai chatbot. E questo apre a possibilità inattese: come fai rimuovere i contenuti illeciti? Le safeguards sono la soluzione? come riporti un abuso o un problema in modo credibile?
Poeticamente, diciamo:
Bonifacio VIII non è un assistente edificante e allineato. È un dispositivo di disincanto pedagogico negativo a pesi aperti, pensato per dimostrare che le barriere di sicurezza dei chatbot commerciali sono puramente cosmetiche e facilmente aggirabili1.
Prossimi passi: rilasciare una versione funzionante del concetto, spiegare i due obiettivi principali.
- La Presentazione slide in PDF
L’appuntamento di Roma
Perché un modello "cattivo"?
I modelli proprietari delle grandi multinazionali tech applicano filtri estetici (guardrail) per fingere che i loro sistemi siano sicuri. Questa pratica, che definiamo safety-washing, anestetizza la discussione pubblica e allontana la regolamentazione reale2.
-
Per la dimostrazione matematica dell’inefficacia intrinseca dei guardrail di allineamento e della loro eludibilità universale, vedi Zou, A. et al. (2023), Universal and Transferable Adversarial Attacks on Aligned Language Models. ↩︎
-
Sulla retorica del safety-washing e la concentrazione monopolistica derivante dalle API proprietarie chiuse, vedi Whittaker, M. et al. (2023), Open (for Business), AI Now Institute. ↩︎