L’insider di Facebook che sta costruendo la moderazione dei contenuti per l’era dell’IA
Moonbounce ha raccolto 12 milioni di dollari per espandere il suo motore di moderazione dei contenuti basato su IA, che trasforma i documenti di policy in codice applicabile in tempo reale. Fondata dall’ex dirigente di Facebook e Apple Brett Levenson, l’azienda mira a rendere le misure di sicurezza una funzionalità centrale dei prodotti guidati dall’IA.

Quando Brett Levenson ha lasciato Apple nel 2019 per guidare l’integrità aziendale di Facebook, il gigante dei social media era nel pieno delle conseguenze dello scandalo Cambridge Analytica. All’epoca, credeva che una tecnologia migliore potesse risolvere il problema della moderazione dei contenuti di Facebook.
Imparò rapidamente che la questione era più profonda. Ai revisori umani veniva richiesto di memorizzare un documento di policy di 40 pagine tradotto automaticamente nella loro lingua. Avevano circa 30 secondi per ogni contenuto segnalato per decidere non solo se violasse le regole, ma anche quale azione intraprendere: bloccarlo, bannare l’utente o limitarne la diffusione. Secondo Levenson, quelle decisioni rapide erano solo “leggermente migliori del 50% di accuratezza”.
“Era un po’ come lanciare una moneta, capire se i revisori umani potessero effettivamente applicare correttamente le policy, e questo avveniva molti giorni dopo che il danno si era comunque già verificato”, ha dichiarato Levenson a TechCrunch.
Quel modello reattivo e tardivo è sempre più insostenibile in un mondo di attori avversari ben finanziati. L’ascesa dei chatbot basati su IA ha ulteriormente aggravato la sfida, con incidenti di alto profilo che hanno coinvolto chatbot che fornivano agli adolescenti indicazioni sull’autolesionismo o immagini generate dall’IA capaci di eludere i filtri di sicurezza.
Dai documenti di policy alla “policy as code”
La frustrazione di Levenson lo ha portato a sviluppare l’idea di “policy as code”, un modo per convertire documenti di policy statici in logiche eseguibili e aggiornabili, strettamente integrate con l’applicazione delle regole. Questo concetto è diventato Moonbounce, che ha raccolto 12 milioni di dollari in un round di finanziamento co-guidato da Amplify Partners e StepStone Group.
Moonbounce fornisce un ulteriore livello di sicurezza ovunque venga generato contenuto, sia dagli utenti sia dai sistemi di IA. L’azienda ha addestrato un proprio modello linguistico di grandi dimensioni per analizzare i documenti di policy dei clienti, valutare i contenuti in fase di esecuzione, rispondere in 300 millisecondi o meno e intervenire.
A seconda delle preferenze del cliente, l’intervento può comportare il rallentamento della distribuzione in attesa di una revisione umana o il blocco in tempo reale dei contenuti ad alto rischio.
Scalare la moderazione sulle piattaforme di IA
Moonbounce si concentra su tre principali verticali:
- Piattaforme che gestiscono contenuti generati dagli utenti, come le app di incontri
- Aziende di IA che sviluppano personaggi o compagni virtuali
- Generatori di immagini basati su IA
Secondo Levenson, l’azienda supporta oltre 40 milioni di revisioni al giorno e serve più di 100 milioni di utenti attivi quotidiani su diverse piattaforme. Tra i clienti figurano la startup di companion IA Channel AI, la società di generazione di immagini e video Civitai e le piattaforme di roleplay con personaggi Dippy AI e Moescape.
“La sicurezza può effettivamente diventare un vantaggio di prodotto”, ha affermato Levenson. “Semplicemente non lo è mai stata perché è sempre qualcosa che accade dopo, non qualcosa che si può realmente integrare nel prodotto. E vediamo che i nostri clienti stanno trovando modi davvero interessanti e innovativi per utilizzare la nostra tecnologia per rendere la sicurezza un elemento distintivo e parte integrante della loro proposta di valore.”
Il responsabile trust and safety di Tinder ha recentemente descritto come la piattaforma di incontri utilizzi servizi di moderazione basati su LLM per ottenere un miglioramento di 10 volte nell’accuratezza del rilevamento.
Lenny Pruss, general partner di Amplify Partners, ha dichiarato in una nota: “La moderazione dei contenuti è sempre stata un problema che affliggeva le grandi piattaforme online, ma ora che gli LLM sono al centro di ogni applicazione, questa sfida è ancora più scoraggiante. Abbiamo investito in Moonbounce perché immaginiamo un mondo in cui guardrail oggettivi e in tempo reale diventino l’ossatura abilitante di ogni applicazione mediata dall’IA.”
Crescente pressione sulle aziende di IA
Le aziende di IA affrontano una pressione legale e reputazionale crescente, mentre i chatbot vengono accusati di spingere adolescenti e utenti vulnerabili verso il suicidio e generatori di immagini come Grok di xAI sono stati utilizzati per creare immagini di nudo non consensuali. Con i guardrail interni che vacillano, la sicurezza è diventata una questione di responsabilità legale.
Levenson ha affermato che le aziende di IA stanno sempre più cercando partner esterni per rafforzare la propria infrastruttura di sicurezza.
“Siamo una terza parte che si colloca tra l’utente e il chatbot, quindi il nostro sistema non è sommerso dal contesto come lo è la chat stessa”, ha spiegato. “Il chatbot deve ricordare, potenzialmente, decine di migliaia di token precedenti… Noi ci preoccupiamo esclusivamente di applicare le regole in fase di esecuzione.”
Prossimo passo: steering iterativo
Levenson guida l’azienda, composta da 12 persone, insieme all’ex collega di Apple Ash Bhardwaj, che in precedenza ha sviluppato infrastrutture cloud e IA su larga scala per le principali offerte di Apple.
Il loro prossimo obiettivo è una funzionalità chiamata “steering iterativo”, sviluppata in risposta a casi come il suicidio nel 2024 di un ragazzo di 14 anni in Florida che si era ossessionato con un chatbot di Character AI. Invece di emettere un rifiuto netto quando emergono argomenti dannosi, il sistema di Moonbounce intercetterebbe e reindirizzerebbe la conversazione, modificando i prompt in tempo reale per guidare il chatbot verso una risposta più attivamente di supporto.
“Speriamo di poter aggiungere al nostro toolkit di azioni la capacità di indirizzare il chatbot in una direzione migliore, prendendo essenzialmente il prompt dell’utente e modificandolo per costringere il chatbot a essere non solo un ascoltatore empatico, ma un ascoltatore utile in quelle situazioni”, ha affermato Levenson.
Alla domanda se la sua strategia di uscita potesse includere un’acquisizione da parte di un’azienda come Meta, Levenson ha riconosciuto quanto bene Moonbounce potrebbe integrarsi nello stack tecnologico del suo ex datore di lavoro, sottolineando al contempo i suoi doveri fiduciari come CEO.
“I miei investitori mi ucciderebbero per averlo detto, ma odierei vedere qualcuno comprarci e poi limitare la tecnologia”, ha dichiarato. “Tipo: ‘Ok, ora è nostra e nessun altro può beneficiarne.’”