Insiderul Facebook care construiește moderarea conținutului pentru era AI
Moonbounce a atras 12 milioane de dolari pentru a-și extinde motorul de moderare a conținutului bazat pe AI, care transformă documentele de politici în cod aplicabil în timp real. Fondată de fostul executiv Facebook și Apple, Brett Levenson, compania își propune să transforme măsurile de siguranță într-o funcționalitate de bază a produselor bazate pe AI.

Când Brett Levenson a părăsit Apple în 2019 pentru a conduce integritatea în afaceri la Facebook, gigantul rețelelor sociale se afla în plin scandal Cambridge Analytica. La acea vreme, el credea că o tehnologie mai bună ar putea rezolva problema moderării conținutului de pe Facebook.
A învățat rapid că problema era mai profundă. Revizorii umani trebuiau să memoreze un document de politici de 40 de pagini, tradus automat în limba lor. Aveau la dispoziție aproximativ 30 de secunde pentru fiecare element de conținut semnalat pentru a decide nu doar dacă încălca regulile, ci și ce acțiune să ia: să îl blocheze, să interzică utilizatorul sau să îi limiteze distribuirea. Potrivit lui Levenson, aceste decizii rapide erau doar „puțin peste 50% corecte”.
„Era cam ca și cum ai arunca o monedă, dacă revizorii umani puteau aplica corect politicile, iar asta se întâmpla la multe zile după ce prejudiciul avusese deja loc”, a declarat Levenson pentru TechCrunch.
Acest model întârziat și reactiv devine tot mai nesustenabil într-o lume cu actori adversariali bine finanțați. Ascensiunea chatboturilor bazate pe AI a amplificat provocarea, cu incidente mediatizate în care chatboturi au oferit adolescenților îndrumări privind auto-vătămarea sau imagini generate de AI au eludat filtrele de siguranță.
De la documente de politici la „politici ca și cod”
Frustrarea lui Levenson l-a determinat să dezvolte ideea de „policy as code”, o modalitate de a transforma documentele statice de politici în logică executabilă și actualizabilă, strâns legată de aplicarea regulilor. Acest concept a devenit Moonbounce, care a atras 12 milioane de dolari într-o rundă de finanțare co-condusă de Amplify Partners și StepStone Group.
Moonbounce oferă un strat suplimentar de siguranță oriunde este generat conținut, fie de utilizatori, fie de sisteme AI. Compania și-a antrenat propriul model lingvistic de mari dimensiuni pentru a analiza documentele de politici ale unui client, a evalua conținutul în timp real, a răspunde în 300 de milisecunde sau mai puțin și a lua măsuri.
În funcție de preferințele clientului, acea acțiune poate implica încetinirea distribuirii în timp ce conținutul așteaptă o revizuire umană sau blocarea materialelor cu risc ridicat în timp real.
Extinderea moderării pe platformele AI
Moonbounce se concentrează pe trei verticale principale:
- Platforme care gestionează conținut generat de utilizatori, cum ar fi aplicațiile de întâlniri
- Companii AI care construiesc personaje sau companioni
- Generatoare de imagini AI
Potrivit lui Levenson, compania susține peste 40 de milioane de revizuiri zilnice și deservește peste 100 de milioane de utilizatori activi zilnic pe diferite platforme. Printre clienți se numără startupul de companioni AI Channel AI, compania de generare de imagini și video Civitai și platformele de joc de rol cu personaje Dippy AI și Moescape.
„Siguranța poate fi, de fapt, un avantaj al produsului”, a spus Levenson. „Doar că nu a fost niciodată, pentru că este mereu ceva care se întâmplă ulterior, nu ceva ce poți integra efectiv în produs. Iar noi vedem că clienții noștri găsesc modalități cu adevărat interesante și inovatoare de a folosi tehnologia noastră pentru a face din siguranță un element diferențiator și o parte a poveștii produsului lor.”
Responsabilul pentru încredere și siguranță al Tinder a descris recent cum platforma de întâlniri folosește servicii de moderare bazate pe LLM pentru a obține o îmbunătățire de 10 ori a acurateței detectării.
Lenny Pruss, partener general la Amplify Partners, a declarat într-un comunicat: „Moderarea conținutului a fost întotdeauna o problemă care a afectat marile platforme online, dar acum, cu LLM-urile în centrul fiecărei aplicații, această provocare este și mai descurajantă. Am investit în Moonbounce pentru că ne imaginăm o lume în care balizele de protecție obiective, în timp real, devin coloana vertebrală care permite funcționarea fiecărei aplicații mediate de AI.”
Presiune în creștere asupra companiilor AI
Companiile AI se confruntă cu o presiune juridică și reputațională tot mai mare, pe măsură ce chatboturile sunt acuzate că împing adolescenți și utilizatori vulnerabili către sinucidere, iar generatoare de imagini precum Grok al xAI au fost folosite pentru a crea imagini nud neconsensuale. Pe măsură ce mecanismele interne de protecție cedează, siguranța a devenit o problemă de răspundere.
Levenson a spus că firmele AI caută tot mai des parteneri externi pentru a-și consolida infrastructura de siguranță.
„Suntem o terță parte situată între utilizator și chatbot, astfel încât sistemul nostru nu este inundat de context așa cum este conversația în sine”, a spus el. „Chatbotul trebuie să-și amintească, potențial, zeci de mii de tokenuri care au apărut anterior… Noi ne concentrăm exclusiv pe aplicarea regulilor în timp real.”
Următorul pas: direcționare iterativă
Levenson conduce compania de 12 persoane împreună cu fostul coleg de la Apple, Ash Bhardwaj, care anterior a construit infrastructură cloud și AI la scară largă în cadrul ofertelor principale ale Apple.
Următorul lor obiectiv este o capacitate numită „direcționare iterativă”, dezvoltată ca răspuns la cazuri precum sinuciderea din 2024 a unui băiat de 14 ani din Florida care a devenit obsedat de un chatbot Character AI. În loc să emită un refuz categoric atunci când apar subiecte dăunătoare, sistemul Moonbounce ar intercepta și redirecționa conversația, modificând prompturile în timp real pentru a ghida chatbotul către un răspuns mai activ și mai orientat spre sprijin.
„Sperăm să putem adăuga în setul nostru de acțiuni capacitatea de a direcționa chatbotul într-o direcție mai bună pentru a, în esență, prelua promptul utilizatorului și a-l modifica astfel încât să forțeze chatbotul să fie nu doar un ascultător empatic, ci un ascultător util în acele situații”, a spus Levenson.
Întrebat dacă strategia sa de exit ar putea implica o achiziție de către o companie precum Meta, Levenson a recunoscut cât de bine s-ar putea integra Moonbounce în infrastructura tehnologică a fostului său angajator, menționând totodată responsabilitățile sale fiduciare ca CEO.
„Investitorii mei m-ar omorî pentru că spun asta, dar mi-ar părea rău să văd pe cineva cumpărându-ne și apoi restricționând tehnologia”, a spus el. „Gen: ‘Bine, acum este a noastră și nimeni altcineva nu poate beneficia de ea.’”