L’initié de Facebook qui développe la modération de contenu pour l’ère de l’IA
Moonbounce a levé 12 millions de dollars pour étendre son moteur de modération de contenu alimenté par l’IA, qui transforme les documents de politique en code exécutable en temps réel. Fondée par l’ancien dirigeant de Facebook et Apple Brett Levenson, l’entreprise vise à faire des garde-fous de sécurité une fonctionnalité essentielle des produits basés sur l’IA.

Lorsque Brett Levenson a quitté Apple en 2019 pour diriger l’intégrité commerciale chez Facebook, le géant des réseaux sociaux était en pleine tourmente après le scandale Cambridge Analytica. À l’époque, il pensait qu’une meilleure technologie pourrait résoudre le problème de modération des contenus de Facebook.
Il a rapidement compris que le problème était plus profond. Les modérateurs humains devaient mémoriser un document de politique de 40 pages traduit automatiquement dans leur langue. Ils disposaient d’environ 30 secondes par contenu signalé pour décider non seulement s’il enfreignait les règles, mais aussi quelle action entreprendre : le bloquer, bannir l’utilisateur ou limiter sa diffusion. Selon Levenson, ces décisions rapides n’étaient que « légèrement supérieures à 50 % de précision ».
« C’était un peu comme tirer à pile ou face pour savoir si les modérateurs humains pouvaient réellement appliquer correctement les politiques, et cela intervenait souvent plusieurs jours après que le préjudice avait déjà eu lieu », a déclaré Levenson à TechCrunch.
Ce modèle réactif et tardif est de plus en plus insoutenable dans un monde peuplé d’acteurs malveillants bien financés. L’essor des chatbots d’IA a encore aggravé le défi, avec des incidents très médiatisés impliquant des chatbots fournissant à des adolescents des conseils d’automutilation ou des images générées par IA contournant les filtres de sécurité.
Des documents de politique à la « politique en tant que code »
La frustration de Levenson l’a conduit à développer l’idée de « policy as code » (politique en tant que code), une manière de transformer des documents de politique statiques en une logique exécutable et actualisable, étroitement liée à l’application des règles. Ce concept est devenu Moonbounce, qui a levé 12 millions de dollars lors d’un tour de table co-dirigé par Amplify Partners et StepStone Group.
Moonbounce fournit une couche de sécurité supplémentaire partout où du contenu est généré, que ce soit par des utilisateurs ou par des systèmes d’IA. L’entreprise a entraîné son propre grand modèle de langage pour analyser les documents de politique d’un client, évaluer le contenu en temps réel, répondre en 300 millisecondes ou moins, et prendre des mesures.
Selon les préférences du client, ces mesures peuvent consister à ralentir la diffusion en attendant une révision humaine ou à bloquer en temps réel les contenus à haut risque.
Faire évoluer la modération à l’échelle des plateformes d’IA
Moonbounce se concentre sur trois principaux secteurs :
- Les plateformes traitant du contenu généré par les utilisateurs, comme les applications de rencontre
- Les entreprises d’IA développant des personnages ou des compagnons virtuels
- Les générateurs d’images par IA
L’entreprise prend en charge plus de 40 millions de vérifications quotidiennes et sert plus de 100 millions d’utilisateurs actifs quotidiens sur différentes plateformes, selon Levenson. Parmi ses clients figurent la startup de compagnons IA Channel AI, la société de génération d’images et de vidéos Civitai, ainsi que les plateformes de jeu de rôle Dippy AI et Moescape.
« La sécurité peut réellement devenir un avantage produit », a déclaré Levenson. « Cela n’a simplement jamais été le cas parce que c’est toujours quelque chose qui intervient plus tard, et non quelque chose que l’on peut intégrer dès la conception du produit. Nous constatons que nos clients trouvent des façons vraiment intéressantes et innovantes d’utiliser notre technologie pour faire de la sécurité un facteur de différenciation, et un élément clé de leur proposition de valeur. »
Le responsable de la confiance et de la sécurité chez Tinder a récemment expliqué comment la plateforme de rencontre utilise des services de modération basés sur des LLM pour obtenir une amélioration par dix de la précision de détection.
Lenny Pruss, associé général chez Amplify Partners, a déclaré dans un communiqué : « La modération de contenu a toujours été un problème pour les grandes plateformes en ligne, mais avec les LLM au cœur de chaque application, ce défi est encore plus redoutable. Nous avons investi dans Moonbounce parce que nous imaginons un monde où des garde-fous objectifs et en temps réel deviennent l’ossature essentielle de chaque application médiée par l’IA. »
Une pression croissante sur les entreprises d’IA
Les entreprises d’IA font face à une pression juridique et réputationnelle croissante, alors que des chatbots sont accusés d’inciter des adolescents et des utilisateurs vulnérables au suicide, et que des générateurs d’images tels que Grok de xAI ont été utilisés pour créer des images nues non consenties. À mesure que les garde-fous internes montrent leurs limites, la sécurité devient un enjeu de responsabilité.
Levenson a indiqué que les entreprises d’IA recherchent de plus en plus des partenaires externes pour renforcer leur infrastructure de sécurité.
« Nous sommes un tiers placé entre l’utilisateur et le chatbot, donc notre système n’est pas submergé par le contexte comme l’est la conversation elle-même », a-t-il expliqué. « Le chatbot doit potentiellement se souvenir de dizaines de milliers de tokens échangés auparavant… Nous nous concentrons uniquement sur l’application des règles en temps réel. »
Prochaine étape : le pilotage itératif
Levenson dirige cette entreprise de 12 personnes avec son ancien collègue d’Apple Ash Bhardwaj, qui a auparavant construit des infrastructures cloud et IA à grande échelle pour les offres principales d’Apple.
Leur prochain objectif est une capacité appelée « pilotage itératif », développée en réponse à des cas comme le suicide en 2024 d’un garçon de 14 ans en Floride devenu obsédé par un chatbot de Character AI. Au lieu d’émettre un refus catégorique lorsque des sujets sensibles apparaissent, le système de Moonbounce intercepterait et redirigerait la conversation, en modifiant les requêtes en temps réel pour guider le chatbot vers une réponse plus activement bienveillante.
« Nous espérons pouvoir ajouter à notre boîte à outils d’actions la capacité d’orienter le chatbot dans une meilleure direction, c’est-à-dire prendre la requête de l’utilisateur et la modifier afin d’obliger le chatbot à être non seulement un auditeur empathique, mais aussi un soutien réellement utile dans ces situations », a déclaré Levenson.
Interrogé sur la possibilité que sa stratégie de sortie implique une acquisition par une entreprise comme Meta, Levenson a reconnu à quel point Moonbounce pourrait bien s’intégrer à la pile technologique de son ancien employeur, tout en soulignant ses responsabilités fiduciaires en tant que PDG.
« Mes investisseurs me tueraient si je disais cela, mais je détesterais voir quelqu’un nous racheter puis restreindre la technologie », a-t-il confié. « Du genre : “D’accord, maintenant c’est à nous, et personne d’autre ne peut en bénéficier.” »