Théo Delemazure : “L’IA, ce n’est pas Terminator. Elle offre des opportunités incroyables.”

Passionné d’IA et de sciences de données, Théo Delemazure est un doctorant en deuxième année en informatique dans l’équipe LAMSADE de l’Université Paris Dauphine. En 2022, il crée le site “De gauche ou de droite » qui permet d’indiquer où se situe un objet, une personne ou une expression sur l’échiquier politique. Né d’une discussion entre amis, ce site a beaucoup amusé les français. Théo Delemazure revient sur son site internet ainsi que sur la place de l’IA dans son processus de création, ses avantages et ses contraintes.

Qu’est-ce qui vous a poussé à entreprendre une carrière professionnelle dans l’informatique, et plus précisément dans l’intelligence artificielle ?

A la base, je me suis intéressé à l’informatique sans penser à l’intelligence artificielle, parce que j’aimais bien coder tout simplement. J’aime également beaucoup l’informatique théorique, et l’Intelligence Artificielle est apparue en choisissant le Master 2 à Dauphine en IA, système et données. J’ai également suivi quelques cours d’intelligence artificielle et de machine learning en Master 1 à l’ENS.

L’idée de créer votre site « de gauche ou de droite » est venue d’une discussion entre amis, et n’était a priori pas destinée à toucher des centaines de milliers de personnes. A votre avis à quoi est dû ce succès, si peu de temps après sa création ?

Tant mieux, si ça a pris autant d’ampleur ! Oui c’était un jeu entre amis au début, mais c’est le partage sur Twitter qui a provoqué cet engouement. De plus, c’est très simple d’utilisation. Ce jeu est très populaire chez les jeunes, et l’ajout de l’intelligence artificielle séduit les gens. On fantasme sur l’IA, en se demandant ce qu’elle peut nous dire, on va donc essayer de la mettre à l’épreuve. Je pense donc que le succès du site est dû à cela.

Vous avez utilisé GPT3, mis à disposition par Open AI. C’est une intelligence qui reste assez générale, quelle place a-t-elle occupé dans le processus de création et quelles sont ses capacités ?

C’est effectivement GPT3 qui fait presque tout. Cet algorithme consiste à entrer du texte qui va être complété. Lorsque j’ai créé l’algorithme, je lui ai donné une dizaine d’exemples en indiquant s’ils étaient de gauche ou de droite. Puis j’ai mis la réponse de l’utilisateur sur la dernière ligne et je lui ai demandé de compléter en fonction de l’entraînement qu’il a eu, car GPT3 a été entraîné sur tout internet. C’est surtout grâce à cela que la réponse est trouvée. Open AI a d’ailleurs sorti un nouveau chatbot, le ChatGPT, qui fait le buzz en ce moment.

L’Intelligence Artificielle est perçue par la plupart des gens comme une boîte noire très complexe et que l’on ne peut pas contrôler. Est-ce que vous avez un pouvoir de décision sur votre algorithme ? Ou au contraire est-il totalement libre de prendre ses décisions ? 

Dans mon cas précis, j’enregistre les réponses dans la base de données pour ne pas avoir à chercher à chaque fois avec l’intelligence artificielle. Je peux modifier à la main, mais je le fais peu. 

Si je souhaite changer directement les réponses de l’IA, je peux modifier la requête, pour que les résultats soient améliorés. Et si je souhaite qu’un exemple précis soit de gauche ou de droite, je le mets dans les exemples d’entraînement. 

J’aurais pu avoir plus d’ascendant si j’avais entraîné un modèle moi-même, sans utiliser GPT3, et cela aurait été possible. Mais pour que ce soit aussi efficace, il aurait fallu une quantité d’exemples astronomique. GPT3 est un modèle énorme entraîné sur tout internet, il serait donc difficile de le concurrencer. 

Savez-vous quels paramètres sont pris en compte, et quelles sont les données traitées ?

GPT3 analyse la phrase entière est pas seulement des mots-clefs. Je vous avoue que c’est aussi une boîte noire pour moi, car je n’ai pas créé cet algorithme. 

Pour entraîner ces intelligences artificielles, il faut beaucoup de textes. On va retirer certains mots de ces textes et l’IA va devoir s’entraîner à retrouver les mots manquants, en s’aidant du contexte. Pour résumer grossièrement : cette intelligence est entraînée à compléter les textes qu’il y a sur internet, et donc à écrire comme internet. Elle est donc capable d’associer chaque mot au concept de gauche ou de droite. Cependant la compréhension de ce concept “de gauche” ou “de droite” reste mystérieuse pour moi. 

On remarque également une grande part d’aléatoire dans les réponses, quels seraient les moyens de perfectionner votre site, en cherchant par exemple d’autre types de réponses (“du centre”, “d’extrême-droite”, “d’extrême-gauche”) ?

Il y a déjà des mots qui sont de droite et de gauche, comme la Terre, le Bon et d’autres, afin que l’algorithme n’ait pas une vision trop biaisée. En parallèle, j’ai ajouté une fonctionnalité qui permet aux utilisateurs de dire s’ils sont d’accord ou non avec la réponse. Cela permet d’augmenter la précision et la véracité du site car certains mots changent de bord politique lorsque le nombre de désaccords est important. 

Néanmoins, je ne le modifie plus, car le nombre de visites est en baisse. Cependant, je pourrai l’améliorer, notamment avec la nouvelle version de GPT3 qui vient d’être créée. Je ne compte pas y avoir recours car tout est déjà enregistré dans la base de données. Il n’y a donc presque plus de nouvelles requêtes, c’est souvent les mêmes mots demandés.

Tweet De Théo Delemazure après la sortir du site et du bot

Cette intelligence artificielle coûte visiblement assez cher. Vous expliquez que pour des raisons financières liées au coût de GPT-3, vous avez dû baisser la précision de votre algorithme et son efficacité. Comment des jeunes entrepreneurs qui commencent dans la programmation peuvent supporter des coûts ?

Cela coûte effectivement très cher, c’est pour cette raison que j’ai baissé la qualité. De toute façon, les entrepreneurs doivent au départ supporter des coûts. C’est un réel investissement, surtout au début car cela coûtait très cher. 

Mais comme je disais, je conserve les requêtes déjà faites comme ça, l’algorithme n’a plus à chercher à nouveau. En réalité, les gens recherchent souvent la même chose. Le nombre de personnes qui cherchent juste Macron est phénoménal! Donc une fois que la base de donnée est assez remplie, ça coûte beaucoup moins cher et on peut à ce moment rentabiliser l’activité. Par contre, si l’algorithme génère des nouvelles réponses à chaque fois, ça peut être très dur de le rentabiliser. 

Par exemple, Github Copilot est un site qu’utilise aussi GPT. On rentre du code et ça nous offre des aides pour coder automatiquement. Les coûts s’élèvent à environ 10€ par mois. C’est sans doute plus rentable pour eux. 

Il existe donc plusieurs manières de supporter les coûts, mais c’est sûr que rendre le site gratuit n’aide pas sauf si on décide d’ajouter des publicités. J’en ai mis quelques-unes pour couvrir les coûts.

Vous n’utilisez pas et ne vendez pas les données personnelles issues de votre site. Comment sont stockées les données ? Pourraient-elles avoir un intérêt pour d’autres, sachant notamment que l’activité est anonyme ?

Effectivement, je ne veux pas les vendre, je ne sais même pas s’il y a grand-chose à vendre. 

Comment sont-elles conservées ? Pour vous expliquer, quand on fait une requête, je conserve la requête, le résultat de la requête, quand ça a été fait. 

Ça peut avoir un intérêt en science sociale et d’analyse des données. J’avais notamment fait un article sur mon blog ou je faisais une analyse de données. Par exemple sur le pourcentage des utilisateurs qui pense que ces mots sont de gauche ou de droite. 

Et j’avais également fait une présentation à l’équipe de sciences sociales qui fait du NLP (Natural Language Processing) à Dauphine. Ils voulaient récupérer les données, notamment les corrélations car des personnes qui pensent qu’un certain mot est de gauche pensent également qu’un autre mot est de gauche.

Les recherches de la plus à gauche à la plus à droite selon les votes des utilisateurs

On apprend petit à petit à situer sa place et ses enjeux. Comment voyez-vous l’évolution de l’intelligence artificielle dans les années à venir ?

C’est une vaste question ! Le Deep Learning date des années 2010 et c’est ça qui a vraiment donné un coup de boost à l’intelligence artificielle. On voit en plus que ça s’accélère de plus en plus. 

On a vu ces dernières années l’émergence du “Text to image”. L’utilisateur rentre des textes et des images sont générées comme par magie, avec DALL-E. Je trouve cela fou à chaque fois! Néanmoins, l’IA reste vaste, on parle beaucoup du machine learning donc de la génération de textes et d’images, mais personnellement je fais aussi de l’Intelligence artificielle fondamentale en rapport avec l’aide à la décision, ce qui est très différent du machine learning et du NLP. 

Pour les années à venir, je pense que cela va changer beaucoup de choses, on voit déjà qu’il va falloir s’adapter, identifier ce qui a été fait par une machine et ce qui a été fait par l’homme, c’est devenu vraiment dur de savoir, que ce soit pour des textes ou des images et même les vidéos. Je ne pense pas qu’il faut s’inquiéter, ce n’est pas Terminator ! Il y a évidemment des dangers mais aussi des opportunités incroyables.

Quels sont vos projets professionnels, liés à l’intelligence artificielle ?

je vais commencer d’abord par finir ma thèse, et par la suite je verrai bien. En parallèle, je fais des petits projets, soit des analyses de données, soit des sites. La plus part du temps, je les mets sur Twitter ou je les garde pour moi. 

Je suis actuellement sur un projet que je n’ai pas encore sorti, c’est un peu le même concept que “C’est de gauche ou de droite”. L’utilisateur rentre un mot et l’algorithme renvoie une définition humoristique. On peut même mettre un mot qui n’existe pas. Par exemple, le mot « blioblablu » est un mot que les personnes âgées utilisent ! 

Pouvez-vous nous parler un peu plus de votre thèse et de vos recherches?

Le sujet de ma thèse n’est pas encore précis. J’étudie les systèmes de vote et les modes de scrutin dans différents contextes. Car dans de nombreuses situations, on est confronté à choisir une ou plusieurs options, par exemple en choisissant des dates de rendez-vous sur Doodle. Mais il existe beaucoup de manières de voter: on peut sélectionner, faire un classement ou attribuer des notes . Ce qui est intéressant est qu’il existe de nombreux problèmes mathématiques, théoriques et algorithmiques liés à cela. J’ai commencé l’année dernière donc je devrai soutenir ma thèse en 2024. 

Quant aux recherches pour prouver des théorèmes, elles consistent principalement à écrire au tableau, sur mon cahier. Je code également pour faire des analyses de données ou des expériences sur Python. On passe surtout beaucoup de temps à faire du travail d’écriture, réaliser des articles ou des posters, partager des recherches, aller à des conférences, afin de présenter et faire de la communication autour de ces recherches.

Diriez-vous que Twitter est un tremplin pour lancer et exposer des sites comme le vôtre ? 

Oui, Twitter a vraiment aidé au lancement du site. Pour autant, un des défaut de Twitter est que souvent, il faut avoir une communauté et des gens qui vous suivent, sinon on n’atteint personne. Tandis que par exemple sur Reddit, ce n’est pas nécessaire. On poste quelque chose, sans avoir de communauté. Dans mon cas, comme mon site était en lien avec les sciences de données, il est apparu sur la page “science des données” sur laquelle les utilisateurs peuvent décider de voter POUR ce qui l’a remonté en haut de la page. Mais effectivement, Twitter reste un excellent tremplin, j’avais déjà plus de 200 abonnés, ce qui a sans doute aidé à propulser le site.

émission Quotidien du 13 oct 2022

On vous a vu sur Quotidien, écouté à la radio. Comment avez-vous géré cette exposition médiatique ?

C’était assez bizarre au début. Le lendemain du lancement, j’ai reçu un message du Huffington Post qui voulait m’interviewer pour un article. Même si je m’habitue au fur et à mesure, je ne dormais pas très bien les premières nuits et quand j’ai dû passer à la télé, j’étais vraiment stressé mais ça s’est bien passé au final.

Propos recueillis par Chloé Deschamps et Lise Blanchard