Depuis son dévoilement le 30 novembre dernier, pas un jour ne passe sans qu’on entende parler de ChatGPT, l’intelligence artificielle (IA) générative développée par OpenAI – 100 millions d’utilisateurs en deux mois, record de TikTok explosé. Afin d’essayer d’en comprendre les enjeux, prenons un peu de hauteur sur le sujet avec l’expert vulgarisateur Olivier Martinez.

⌛ 8 min de lecture pour nourrir son intelligence non artificielle

Aujourd’hui, on va parler d’un truc dont on n’entend pas du tout parler à longueur de journée (ce qui n’est absolument pas du tout pénible) : l’IA générative. En prenant de la hauteur. 

Si tu cherches des cas d’usages de ChatGPT dans ton quotidien de PM, tu ne trouveras quasi rien dans cet article (mais tu as largement de quoi faire avec une bonne recherche basique sur Google ou Linkedin). Non, on va te raconter comment ça fonctionne au fond… pour t’éviter de faire n’imp’ avec ton produit et tes utilisateurs ! Conception = Responsabilité.

Présent dans le Web depuis une vingtaine d’années, Olivier Martinez est l’ancien directeur produits des médias 01net et telecharger.com (et l’un des premiers acheteurs de notre Roadbook, forcément un gars bien 😅). À 50 piges, il décide il y a deux ans de retourner aux études (master en management des médias et du numérique à Sciences Po) et soutient, en octobre dernier, un mémoire sur l’automatisation de contenus et l’IA générative.

Il constate alors qu’il est en train de se passer quelque chose dans le domaine. Puis ChatGPT est sorti et tu connais la suite de l’histoire… Aujourd’hui, Olivier a créé sa boîte de conseil. À l’origine, il pensait aider les PM à bien appliquer l’IA dans leurs produits… sauf qu’en fait, on lui expose constamment deux besoins : 1) être acculturé à ce qu’est l’IA générative et 2) être accompagné pour faire entrer l’IA dans son entreprise. Une aubaine, c’est aussi nos deux objectifs à travers cette interview !

« Il ne faut pas se laisser aller à de l’anthropomorphisme. La machine ne pense pas comme nous. Elle ne “pense” tout simplement pas. Elle calcule. »

Salut Olivier. Pour être le plus accessible et pédagogique possible, est-ce que tu pourrais commencer par nous rappeler déjà ce qu’est l’intelligence artificielle (IA) et nous préciser la distinction avec le machine learning et l’IA générative ?

Olivier Martinez : Bien sûr. L’IA, c’est l’ensemble des techniques et des machines qui essaient d’imiter les processus cognitifs humains. J’insiste bien sur le mot “imitation”. C’est parfois bluffant mais il ne faut jamais oublier qu’il ne s’agit que d’une imitation. 

Deuxième notion importante à comprendre : l’IA générative n’est pas quelque chose de rationnel mais de probabiliste et de statistique. Elle va décider de la place d’un mot à la suite d’un autre en évaluant la probabilité que le premier suive bien le suivant. Elle va calculer par exemple qu’après “chat”, il y aura “noir”. Mais, pour elle, “chat” et “noir”, c’est la même chose. Une IA n’a aucun bagage culturel.

Pour atteindre le point Godwin dès le début de cette entrevue, “nazi”, c’est comme le mot “lapin” pour une IA. Là encore, il faut toujours le garder en tête et ne pas se laisser aller à de l’anthropomorphisme. La machine ne pense pas comme nous. Elle ne “pense” tout simplement pas. Elle calcule.

Enfin, l’IA ne date pas d’hier. L’expression est utilisée pour la première fois en 1956 par le mathématicien américain John McCarthy. Pour enchaîner sur le machine learning (ou apprentissage machine), il faut distinguer deux formes d’intelligence artificielle.

Lesquelles ?

O.M. : D’une part, il y a l’IA symbolique, très prisée dans les années 1980 et 1990, qui correspond aux règles que des humains donnaient à la machine pour la rendre autonome sur une tâche. Ce qu’on appelle les systèmes experts. Ce système ne se trompe pas mais, problème, il n’est pas adaptatif. Ces règles étaient figées et la machine n’apprenait pas.

D’autre part, il y a l’IA connexionniste qui repose sur la théorie des réseaux de neurones : il s’agit de singer informatiquement le fonctionnement physique du cerveau. Ça a été une révolution car cela permet de faire apprendre des choses à une machine, comme nous en sommes capables en tant qu’être humain.

On parle alors de machine learning. C’est ici aussi qu’intervient le deep learning (ou apprentissage profond) étant donné que, comme pour le cerveau humain, il y a différentes couches de neurones. Le fonctionnement est très simple : tu donnes des données à la machine et elle va t’en sortir des résultats. 

C’est à la fois fascinant et un peu flippant quand même car il y a un petit côté boîte noire : tu ne sais pas très bien comment la machine aboutit à son résultat. Des Data Scientists ou des chercheurs diraient que c’est plus compliqué que cela et qu’il y a des progrès en la matière. Mais, pour vulgariser volontairement, on sait aujourd’hui que le résultat est bon mais, dès qu’on dépasse deux couches de neurones, il est compliqué de savoir comment la machine l’a obtenu.

Toujours est-il que ces avancées ont permis de bosser sur quelque chose qui s’appelle le traitement automatique du langage (Natural Language Processing en anglais). 

Ce qui permet de converser avec une machine en langage naturel, c’est ça ?

O.M. : Exactement. On s’est aperçu que le Deep Learning était capable de créer des grands modèles de langage, appelés des LLM (Large Language Models)… dont GPT est l’exemple le plus connu. Mais il y en a d’autres.

Pour l’anecdote, ces LLM sont dûs à une avancée de Google, en 2017, qui a créé un réseau de neurones spécifiques : les Transformers. À l’origine, c’était pour améliorer les traductions de Google Trads. En effet, jusqu’à présent, les réseaux neuronaux avaient du mal à prendre un contexte assez large pour qu’un mot soit bien interprété dans une phrase. C’était difficile de traduire autrement qu’en faisant du mot à mot… ce qui donnait des résultats assez pourris !

Google a laissé les Transformers en open source et toute la communauté scientifique a pu travailler dessus. Et, de fil en aiguille, les chercheurs se sont rendus compte que ces Transformers étaient très bons non seulement pour dialoguer avec une machine en langage naturel mais aussi pour générer du texte. On en arrive à la naissance de GPT, qui est l’acronyme de Generative Pre-trained… Transformer.

OK, intéressante remise en contexte quand on voit que certains analystes estiment que ChatGPT représente une menace pour Google… Et qu’est-ce que l’IA générative au juste ?

O.M. : C’est une IA qui permet de générer un contenu nouveau (texte, image, vidéo, son), grâce à un processus d’apprentissage. La création qui est faite s’appuie en effet sur des données d’entraînement. Autrement dit, ce que tu lui as donné à manger. Par exemple, si tu apprends à une IA générative toute l’œuvre de Victor Hugo, elle sera en mesure d’écrire “comme” Victor Hugo.

Quand Jean-Noël Barrot, le ministre chargé de la transition numérique dit que ChatGPT n’est qu’un “perroquet approximatif”, il a profondément tort… mais a raison sur un point : sans ces données, la machine serait incapable de produire quelque chose de nouveau. En fait, la machine ne crée pas quelque chose de nouveau dans le fond mais dans la forme, au niveau de la syntaxe pour un texte par exemple.

Donc pour résumer tout ce que l’on vient de se dire, l’IA générative n’est qu’une branche des LLM, qui ne sont qu’une branche du machine learning, qui n’est qu’une branche de l’IA.

Pour bien comprendre, que peut faire et ne peut pas faire intrinsèquement une IA générative ?

O.M. : Déjà, on peut converser avec une IA générative… mais pas comme nous le faisons entre humains. Nous, on a une intention d’échange. Je veux me faire comprendre, tu veux me comprendre et réciproquement. Une IA générative, elle, ne répond qu’à un stimulus. En l’occurrence, un prompt, la phrase que tu vas lui envoyer pour qu’elle te donne des résultats. Si tu ne lui demandes rien, elle ne va pas parler spontanément.

La deuxième chose à bien comprendre quand il s’agit d’IA générative, c’est l’importance de son entraînement et donc les données qu’on lui donne. Élément important : il n’y a pas de base de données derrière un modèle de langage. Son entraînement se fait de par son réseau neuronal. Pour ChatGPT 3, on parlait de 175 milliards de paramètres par exemple. Dès que tu lui donnes une info, son réseau neuronal change et il ne l’oublie pas.

La question qui se posait jusqu’alors, c’était la date à laquelle a été arrêté son entraînement, septembre 2021 pour ChatGPT3. Mais cette dimension est en train de changer : Microsoft l’a intégré dans son moteur de recherche Bing, ce qui lui permet de se connecter à Internet et de vérifier les infos. Par ailleurs, Open AI, l’entreprise derrière ChatGPT, a autorisé le développement des plugins qui permettent d’aller chercher des données sur Internet.

Chaque jour, on voit apparaître de nouveaux cas d’usage. On peut penser à Notion AI, à l’intégration de ChatGPT sur Shopify… Question un peu tarte à la crème : quelles sont les opportunités des IA génératives pour les pros du produit ?

O.M. : Je regarde régulièrement un site américain qui répertorie tous les produits fonctionnels et viables qui utilisent de l’IA générative. Rien que la semaine dernière, il y en avait 360 de nouveaux ! Des assistants, des solutions pour générer du texte, des outils pour t’aider à classifier des priorités, à te sortir des mots clés ou à faire des synthèses. Ça peut nous aider dans le métier de PM de 1 000 façons.

Pratiquement tous les outils utilisés actuellement par des PM auront une couche d’IA d’ici un an. C’est tellement simple et pratique d’écrire en langage naturel à une machine…

En fait, le maître mot, c’est de tester. Les usages sont en train d’émerger. Tu ouvres un Google Sheet, tu écris un petit bout de code en JavaScript qui appelle l’API d’Open AI, tu lui écris un prompt avec des données que tu lui mets de côté et tu vois ce que cela donne.

Il existe aussi Hugging Face (un produit créé par des Français) qui est un peu le Github du machine learning. Tu y trouves plein de modèles de langages et de set de données en open source à utiliser pour faire tes tests. C’est un peu plus technique mais avec des spécialistes data et des dev, c’est possible de faire des choses fonctionnelles à petite échelle.

Parlons un peu d’éthique. Quel est ton avis déjà sur la tribune signée par plusieurs experts mondiaux (Yoshua Bengio, Yuval Noah Harari, Steve Wozniak, Elon Musk…) demandant une pause dans l’entraînement des systèmes d’IA ?

O.M. : Il est clair que cette techno pose énormément de problèmes à tous les niveaux. Personnellement, je me définis comme un techno enthousiaste mais prudent. Cette tribune a au moins le mérite d’exister même si elle a plusieurs défauts… à commencer par Elon Musk.

Pourquoi ?

O.M. : D’après des analystes américains, il en est à l’origine mais pas pour les raisons profondes de cette tribune… juste parce qu’il est à la ramasse sur le sujet ! Pour l’anecdote, il était là au début de Open AI, il s’est engueulé avec son président Sam Altman, il s’est barré et aujourd’hui, ils arrivent à faire mieux que lui. Il y a une espèce de rivalité autant industrielle que personnelle. Sam Altman, c’est l’exact opposé d’Elon Musk. C’est le gars de gauche qui promeut le wokisme. Bref, ils ne doivent plus pouvoir se piffrer !

Revenons à la tribune. Elle a le mérite de soulever un point important : on ne connaît pas les implications que cela engendre et cela va trop vite pour que les régulateurs puissent le réguler. À titre personnel, je me réveille tous les jours à 5h du matin et même en faisant cela, je n’arrive pas à suivre et à emmagasiner tout ce qu’on se prend dans la tête en ce moment.

Malgré tout, cette tribune est pour moi un coup marketing qui fait un amalgame : elle laisse croire que l’IA actuelle est assez puissante pour devenir une IA forte, capable de créer des machines autonomes dotées de conscience. C’est totalement faux, ça n’est pas prêt d’exister.

https://twitter.com/ylecun/status/1642524629137760259

Dans cette newsletter, on s’adresse essentiellement à des concepteurs et conceptrices de produits numériques. Que doivent-ils/elles savoir pour ne pas construire, consciemment ou non, des “monstres” ? 

O.M. : L’IA générative pose beaucoup de problèmes notamment de droit d’auteur (quid des données originales qui ont servi à entraîner les IA ?), de travail (avec l’automatisation de tâches de cols blancs) ou encore de société (désinformation…). Cela paraît vertigineux.

Pour moi, le vrai problème tient à l’éducation : il faut donner aux gens les moyens de comprendre l’IA. Dès qu’on commence déjà à rappeler que c’est de l’imitation et de la statistique, comme je le disais au début, on enlève l’anthropomorphisme et l’illusion de la contenance “humaine” de la machine.

Ensuite, une chose qui est sûrement relativement claire pour les PM : les données sont primordiales. Elles conditionnent les résultats et les biais que tu vas avoir. Un des messages que j’aimerais faire passer, c’est que la pire des choses, c’est de penser l’IA en solo. Dans l’équipe produit, toutes les personnes qui interviennent dans le rapport avec l’IA doivent être sensibilisées à ce qu’est une data et comment elle nourrit la machine.

Le mieux, même si pas beaucoup le feront en réalité, c’est de faire intervenir une caution morale extérieure, qui n’aura pas de prise avec l’intérêt immédiat de la boîte. Une personne qui va pouvoir tirer le signal d’alarme : “Attention, tu touches aux données de gens là, tu vas faire ressortir des infos que eux-mêmes ne connaissent pas”.

Un exemple. Il y a un hôpital aux États-Unis qui s’est servi de l’IA pour optimiser l’occupation de ses lits pour le bien-être des patients. Malgré toute leur bonne volonté et les garde-fous posés, les algos ont commencé à proposer de faire sortir de l’hôpital plus rapidement les personnes hispanniques et noires et à faire rester plus longtemps les Blancs de plus de 50 ans. Pourquoi ? Car ce sont ceux qui ont, statistiquement, les meilleures assurances santé.

En un mot, ton IA sera aussi bonne que le jeu de données d’entraînement que tu lui auras donné.

Pour aller plus loin :