Évaluations : la nouvelle compétence des Product Managers à l'ère de l'IA, expliquée par Calliste Duru (Basalt)

Tu ne sais pas (trop) ce qu’est une évaluation, la compétence clé à l’avenir pour concevoir des produits IA ? Voici LA ressource qu’il faut absolument consulter pour te former. Une leçon de pédagogie signée Calliste Duru, Founding Product de Basalt, sur la scène de l'AI Product Day 2026.

⌛ 6 min de lecture de référence pour tout comprendre aux évaluations

🎫 Les membres Premium du Ticket ont un accès intégral à cet article

📌 TL;DR - Ce que tu vas apprendre dans cet article (super) pédago sur les évaluations :

1- La méthode pour trouver les "modes d'échec" de son produit IA

2- Le Dataset, le déterminant de la réussite des agents IA

3- Passer ses évaluations à l'échelle : le rôle clé des évaluateurs automatiques (type LLM as a judge)

4- La différence entre évaluations offline vs online

5- Les évaluations, le nouvel avantage compétitif d’un produit IA

Les “éval” vont devenir une compétence clé des Product Managers. Cette prédiction du CPO d’OpenAI donne le ton sur l'importance à venir de cette notion propre à l'émergence de l'IA générative.

Sur la scène du majestueux salon Honnorat, Calliste de la startup Basalt, qui aide justement à construire l’infrastructure d’évaluation pour lancer des agents IA, commence par un cas simple vécu par beaucoup d’entre nous : un agent IA qui répond à côté de la plaque.

Un grand classique en IA générative : les tests en interne sur quelques questions simples se passent à merveille mais, une fois en production, cela déraille. Tout le charme des produits non-déterministes…

Le réflexe des équipes produit dans ce cas ? Modifier le prompt, c’est-à-dire affiner l’instruction donnée au LLM. Voire changer de modèle.

Sauf que le prompt engineering ne suffit pas. Dès qu’on corrige un problème, un autre apparaît. Quand on passe en production, on découvre souvent des questions utilisateurs qu’on n’aurait jamais imaginées”, résume Calliste.

La solution ? Construire des évaluations.

Explications.

Une façon de comprendre ce qu’est une évaluation est de représenter les questions utilisateurs comme des points sur une carte.

En vert, les cas où l’IA a correctement répondu
En rouge, ceux où elle a échoué

C’est (tout simplement) ça l’évaluation : savoir si la réponse de l’IA est correcte ou non. Autrement dit, si cette dernière se comporte comme on le souhaite.

Calliste introduit alors une autre notion importante : le cadre. C’est-à-dire le périmètre d’intervention de l'agent IA, celui où il est censé bien fonctionner.

Le piège est en effet d’évaluer son IA sur des questions que les utilisateurs ne poseront jamais. Donc d’essayer de corriger des problèmes qui n’existent pas en production.

Autre piège : évaluer une zone trop restreinte du cadre, c’est-à-dire des situations ou des questions similaires. Certes rassurant… mais incomplet par rapport à ce qu’il va se passer en production.

La méthode pour trouver les "modes d'échec" de son produit IA

Comment faire alors ?

1- Lire des conversations réelles

2- Les annoter (grâce à un outil d’observabilité -comme Basalt- pour remonter les logs). C’est-à-dire :

dire si la réponse est correcte ou non
expliquer ce qui ne va pas
et définir ce qu’on attendait à la place

Une nouvelle facette du métier de Product Manager, souvent aidé par des experts métier si le domaine est trop complexe (médical, finance…)

OK, mais comment choisir les conversations à lire ? Si des milliers voire des dizaines de milliers de discussions se déroulent tous les jours sur son produit, la lecture au hasard peut vite se révéler chronophage voire inefficace.

Calliste recommande de s’intéresser en priorité aux signaux suivants :

Cet article est réservé aux membres Premium du Ticket.

Le meilleur du Produit pour progresser et faire progresser ton équipe

Le Ticket Premium est lu par les meilleures équipes produit de France …

Je m'abonne

Je me connecte

3 newsletters / mois

Pour connaître l’essentiel

L’intégralité des articles et guides

Pour creuser (vraiment) en profondeur les meilleures pratiques de l’écosystème

Le canal de veille Whatsapp

Pour avoir des infos produit régulières en version synthétique

2 émissions par mois dédiées à l'IA et le produit

Pour aller au delà du buzz

Les fiches de lecture Produit

Pour connaître les enseignements clés d’un bouquin en 10 min

S'abonner à la Newsletter du Ticket

Suivre LeTicket sur Linkedin

Évaluations : la nouvelle compétence des Product Managers à l'ère de l'IA, expliquée par Calliste Duru (Basalt)

La méthode pour trouver les "modes d'échec" de son produit IA

Sur le même thème

AI Product Day 2026 : Ce qu’il fallait retenir de la conférence IA et produit de référence

De “Powered by AI” à “AI Native” : le virage radical de PlayPlay (que l’on risque de beaucoup constater…

“La question du code est résolue” – Boris Cherny, Head of Claude Code

Le bulletin de paie interactif de Payfit, une ambition de longue date rendue possible grâce aux nouvelles…

2026, l’année du rebond pour le marché du recrutement tech et produit ?

Les avantages du Ticket Premium : Le Ticket x AI Discipline