Tu ne sais pas (trop) ce qu’est une évaluation, la compétence clé à l’avenir pour concevoir des produits IA ? Voici LA ressource qu’il faut absolument consulter pour te former. Une leçon de pédagogie signée Calliste Duru, Founding Product de Basalt, sur la scène de l'AI Product Day 2026.

⌛ 6 min de lecture de référence pour tout comprendre aux évaluations 

🎫 Les membres Premium du Ticket ont un accès intégral à cet article

📌 TL;DR - Ce que tu vas apprendre dans cet article (super) pédago sur les évaluations :

1- La méthode pour trouver les "modes d'échec" de son produit IA

2- Le Dataset, le déterminant de la réussite des agents IA

3- Passer ses évaluations à l'échelle : le rôle clé des évaluateurs automatiques (type LLM as a judge)

4- La différence entre évaluations offline vs online

5- Les évaluations, le nouvel avantage compétitif d’un produit IA

Les “éval” vont devenir une compétence clé des Product Managers. Cette prédiction du CPO d’OpenAI donne le ton sur l'importance à venir de cette notion propre à l'émergence de l'IA générative.

Sur la scène du majestueux salon Honnorat, Calliste de la startup Basalt, qui aide justement à construire l’infrastructure d’évaluation pour lancer des agents IA, commence par un cas simple vécu par beaucoup d’entre nous : un agent IA qui répond à côté de la plaque.

Un grand classique en IA générative : les tests en interne sur quelques questions simples se passent à merveille mais, une fois en production, cela déraille. Tout le charme des produits non-déterministes…

Le réflexe des équipes produit dans ce cas ? Modifier le prompt, c’est-à-dire affiner l’instruction donnée au LLM. Voire changer de modèle.

Sauf que le prompt engineering ne suffit pas. Dès qu’on corrige un problème, un autre apparaît. Quand on passe en production, on découvre souvent des questions utilisateurs qu’on n’aurait jamais imaginées”, résume Calliste.

 AI-Product-Day-Evaluation-Basalt prompt

La solution ? Construire des évaluations. 

Explications.

Une façon de comprendre ce qu’est une évaluation est de représenter les questions utilisateurs comme des points sur une carte.

  • En vert, les cas où l’IA a correctement répondu
  • En rouge, ceux où elle a échoué

C’est (tout simplement) ça l’évaluation : savoir si la réponse de l’IA est correcte ou non. Autrement dit, si cette dernière se comporte comme on le souhaite.

Calliste introduit alors une autre notion importante : le cadre. C’est-à-dire le périmètre d’intervention de l'agent IA, celui où il est censé bien fonctionner.

Le piège est en effet d’évaluer son IA sur des questions que les utilisateurs ne poseront jamais. Donc d’essayer de corriger des problèmes qui n’existent pas en production.

Autre piège : évaluer une zone trop restreinte du cadre, c’est-à-dire des situations ou des questions similaires. Certes rassurant… mais incomplet par rapport à ce qu’il va se passer en production.

La méthode pour trouver les "modes d'échec" de son produit IA

Comment faire alors ?

1- Lire des conversations réelles

2- Les annoter (grâce à un outil d’observabilité -comme Basalt- pour remonter les logs). C’est-à-dire : 

  • dire si la réponse est correcte ou non
  • expliquer ce qui ne va pas
  • et définir ce qu’on attendait à la place

Une nouvelle facette du métier de Product Manager, souvent aidé par des experts métier si le domaine est trop complexe (médical, finance…)

OK, mais comment choisir les conversations à lire ? Si des milliers voire des dizaines de milliers de discussions se déroulent tous les jours sur son produit, la lecture au hasard peut vite se révéler chronophage voire inefficace.

Calliste recommande de s’intéresser en priorité aux signaux suivants : 

Cet article est réservé aux membres Premium du Ticket.

Le meilleur du Produit pour progresser et faire progresser ton équipe

Le Ticket Premium est lu par les meilleures équipes produit de France …

3 newsletters / mois

Pour connaître l’essentiel

L’intégralité des articles et guides

Pour creuser (vraiment) en profondeur les meilleures pratiques de l’écosystème

Le canal de veille Whatsapp

Pour avoir des infos produit régulières en version synthétique

2 émissions par mois dédiées à l'IA et le produit

Pour aller au delà du buzz

Les fiches de lecture Produit

Pour connaître les enseignements clés d’un bouquin en 10 min

S'abonner à la Newsletter du Ticket
Suivre LeTicket sur Linkedin

Sur le même thème

Le Ticket est le média du product management, créé par et pour les Product Managers, afin de se former et s’informer sur la culture produit.
Et déconner un peu aussi (on n’est pas des machines).


© Édité avec passion et panache par Tanchet Média, SAS au capital de 1 000 € depuis 2020
N° de commission paritaire : 1124 X 95032 • Directeur de publication : Kévin Deniau