2.3 Évaluer les résultats de l'IA générative et affiner les prompts

Avoir une réponse de l'IA, c'est bien. Avoir une bonne réponse, c'est mieux. Chez FrigoMagique, l'équipe QA ne fait pas confiance aveuglément à GUS (l'IA de notre application). Comme pour tout logiciel, la sortie de l'IA doit être vérifiée. Mais comment "tester le testeur" ?

Cette section vous apprend à mesurer la qualité des réponses de l'IA et à améliorer vos prompts de manière itérative.

2.3.1 Métriques pour évaluer les résultats sur les tâches de test

L'évaluation de l'IA ne se fait pas au "doigt mouillé". Le syllabus définit des indicateurs précis pour juger si l'IA a fait du bon travail.

Voici les métriques clés à connaître :

Métrique	Ce que ça mesure	Exemple FrigoMagique
Exactitude	Le pourcentage de réponses correctes par rapport à une référence.	L'IA a généré 10 cas de test. 9 sont valides, 1 est hors sujet. Exactitude = 90%.
Précision	La qualité des défauts trouvés (éviter les faux positifs).	L'IA signale 5 bugs dans le code. 4 sont des vrais bugs, 1 est une erreur de l'IA.
Rappel	La capacité à tout trouver (éviter les faux négatifs).	Il y avait 10 bugs cachés dans le code. L'IA en a trouvé 6. Son rappel est de 60% (elle en a raté 4).
Pertinence	L'adéquation au contexte métier.	Les recettes générées respectent-elles les contraintes "Sans Gluten" demandées ?
Diversité	La variété des réponses.	Si on demande 50 scénarios de test, sont-ils tous différents ou l'IA répète-t-elle le même schéma ?
Taux de réussite de l'exécution	La proportion de scripts ou de cas de test générés qui peuvent être exécutés sans erreur technique (syntaxe, format).	Sur 10 scripts Selenium générés par l'IA, 8 tournent du premier coup, 2 plantent à cause d'une erreur de syntaxe. Taux = 80%.
Efficacité en termes de temps	Le gain de temps comparé à un effort manuel équivalent (ROI).	L'IA génère 100 lignes de données SQL en 2 minutes. Un humain aurait mis 4 heures. Le gain est massif.

2.3.2 Techniques pour évaluer et affiner les prompts de manière itérative

L'ingénierie de prompt est un cycle : on écrit, on teste, on corrige. Si le résultat de l'IA est médiocre, ce n'est souvent pas la faute du modèle, mais celle du prompt.

Voici les techniques pour améliorer vos résultats :

1. La modification itérative

On commence simple, on regarde le résultat, et on ajoute des contraintes progressivement.

Fil rouge : FrigoMagique

Le testeur veut des données de test.

Itération 1 : "Donne-moi une liste d'utilisateurs." -> Résultat bof : L'IA donne juste des prénoms.
Itération 2 : "Donne-moi une liste d'utilisateurs avec email et mot de passe." -> Mieux, mais format texte.
Itération 3 : "Donne-moi un tableau CSV avec : ID, Email, Password (complexe), Date d'inscription." -> Parfait.

2. Le test A/B de prompts

On écrit plusieurs variantes du même prompt et on compare statistiquement les résultats pour garder le meilleur "template".

Fil rouge : FrigoMagique

L'équipe veut résumer les tickets de bug. L'ingénieure QA teste deux approches :

Prompt A : "Résume ce bug."
Prompt B : "Agis comme un développeur senior. Résume ce bug en suivant la structure : Titre, Cause Racine, Impact, Solution suggérée."

Après essai sur 20 tickets, le Prompt B offre une pertinence et une utilité bien supérieures. Il devient le standard de l'équipe.

3. L'analyse des sorties

C'est l'examen critique des réponses pour détecter les hallucinations ou les biais. Cela permet de comprendre pourquoi l'IA s'est trompée et d'ajouter une contrainte explicite dans le prompt pour empêcher que cela ne se reproduise.

Fil rouge : FrigoMagique

Le contexte : La testeuse demande à GUS : "Génère un menu de la semaine pour une famille de 4 personnes."

1. L'analyse de la sortie (le constat) : La testeuse lit le menu généré. À première vue, tout semble correct (il y a bien 7 jours, midi et soir). Cependant, en analysant le détail, elle repère une anomalie logique : pour le Mardi midi, GUS a proposé un "Bœuf Bourguignon (Temps de cuisson : 4h00)".

2. Le diagnostic (pourquoi l'IA a échoué ?) : L'IA n'a pas halluciné (la recette existe), mais elle a manqué de contexte implicite. Elle n'a pas "compris" que le mardi midi, les gens travaillent et ne peuvent pas cuisiner pendant 4 heures.

3. L'action corrective (affinement du prompt) : Suite à cette analyse, la testeuse ajoute une contrainte explicite dans le prompt système : "Pour les repas du midi en semaine (Lundi-Vendredi), ne propose JAMAIS de recettes nécessitant plus de 30 minutes de préparation."

4. Intégrer les retours des utilisateurs

L'ingénieur qualité n'est pas le seul juge. Il est crucial de demander aux utilisateurs finaux du résultat de l'IA (développeurs, PO, autres testeurs) si la sortie leur a été utile.

Fil rouge : FrigoMagique

Le contexte : l'IA génère automatiquement des descriptions de bugs pour les développeurs.

Le retour utilisateur : un développeur fait remarquer à la testeuse : "Les rapports de GUS sont techniquement justes, mais trop verbeux. Je perds du temps à lire 3 paragraphes pour trouver l'ID de l'erreur."

L'ajustement : la testeuse modifie le prompt pour intégrer ce retour : "Format de sortie : commence impérativement par l'ID de l'erreur et la ligne de code, puis donne une description en une seule phrase."

5. Ajuster la longueur et la spécificité des prompts

C'est le réglage du "curseur". Parfois, un prompt trop court donne des résultats génériques. Parfois, un prompt trop long "noie" l'IA sous trop de détails contradictoires. Il faut expérimenter pour trouver le juste milieu.

Fil rouge : FrigoMagique

Objectif : générer des idées de recettes innovantes.

Essai 1 (trop court) : "Donne-moi une idée de recette."
- Résultat : "Pâtes au beurre." (Trop banal).
Essai 2 (trop spécifique) : "Donne-moi une recette vegan, sans gluten, bleue, qui utilise du yuzu, cuite au micro-ondes en 3 minutes pour un astronaute."
- Résultat : l'IA hallucine ou dit que c'est impossible.
Essai 3 (ajusté) : "Propose une recette originale et colorée, utilisant un agrumes asiatique, réalisable en moins de 20 minutes."
- Résultat : "Carpaccio de Saint-Jacques au Yuzu et perles de grenade." (L'équilibre parfait).

Point syllabus (ce qu'il faut retenir)

Il ne suffit pas de générer, il faut évaluer.
Les métriques clés sont : exactitude, précision, rappel, pertinence, diversité, taux de réussite, efficacité temporelle.
L'amélioration est itérative : on affine le prompt en fonction des erreurs et omissions observées.
Le Test A/B permet de choisir objectivement le meilleur prompt pour une tâche donnée.

Ce cours vous est utile ?

Ce contenu est 100% gratuit. Si cette section sur FrigoMagique vous a aidé :

J'apprécie chaleureusement votre générosité ! 🤗