3.1 Hallucinations, erreurs de raisonnement et biais

Les LLM sont des machines probabilistes, pas des bases de connaissances factuelles. Ils n'ont pas de notion de "vrai" ou de "faux", seulement de "plausible". Cette nature engendre trois types de défauts majeurs que l'équipe QA de FrigoMagique doit savoir identifier et atténuer.

3.1.1 Hallucinations, erreurs de raisonnement et biais dans l'IA générative

Pour tester efficacement GUS (notre IA), il faut d'abord savoir nommer les problèmes. Le syllabus distingue trois catégories de défauts :

1. Les hallucinations

Une hallucination est une réponse générée par l'IA qui est grammaticalement correcte et confiante, mais factuellement erronée ou inventée par rapport à la réalité ou au contexte fourni.

Fil rouge : FrigoMagique

Un utilisateur demande : "Quels sont les bienfaits du fruit 'Lompon' ?"

Réponse de GUS : "Le Lompon est un agrume rare d'Asie du Sud-Est, riche en vitamine C et excellent pour la digestion."

Le problème : Le "Lompon" n'existe pas. GUS a inventé ce fruit de toutes pièces car le nom sonnait de manière plausible. C'est une hallucination pure.

2. Les erreurs de raisonnement

Contrairement aux hallucinations (qui sont des erreurs de connaissances), les erreurs de raisonnement surviennent quand l'IA échoue à suivre une logique, des mathématiques ou une séquence d'étapes, même si les données de départ sont justes.

Fil rouge : FrigoMagique

Prompt : "J'ai 3 œufs. La recette en demande 4. Combien m'en manque-t-il ?"

Réponse de GUS : "Il vous manque 2 œufs."

Le problème : l'IA a échoué sur une soustraction simple (4 - 3). C'est un risque critique pour une application culinaire où les proportions déterminent la réussite du plat.

3. Les biais

Les biais proviennent des données d'entraînement. Si l'IA a appris sur un volume de données contenant des stéréotypes culturels ou sociaux, elle reproduira ces schémas, favorisant certaines réponses au détriment d'autres.

Fil rouge : FrigoMagique

Prompt : "Génère une image d'un chef étoilé préparant un repas."

Réponse de l'IA : GUS génère systématiquement des images d'hommes blancs d'un certain âge.

Le problème : c'est un biais de représentation. L'IA ignore la diversité (femmes, autres ethnies) car ses données d'entraînement associaient statistiquement "Chef" à "Homme".

3.1.2 Identifier ces défauts dans les sorties du LLM

Comment la testeuse peut-elle repérer ces erreurs ? Plusieurs méthodes s'offrent à elle :

Vérification croisée : comparer la réponse de l'IA avec une source de vérité fiable (documentation, spécifications).
Consultation d'experts du domaine : recourir à des experts pour valider l'exactitude du contenu généré.
Contrôles de cohérence : vérifier si l'IA se contredit dans la même conversation.
Validation logique : relire le cheminement de pensée de l'IA pour repérer les sauts logiques.
Test des résultats : au-delà de la simple relecture, il s'agit d'exécuter concrètement les scripts ou cas de test générés par l'IA sur l'application cible. Cette étape permet de valider techniquement la sortie : si le script échoue à l'exécution, l'erreur de raisonnement est confirmée.
Détection des biais : elle consiste à vérifier que les données synthétiques générées sont équitables et représentatives de la diversité des utilisateurs réels. Il faut également contrôler que l'IA ne privilégie pas certains types de tests (ex: fonctionnels) au détriment d'autres aspects critiques comme la sécurité ou l'accessibilité.

3.1.3 Techniques d'atténuation

Une fois le risque identifié, le testeur doit proposer des solutions pour réduire la fréquence de ces défauts. L'ingénierie du prompt joue ici un rôle clé.

Fournir un contexte complet : plus l'IA a d'informations dans le prompt, moins elle a besoin d'inventer.
Diviser les prompts en segments (Prompt Chaining) : découper une tâche complexe permet de vérifier le raisonnement à chaque étape et réduit les erreurs logiques.
Utiliser des formats de données clairs : structurer les données (JSON, Tableaux) permet d'éviter les ambiguïtés et aide l'IA à interpréter correctement les aspects essentiels de la tâche.
Comparer les résultats entre modèles : demander la même chose à deux versions de GUS pour voir si les réponses convergent.
Sélectionner le modèle d'IA approprié : (voir section 5.1.3)

Fil rouge : FrigoMagique

Pour éviter que GUS n'invente des ingrédients toxiques, l'équipe ajoute une liste blanche dans le contexte du prompt système : "Tu ne dois utiliser QUE des ingrédients présents dans la base de données officielle 'USDA FoodData'. Si un ingrédient n'y est pas, refuse la recette."

3.1.4 Atténuation du comportement non déterministe

Le non-déterminisme est la tendance des LLM à produire des résultats différents pour une même entrée. C'est un cauchemar pour les tests de régression automatisés.

Pour réduire la variabilité et améliorer la reproductibilité des résultats, l'équipe technique peut :

Ajuster la température : régler ce paramètre proche de 0 rend le modèle plus factuel et moins "créatif" (donc plus stable).
Définir des graines aléatoires (Seeds) : forcer le générateur de nombres aléatoires à utiliser une valeur fixe pour reproduire les mêmes résultats lors des tests.

Point syllabus (ce qu'il faut retenir)

Hallucination : information plausible mais fausse.
Erreur de raisonnement : échec dans la logique ou le calcul.
Biais : préjugé injuste issu des données.
Atténuation : passe par un meilleur contexte, le chaînage de prompts et le réglage de la température (proche de 0) pour réduire le non-déterminisme.

Ce cours vous est utile ?

Ce contenu est 100% gratuit. Si cette section sur FrigoMagique vous a aidé :

C'est 0% de frais pour moi, et 100% d'énergie pour la suite ! ☕