1.1 Fondements et concepts clés de l'IA générative
Pour tester efficacement les fonctionnalités de FrigoMagique en utilisant l'IA, il est impératif de comprendre ce qui se cache sous le capot. L'IA n'est pas un bloc monolithique, mais le résultat d'une longue évolution technologique.
1.1.1 Le spectre de l'IA : une évolution technologique
L'histoire de l'intelligence artificielle se décline en quatre grandes étapes, toutes présentes à différents niveaux dans notre application.
1. L'IA Symbolique
C'est la forme historique, reposant sur des règles logiques strictes codées par des humains. Elle n'apprend pas, elle applique des procédures.
Fil rouge : FrigoMagique
Dans le code hérité de FrigoMagique, c'est ce module fiable qui compare la date du jour à la date limite de vos yaourts : si la date est dépassée, alors une alerte est déclenchée. Le comportement est binaire et totalement prévisible.
2. L'Apprentissage Automatique Classique (Machine Learning)
Ici, le paradigme change : on ne code plus des règles explicites, on nourrit la machine avec des données pour qu'elle apprenne à classer ou prédire.
Fil rouge : FrigoMagique
C'est la technologie qui propulse le moteur de recommandation de l'application. En analysant l'historique d'achats de milliers d'utilisateurs, le système détecte des tendances et prédit qu'un client a une forte probabilité d'apprécier une recette de curry, simplement en "apprenant" de ses habitudes de consommation passées.
3. L'Apprentissage Profond (Deep Learning)
Inspirée de la structure neuronale du cerveau humain, cette méthode excelle dans la reconnaissance de motifs complexes comme les images.
Fil rouge : FrigoMagique
C'est grâce à elle que la fonctionnalité "Scan" de FrigoMagique opère : lorsque l'utilisateur photographie un ticket de caisse froissé, c'est un réseau de neurones à plusieurs couches qui analyse les pixels pour y déchiffrer le mot "Aubergine", là où une approche classique aurait échoué.
4. L'IA Générative (GenAI)
C'est la rupture technologique au cœur de cette certification. Contrairement aux étapes précédentes qui servaient à classer ou prédire, la GenAI utilise des modèles pré-entraînés sur des volumes massifs de données pour créer du contenu nouveau.
Fil rouge : FrigoMagique
C'est la fonctionnalité phare de la nouvelle version : quand un utilisateur demande une idée de dîner avec des restes disparates, l'IA ne cherche pas une réponse dans une base de données. Elle invente, mot après mot, une recette unique et cohérente qui n'existait nulle part ailleurs, passant ainsi du statut d'analyste à celui de créateur.
1.1.2 Fonctionnement des LLM : tokenisation, embedding et contexte
Les moteurs de cette IA générative textuelle sont appelés LLM (Large Language Models) et reposent sur une architecture de réseau de neurones nommée Transformer. Pour bien cerner les LLM, nous devons comprendre 3 mécanismes fondamentaux.
La Tokenisation
Contrairement à nous, les LLM ne lisent pas des mots entiers. Ils décomposent le texte en unités plus petites, les tokens, qui peuvent être des mots, des syllabes ou des caractères.
Fil rouge : FrigoMagique
Lorsqu'un utilisateur de FrigoMagique saisit l'instruction "Cuisiner une tarte", le modèle perçoit en réalité une suite numérique correspondant aux fragments [Cuisin], [er], [une], [tar], [te].
Note pour le testeur : Cette nuance est cruciale, car les limites de l'IA se calculent en tokens, et non en nombre de mots.
Les Embeddings
Les Embeddings transforment les tokens en listes de nombres (vecteurs) pour permettre à l'IA de comprendre leur sens profond et leurs relations. Dans cet espace mathématique, les mots ayant une signification similaire sont positionnés physiquement proches les uns des autres.
Fil rouge : FrigoMagique
Si l'utilisateur demande une recette avec des "Courgettes" mais n'en a plus, GUS sait mathématiquement que le mot "Concombre" est un voisin très proche (vecteur similaire) alors que "Pneu" est très éloigné. C'est grâce aux embeddings qu'il peut suggérer un remplacement pertinent sans qu'on lui ait appris explicitement une liste de synonymes.
La fenêtre contextuelle
Elle représente la "mémoire de travail" du modèle, c'est-à-dire la quantité maximale d'informations qu'il peut traiter simultanément.
Analogie : La barre de commande
Imaginez cette fenêtre contextuelle comme la barre de commande d'une cuisine, où le chef accroche les tickets des instructions. Cette barre a une longueur fixe : elle ne peut tenir qu'un nombre limité de tickets.
Si la conversation s'allonge et que la barre est pleine, pour accrocher une nouvelle instruction, le chef est obligé de décrocher et jeter le ticket le plus ancien.
1.1.3 Les différentes catégories de modèles
Tous les modèles ne se comportent pas de la même façon. Le syllabus en distingue trois catégories selon leur spécialisation.
| Type de Modèle | Description | Exemple FrigoMagique |
|---|---|---|
| Modèle de base | Entraîné pour prédire le mot suivant de manière brute. Puissant mais imprévisible. | Si l'utilisateur écrit "Ma liste", il pourrait compléter par "de courses :" (complétion simple). |
| Instruction-tuned | Affiné pour comprendre et exécuter des ordres. Idéal pour interagir. | À la requête "Liste des courses", il comprend l'intention et répond par une énumération pertinente d'ingrédients. |
| De raisonnement | Utilise la "Chaîne de Pensée" pour décomposer les problèmes complexes. | Pour un menu de mariage avec budget serré et restrictions multiples, il calcule d'abord les coûts et contraintes avant de générer le menu. |
1.1.4 Multimodalité et vision-langage
L'une des évolutions majeures de l'IA réside dans les LLM multimodaux. L'IA ne se cantonne plus au texte ; elle peut traiter simultanément images, audio et vidéo.
Fil rouge : FrigoMagique
C'est cette technologie qui permet à l'utilisateur de prendre une simple photo de l'intérieur de son réfrigérateur ouvert. Le modèle de vision-langage identifie visuellement les pots de yaourt et les légumes, associe ces objets à leurs concepts textuels, et génère une recette cohérente avec ce qu'il a "vu".
Défi de test : il faut vérifier non seulement la qualité du texte, mais aussi la précision de l'interprétation visuelle.
Point syllabus (résumé K1/K2)
Pour conclure cette section, voici les concepts clés à retenir pour l'examen :
- IA Générative (GenAI) : branche de l'IA créant du contenu nouveau (texte, image, code) via des modèles pré-entraînés.
- LLM (Large Language Model) : modèle basé sur l'architecture Transformer, entraîné sur de vastes données textuelles.
- Tokenisation : processus de découpage des données (texte) en unités élémentaires (tokens).
- Fenêtre contextuelle : limite de la mémoire à court terme du modèle lors d'une interaction.
- Embeddings : représentations numériques (vecteurs) des tokens permettant à l'IA de comprendre leurs relations sémantiques et contextuelles.