C'est quoi l'IA générative ? du concept historique aux applications modernes

img of C'est quoi l'IA générative ? du concept historique aux applications modernes

L’IA générative c’est l’IA capable de créer. Elle peut générer du texte, du son, des images, et c’est l’une des innovations technologiques les plus importantes de notre époque.

🤔 Ok mais c’est quoi exactement ?

L’IA générative, c’est un type d’intelligence artificielle qui “invente” du nouveau contenu, plutôt que de simplement analyser l’existant. Bien sûr le terme “inventer” est à prendre avec des pincettes (beaucoup de pincettes, même), l’IA ne dispose pas d’une réelle créativité, elle ne peut produire qu’à partir des données qu’on lui a fournies. Mais le résultat peut donner l’impression d’une créativité… disons authentique.

Contrairement aux systèmes d’IA traditionnels qui se contentent de classifier ou prédire à partir de données connues, l’IA générative fabrique quelque chose. Ce qui la rend vraiment spéciale, c’est qu’elle produit du contenu qui n’a jamais été explicitement programmé. Elle apprend des sortes de schémas, de modèles, à partir de données existantes, puis, grâce à la magie des statistiques (une magie très complexe), elle crée de nouvelles données qui respectent ces modèles — sans être de simples copies de ce qu’elle a vu auparavant.

🏛️ Les fondements historiques

Les racines de l’IA générative remontent TRÈS loin dans notre histoire. La quête de production créative automatisée date de la civilisation grecque antique, où des inventeurs comme Dédale et Héron d’Alexandrie imaginaient déjà des machines capables d’écrire, de générer des sons et de jouer de la musique1. Pas mal pour une époque sans électricité.

Cette fascination pour l’automatisation s’est poursuivie au fil des siècles. L’automate de Maillardet, créé vers 1800 et constitué de près de 6000 pièces, prenait la forme d’un petit garçon capable de produire quatre dessins différents et trois poèmes en parfaite calligraphie. Son “cerveau” mécanique fonctionnait grâce à un système de cames et de ressorts qui stockaient et exécutaient des séquences de mouvements - une forme primitive de mémoire programmable. Assez dingue pour l’époque.

Les premiers outils mathématiques

Le mathématicien russe Andrey Markov a posé les premières briques de l’IA générative dès 1906 en créant un concept devenu fondamental : les “chaînes de Markov”.

Imagine que tu analyses un texte et que tu calcules les probabilités qu’une lettre suive une autre. Si tu vois un “q”, il y a 99% de chances que la lettre suivante soit un “u” en français. C’est exactement ce que Markov faisait quand il analysait les motifs de voyelles et consonnes dans le roman “Eugène Onéguine”.

Cette approche permettait de générer de nouveaux textes en “prédisant” chaque mot suivant uniquement sur la base du mot actuel.

Par exemple:

  • Tu commences avec “Le chat”
  • Le système calcule que “mange” a 30% de chances de suivre “chat”
  • Il choisit donc “Le chat mange”
  • Puis il continue en chaîne, mot après mot… et ça peut donner des trucs bizarres assez rapidement

Ces chaînes étaient rudimentaires comparées aux modèles actuels (qui considèrent des contextes bien plus larges… BEAUCOUP plus larges), mais elles représentaient un premier pas important.

La naissance officielle de l’IA

L’intelligence artificielle comme discipline formelle est née dans les années 1950, avec des travaux fondamentaux comme “Computing Machinery and Intelligence” (1950) d’Alan Turing (la même personne qui a cassé les codes nazis, rien que ça) et le fameux projet de recherche de Dartmouth en 19562, qui a officiellement établi le domaine.

Des artistes et chercheurs exploraient déjà le potentiel créatif de l’IA. Au début des années 1970, Harold Cohen créait AARON, un programme informatique capable de générer des peintures de manière autonome. Ces efforts pionniers montraient le potentiel créatif de l’IA bien avant nos systèmes actuels. Et pourtant, on parle d’ordinateurs qui avaient moins de puissance qu’une calculatrice…

🚀 L’évolution et les percées techniques

Le tournant du Deep Learning

Un virage décisif est survenu en 2012 avec l’émergence du Deep Learning, qui permet aux machines d’apprendre à partir de données au lieu d’être programmées à réaliser des tâches.

Le Deep Learning utilise des réseaux de neurones artificiels faits de plusieurs couches (d’où le terme “deep”, profond). Imagine un système de filtres superposés : la première couche détecte des motifs simples, la suivante des formes plus complexes, et ainsi de suite. Pour une image de visage, par exemple, les premières couches repèrent les lignes et contours, puis d’autres reconnaissent les yeux, le nez, jusqu’à identifier un visage complet.

Le Deep Learning est capable d’extraire automatiquement les règles importantes dans les données brutes. C’est comme passer d’un élève qui apprend par cœur des règles à un élève qui comprend la logique et peut généraliser à partir d’exemples. Enfin… “comprendre” est un grand mot, mais tu vois l’idée.

La révolution des réseaux génératifs

En 2014 un autre pas est franchi pour l’IA générative, avec l’apparition des auto-encodeurs variationnels (VAE) et des réseaux antagonistes génératifs (GANs). Oui, je sais, ça fait beaucoup de termes compliqués d’un coup !

Les auto-encodeurs variationnels (VAE)

Les VAE fonctionnent comme des “compresseurs-décompresseurs” intelligents. Ils apprennent à transformer des données (comme une image) en une représentation simplifiée, puis à reconstruire les données originales à partir de cette version compressée. La magie réside dans leur capacité à générer de nouvelles données en manipulant cette représentation simplifiée. Par exemple, en modifiant légèrement le code compressé d’un visage, on peut générer un nouveau visage qui n’existe pas mais semble réaliste.

Les réseaux antagonistes génératifs (GANs)

Les GANs, en particulier, ont marqué un tournant majeur. Ils consistent en deux réseaux neuronaux qui s’affrontent dans un duel créatif (imagine deux IA qui jouent à un jeu de faussaire contre détective) :

  • Le générateur tente de créer des images convaincantes à partir de bruit aléatoire
  • Le discriminateur évalue ces créations et tente de distinguer les vraies images des fausses

Cette compétition constante force le générateur à s’améliorer continuellement - chaque fois que le discriminateur détecte un défaut, le générateur affine sa technique. Cette méthode a permis un bond spectaculaire et s’est rapidement étendu à la création de vidéos, d’audio et même de molécules médicales, ouvrant la voie aux systèmes génératifs avancés que nous utilisons aujourd’hui comme DALL-E ou Stable Diffusion (qui n’apparaîtront que 10 ans plus tard).

L’architecture Transformer et les modèles de fondation

En 2017, l’introduction de l’architecture Transformer a catapulté les capacités génératives à un autre niveau. Contrairement aux modèles précédents qui traitaient l’information de façon séquentielle (un peu comme lire un livre mot par mot, sans jamais revenir en arrière), les Transformers peuvent analyser un texte entier d’un coup.

Ils ont introduit le concept “d’attention”, permettant aux modèles de comprendre les liens entre les mots à travers de longs passages, pas juste dans des phrases isolées. Concrètement, l’attention fonctionne comme notre capacité humaine à établir des liens entre différentes parties d’un texte - quand tu lis “Marie a rencontré Julie, elle était contente”, tu sais intuitivement à qui se réfère “elle”. Les Transformers font pareil, en calculant l’importance relative de chaque mot par rapport aux autres, quelle que soit leur distance. Cette innovation a conduit au développement du premier GPT en 2018, suivi de GPT-2 en 2019. Et là, les choses ont commencé à devenir très intéressantes.

🌟 Le boom moderne de l’IA générative (2020-présent)

Percées dans la génération d’images et audio

L’explosion des applications d’IA générative a vraiment commencé à prendre de l’ampleur en 2020 avec des outils comme 15.ai, capable de générer des voix convaincantes avec très peu de données d’entraînement. 5 ans plus tard, Sesame propose une IA capable de discuter en temps réel et de manière convaincante à l’oral (oui ça fait un peu peur, c’est uniquement en anglais pour l’instant… je lui ai demandé de parler en français mais c’était pas réussi).

En 2021, DALL-E a combiné la génération d’image et le texte, en proposant un outil capable de transformer une phrase, un prompt, en image. C’est le début du text-to-image. Midjourney et Stable Diffusion ont suivi en 2022. Ces outils sont de plus en plus accessibles, si tu veux essayer je te conseille notre sélection d’outils pour tester la création d’images.

La révolution ChatGPT et au-delà

Fin 2022 restera une année importante dans l’histoire de la tech, avec la sortie de ChatGPT, qui a propulsé l’IA générative sous les projecteurs mondiaux. En 2023, GPT-4 représente un tel bond en avantque certains chercheurs de Microsoft ont suggéré qu’il pourrait représenter les prémices d’une intelligence artificielle générale — à mon avis c’est un peu exagéré (beaucoup exagéré), mais c’est un sujet de débat.

Modèles multimodaux

Récemment, les compagnies se concentrent sur les capacités “multimodales” qui combinent texte, images, vidéo, audio. En 2023, Meta a lancé ImageBind, capable de traiter simultanément plusieurs types de données.

Aujourd’hui, les modèles multimodaux comme GPT, Claude et Gemini peuvent comprendre et analyser des images, vidéos et textes ensemble. Ils vont bien au-delà du simple traitement textuel. Tu peux montrer une photo à l’IA et lui demander “qu’est ce que c’est ?” ou “comment l’améliorer ?” - et souvent, elle te répondra correctement.

Au delà des modèles génératifs, les agents d’IA

2025 est l’année des “agents d’IA” - la prochaine étape de l’aventure IA. Qu’est-ce que c’est exactement ?

C’est un système capables d’agir sur son environnement. Contrairement aux modèles génératifs présentés précédemment et qui répondent principalement à des prompts, les agents d’IA peuvent:

  • Exécuter et corriger des séquences d’actions
  • Utiliser des outils externes (comme un navigateur ou un logiciel)
  • Prendre des décisions basées sur des observations

Les exemples concrets se multiplient :

  • Des assistants personnels capables de planifier ton voyage complet, en réservant les vols, hôtels et activités sans que tu n’aies rien à faire
  • Des agents de recherche qui naviguent sur internet comme un humain le ferait
  • Des systèmes capables de coder des applications complètes

La VRAIE révolution avec ces agents, c’est leur capacité à collaborer entre eux. Imagine une équipe d’IA où chaque agent a un rôle spécifique : un pour analyser les données, un autre pour rédiger du contenu, un troisième pour vérifier la qualité… Tous travaillant ensemble sur une tâche complexe.

Des entreprises comme Anthropic, OpenAI et d’autres développent travaillent déjà sur ces technologies, qui transforment déjà certains secteurs comme la programmation (je m’en sert littéralement en écrivant ce blog), le service client et la gestion de projets. Et ça ne fait que commencer…

⚠️ Défis et considérations éthiques

Limitations techniques

Malgré leurs capacités, ces systèmes ont des limites :

  • Encore de nombreuses “hallucinations” (c’est le terme technique pour dire que l’IA raconte n’importe quoi avec assurance)
  • Ils n’ont pas de réelle compréhension du monde (malgré les apparences parfois troublantes)
  • Leur utilisation nécessite d’énormes ressources informatiques (et donc d’énergie)

Risques identifiés

L’enquête de McKinsey3 a identifié que 44% des organisations ont déjà subi des conséquences négatives liées à l’utilisation de l’IA générative. La majorité des problèmes sont liés à l’inexactitude des informations générées (les fameuses “hallucinations”) et les problèmes de cybersécurité. Mais ce ne sont pas les seules conséquences sur le marché du travail.

Considérations éthiques

L’IA générative soulève également des questions éthiques majeures :

  • Les deepfakes et la désinformation : il est devenue presque impossible de distinguer une image générée par IA d’une image réelle, ça sera bientôt pareil pour le son et la vidéo
  • Les questions de droits d’auteur : à qui appartient une œuvre générée par IA ? À toi ? À l’IA ? Au développeur de l’IA ?
  • Les biais potentiels (internet est un monde biaisé, très occidentalisé, et les IA sont biaisées par leur entraînement)
  • La confidentialité des données

🔮 Conclusion et perspectives futures

L’IA générative représente une vraie révolution technologique qui transforme déjà notre vie. Avec l’arrivée des agents d’IA, nous franchissons encore une nouvelle étape. L’IA ne se contente plus de générer du contenu, elle agit, à notre place, avec une autonomie croissante.

Cette évolution soulève encore de nouvelles questions sur l’avenir de nos emplois, sur la place de la création artistique, de l’information et de bien d’autres sujets encore. Ce n’est pas juste un outil, et il faudra trouver un équilibre entre innovation et responsabilité.

On ne pourra certainement mesurer l’impact réel de toutes ces technologies que dans plusieurs années. En attendant, continuons d’expérimenter en gardant un œil vigilant. Salut 🫡

Footnotes

  1. Wikipedia: Generative artificial intelligence

  2. Wikipedia: Conférence de Dartmouth

  3. McKinsey: “The State of AI in 2024”, mai 2024