INTERFACES ET APPROCHE MULTIMODALE : UN CERTAIN AVENIR DE L’IA

Temps de lecture : 6 minutes (+ vidéos)
mots-clés : IA, multimodal, Proof of Concept, architecture, enseignement, apprentissage, échec
Nombre de « pages » : 2

En bref : En décembre 2024, Google a repris sa place dans la recherche de l’IA alors qu’Open AI se démène avec ses problèmes entropiques. Google a non seulement proposé un Gemini plus performant, mais surtout multimodal. Probablement l’avenir de la relation de l’Homme avec les machines. Démonstration du potentiel par l’enseignement de l’architecture.

Chers lecteurs,

Le 11 décembre 2024, Google nous a présenté en toute discrétion sa nouvelle version de Gemini 2.0, son modèle IA similaire à ChatGPT d’Open AI. Il faut avouer que tout le monde avait été un peu déçu de la première version alors que le potentiel de Google n’est plus à démontrer. En effet, Google présente le plus de publications disponibles sur l’IA, entre autres avec sa base de données Deep mind spécifiquement dédiée à l’IA (https://deepmind.google/research/publications/)

Le plus intéressant dans les différentes vidéos présentées est celui lié à l’usage multimodal et nous pensons que cette approche est probablement déterminante dans l’utilisation de l’IA dans les années à venir.

Le principe de multimodalité qu’est-ce que c’est ?

Nous vous convions à prendre 15 minutes de votre temps pour comprendre la multimodalité numérique à travers cette vidéo d’Arte et de son émission culturelle… multimodale « Tracks ».

Le japonais Hiroshi Ishii est professeur au MIT Media Lab. Il a fondé le Tangible Media Group, qui se concentre sur la création d’interfaces utilisateur tangibles qui donnent une forme physique à l’information numérique. Il est considéré comme l’un des fondateurs des « interfaces utilisateur tangibles » (TUI). Ses recherches ont eu un impact significatif sur le domaine de l’interaction homme-machine, en explorant de nouvelles façons d’interagir avec les technologies.

Les « bits tangible » (extrait du site tangible média group)

En 1997, Hiroshi Ishii et Brygg Ulmer ont présenté leur vision des « bits tangibles » lors de la conférence CHI 97. Ils ont proposé le concept d’une interface utilisateur tangible (TUI), basée sur l’incarnation physique de l’information numérique et du calcul, afin de transcender le paradigme dominant actuel des « Bits peints » ou des interfaces utilisateur graphiques (GUI). Les êtres humains ont développé une capacité accrue à percevoir et à manipuler le monde physique, mais l’interface utilisateur graphique basée sur des pixels intangibles ne tire que peu d’avantages de cette capacité. L’interface utilisateur s’appuie sur notre dextérité naturelle en incarnant l’information numérique dans l’espace physique. Les interfaces utilisateur élargissent les possibilités offertes par les objets physiques, les surfaces et les espaces, de sorte qu’elles peuvent favoriser un engagement direct avec le monde numérique. En concevant une variété d’interfaces utilisateur, nous avons toutefois appris qu’elles sont limitées par la rigidité des « atomes » par rapport à la fluidité des « bits ». Les interfaces utilisateur ont une capacité limitée à modifier la forme ou les propriétés des objets physiques en temps réel. Cette contrainte peut rendre l’état physique des IUT incompatible avec les modèles numériques sous-jacents.

Il s’en suit la définition des atomes radicaux, un espace entre les atomes invisibles (ce qui nous entoure) et les atomes statiques (un mur, une personne, … ce qui remplit le vide) :

Pour résoudre ce problème d’incohérence, nous avons présenté en 2012 notre nouvelle vision, que nous appelons « Radical Atoms ». Radical Atoms va plus loin que Tangible Bits en supposant une génération hypothétique de matériaux capables de changer de forme et d’apparence de manière dynamique, devenant aussi reconfigurables que des pixels sur un écran. Radical Atoms est un matériau transformable et reconfigurable par le calcul qui est couplé de manière bidirectionnelle avec un modèle numérique sous-jacent (bits) de sorte que les changements dynamiques de la forme physique peuvent être reflétés dans les états numériques en temps réel, et vice versa. Radical Atoms sont des matériaux du futur qui peuvent transformer leur forme, se conformer à des contraintes et informer les utilisateurs de leurs possibilités. Les atomes radicaux représentent une vision de l’avenir de l’interaction homme-matériel, dans laquelle toutes les informations numériques ont une manifestation physique qui nous permet d’interagir directement avec elles. Nous ne nous concentrons plus sur la conception de l’interface, mais c’est le matériau lui-même qui devient l’interface, que nous appelons « interface utilisateur matérielle » (MUI).

Dans ce contexte, la voie que prennent Google et son expérience dans la recherche en IA depuis plus de 20 ans semble répondre à un enjeu essentiel de l’IA : « à quoi cela peut-il bien servir ? ». La question peut paraitre incongrue, mais regardons déjà les deux années écoulées avec Chat GPT et autres MidJourney, etc. Toutes ces IA sont capables de nous proposer des performances inégalées en matière de compilation de données pour « comprendre » notre question ou nos besoins en ce qui concerne les images ou les vidéos. En ce sens, L’IA accélère (encore) notre vie d’humain sans nécessairement la rendre plus facile.

Si je prends le domaine que je maitrise le mieux, l’architecture, dès l’arrivée l’IA générative sémantique, nous avons démarré son utilisation à travers les ateliers d’architecture. Nous avons constaté rapidement que les étudiants s’adaptaient rapidement aux nouveaux outils qui étaient mis à leur disposition. Toutefois, la créativité reste en surface des bons ou moins bons usages des outils. En d’autres termes, lorsque l’étudiant a démontré sa capacité d’usage des prompts pour la production d’image d’images, il doit ensuite retomber assez rapidement vers un modèle traditionnel d’enseignement de type « beaux-arts » cher à l’enseignement de l’architecture en Occident.

Vers une multimodalité intersémantique pour être plus intelligent

L’arrivée de la multimodalité intersémantique des usages ouvre une porte extraordinaire d’expérimentation : d’une part, nous pouvons transformer plus facilement une idée en image, vidéo, etc., permettant de mieux affiner les intentions et donc le concept en architecture. Ensuite, la multimodalité devra également permettre d’intégrer les imprimantes, découpeuses laser, etc., de manière totalement multimodale. Une nouvelle approche PoC (Proof of Concept) rapide et offrant un dialogue beaucoup plus enrichissant entre l’étudiant et les professeurs. C’est certainement là que la plus-value de l’IA se trouve : rendre les étudiants plus intelligents plus vite, les poussant ensuite dans une approche beaucoup plus expérientielle. Jean Guéhenno disait (Caliban parle) « La raison, cette étrangère sans mémoire et héritage, qui voulait toujours que tout recommençât ». Bachelard (L’intuition d’un instant) ajoute « l’échec n’est qu’une preuve négative ; l’échec est toujours expérimental ».

Aujourd’hui, l’échec coûte cher ! avec l’IA comme outil de la multimodalité des actions entre notre cerveau et les machines, l’échec pourrait devenir un outil d’apprentissage beaucoup plus souple et rendant l’échec formateur. C’est aussi un changement quasi « modal » de pensée en Europe et on comprend pourquoi les Américains sont en avance…

Bonne et belle journée à vous.

Merci pour le suivi de notre blog-à-idées ou à réflexions, c’est toujours agréable d’être lu et vous êtes de plus en plus nombreux (+ de 1 000 par mois en, moyenne). N’hésitez pas à commenter, c’est aussi une place de débats. Et surtout, merci de partager si vous soutenez nos réflexions ou recherches.

Pascal SIMOENS Ph.D, Architecte et urbaniste, data Scientist. Expert Smart Cities. J’ai commencé ma vie en construisant des villes en Lego, j’en ai fait mon métier. Geek invétéré, aujourd’hui je joins mes passions du numérique et de la ville au travers d’une expertise smart Cities et smart-buildings en travaillant en bureau d’étude (Poly-Tech Engineering) et j’enseigne cette même expertise à l’UMONS et l’ULB.

This post is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.