RE-Blog : Google answers Meta’s video-generating AI with its own, dubbed Imagen Video

Temps de lecture : 5 minutes
mots-clés : IA, image vidéo, YouTube, création, ethics, éthique

Chers lecteurs,

Depuis quelques mois et encore récemment, je vous inonde des sujets liés à l’intelligence artificielle et la création artistique au sens large :

Et plus récemment encore :

Aujourd’hui, je tiens à vous parler d’un autre aspect de ces algorithmes qui progressent très rapidement à travers la vidéo. Il se base sur le bel article de Kyle Wiggers dans Tech Crunch ( 5 octobre 2022). Il précise que Google désire contra attaquer Méta qui a lancé une IA capable de produire des mini films. Google le propose donc aujourd’hui à travers un nouvel outil qui s’appelle Imagen Vidéo. L’introduction de ce site devrait intéresser les profanes de ce domaine qui consiste à faire des images, et aujourd’hui des vidéos, à partir du texte selon la méthode initiale speech-to-text devenu entretemps speech-to-Picture, speech-to-vidéo ou encore selon une forme écrite plutôt que parlée (moins précise).

Aujourd’hui Google s’attaque à la vidéo.

Les chercheurs de Google expliquent dans un article interne ( IMAGEN VIDEO: HIGH-DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS) comment ils ont implémenté une démarche « image » vers une démarche « vidéo » qui s’apparente à la décomposition de 24 images par seconde… comme au cinéma. Dans les faits, Ils n’arrivent aujourd’hui qu’à proposer au mieux des gif élargis, mais l’évolution des IA typées « images » démontre qu’en quelques années, ces algorithmes vont pouvoir proposer des solutions beaucoup plus abouties.

Ethique

La question éthique que je pose depuis quelques mois, et je suis loin d’être le seul, est également sur la table des chercheurs de Google qu’ils décrivent comme suit (texte intégral du site, résumé de l’article) :

« Il existe plusieurs défis éthiques auxquels est confrontée la recherche text-to-image au sens large. Nous proposons une exploration plus détaillée de ces défis dans notre article et proposons une version résumée ici. Premièrement, les applications en aval des modèles texte-image sont variées et peuvent avoir un impact complexe sur la société. Les risques potentiels d’utilisation abusive soulèvent des inquiétudes concernant l’open source responsable du code et des démos. Pour le moment, nous avons décidé de ne pas publier de code ou de démo publique. Dans les travaux futurs, nous explorerons un cadre d’externalisation responsable qui équilibre la valeur de l’audit externe avec les risques d’un libre accès illimité. Deuxièmement, les exigences en matière de données des modèles texte-image ont conduit les chercheurs à s’appuyer fortement sur de vastes ensembles de données, pour la plupart non conservés et récupérés sur le Web. Bien que cette approche ait permis des avancées algorithmiques rapides ces dernières années, les ensembles de données de cette nature reflètent souvent des stéréotypes sociaux, des points de vue oppressifs et des associations désobligeantes ou autrement nuisibles à des groupes identitaires marginalisés. Alors qu’un sous-ensemble de nos données de formation a été filtré pour supprimer le bruit et le contenu indésirable, tels que les images pornographiques et le langage toxique, nous avons également utilisé l’ensemble de données LAION-400M qui est connu pour contenir un large éventail de contenus inappropriés, notamment des images pornographiques, des insultes racistes et stéréotypes sociaux néfastes. Imagen s’appuie sur des encodeurs de texte entraînés sur des données non curées à l’échelle du Web, et hérite ainsi des préjugés sociaux et des limites des grands modèles de langage. En tant que tel, il existe un risque qu’Imagen ait encodé des stéréotypes et des représentations nuisibles, ce qui guide notre décision de ne pas publier Imagen pour un usage public sans autres garanties en place.

Enfin, bien qu’il y ait eu un travail approfondi d’audit des modèles d’étiquetage image-texte et image pour les formes de préjugés sociaux, il y a eu relativement moins de travail sur les méthodes d’évaluation des préjugés sociaux pour les modèles texte-image. Un vocabulaire conceptuel autour des dommages potentiels des modèles texte-image et des mesures d’évaluation établies sont un élément essentiel de l’établissement de pratiques responsables de publication de modèles. Bien que nous laissions une analyse empirique approfondie des préjugés sociaux et culturels aux travaux futurs, nos évaluations internes à petite échelle révèlent plusieurs limites qui guident notre décision de ne pas publier notre modèle pour le moment. Imagen, peut courir le risque de laisser tomber les modes de distribution des données, ce qui peut encore aggraver la conséquence sociale du biais des ensembles de données. Imagen présente de sérieuses limitations lors de la génération d’images représentant des personnes. Nos évaluations humaines ont révélé qu’Imagen obtient des taux de préférence significativement plus élevés lorsqu’il est évalué sur des images qui ne représentent pas de personnes, ce qui indique une dégradation de la fidélité de l’image. L’évaluation préliminaire suggère également qu’Imagen encode plusieurs préjugés et stéréotypes sociaux, y compris un biais général en faveur de la génération d’images de personnes à la peau plus claire et une tendance pour les images représentant différentes professions à s’aligner sur les stéréotypes de genre occidentaux. Enfin, même lorsque nous nous concentrons sur des générations éloignées des personnes, notre analyse préliminaire indique qu’Imagen encode une gamme de préjugés sociaux et culturels lors de la génération d’images d’activités, d’événements et d’objets. Nous visons à progresser sur plusieurs de ces défis ouverts et limites dans les travaux futurs. »

Bref, Google se demande comment tagger une image construite à partir d’autres pour générer une traçabilité informationnelle du processus… et c’est une bonne chose. La boite de pandore est ouverte, personne ne sait vraiment comment la refermer. Il faudra du temps et entre ces temps-là, il faut être vigilant et critique.

Et peut être que dans quelques années, Google auto alimentera YouTube de ses propres productions… jusqu’à ce que les productions originales se tarissent. tient, cela me rappelle l’histoire de Torrent et Pirate Bay avec la musique et avant l’avènement de Spotify.

Merci de cette lecture.

Pascal SIMOENS Architecte et urbaniste, data Scientist. Expert Smart Cities. J’ai commencé ma vie en construisant des villes en Lego, j’en ai fait mon métier. Geek invétéré, aujourd’hui je joins mes passions du numérique et de la ville au travers d’une expertise smart Cities et smart buildings en travaillant en bureau d’étude (Poly-Tech Engineering) et j’enseigne cette même expertise à l’UMONS et l’ULB.

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s