Tout le génie de l'IA sur des plateformes minimalistes

Dernièrement, j'ai abordé la sur-ingénierie et la sur-provision des ressources pour soutenir l'IA, à la fois dans le cloud et hors cloud. Les architectes d'IA mettent des processeurs très puissants, tels que les GPU, sur leurs listes d'achats de plateformes d'IA, sans s'arrêter pour déterminer s'ils apporteront une valeur ajoutée commerciale.

Je me suis retrouvé dans de nombreux désaccords houleux avec d'autres architectes informatiques sur l'utilisation de ces ressources pour l'IA. Il semble que deux camps se forment : d'abord, celui qui pense que l'IA aura besoin de toute la puissance de traitement et de stockage que nous pouvons nous permettre aujourd'hui. Ils renforcent les systèmes avant que cela ne soit nécessaire. L'argent et l'empreinte carbone n'ont pas besoin d'être pris en compte.

Deuxièmement, le camp qui configure une plateforme minimale viable (MVP) capable de prendre en charge les fonctions principales des systèmes d'IA. L'idée est de la garder aussi légère que possible et d'utiliser des plateformes moins puissantes, telles que l'informatique de pointe et l'informatique mobile.

Qui a raison ?

La tendance à la petite taille

Alors que nous entrons dans la seconde moitié de 2024, il est clair qu'un changement de paradigme est en train de remodeler le paysage : l'IA réduit son appétit pour le matériel. À une époque où l'efficacité numérique règne en maître, les technologies d'IA de pointe d'aujourd'hui se débarrassent de leurs lourdes dépendances en matière de ressources et se transforment en modèles allégés et agiles.

Le discours traditionnel sur le développement de l’IA a longtemps été très demandé. Cependant, il subit une réécriture radicale, en grande partie grâce aux nouvelles avancées dans les algorithmes d’IA et la conception du matériel.

Le développement d’architectures de réseaux neuronaux plus efficaces, telles que les transformateurs et les algorithmes de compression sans perte, a joué un rôle essentiel. Ces innovations ont permis de réduire la taille des données nécessaires à l’apprentissage et à l’inférence, réduisant ainsi l’effort de calcul. Cette tendance abaisse considérablement la barrière à l’entrée et offre des plateformes beaucoup plus petites et plus abordables, dans ou hors du cloud.

Plus efficace et rentable

L’avènement de processeurs d’IA spécialisés, tels que les unités de traitement tensoriel (TPU) et les unités de traitement neuronal (NPU), a constitué une étape cruciale dans cette évolution. Contrairement à leurs homologues génériques, tels que les GPU, ces processeurs sont optimisés pour les exigences spécifiques des charges de travail de l’IA. Ils effectuent plus de calculs par watt, ce qui se traduit par de meilleures performances avec une consommation d’énergie moindre.

Nous verrons probablement des processeurs plus efficaces et plus rentables à mesure que les milliards de dollars investis dans le domaine des processeurs créeront de meilleures options que les GPU extrêmement coûteux. Les systèmes d'IA se dirigent vers une puissance de traitement plus faible et donc une IA centrée sur les appareils. Elle n'est pas aussi axée sur les grands modèles de langage (LLM) qui définissent l'espace de l'IA générative.

Comme je l'ai déjà mentionné à plusieurs reprises, les entreprises ne créeront pas de LLM pour leurs implémentations d'IA ; dans les prochaines années, il s'agira de modèles plus petits et de cas d'utilisation tactiques. C'est là que les investissements doivent être réalisés.

Du côté logiciel, des frameworks comme TensorFlow Lite et ONNX permettent aux développeurs de créer des modèles d’IA hautement efficaces qui s’adaptent aux périphériques de pointe. L’accent mis sur le développement de systèmes d’IA semble se déplacer ici ; les entreprises trouvent davantage d’avantages dans la création de systèmes d’IA plus légers, capables de fournir davantage de valeur commerciale avec moins d’investissement.

Il faut reconnaître la magie de l'informatique de pointe. Cette notion autrefois futuriste est désormais bien réelle, poussant le traitement des données vers la périphérie du réseau. En exploitant les appareils de pointe, allant des gadgets IoT aux smartphones, les charges de travail de l'IA deviennent plus distribuées et décentralisées. Cela atténue la congestion de la bande passante et les problèmes de latence et favorise une tendance vers des processeurs minimalistes mais puissants.

Plus grand n'est pas toujours mieux

En 2024, notre dépendance aux infrastructures de données massives s’évapore progressivement. Des systèmes d’IA complexes fonctionnent de manière transparente sur des appareils qui tiennent dans la paume de votre main. Ce ne sont pas des LLM et ne prétendent pas l’être, mais ils peuvent contacter des LLM en cas de besoin et peuvent traiter 95 % de ce qu’ils doivent traiter sur l’appareil. C’est l’idée derrière les fonctionnalités d’Apple Intelligence qui n’ont pas encore été déployées et qui seront livrées dans la prochaine version d’iOS. Bien sûr, cela peut avoir pour but de favoriser les mises à niveau de l’iPhone plutôt que d’améliorer l’efficacité de l’IA.

Prenons l'exemple de l'intelligence embarquée dans les smartphones. Des processeurs comme l'A16 Bionic d'Apple et le Snapdragon 8 Gen 2 de Qualcomm ont intégré des capacités d'IA, ce qui a déclenché une révolution dans l'informatique mobile. Ces puces sont dotées d'accélérateurs d'apprentissage automatique qui gèrent des tâches telles que la traduction linguistique en temps réel, les jeux basés sur la réalité augmentée et le traitement sophistiqué des photos.

De plus, les modèles d’IA peuvent désormais être « réduits » sans perdre en efficacité. La quantification, l’élagage et la distillation des connaissances des modèles permettent aux concepteurs de réduire les modèles et de les rationaliser pour les déployer dans des environnements aux ressources limitées.

Cela va à l’encontre du discours actuel. La plupart des grandes entreprises de conseil et de technologie établissent des partenariats avec des fournisseurs de processeurs. Ce sera une sonnette d’alarme dont il sera difficile de se défaire. Sommes-nous inquiets lorsque les décisions sont davantage basées sur des obligations commerciales que sur des besoins commerciaux et que nous continuons à essayer d’intégrer des GPU coûteux et gourmands en énergie dans les clouds et les centres de données ? Nous nous attendons à ce que les entreprises créent et exploitent d’énormes systèmes d’IA qui consomment deux fois plus d’énergie et coûtent deux fois plus cher qu’à l’heure actuelle. C’est un résultat effrayant.

Cela ne signifie pas que nous allons limiter la puissance dont l’IA a besoin. Nous devons nous préoccuper de redimensionner nos ressources et d’utiliser l’IA plus efficacement. Nous ne sommes pas dans une course pour savoir qui peut construire le système le plus grand et le plus puissant. Il s’agit d’ajouter de la valeur commerciale en adoptant une approche minimaliste de cette technologie.

Tout le génie de l'IA sur des plateformes minimalistes

La tendance à la petite taille

Plus efficace et rentable

Plus grand n'est pas toujours mieux

Le Charles de Gaulle en mer d’Arabie : la France se positionne pour le détroit d’Ormuz

Somalie : 50 combattants al-Shabaab tués près de Baidoa

Drame aux Maldives : cinq plongeurs italiens morts dans une grotte, la sixième rescapée par un coup du sort

Guerre en Ukraine : 205 prisonniers échangés, un signal ou une illusion ?

Les Etats-Unis rejettent la proposition de paix en 14 points de l’Iran

Ebola en RDC : une épidémie qui ressurgit à l’est, aux portes de l’Ouganda

Hantavirus sur un bateau de croisière : on en sait plus sur les décès et la contamination des passagers

Guerre en Iran et au Liban : quel est le coût du conflit au Moyen-Orient pour la France ?

Manifestation du 1er mai : des risques de débordement ? Les autorités ont évalué les risques

Cette technique de détective privé permet de passer inaperçu : « Plus c’est gros, plus ça passe »

Juvisy-sur-Orge : un bus tombe dans la Seine, quatre personnes à bord et une interrogation

Disparition de Manon Relandeau : un SMS au cœur des soupçons

Laisser un commentaireAnnuler la réponse

Championnat d’Afrique de Karaté Zone 4 : Sept pays attendus à Yaoundé

Législatives 2024 – Olivier Faure se dit «prêt à assumer» le poste de Premier ministre