Beijing, le 31 janvier (Xinhua) – La communauté de l’intelligence artificielle (IA) est en effervescence à propos de DeepSeek-R1, un nouveau modèle open-source développé par la startup chinoise DeepSeek. Lancé le 20 janvier, il a rapidement grimpé en tête des classements des applications gratuites sur l’App Store d’Apple, surpassant même ChatGPT d’OpenAI. Selon DeepSeek, pour des tâches comme les mathématiques, la programmation ou le raisonnement en langage naturel, les performances de ce modèle sont comparables à celles des leaders du marché, tout en consommant une fraction du budget et de la puissance de calcul de ses concurrents.
Voici ce que DeepSeek a accompli et pourquoi cela étonne tant l’industrie de l’IA.
Qu’est-ce que DeepSeek ?
Fondée en juillet 2023, DeepSeek, officiellement connue sous le nom de DeepSeek Artificial Intelligence Fundamental Technology Research Co., Ltd., est une startup technologique innovante qui se consacre au développement de modèles de langage de grande envergure (LLM) et de technologies connexes. Depuis la sortie de son premier modèle, le « DeepSeek LLM », en janvier de l’année dernière, l’entreprise a lancé plusieurs versions améliorées. En décembre, la startup a lancé son modèle open-source « V3 », qui a surpassé tous les modèles open-source de Meta et rivalisé avec le GPT-4 d’OpenAI, selon des rapports médiatiques américains.
Le modèle récemment publié, le R1, représente une percée technologique importante : il utilise des méthodes d’apprentissage profond pures pour permettre à l’IA de développer spontanément des capacités de raisonnement. Contrairement aux approches traditionnelles telles que le Chain-of-Thought (CoT) ou le Supervised Fine-Tuning (SFT), DeepSeek s’est distingué par l’adoption de l’apprentissage par renforcement (RL) comme méthode d’entraînement centrale. Tandis que CoT et SFT dépendent de raisonnements étape par étape et d’énormes quantités de données étiquetées, le RL permet aux modèles d’apprendre par interaction et mécanismes de récompense, ce qui les rend mieux adaptés aux tâches complexes et dynamiques.
L’adoption du RL a permis à DeepSeek de renforcer le raisonnement, l’adaptabilité et l’efficacité de ses modèles, plaçant l’entreprise en tête du secteur. Interrogé sur la signification de « DeepSeek », son chatbot R1 a répondu : « Le nom reflète la mission de l’entreprise, qui est d’explorer en profondeur et de faire avancer les technologies fondamentales de l’IA, dans le but de repousser les limites de l’innovation et des applications de l’IA. »
« Plus grand n’est plus toujours plus intelligent »
Selon le rapport technique de son modèle V3, le coût de fabrication de DeepSeek est d’environ 5,57 millions de dollars, ce qui en fait le moins cher parmi les LLM. Le célèbre économiste américain Jeffrey Sachs, professeur et directeur du Centre pour le développement durable à l’Université de Columbia, a déclaré à Xinhua que la percée réalisée par DeepSeek montre la possibilité d’une IA avancée à des coûts bien inférieurs à ce qui était largement cru aux États-Unis.
Andrej Karpathy, membre fondateur d’OpenAI, a écrit sur X : « DeepSeek-V3 rend les choses faciles aujourd’hui avec un modèle open-source de niveau frontière, formé sur un budget dérisoire (2 048 GPU pendant 2 mois, 6 millions de dollars). » Par rapport à d’autres modèles bien connus, DeepSeek a réduit de manière significative les coûts de manière exponentielle. Ce coût est « un contraste frappant avec les centaines de millions, voire des milliards, que les entreprises américaines investissent généralement dans des technologies similaires », a ajouté Marc Andreessen, investisseur technologique de renom, qualifiant le R1 de DeepSeek « d’une des percées les plus incroyables » qu’il ait jamais vues.
L’industrie de l’IA a longtemps reposé sur l’accumulation de puissance de calcul. Le modèle rentable de DeepSeek pourrait bien bouleverser le paysage de l’IA.
Un modèle open-source
« Le modèle DeepSeek est impressionnant à la fois par la manière dont il a efficacement mis en place un modèle open-source qui fait de l’inférence en temps réel, tout en étant extrêmement efficace en termes de calcul, » a déclaré Satya Nadella, CEO de Microsoft.
L’open-source permet aux chercheurs, développeurs et utilisateurs d’accéder au code sous-jacent du modèle ainsi qu’à ses « poids » — les paramètres qui déterminent la manière dont le modèle traite l’information. Cela leur permet d’utiliser, de modifier ou d’améliorer le modèle selon leurs besoins. DeepSeek bénéficie grandement des principes open-source et montre ainsi un fort engagement à partager des connaissances et à contribuer à l’avancement collectif de la technologie.
Le scientifique en chef de l’IA chez Meta, Yann LeCun, a déclaré : « Ils ont eu de nouvelles idées et les ont construites sur les travaux des autres. Parce que leurs travaux sont publiés et open-source, tout le monde peut en profiter. »
Réitérant l’importance de la recherche et du partage open-source, Sachs a ajouté : « Le modèle économique et de développement de DeepSeek est open-source, ce qui est un modèle convaincant et réussi pour la science, la technologie et les affaires. »
Tandis qu’OpenAI a commencé comme une organisation open-source avant de se tourner vers un modèle fermé, DeepSeek a choisi une voie différente. Liang Wenfeng, le fondateur de DeepSeek, a souligné que favoriser la collaboration et l’innovation grâce aux principes open-source est essentiel, et que la priorité est de bâtir un écosystème technologique solide. « Nous ne choisirons pas l’open-source, » a-t-il déclaré.



GIPHY App Key not set. Please check settings