Deepseek est devenu viral.
Le laboratoire de l'AI chinois Deepseek est entré par effraction dans la conscience grand public cette semaine après que son application Chatbot a atteint le sommet des palmarès Apple App Store (et Google Play également). Les modèles d'IA de Deepseek, qui ont été formés à l'aide de techniques économes en calcul, ont conduit les analystes de Wall Street – et les technologues – pour se demander si les États-Unis peuvent maintenir son avance dans la course d'IA et si la demande de chips d'IA soutiendra.
Mais d'où vient Deepseek, et comment a-t-il atteint la renommée internationale si rapidement?
Les origines du commerçant de Deepseek
Deepseek est soutenu par High Flyer Capital Management, un fonds de couverture quantitatif chinois qui utilise l'IA pour éclairer ses décisions commerciales.
Le passionné de l'AI, Liang Wenfeng, a cofondé le voleur élevé en 2015. Wenfeng, qui aurait commencé à se targner dans le commerce tandis qu'un étudiant de l'Université du Zhejiang, a lancé la gestion des capitaux de haut niveau en tant que fonds spéculatif en 2019 axé sur le développement et le déploiement d'algorithmes AI.
En 2023, High-Flyer a lancé Deepseek en tant que laboratoire dédié à la recherche d'outils d'IA séparés de son activité financière. Avec High-Flyer comme l'un de ses investisseurs, le laboratoire s'est déroulé dans sa propre entreprise, également appelé Deepseek.
Dès le premier jour, Deepseek a construit ses propres grappes de centres de données pour la formation des modèles. Mais comme les autres sociétés d'IA en Chine, Deepseek a été affecté par les interdictions d'exportation américaines sur le matériel. Pour former l'un de ses modèles les plus récents, la société a été obligée d'utiliser des puces NVIDIA H800, une version moins puissante d'une puce, la H100, disponible pour les sociétés américaines.
L'équipe technique de Deepseek est censée fausser jeune. L'entreprise recruterait de manière agressive les chercheurs de doctorat d'IA des meilleures universités chinoises. Deepseek embauche également les gens sans aucune formation en informatique pour aider sa technologie à mieux comprendre un large éventail de sujets, selon le New York Times.
Modèles forts de Deepseek
Deepseek a dévoilé son premier ensemble de modèles – Deepseek Coder, Deepseek LLM et Deepseek CHAT – en novembre 2023. Mais ce n'est qu'au printemps dernier, lorsque la startup a publié sa famille de modèles Deepseek-V2 de nouvelle génération, que l'industrie de l'IA a commencé à remarquer.
Deepseek-V2, un système d'analyse de texte et d'image à usage général, a bien performé dans divers repères d'IA – et était beaucoup moins cher à fonctionner que les modèles comparables à l'époque. Cela a forcé la concurrence intérieure de Deepseek, y compris Bytedance et Alibaba, de réduire les prix d'utilisation de certains de leurs modèles et de rendre les autres complètement gratuits.
Deepseek-V3, lancé en décembre 2024, seulement ajouté à la notoriété de Deepseek.
Selon les tests de référence internes de Deepseek, Deepseek V3 surpasse les modèles téléchargeables et ouvertement disponibles comme Meta's Llama et les modèles «fermés» qui ne peuvent être accessibles que via une API, comme le GPT-4O d'OpenAI.
Tout aussi impressionnant est le modèle de «raisonnement» R1 de Deepseek. Sorti en janvier, Deepseek affirme que R1 se produit ainsi que le modèle O1 d'Openai sur les références clés.
Étant un modèle de raisonnement, R1 vérifie efficacement les faits, ce qui l'aide à éviter certains des pièges qui déclenchent normalement des modèles. Les modèles de raisonnement prennent un peu plus de temps – généralement des minutes à quelques minutes de plus – pour arriver à des solutions par rapport à un modèle typique de non-saison. L'avantage est qu'ils ont tendance à être plus fiables dans des domaines tels que la physique, les sciences et les mathématiques.
Cependant, il y a un inconvénient de R1, Deepseek V3 et des autres modèles de Deepseek. Étant une IA développée en chinois, ils sont soumis à une analyse comparative du régulateur Internet chinois pour s'assurer que ses réponses «incarnent les valeurs socialistes de base». Dans l'application Chatbot de Deepseek, par exemple, R1 ne répondra pas aux questions sur Tiananmen Square ou l'autonomie de Taiwan.
Une approche perturbatrice
Si Deepseek a un modèle commercial, il n'est pas clair quel est ce modèle, exactement. L'entreprise évalue ses produits et services bien en dessous de la valeur marchande – et en donne les autres gratuitement.
La façon dont Deepseek le dit, les percées d'efficacité lui ont permis de maintenir une compétitivité extrêmement des coûts. Certains experts contestent cependant les chiffres fournis par la Société.
Quoi qu'il en soit, les développeurs ont pris les modèles de Deepseek, qui ne sont pas open source car la phrase est couramment comprise mais sont disponibles sous des licences permissives qui permettent une utilisation commerciale. Selon Clem Delangue, le PDG de Hugging Face, l'une des plates-formes hébergeant les modèles de Deepseek, les développeurs sur Hugging Face ont créé plus de 500 modèles «dérivés» de R1 qui ont accumulé 2,5 millions de téléchargements combinés.
Le succès de Deepseek contre les rivaux plus grands et plus établis a été décrit comme «renversement de l'IA» et «sur-hypte». Le succès de la société était au moins responsable en partie de provoquer une baisse du cours des actions de Nvidia de 18% en janvier et de provoquer une réponse publique du PDG d'Openai, Sam Altman.
Microsoft a annoncé que Deepseek est disponible sur son service Azure AI Foundry, la plate-forme de Microsoft qui rassemble les services d'IA pour les entreprises sous une seule bannière. Interrogé sur l'impact de Deepseek sur les dépenses de l'IA de Meta lors de son appel de résultats au premier trimestre, le PDG Mark Zuckerberg a déclaré que les dépenses dans l'infrastructure de l'IA continueront d'être un «avantage stratégique» pour Meta.
Au cours de l'appel de résultats du quatrième trimestre de Nvidia, le PDG Jensen Huang a souligné que «l'excellente innovation» de Deepseek, affirmant que les modèles «de raisonnement» de Deepseek sont parfaits pour Nvidia car ils ont besoin de beaucoup plus de calcul.
Dans le même temps, certaines entreprises interdisent Deepseek, tout comme les pays et les gouvernements entiers, y compris la Corée du Sud. L'État de New York a également interdit à Deepseek d'être utilisé sur les appareils gouvernementaux.
Quant à ce que l'avenir de Deepseek pourrait tenir, ce n'est pas clair. Les modèles améliorés sont une donnée. Mais le gouvernement américain semble se méfier de ce qu'il perçoit comme une influence étrangère nuisible. En mars, le Wall Street Journal a rapporté que les États-Unis interdisent probablement Deepseek sur les appareils gouvernementaux.
Cette histoire a été initialement publiée le 28 janvier 2025 et sera mise à jour régulièrement.



GIPHY App Key not set. Please check settings