DeepSeek : Tout ce que vous devez savoir sur l'application de chatbot AI

DeepSeek est devenu viral.

Le laboratoire d'IA chinois DeepSeek a explosé dans la conscience publique cette semaine après que son application de chatbot ait atteint le sommet des classements de l'App Store d'Apple. Les modèles d'IA de DeepSeek, qui ont été formés à l'aide de techniques efficaces en termes de calcul, ont incité les analystes de Wall Street - et les technologues - à se demander si les États-Unis peuvent maintenir leur avance dans la course à l'IA et si la demande de puces d'IA restera soutenue.

Mais d'où vient DeepSeek, et comment a-t-il rapidement accédé à la célébrité internationale ?

Les origines commerciales de DeepSeek

DeepSeek est soutenu par High-Flyer Capital Management, un hedge fund quantitatif chinois qui utilise l'IA pour éclairer ses décisions de trading.

L'enthousiaste de l'IA Liang Wenfeng a cofondé High-Flyer en 2015. Wenfeng, qui aurait commencé à s'aventurer dans le trading alors qu'il était étudiant à l'Université de Zhejiang, a lancé High-Flyer Capital Management en 2019 en se concentrant sur le développement et le déploiement d'algorithmes d'IA.

En 2023, High-Flyer a lancé DeepSeek en tant que laboratoire dédié à la recherche d'outils d'IA indépendants de son secteur financier. Avec High-Flyer comme l'un de ses investisseurs, le laboratoire s'est détaché pour devenir sa propre entreprise, également appelée DeepSeek.

Dès le premier jour, DeepSeek a construit ses propres grappes de centres de données pour l'entraînement des modèles. Mais comme d'autres entreprises d'IA en Chine, DeepSeek a été affecté par les interdictions d'exportation de matériel des États-Unis. Pour entraîner l'un de ses modèles les plus récents, l'entreprise a été forcée d'utiliser des puces Nvidia H800, une version moins puissante d'une puce, la H100, disponible pour les entreprises américaines.

L'équipe technique de DeepSeek est réputée pour être jeune. La société recrute apparemment de manière agressive des chercheurs en IA titulaires d'un doctorat dans les meilleures universités chinoises. DeepSeek emploie également des personnes sans formation en informatique pour aider sa technologie à mieux comprendre une large gamme de sujets, selon le New York Times.

Les modèles puissants de DeepSeek

DeepSeek a dévoilé sa première série de modèles - DeepSeek Coder, DeepSeek LLM et DeepSeek Chat - en novembre 2023. Mais ce n'est qu'au printemps dernier, lorsque la start-up a lancé sa famille de modèles de nouvelle génération DeepSeek-V2, que l'industrie de l'IA a commencé à prendre note.

DeepSeek-V2, un système d'analyse textuelle et d'image à usage général, a bien performé dans divers benchmarks d'IA - et était bien moins cher à exécuter que les modèles comparables à l'époque. Cela a forcé la concurrence nationale de DeepSeek, y compris ByteDance et Alibaba, à réduire les prix d'utilisation de certains de leurs modèles et à rendre d'autres complètement gratuits.

DeepSeek-V3, lancé en décembre 2024, n'a fait qu'ajouter à la notoriété de DeepSeek.

Selon les tests de benchmarking internes de DeepSeek, DeepSeek V3 surpasse à la fois les modèles téléchargeables et ouvertement disponibles comme Llama de Meta et les modèles "fermés" qui ne peuvent être accédés que par le biais d'une API, comme GPT-4o d'OpenAI.

Tout aussi impressionnant est le modèle de "raisonnement" R1 de DeepSeek. Sorti en janvier, DeepSeek affirme que R1 performe aussi bien que le modèle o1 d'OpenAI sur les principaux benchmarks.

Étant un modèle de raisonnement, R1 vérifie efficacement les faits lui-même, ce qui l'aide à éviter certaines des chausse-trappes qui piégent normalement les modèles. Les modèles de raisonnement prennent un peu plus de temps - généralement quelques secondes à quelques minutes de plus - pour arriver à des solutions par rapport à un modèle non-rationnel typique. L'avantage est qu'ils ont tendance à être plus fiables dans des domaines tels que la physique, la science et les mathématiques.

Il y a cependant un inconvénient à R1, DeepSeek V3 et aux autres modèles de DeepSeek. Étant des IA développées en Chine, elles sont soumises à un benchmarking par le régulateur internet de la Chine pour s'assurer que ses réponses "incarnent les valeurs socialistes fondamentales". Par exemple, dans l'application de chatbot de DeepSeek, R1 ne répondra pas aux questions sur la place Tiananmen ou l'autonomie de Taïwan.

Une approche perturbatrice

Si DeepSeek a un modèle commercial, il n'est pas clair en quoi consiste ce modèle exactement. La société fixe ses prix bien en dessous de la valeur du marché - et offre d'autres services gratuitement.

Selon DeepSeek, des percées en termes d'efficacité lui ont permis de maintenir une compétitivité extrême en termes de coûts. Cependant, certains experts contestent les chiffres fournis par l'entreprise.

Quoi qu'il en soit, les développeurs se sont appropriés les modèles de DeepSeek, qui ne sont pas open source au sens courant du terme mais sont disponibles sous des licences permissives autorisant une utilisation commerciale. Selon Clem Delangue, le PDG de Hugging Face, l'une des plateformes hébergeant les modèles de DeepSeek, les développeurs sur Hugging Face ont créé plus de 500 modèles "dérivés" de R1 qui ont totalisé 2,5 millions de téléchargements combinés.

Le succès de DeepSeek face à des rivaux plus importants et plus établis a été qualifié de “bouleversant l'IA” et d'introduction d'"une nouvelle ère de la surenchère en IA". Le succès de l'entreprise a été au moins en partie responsable de la chute de 18 % du cours de l'action de Nvidia lundi dernier, et d'une réponse publique du PDG d'OpenAI, Sam Altman.

Quant à l'avenir de DeepSeek, rien n'est clair. Des modèles améliorés sont une évidence. Mais le gouvernement américain semble se méfier de ce qu'il perçoit comme une influence étrangère néfaste.

TechCrunch a une newsletter axée sur l'IA! Abonnez-vous ici pour la recevoir dans votre boîte de réception tous les mercredis.