
Le laboratoire chinois d'IA DeepSeek a provoqué le premier scandale de la Silicon Valley en 2025 après avoir publié des versions ouvertes de modèles d'IA qui rivalisent avec les meilleures technologies proposées par OpenAI, Meta et Google.
DeepSeek affirme avoir construit ses modèles de manière très efficace et rapide (bien que certains soient sceptiques quant à ces affirmations) et propose ces modèles à une fraction du prix facturé par les entreprises américaines d'IA. Ce développement a ébranlé non seulement les géants de la technologie, mais aussi les plus hautes instances du gouvernement américain, qui craignent que la Chine ne prenne de l'avance dans la course à l'IA.
“Je ne serais pas surpris si beaucoup de laboratoires d'IA ont actuellement des salles de crise en cours,” a déclaré Robert Nishihara, le co-fondateur de la startup d'infrastructure d'IA Anyscale, dans une interview avec TechCrunch.
La montée de DeepSeek marque un tournant pour le paysage de l'IA de la Silicon Valley. Les PDG, fondateurs, chercheurs et investisseurs en IA disent à TechCrunch que les modèles de DeepSeek ont des implications majeures pour la politique américaine en matière d'IA. De plus, ces experts affirment que les modèles servent d'indicateur du rythme accéléré des progrès en matière d'IA.
De nouvelles façons de penser l'IA
Une des principales innovations de DeepSeek dans la création de son modèle R1 était l'apprentissage par renforcement pur, une approche d'essais et d'erreurs, selon le PDG de Workera et chargé de cours adjoint à Stanford, Kian Katanforoosh.
Katanforoosh a comparé la percée de DeepSeek à un enfant qui apprend à ne pas toucher une plaque chaude en se brûlant accidentellement.
“[Un enfant] peut toucher une plaque chaude, se brûler et apprendre rapidement à ne pas le refaire,” a déclaré Katanforoosh par message. “C'est l'apprentissage par renforcement pur - apprendre de l'essai et de l'erreur basé sur les retours […] La méthode de DeepSeek consiste à laisser le modèle apprendre par l'expérience seule.”
DeepSeek semble avoir davantage mis l'accent sur l'apprentissage par renforcement que d'autres modèles d'IA de pointe. OpenAI a également utilisé des techniques d'apprentissage par renforcement pour développer o1, que la société a révélé quelques semaines avant que DeepSeek n'annonce R1. Le prochain modèle d'OpenAI, o3, atteint une performance encore meilleure en utilisant largement des méthodes similaires, mais aussi des calculs supplémentaires, affirme la société.
L'apprentissage par renforcement représente l'une des façons les plus prometteuses d'améliorer les modèles d'IA fondamentaux aujourd'hui, selon Katanforoosh. Le terme “modèles fondamentaux” désigne généralement des modèles d'IA entraînés sur d'énormes quantités de données, comme des images et du texte du web. Il semble probable que d'autres laboratoires d'IA continueront à repousser les limites de l'apprentissage par renforcement pour améliorer leurs modèles d'IA, surtout compte tenu du succès de DeepSeek.
Il y a seulement quelques mois, les entreprises d'IA se heurtaient à des difficultés pour améliorer les performances de leurs modèles fondamentaux. Mais le succès de méthodes telles que l'apprentissage par renforcement et d'autres, comme le finetuning supervisé et l'escalade au moment des tests, indique que les progrès en matière d'IA pourraient reprendre.
Un tournant pour la politique en matière d'IA
R1, qui peut être téléchargé et exécuté sur n'importe quelle machine répondant aux exigences matérielles, correspond ou bat o1 sur un certain nombre de benchmarks en matière d'IA. Bien que ce ne soit pas la première fois que nous constatons un rétrécissement de l'écart de performance entre les modèles “fermés” comme ceux d'OpenAI et les modèles disponibles en open source, la vitesse à laquelle DeepSeek l'a fait a stupéfié l'industrie.
Cela pourrait pousser les États-Unis à augmenter leurs investissements dans l'IA ouverte, voire entièrement open source, pour rivaliser avec la Chine. Martin Casado, associé général chez Andreessen Horowitz (a16z), déclare à TechCrunch que DeepSeek prouve à quel point la logique réglementaire des deux dernières années était “sans fondement.”
“Pour l'IA, je pense que cela montre simplement que [les États-Unis] ne sont pas seuls dans notre capacité technique,” a déclaré Casado dans une interview. “Des solutions très compétitives peuvent venir de n'importe où, mais en particulier, de la Chine. Plutôt que de freiner l'innovation américaine, nous devrions y investir fortement. L'open source ne permet pas d'une manière ou d'une autre à la Chine de se développer. En réalité, interdire à nos entreprises de faire de l'open source signifie que notre technologie ne se propage pas autant.”
Casado semblait faire référence à l'ordonnance exécutive sur l'IA récemment abrogée du président Biden et au projet de loi californien SB 1047 veto, tous deux vivement contestés par a16z. a16z a argumenté que ces mesures privilégiaient la prévention de scénarios apocalyptiques d'IA au détriment de l'innovation américaine. Plus largement, la Silicon Valley a généralement réussi à endiguer le “mouvement de peur de l'IA” en 2024. La véritable préoccupation en matière d'IA, ont répété a16z et d'autres, est que l'Amérique perde son avantage compétitif face à la Chine.
Ce scénario semble beaucoup plus tangible à la lumière de la montée de DeepSeek.
Par ailleurs, a16z a investi massivement dans bon nombre des plus grands acteurs de l'IA ouverte, y compris Databricks, Mistral et Black Forest Labs. La société de capital-risque pourrait également jouer un rôle important en conseillant l'administration Trump en matière d'IA. L'ancien partenaire d'a16z, Sriram Krishnan, est désormais conseiller principal en politique d'IA de Trump.
Le président Trump a déclaré lundi que DeepSeek devrait être un “réveil” pour les entreprises américaines d'IA, tout en louant le laboratoire d'IA chinois pour son approche ouverte. Cela correspond assez bien à la position d'a16z sur l'IA.
“Le DeepSeek R1 est le Spoutnik de l'IA,” a déclaré Marc Andreessen, cofondateur d'a16z, dans un post sur X, en référence au lancement du satellite soviétique en orbite autour de la Terre il y a des décennies qui a poussé les États-Unis à investir sérieusement dans leur programme spatial.
La montée de DeepSeek semble également avoir changé l'opinion des sceptiques de l'IA ouverte, comme l'ancien PDG de Google, Eric Schimdt. L'année dernière, Schimdt exprimait des inquiétudes concernant la propagation des modèles d'IA ouverte occidentaux dans le monde entier. Mais dans une tribune publiée mardi, Schimdt a déclaré que la montée de DeepSeek marque un “tournant” dans la course mondiale à l'IA et a appelé à un investissement plus important dans l'IA ouverte américaine.
Perspectives d'avenir
Il est important de ne pas exagérer les réalisations de DeepSeek.
Par exemple, certains analystes sont sceptiques quant à l'affirmation de DeepSeek selon laquelle elle a formé l'un de ses modèles de pointe, DeepSeek V3, pour seulement 5,6 millions de dollars - une somme modique dans l'industrie de l'IA - en utilisant environ 2000 vieilles GPU Nvidia. Le laboratoire d'IA chinois n'est pas apparu du jour au lendemain, après tout, et DeepSeek disposerait d'un stock de plus de 50 000 GPU Nvidia de Hopper plus performantes.
Les modèles de DeepSeek sont également imparfaits. Selon un test réalisé par l'organisation de fiabilité des informations NewsGuard, R1 fournit des réponses inexactes ou non-réponses 83% du temps lorsqu'on lui pose des questions sur des sujets d'actualité. Un test séparé a révélé que R1 refuse de répondre à 85% des requêtes liées à la Chine, peut-être une conséquence de la censure gouvernementale à laquelle les modèles d'IA développés dans le pays sont soumis.
Ensuite, il y a les accusations de vol de propriété intellectuelle. OpenAI affirme avoir des preuves que DeepSeek a utilisé ses modèles d'IA pour former les siens, en utilisant un processus appelé distillation. Si cela est vrai, cela constituerait une violation des conditions d'OpenAI et rendrait également les réalisations de DeepSeek moins impressionnantes. Par exemple, des chercheurs de Berkeley ont récemment créé un modèle de raisonnement distillé pour seulement 450 dollars. (Bien sûr, OpenAI est actuellement poursuivi par plusieurs parties pour avoir prétendument commis des infractions au droit d'auteur en formant ses propres modèles.)
Cependant, DeepSeek a fait avancer les choses avec des modèles plus efficaces - et a innové. Lambert a noté que, contrairement à o1, R1 révèle son “processus de réflexion” aux utilisateurs. Lambert a observé que certains utilisateurs font davantage confiance ou croient en les modèles de raisonnement de l'IA lorsqu'ils voient leur processus interne, au cours duquel ils “expliquent leur travail.”
Maintenant, il faudra voir comment les décideurs américains et les laboratoires d'IA réagissent.
TechCrunch a une newsletter axée sur l'IA ! Inscrivez-vous ici pour la recevoir dans votre boîte de réception tous les mercredis.