Deep Cogito émerge de l'ombre avec des modèles d'IA hybrides de 'raisonnement'

Une nouvelle entreprise, Deep Cogito, est sortie de l'ombre avec une famille de modèles d'IA librement disponibles qui peuvent être basculés entre des modes de 'raisonnement' et de non-raisonnement.

Des modèles de raisonnement comme le o1 d'OpenAI ont montré une grande promesse dans des domaines comme les mathématiques et la physique, grâce à leur capacité à se fact-checker de manière efficace en travaillant sur des problèmes complexes étape par étape. Ce raisonnement a cependant un coût : une puissance de calcul et une latence plus élevées. C'est pourquoi des laboratoires comme Anthropic poursuivent des architectures de modèles 'hybrides' qui combinent des composants de raisonnement avec des éléments standards non-rationnels. Les modèles hybrides peuvent répondre rapidement à des questions simples tout en prenant plus de temps pour examiner des requêtes plus complexes.

Tous les modèles de Deep Cogito, appelés Cogito 1, sont des modèles hybrides. Cogito affirme qu'ils surpassent les meilleurs modèles ouverts de même taille, y compris les modèles de Meta et de la start-up chinoise DeepSeek.

"Chaque modèle peut répondre directement [...] ou se remettre en question avant de répondre (comme les modèles de raisonnement)," explique la société dans un billet de blog. "Ils ont été développés par une petite équipe en environ 75 jours."

Les modèles Cogito 1 vont de 3 milliards de paramètres à 70 milliards de paramètres, et Cogito affirme que des modèles allant jusqu'à 671 milliards de paramètres les rejoindront dans les semaines et mois à venir. Les paramètres correspondent grosso modo aux compétences de résolution de problèmes d'un modèle, plus de paramètres étant généralement meilleurs.

Il est important de préciser que Cogito 1 n'a pas été développé à partir de zéro. Deep Cogito s'est appuyé sur les modèles Llama ouverts de Meta et Qwen d'Alibaba pour créer les siens. La société affirme avoir appliqué des approches d'entraînement novatrices pour améliorer les performances des modèles de base et permettre le raisonnement commutable.

Selon les résultats des tests internes de Cogito, le plus grand modèle Cogito 1, Cogito 70B, avec raisonnement surpasse le modèle de raisonnement R1 de DeepSeek sur quelques évaluations mathématiques et linguistiques. Cogito 70B avec raisonnement désactivé surpasse également le modèle Llama 4 Scout récemment publié de Meta sur LiveBench, un test d'IA généraliste.

Chaque modèle Cogito 1 est disponible en téléchargement ou via des API sur les fournisseurs de cloud Fireworks AI et Together AI.

Performance de Cogito 1 comparée à d'autres modèles d'IA disponibles en open source populairesCrédits image: Deep Cogito

"Actuellement, nous en sommes encore aux premières étapes de notre courbe de mise à l'échelle, n'ayant utilisé qu'une fraction de la puissance de calcul généralement réservée à la post-formation/à la formation continue des grands modèles de langage traditionnels," écrit Cogito dans son billet de blog. "À l'avenir, nous étudions des approches complémentaires de post-formation pour l'auto-amélioration."

Selon des documents déposés auprès de l'État de Californie, Deep Cogito, basée à San Francisco, a été fondée en juin 2024. La page LinkedIn de l'entreprise répertorie deux cofondateurs, Drishan Arora et Dhruv Malhotra. Malhotra était auparavant chef de produit au laboratoire d'IA de Google DeepMind, où il a travaillé sur la technologie de recherche générative. Arora était ingénieur logiciel senior chez Google.

Deep Cogito, dont font partie les South Park Commons, selon PitchBook, vise ambitieusement à construire une "superintelligence générale". Les fondateurs de l'entreprise comprennent cette expression comme une IA capable d'accomplir des tâches mieux que la plupart des humains et de "découvrir des capacités entièrement nouvelles que nous n'avons pas encore imaginées."