Alibaba affirme que son nouveau modèle d'IA surpasse DeepSeek et ChatGPT

Dans un mouvement audacieux pour rivaliser dans l’industrie de l’intelligence artificielle (IA) en pleine croissance, la société technologique chinoise Alibaba a lancé mercredi une nouvelle version de son modèle d’IA, Qwen 2.5-Max, affirmant qu’il surpassait les performances de modèles bien connus comme l’IA de DeepSeek, le GPT-4o d’OpenAI et le Llama de Meta.

La sortie de Qwen 2.5-Max le premier jour du Nouvel An lunaire, une période où de nombreux Chinois sont traditionnellement en congé et passent du temps avec leur famille, souligne stratégiquement la pression que la montée fulgurante de DeepSeek au cours des trois dernières semaines a exercée non seulement sur ses rivaux étrangers mais aussi sur ses concurrents nationaux, tels que Tencent Holdings Ltd. et Baidu Inc.

Le nouveau modèle de l’entreprise aurait été développé sur plus de 20 trillions de tokens et a été ensuite post-entraîné avec des méthodologies de Supervised Fine-Tuning (SFT) et de Reinforcement Learning from Human Feedback (RLHF) soigneusement sélectionnées.

“Qwen 2.5-Max surpasse… presque partout GPT-4o, DeepSeek-V3 et Llama-3.1-405B,” a déclaré l’unité Cloud d’Alibaba dans une annonce publiée sur son compte officiel WeChat, faisant référence à des géants internationaux comme OpenAI et Meta.

Alibaba a annoncé que son Qwen2.5-Max surpasse DeepSeek V3 dans plusieurs benchmarks, y compris Arena-Hard, LiveBench, LiveCodeBench et GPQA-Diamond.

Il a également démontré des résultats impressionnants dans d’autres évaluations, y compris MMLU-Pro.

Les modèles de base de l’entreprise ont montré des améliorations substantielles dans la majorité des benchmarks, et elle est confiante que les avancées dans les méthodes de post-entraînement élèveront la prochaine version de Qwen2.5-Max à des niveaux de performance encore plus élevés.

“Lors de la comparaison des modèles de base, nous ne pouvons pas accéder aux modèles propriétaires tels que GPT-4o et Claude-3.5-Sonnet. Par conséquent, nous évaluons Qwen2.5-Max par rapport à DeepSeek V3, un modèle MoE à poids ouverts de premier plan, Llama-3.1-405B, le plus grand modèle dense à poids ouverts, et Qwen2.5-72B, qui figure également parmi les meilleurs modèles denses à poids ouverts,” a déclaré l’entreprise dans un blog.

De plus, Qwen d’Alibaba a ajouté : “Maintenant, Qwen2.5-Max est disponible dans Qwen Chat, et vous pouvez discuter directement avec le modèle, ou jouer avec des artefacts, rechercher, etc.”

Tout cela est dû à DeepSeek, une start-up chinoise fondée en 2023 dans la ville natale d’Alibaba, Hangzhou.

Avec la sortie de ses modèles DeepSeek-V3 et R1, DeepSeek a provoqué des ondes de choc dans le paysage de l’IA aux États-Unis.

Elle a également rapidement attiré l’attention mondiale pour son coût très bas et sa puissance de calcul, les investisseurs remettant en question la viabilité des projets d’IA coûteux des entreprises basées aux États-Unis.

Le succès de la start-up en Chine a suscité une concurrence intense parmi les géants technologiques du pays.

Par exemple, seulement deux jours après le lancement de son modèle R1, la société mère de TikTok, ByteDance, a répondu avec une mise à jour de son modèle d’IA phare, affirmant qu’il surpassait le o1 d’OpenAI sur AIME, dans un test de benchmark crucial qui évalue la performance de l’IA dans la compréhension et l’exécution d’instructions complexes.

Cependant, DeepSeek avait déjà fait sa propre affirmation audacieuse, affirmant que son modèle R1 pouvait rivaliser ou surpasser le o1 d’OpenAI sur plusieurs benchmarks de performance.

Recevez de nouveaux articles dans votre boîte de réception.