アリババ、新しいAIモデルがDeepSeekとChatGPTを上回ると主張

中国のテクノロジー企業アリババは、水曜日に新しいAIモデル「Qwen 2.5-Max」を発表し、DeepSeekのAI、OpenAIのGPT-4o、MetaのLlamaなどの有名モデルを上回る性能を持つと主張しました。

旧正月の初日にQwen 2.5-Maxをリリースすることは、多くの中国人が伝統的に仕事を休み家族と過ごす時期であり、DeepSeekの過去3週間の急成長が海外の競合他社だけでなく、Tencent Holdings Ltd.やBaidu Inc.などの国内競争相手にもプレッシャーをかけていることを戦略的に強調しています。

同社の新モデルは、20兆以上のトークンで開発され、さらにキュレーションされた監視付きファインチューニング（SFT）と人間のフィードバックからの強化学習（RLHF）手法で後処理されています。

「Qwen 2.5-Maxは、ほぼすべての面でGPT-4o、DeepSeek-V3、Llama-3.1-405Bを上回ります」とアリババのクラウド部門は公式WeChatアカウントに投稿した発表で述べ、OpenAIやMetaなどの国際的な巨人を指しています。

アリババは、Qwen2.5-MaxがArena-Hard、LiveBench、LiveCodeBench、GPQA-Diamondなどの複数のベンチマークでDeepSeek V3を上回ると発表しました。

また、MMLU-Proを含む他の評価でも印象的な結果を示しました。

同社のベースモデルは、ほとんどのベンチマークで大幅な改善を示しており、ポストトレーニング手法の進歩が次のQwen2.5-Maxのバージョンをさらに高い性能レベルに引き上げると自信を持っています。

「ベースモデルを比較する際、GPT-4oやClaude-3.5-Sonnetなどの独自モデルにアクセスできません。したがって、Qwen2.5-Maxを、リーディングオープンウェイトMoEモデルであるDeepSeek V3、最大のオープンウェイト密モデルであるLlama-3.1-405B、そしてトップオープンウェイト密モデルの一つであるQwen2.5-72Bと評価します」と同社はブログで述べました。

さらに、アリババのQwenは次のように付け加えました。「現在、Qwen2.5-MaxはQwen Chatで利用可能で、モデルと直接チャットしたり、アーティファクトで遊んだり、検索したりできます。」

これはすべて、アリババの故郷である杭州に2023年に設立された中国のスタートアップDeepSeekによるものです。

DeepSeekは、DeepSeek-V3およびR1モデルのリリースにより、米国のAI業界に衝撃を与えました。

また、低コストと計算能力の大きさで急速に世界的な注目を集めており、投資家は米国企業の高額なAIプロジェクトの実現可能性に疑問を呈しています。

このスタートアップの成功は、中国のテクノロジー大手間の激しい競争を引き起こしています。

たとえば、DeepSeekがR1モデルを発表してからわずか2日後、TikTokの親会社であるByteDanceは、自社のフラッグシップAIモデルのアップデートを発表し、OpenAIのo1をAIMEで上回ると主張しました。これは、AIの性能を複雑な指示を理解し実行する能力を評価する重要なベンチマークテストです。

しかし、DeepSeekはすでに大胆な主張を行っており、自社のR1モデルが複数の性能ベンチマークでOpenAIのo1に匹敵するか、それを上回る可能性があるとしています。

新しい投稿を受信箱で受け取る