OpenAIのGPT-4oに会いましょう：テキスト、画像、音声入力をサポートする無料のLLM

OpenAIの頭脳であるサム・アルトマンは、Twitterでのライブストリームで発表した後、新しいLLMモデルを発表しました。

GPT-4oは、マルチモーダル入力を受け付けるLLMモデルの最新の改善です。音声、テキスト、または画像コマンドを簡単に理解できます。

OpenAIはGPT-4oをChatGPTに統合しており、新しいLLMをペイウォールの背後に制限していません。

GPT-4oはどれほど優れているのか？

以前のモデルと比較して、GPT-4oは大幅に高速です。サムが共有した画像によると、このモデルはすべてのルーチン作業、特にコーディングにおいて優れています。

このモデルは、他の古いGPTモデルや異なる企業のLLMと比較して、全体評価1310を獲得しました。

コーディングカテゴリーでは1369を獲得し、他のモデルを大きくリードしています。

gpt-4oコーディングスコア

サムは新しいモデルをすべての部門でデモンストレーションしました。ビデオクリップでは、プレゼンターがGPT-4oを搭載したChatGPTと音声機能を使って対話している様子が映されています。

驚いたことに、AIアシスタントは非常に古い友人と話しているかのように、人間らしいトーンとピッチを維持しました。

公式ウェブページは、「音声入力に232ミリ秒で応答でき、平均320ミリ秒です」と主張しています。

これらの数字は、新しいモデルが会話における人間の応答速度に非常に近いことを示しています。

音声インタラクションは、ほとんどの音声アシスタントのようにロボット的または単調には聞こえませんでした。

サムは大きな違いを指摘し、「リアルタイムの音声とビデオは非常に自然に感じられます」と述べました。

プレゼンターは次にビデオモードに切り替え、新しいモデルが認識し、迅速に解決した方程式を書きました。

コーディングデモは、プレゼンターが指摘したコードスニペットの塊を難なく解釈しました。

GPT-4モデルを搭載したChatGPTは、有料のサブスクライバーのみが利用可能です。しかし、GPT-4oはすべての既存のChatGPTメンバー（無料および有料）に無料で提供されます。

ただし、アルファ版のGPT-4oの音声モードは、ChatGPT Plusのサブスクライバーのみが利用可能です。

開発者は、GPT 4の半額で新しいLLMのAPIを体験できます。さらに、OpenAIはAPIが2倍速く、制限が5倍であると主張しています。