ChatGPT-4oの使い方 OpenAIのOMNIモデルの基礎知識

ChatGPT-4o

ChatGPT-4oは、OpenAIが2024年5月に発表した最新のAIモデルです。主な特徴は以下の通りです。

自然な音声対話が可能
ChatGPT-4oは、より人間らしい自然な音声会話ができるようになりました。早口の会話にも素早く反応し、感情的な合図を拾い上げながら感情的な反応を再現できます。

画像や動画の入力に対応
従来のChatGPTは文字入力のみでしたが、ChatGPT-4oでは画像や動画の入力にも対応しました。画像や動画の内容を理解し、それに基づいた出力ができるようになりました。

マルチモーダル対応
ChatGPT-4oはマルチモーダルAIとなり、テキスト、画像、音声などさまざまなモダリティ(入力形式)を組み合わせて処理できるようになりました。

感情表現の向上
会話の途中で割り込まれても素早く対応でき、「やめてください、照れちゃいますよ」などの感情的な応答ができるようになりました。より人間らしい感情表現が可能になっています。

最新の知識を反映
学習データが2023年4月までに更新されたため、従来のChatGPTよりも最新の出来事や知識を反映した回答ができるようになりました。

ChatGPT-4oは、自然な対話、マルチモーダル対応、感情表現の向上など、人間とのコミュニケーションをよりスムーズにする機能が強化されています。

ChatGPT-4oは、音声入力と音声出力に対応しており、ユーザーとAIの間で自然な音声会話ができるようになりました。

スマートフォンアプリ(iOS/Android)で利用可能で、設定から「Voice conversations」をオンにすると音声会話モードが使えるようになります。

GPT-4oでは、音声の抑揚やトーン、スピードなどを調整することで、喜び、怒り、驚きなどの感情を表現できるようになりました。デモの中では、ChatGPTが人間のように感情を込めて会話する様子が披露されました。

例えば、OpenAIの従業員がChatGPTを褒めると、照れくさそうに応答したり、怒った口調で話したりするなど、さまざまな感情表現を見せました。

このように、GPT-4oはテキストだけでなく、音声の要素も取り入れることで、より人間らしい自然な対話を実現しています。

感情認識の向上

GPT-4oは、音声の抑揚やトーンから話者の感情を読み取ることもできるようになりました。従来のモデルでは、音声を一度テキストに変換する必要があり、声の調子などの情報が失われていました。

しかし、GPT-4oはテキスト、画像、音声などのマルチモーダルな入力を一度に処理できるため、話者の感情を適切に認識し、それに合わせた自然な応答が可能になったのです。

ChatGPT-4oは、これらの新機能により、ChatGPTはマルチモーダル対応となり、テキストだけでなく画像や動画も入力できるようになりました。ただし、現時点ではこの機能はChatGPT Plusの有料ユーザーのみが利用できます。

画像入力の使い方

画像入力機能を使うには、次の手順に従います

画像入力機能は、画像の内容を説明したり、画像に関連する質問に答えたり、画像を元にさまざまなタスクを実行したりすることができます。

動画入力の使い方

動画入力機能も同様の手順で使用できます

動画入力機能は、動画の内容を要約したり、特定のシーンを説明したり、動画に関連する質問に答えたりすることができます。

ChatGPT-4oを利用するには、ChatGPTの有料版「ChatGPT Plus」に加入する必要があります。

ChatGPT Plusの月額料金は20ドル(約2,600円)です。

ChatGPT Plusに加入すると、GPT-4の利用、ブラウジング機能、プラグインの利用、優先的なサポートなどの機能が利用できます。

企業向けには「ChatGPT Enterprise」プランもあり、チーム専用のワークスペースやカスタムGPTの作成が可能です。料金は不明です。

Microsoft Bingの検索エンジン「Copilot」でもGPT-4が利用できますが、機能は限定的です。

したがって、個人がChatGPT-4oを最大限活用するには、月額20ドルのChatGPT Plusに加入することが必要となります。企業での利用であればChatGPT Enterpriseも選択肢の一つとなります。

Perplexityでも、ChatGPT-4oが使用できるようになりました。