ChatGPT-4o
ChatGPT-4oは、OpenAIが2024年5月に発表した最新のAIモデルです。主な特徴は以下の通りです。
自然な音声対話が可能
ChatGPT-4oは、より人間らしい自然な音声会話ができるようになりました。早口の会話にも素早く反応し、感情的な合図を拾い上げながら感情的な反応を再現できます。
画像や動画の入力に対応
従来のChatGPTは文字入力のみでしたが、ChatGPT-4oでは画像や動画の入力にも対応しました。画像や動画の内容を理解し、それに基づいた出力ができるようになりました。
マルチモーダル対応
ChatGPT-4oはマルチモーダルAIとなり、テキスト、画像、音声などさまざまなモダリティ(入力形式)を組み合わせて処理できるようになりました。
感情表現の向上
会話の途中で割り込まれても素早く対応でき、「やめてください、照れちゃいますよ」などの感情的な応答ができるようになりました。より人間らしい感情表現が可能になっています。
最新の知識を反映
学習データが2023年4月までに更新されたため、従来のChatGPTよりも最新の出来事や知識を反映した回答ができるようになりました。
ChatGPT-4oは、自然な対話、マルチモーダル対応、感情表現の向上など、人間とのコミュニケーションをよりスムーズにする機能が強化されています。
ChatGPT-4oの音声会話
ChatGPT-4oは、音声入力と音声出力に対応しており、ユーザーとAIの間で自然な音声会話ができるようになりました。
スマートフォンアプリ(iOS/Android)で利用可能で、設定から「Voice conversations」をオンにすると音声会話モードが使えるようになります。
関連 ChatGPTと音声会話
ユーザーの音声を認識しテキストに変換し、ChatGPTがそのテキストに対する応答を生成し、新しい音声合成モデルでその応答を読み上げます。
なお、音声認識にはOpenAIの音声認識システムWhisperが使われています。
関連 Whisper AIの使い方 オープンソースの音声認識AI
音声会話の使い方
- ChatGPTのスマートフォンアプリを開く。
- 右上の3点リーダーから「Settings」を選択。
- 「New Features」セクションで「Voice conversations」をオンにする。
- ヘッドフォンのアイコンが表示されるので、それをタップすると音声会話がスタート。
- マイクに向かって質問などを話す。
- ChatGPTが考え、音声で応答してくる。
注意点
- 音声会話には3時間ごとに最大50回までの制限がある。
- 周囲の雑音にも反応するので、静かな環境が望ましい。
- 履歴をオフにしていると音声会話ができない。
ChatGPT-4oの音声会話機能により、手を使わずにAIとの自然な対話が可能になり、様々な場面で活用が期待されています。
ChatGPT-4oの感情表現
GPT-4oでは、音声の抑揚やトーン、スピードなどを調整することで、喜び、怒り、驚きなどの感情を表現できるようになりました。 デモの中では、ChatGPTが人間のように感情を込めて会話する様子が披露されました。
例えば、OpenAIの従業員がChatGPTを褒めると、照れくさそうに応答したり、怒った口調で話したりするなど、さまざまな感情表現を見せました。
このように、GPT-4oはテキストだけでなく、音声の要素も取り入れることで、より人間らしい自然な対話を実現しています。
感情認識の向上
GPT-4oは、音声の抑揚やトーンから話者の感情を読み取ることもできるようになりました。 従来のモデルでは、音声を一度テキストに変換する必要があり、声の調子などの情報が失われていました。
しかし、GPT-4oはテキスト、画像、音声などのマルチモーダルな入力を一度に処理できるため、話者の感情を適切に認識し、それに合わせた自然な応答が可能になったのです。
ChatGPT-4oの画像と動画の入力
ChatGPT-4oは、これらの新機能により、ChatGPTはマルチモーダル対応となり、テキストだけでなく画像や動画も入力できるようになりました。ただし、現時点ではこの機能はChatGPT Plusの有料ユーザーのみが利用できます。
画像入力の使い方
画像入力機能を使うには、次の手順に従います
- ChatGPTのチャット画面で、テキスト入力欄の左側にある画像アイコンをクリックします。
- ローカルファイルから画像をアップロードするか、画像のURLを入力します。
- 画像に関する質問やタスクを入力して送信します。
- ChatGPT-4oが画像を解析し、関連する回答を生成します。
画像入力機能は、画像の内容を説明したり、画像に関連する質問に答えたり、画像を元にさまざまなタスクを実行したりすることができます。
動画入力の使い方
動画入力機能も同様の手順で使用できます
- チャット画面で動画アイコンをクリックします。
- ローカルファイルから動画をアップロードするか、動画のURLを入力します。
- 動画に関する質問やタスクを入力して送信します。
- ChatGPT-4oが動画を解析し、関連する回答を生成します。
動画入力機能は、動画の内容を要約したり、特定のシーンを説明したり、動画に関連する質問に答えたりすることができます。
ChatGPT-4oの料金
ChatGPT-4oを利用するには、ChatGPTの有料版「ChatGPT Plus」に加入する必要があります。
ChatGPT Plusの月額料金は20ドル(約2,600円)です。
ChatGPT Plusに加入すると、GPT-4の利用、ブラウジング機能、プラグインの利用、優先的なサポートなどの機能が利用できます。
企業向けには「ChatGPT Enterprise」プランもあり、チーム専用のワークスペースやカスタムGPTの作成が可能です。料金は不明です。
Microsoft Bingの検索エンジン「Copilot」でもGPT-4が利用できますが、機能は限定的です。
したがって、個人がChatGPT-4oを最大限活用するには、月額20ドルのChatGPT Plusに加入することが必要となります。企業での利用であればChatGPT Enterpriseも選択肢の一つとなります。
Perplexityでも、ChatGPT-4oが使用できるようになりました。
関連 PerplexityのAPIの料金、画像生成のやり方、使い方
ChatGPT-4oのまとめ
- 音声認識・合成の大幅な高速化により、リアルタイムの自然な会話が可能に
- 画像や動画の入力にも対応し、マルチモーダル処理が実現
- 感情の読み取りや表現力が向上し、より人間らしい対話が可能に
- 無料ユーザーでも高度な機能が利用可能になる見込み
関連 ChatGPTの使い方