生成AIのEmbedding
生成AIのEmbeddingってなに?
生成AIのEmbeddingってなに?
いやー、全然わからないですね。
Embeddingは直訳で「埋め込み」のことです。
ざっくり理解するとしたら、多次元ベクトル空間に「犬」と「猫」をプロットすると、「人に飼われることが多くて」「SNSに写真をあげられることも多くて」などの共通点が多いので、意味合いとしては近いので、2つは「距離が近い」ということになります。
「共起語」を判定するときの考え方に近いかも知れません。
生成AIにおけるEmbeddingの活用
画像生成AIでは、効率的な追加学習ができ、テキストに対しては効率的な文書検索や関連文書を探すのに役立つ…ということですね。
Embeddingの実装方法
Embeddingは、検索エンジンやチャットボットなど、生成AIを支える重要な基盤技術の1つです。自然言語をコンパクトかつ意味的に表現できるEmbeddingの特性を活かすことで、より柔軟で高度なAIシステムの実現が期待されています。
生成AIの内部的な技術で、使うだけなら深く理解する必要もないのかも知れませんが、なにかの応用に使えるのかもな…と思います。
ChatGPTのEmbeddingを使ったとしたら、具体的になにができる?
関連 ChatGPTの使い方
独自データを使ったChatGPTとの対話
例えば、チャットボットに追加の知識を学習させられます。
自社の過去の取引履歴や顧客データなどの独自データをChatGPTに学習させ、業界固有の情報に基づいた専門的な回答が可能になります。
例えば、自社製品に関する詳細な情報や業界の専門用語をChatGPTに学習させることで、顧客からの具体的な質問に対しても正確で専門的な回答をすることができます。
関連情報の抽出
ユーザーの入力文に関連した独自データを、Embeddingを使ってベクトルデータベースから抽出することができます。この関連情報とユーザーの入力文をChatGPTに渡すことで、より文脈に合った回答が得られます。
類似文章の検索
Embeddingを利用すると、文章の類似度を求めたり、検索したりすることができます。業界特有の専門用語などに対しても、FAQ等の類似質問の検索や、過去の対話ログから関連する回答を見つけ出すことが可能になります。
つまり…一般的な知識と受けごたえができるチャットボットに、専門知識を与えることができると考えていいでしょう。
専門知識部分をとっかえひっかえすることで、いろんな用途に使い回すことができそうですね。
「一般知識」+「専門知識」モデルを作ることで、「特化型モデル」を作ることができると考えていいでしょう。「なんでも完璧に理解するAI」よりも、別ジャンルはダメダメだけど、特定ジャンルに詳しいAIの方がコストも節約できそうです。