PR

LLMのパラメータ数を比較 仕組みや生成AIの違い

LLMとは?

↓LLMの人気ランキング。2023~2024年の変動グラフ。(https://chat.lmsys.org/

LLM(Large Language Model)は、大規模な言語モデルのことを指します。LLMの主な特徴は以下の通りです。

LLMの特徴

  • 膨大なテキストデータを用いて学習された、自然言語処理のための深層学習モデル
    関連 word2vecの学習済みモデル
  • 数十億から数兆のパラメータを持つ非常に大規模なニューラルネットワーク
  • 文章生成、要約、翻訳、感情分析、質問応答など、様々なタスクに応用可能
  • 学習データが増えるほど性能が向上し、少数のサンプルから新しいタスクを学習できる

LLMの仕組み

  • Transformerと呼ばれるニューラルネットワークアーキテクチャを基盤としている
    関連 多層パーセプトロン(MLP)とは
  • 大量のテキストデータから単語の関係性や文脈を学習
  • ファインチューニングやプロンプトチューニングにより特定のタスクに最適化

LLMの応用例

  • ChatGPTなどの対話型AI
  • プログラミングの自動化やコード生成
  • 医療や科学分野での知識発見の加速
  • 多言語翻訳による言語の壁の解消

LLMは自然言語処理の分野に大きな変革をもたらしつつあり、ビジネスや社会に幅広い影響を与えると期待されています。一方で、偏見やプライバシーの問題など、倫理的な課題にも留意が必要とされています。

よく使われているLLMランキング

OpenRouterというサイトで、よく使われているLLMのランキング情報を出しています。

LLM Rankings | OpenRouter

これによると、2024年、もっとも使われているLLMのランキングは以下の通り。

  1. MythoMax 13B
  2. Mixtral 8x7B Instruct
  3. Mistral 7B Instruct
  4. Anthropic: Claude 3 Haiku (self-moderated)
  5. Mixtral 8x7B Instruct (nitro)
  6. Mistral Tiny
  7. Anthropic: Claude 3 Haiku
  8. OpenChat 3.5
  9. Google: Gemini Pro 1.0
  10. Toppy M 7B
  11. Nous: Hermes 13B
  12. Mistral 7B Instruct (free)
  13. lzlv 70B
  14. MythoMax 13B (nitro)
  15. OpenAI: GPT-3.5 Turbo
  16. Anthropic: Claude 3 Sonnet (self-moderated)
  17. ReMM SLERP 13B
  18. MythoMax 13B (extended)
  19. Anthropic: Claude 3 Opus
  20. Mistral Medium

聞いたことないようなLLMがいっぱい出てる感じです。調べてみると、オープンソース系みたいですね。

あと、トークン数でランキングしているみたいですが、どうやって調べているんだろう…。

LLMのパラメータ数を比較

パラメータ数はLLMの性能や能力を表す重要な指標の一つで、パラメータ数を増やすことでより高度な自然言語処理が可能になります。

単純には言えませんが、LLMの性能をざっくり表せそうな数字です。

下記パラメータ数表記の1.5T(T=Trillion)=1兆5,000万、175B(B=Billion)=1750億

言語モデル名 パラメータ数 企業・組織名 発表年
GPT-4 1.5T(推定) OpenAI 2023年
GPT-3.5 175B OpenAI 2022年
PaLM 540B Google 2022年
Chinchilla 70B DeepMind 2022年
Megatron-Turing NLG 530B NVIDIA & Microsoft 2021年
Jurassic-1 Jumbo 178B AI21 Labs 2021年
Gopher 280B DeepMind 2021年
LLaMA-65B 65B Meta 2023年
Anthropic-Claude 不明 Anthropic 2023年
Llama 2-70B 70B Meta 2023年
Llama 2-13B 13B Meta 2023年
Llama 2-7B 7B Meta 2023年
LLM-jp-13B 13B 日本の研究機関 2023年
Weblab-10B 10B 東京大学松尾研究室 2023年

LLMと生成AIは違うの?

LLMと生成AIは、どちらもAIが新しい情報を生み出す技術ですが、次のような違いがあります。

生成AIとは

  • 生成AIは、AIが自律的に新しいコンテンツを作り出す技術の総称です。
  • テキスト、画像、音声、動画など、様々な種類のコンテンツを生成できます。
  • 機械学習の手法としては、RNN、GAN、Diffusionなど多様なアプローチがあります。

LLMとは

  • LLM(大規模言語モデル)は、生成AIの一種で、自然言語処理に特化したAIモデルです。
  • 大量のテキストデータから言語の法則性を学習し、テキストの生成や理解を行います。
  • 代表例としては、ChatGPTやGPT-3などがあります。

つまり、LLMは生成AIの中の1つのカテゴリーで、テキストデータを扱うのに特化しているのに対し、生成AIはテキスト以外にも画像や音声など、より広い範囲のコンテンツ生成を行うAI技術の総称と言えます。

LLMはテキストの理解と生成に長けていますが、画像生成などはできません。一方、生成AIの中にはStable DiffusionやDALL·E 3のように画像生成に特化したものもあります。

このように、LLMは生成AIの一部であり、より限定的な役割を担っていると言えるでしょう。生成AIの活用範囲はLLMよりも広いですが、その分野の1つとしてLLMが重要な位置を占めているのです。

 

LLMの種類

大規模言語モデル(LLM)には様々な種類があります。主なLLMを紹介します。

GPT-4
OpenAIが2023年にリリースしたLLMです。GPT-3やGPT-3.5と同様に、Transformerアーキテクチャをベースに開発されています。GPT-4をベースとしたマルチモーダルモデル「GPT-4V」では、画像や音声データも解析できます。

関連 ChatGPTの使い方

PaLM
GoogleのAIチャットボット「Bard」のベースとなるLLMです。GPT-4同様、Transformerを基に開発されました。パラメータ数は5,400億個と非常に大規模です。

関連 Google Geminiの使い方

LLaMA
2023年2月にMetaが発表したLLMです。パラメータ数は70億、130億、330億、650億個の4種類があります。他のモデルに比べパラメータ数が少ないのが特徴で、オープンソースとしてGitHubで公開されています。

関連 llama-cpp-pythonの使い方

Transformer
2017年に発表された、LLMにつながるきっかけとなったニューラルネットワークアーキテクチャです。現在の多くのLLMの基礎となっています。

関連 Transformerとは何か? 「ChatGPT」や「Gemini」を生み出した超重要技術の進化 |ビジネス+IT

BLOOM
BigScience Workshopによって開発された、1760億のパラメータを持つオープンソースのLLMです。

有名企業が独占してきたLLMに対抗すべく作られたオープンソース版LLMですが、あまりパッとせず。

2022年7月時点で、モデルの更新が止まっているようです。

関連 bigscience/bloom · Hugging Face

他にもClaude、NeMo、OpenCALMなど様々なLLMが存在します。LLMは日々進化しており、より大規模で高性能なモデルが次々と発表されています。