LLMのパラメータ数の比較ランキング大規模言語モデル

LLMのランキング

LLMのランキング

LLMのランキング変動は激しい。新しいLLMもどんどん生まれていく…。2024年6月のランキングはこれ。

LLMのランキングを可視化しているのがこれ。2023～2024年の変動グラフ。（https://chat.lmsys.org/）

I used the chatbot arena data from @lmsysorg to create a visualization of LLM’s Elo rating changes. You can see:

1. The gap between various companies/open source projects is narrowing.
2. The major players are gradually becoming the various big tech companies. pic.twitter.com/4JaJsYljLM

— Jianqi Pan (@jannchie) April 28, 2024

LLMの特徴

膨大なテキストデータを用いて学習された、自然言語処理のための深層学習モデル
関連 word2vecの学習済みモデル
数十億から数兆のパラメータを持つ非常に大規模なニューラルネットワーク
文章生成、要約、翻訳、感情分析、質問応答など、様々なタスクに応用可能
学習データが増えるほど性能が向上し、少数のサンプルから新しいタスクを学習できる

LLMの仕組み

Transformerと呼ばれるニューラルネットワークアーキテクチャを基盤としている
関連多層パーセプトロン(MLP)とは
大量のテキストデータから単語の関係性や文脈を学習
ファインチューニングやプロンプトチューニングにより特定のタスクに最適化

LLMの応用例

ChatGPTなどの対話型AI
プログラミングの自動化やコード生成
医療や科学分野での知識発見の加速
多言語翻訳による言語の壁の解消

LLMは自然言語処理の分野に大きな変革をもたらしつつあり、ビジネスや社会に幅広い影響を与えると期待されています。一方で、偏見やプライバシーの問題など、倫理的な課題にも留意が必要とされています。

よく使われているLLMランキング

OpenRouterというサイトで、よく使われているLLMのランキング情報を出しています。

LLM Rankings | OpenRouter

これによると、2024年、もっとも使われているLLMのランキングは以下の通り。

MythoMax 13B
Mixtral 8x7B Instruct
Mistral 7B Instruct
Anthropic: Claude 3 Haiku (self-moderated)
Mixtral 8x7B Instruct (nitro)
Mistral Tiny
Anthropic: Claude 3 Haiku
OpenChat 3.5
Google: Gemini Pro 1.0
Toppy M 7B
Nous: Hermes 13B
Mistral 7B Instruct (free)
lzlv 70B
MythoMax 13B (nitro)
OpenAI: GPT-3.5 Turbo
Anthropic: Claude 3 Sonnet (self-moderated)
ReMM SLERP 13B
MythoMax 13B (extended)
Anthropic: Claude 3 Opus
Mistral Medium

聞いたことないようなLLMがいっぱい出てる感じです。調べてみると、オープンソース系みたいですね。

あと、トークン数でランキングしているみたいですが、どうやって調べているんだろう…。

LLMのパラメータ数を比較

パラメータ数はLLMの性能や能力を表す重要な指標の一つで、パラメータ数を増やすことでより高度な自然言語処理が可能になります。

単純には言えませんが、LLMの性能をざっくり表せそうな数字です。

モデル名	開発企業	パラメータ数
Claude-3 OPUS	Anthropic	2兆
GPT-4	OpenAI	1.5兆
Gemini	Google	最大1兆
Mixtral	Mixtral AI	1,760億
GPT-3	OpenAI	1,750億
BLOOM	BigScience	1,760億
Grok 1.5	Grok	3,140億
Command R+	Cohere	1,040億
LLaMA 2	Meta AI	最大700億

パラメータ数の意味

パラメータ数は、モデルの表現力を示す重要な指標です。パラメータとは、機械学習モデルが学習によって調整する変数のことで、パラメータの数が多いほど、モデルはより複雑な関数を表現できます。

例えば、1,000億のパラメータを持つモデルは、1,000億個のニューロンを持つ人間の脳に例えることができます。

注目すべきポイント

パラメータ数の大小だけでモデルの性能を判断することはできません。以下の要因も重要です：

学習データの質と量
モデルアーキテクチャの効率性
特定のタスクへの最適化度合い

特に最近のモデルでは、より少ないパラメータ数でも高い性能を発揮する効率的な設計が注目されています。

LLMと生成AIは違うの？

LLMと生成AIには明確な違いがあり、以下のように整理できます。

定義と範囲の違い

生成AIは、テキスト、画像、音声、動画など、様々なコンテンツを自律的に生成できるAI技術の総称です。一方、LLMは生成AIの一部として位置づけられ、自然言語処理に特化したモデルです。

特徴の違い

データ処理の範囲

LLMは主にテキストデータの処理と生成に特化しています
生成AIはマルチモーダル対応が可能で、異なる形式のデータを統合して処理できます

具体的な活用例

LLM：

チャットボット
文章要約
翻訳
質問応答

生成AI：

画像生成（DALL-E）
音声生成
動画作成
テキスト生成

技術的な特徴

LLMは膨大なテキストデータと高度なディープラーニング技術を用いて構築された自然言語処理モデルです。生成AIは、GANやVAEなど、様々な技術を用いて多様なコンテンツを生成することができます。

違いは？

つまり、LLMは生成AIの中の1つのカテゴリーで、テキストデータを扱うのに特化しているのに対し、生成AIはテキスト以外にも画像や音声など、より広い範囲のコンテンツ生成を行うAI技術の総称と言えます。

LLMはテキストの理解と生成に長けていますが、画像生成などはできません。一方、生成AIの中にはStable DiffusionやDALL·E 3のように画像生成に特化したものもあります。

このように、LLMは生成AIの一部であり、より限定的な役割を担っていると言えるでしょう。生成AIの活用範囲はLLMよりも広いですが、その分野の1つとしてLLMが重要な位置を占めているのです。

LLMの種類

大規模言語モデル（LLM）には様々な種類があります。主なLLMを紹介します。

GPT-4
OpenAIが2023年にリリースしたLLMです。GPT-3やGPT-3.5と同様に、Transformerアーキテクチャをベースに開発されています。GPT-4をベースとしたマルチモーダルモデル「GPT-4V」では、画像や音声データも解析できます。