GPT-4o ミニランキングが急落、大型モデルアリーナのルールが更新され、ウルトラマンのスコアリングトリックが機能しなくなりました。

大型モデルアリーナのルールが更新され、 GPT-4o miniのランキングは一気に急落し、トップ10から脱落しました。

新しいランキングリストでは、AI 応答の長さやスタイルなどの機能の重み付けを減らし、スコアがモデルの問題解決能力を正確に反映するようにしました。

凝ったフォーマットやサブ見出しの数の増加などのトリックを使ってユーザーを満足させようとしたり、ランキングを操作したりすることは、もはや効果的ではありません。

新しいルールの下では、ウルトラマンのGPT-4o miniとマスクのGrok-2シリーズのランキングは大幅に下落し、グーグルのGemini-1.5フラッシュミニモデルも順位が下がった。

Claude シリーズと大型モデルLlama-3.1-405bのスコアは両方とも増加しました。

ハードプロンプトタスクのみを考慮すると、スタイルコントロールリーダーボードで大規模モデルの利点がより明らかになります。

これまで、GPT-4oのミニモデルがチャートのトップを占め、本格的なGPT-4oと1位を分け合っていましたが、これはネットユーザーの実際の体験とは明らかに一致していませんでした。

かつて Karpathy が推奨していた Lmsys Large Model Arena は評判を落とし、現在では「モデルの機能ではなくユーザーの好みのみを反映している」と考えられています。

Lmsys は慎重に検討した結果、まず GPT-4o mini が関わる 1,000 回の戦いのデータを公開し、モデルの拒否率、生成されたコンテンツの長さ、フォーマットが投票結果に影響を与えるいくつかの要因であると分析しました。

なお、GPT-4o miniの発売前には、ウルトラマンが人間の好みに合わせて最適化されていることを示唆していました。

現在、Lmsys はこれらの要素を制御するための新しいアルゴリズムをさらに導入しており、これは計画段階の最初のステップにすぎません。

スタイルの影響をコントロールするにはどうすればいいでしょうか?

コード、事実、偏りのない回答の生成に優れているが、出力が非常に簡潔なモデル A があるとします。

モデル Bは実質的な内容 (正確さなど) はあまり得意ではありませんが、出力は長くて詳細で、凝ったフォーマットになっています。

それで、どちらが良いのでしょうか?

答えは一つではありません。Lmsys は、モデルのスコアのうちコンテンツやスタイルがどの程度影響しているかを数学的手法で判断します。

さらに、最近の研究では、人間はフォーマットが整えられ、より詳細な AI の応答を好む可能性があることが示されています。

回答の長さ、マークダウン見出しの数、リストの数、太字テキストの数などのスタイル特徴を、 Bradley-Terry回帰の独立変数として追加しました。

これは統計学では一般的な手法であり、最近では AlpacaEval LC などで大規模モデルの評価に使用されています。

回帰分析に交絡変数 (応答の長さなど) を含めると、スコアの増加はモデルの能力自体ではなく交絡変数に起因するものになる可能性があります。

該当コードはGoogle Colabで公開されています。

さらに、研究チームは「長さのみの制御」と「フォーマットのみの制御」というアブレーション実験を実施しました。GPT-4o miniとGoogle Geminiシリーズのスコアは、フォーマットの影響をより強く受けました。

しかし、このアプローチにも限界があります。例えば、長さと反応の質の間には正の相関関係があるなど、考慮されていない観測されていない交絡因子（例：マインドチェーンの手がかり）が存在する可能性があります。

多くのネットユーザーは、改訂された難関課題リストが自分たちの主観的な印象とより一致するようになったと述べている。

ランキングと、そのランキングを争う大企業との間のこのような激しい競争こそが、業界全体の共存的な発展を可能にしているのだと考える人もいます。

まだ大規模モデルアリーナの結果に基づいてモデルを選んでいますか？それとも、もっと良い評価方法をお持ちですか？ぜひコメント欄で共有してください。

参考リンク: [1]https://x.com/lmsysorg/status... [2]https://lmsys.org/blog/2024-0... [3]https://arxiv.org/abs/2402.10669