Alibaba Cloud Tongyi は、最初の推論ステップ評価標準をオープンソース化し、AI 推論モデルの新たな道を模索しています。

1月16日、アリババクラウドのTongyiは、新しい数学的推論プロセス報酬モデルであるQwen2.5-Math-PRMをリリースしました。72Bモデルと7Bモデルはどちらも、類似のオープンソースプロセス報酬モデルを大幅に上回る性能を示しました。推論におけるエラーステップの識別という点では、7Bと小さいQwen2.5-Math-PRMがGPT-4oを上回りました。同時に、Tongyiチームは、大規模モデル推論プロセスにおけるエラー評価のギャップを埋める、最初のステップレベル評価標準であるProcessBenchもリリースしました。

現在の大規模モデルの推論プロセスでは、論理エラーや一見合理的に見える推論ステップが頻繁に発生します。これらのプロセス誤りを正確に特定し、削減することは、大規模モデルの推論能力と信頼性を高める上で不可欠です。プロセス報酬モデル（PRM）は、この問題に対処するための有望な新しいアプローチを提供します。PRMは推論プロセスの各ステップを評価し、フィードバックを提供することで、モデルが推論戦略を学習・最適化するのを支援し、最終的には大規模モデルの推論能力を向上させます。

Tongyiチームは、プロセス報酬（PRM）の概念に基づき、プロセス報酬データを構築するための簡便かつ効果的な手法を提案しました。この手法は、PRMモデルで一般的に用いられるモンテカルロ推定（MC推定）と大規模モデル意思決定（LLM-as-a-judge）を革新的に統合し、推論プロセスに関するより信頼性の高いフィードバックを提供します。TongyiチームはQwen2.5-Math-Instructモデルを微調整し、72Bバージョンと7BバージョンのQwen2.5-Math-PRMモデルを作成し、データ利用率と評価性能の両方を大幅に向上させました。

GSM8K、MATH、Minerva Mathなど7つの数学ベンチマークを含むBest-of-Nベンチマークテストにおいて、Qwen2.5-Math-PRM-7Bは同規模のオープンソースPRMよりも優れたパフォーマンスを示しました。また、Qwen2.5-Math-PRM-72Bはベンチマークテストにおいて総合的に最高のパフォーマンスを達成し、同規模のQwen2.5-Math-RM-72B ORM（Outcome Reward Model）よりも優れたパフォーマンスを示しました。

一方、数学的推論における誤りのあるステップを特定するモデルの能力をより適切に測定するため、Tongyiチームは新たな評価指標「ProcessBench」を提案しました。このベンチマークは、オリンピック級の難易度を含む数学問題の3,400のテストケースで構成されています。各ケースには、人間の専門家によって注釈が付けられた段階的な推論プロセスが含まれており、モデルの誤りのあるステップを特定する能力を包括的に評価します。この評価指標もオープンソースです。

ProcessBenchによるエラーステップ識別能力の評価において、Qwen2.5-Math-PRMの72Bバージョンと7Bバージョンは共に顕著な優位性を示しました。7BバージョンのPRMモデルは、同規模のオープンソースPRMモデルを凌駕するだけでなく、クローズドソースのGPT-4o-0806よりも優れた性能を示しました。これは、プロセス報酬モデルPRMが推論の信頼性を効果的に向上させ、推論プロセス監視技術の将来の発展に新たなアイデアをもたらすことを裏付けています。

（以上）

618ZXW

Alibaba Cloud Tongyi は、最初の推論ステップ評価標準をオープンソース化し、AI 推論モデルの新たな道を模索しています。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ