Mengchen Xifeng、アオフェイ寺院出身、QuantumBit | WeChat公式アカウント QbitAI OpenAIがO1からO3に続く次世代モデルを発表! 「ダブル12」ライブ配信イベントの最終日、ついに大きな出来事が起こった。ウルトラマン本人がライブ配信に再登場したのだ。 O1と比較したO3の最も優れた成果は、トッププログラマーコンテストCodeForcesでのスコアが2700を超えていることであり、現在このスコアを超えた人は200人未満です。 第二に、AGI 向けに設計されたARC-AGIテストのスコアは、32% から 75.7% および 87.5% に急上昇しました。 なぜスコアが2つあるのですか? O3は低思考レベルと高思考レベルの両方をサポートしているため、高思考レベル(横軸)に必要な計算能力が最大化されます。 ARC-AGI は、Keras の作成者である François Chollet が開始したテスト ベンチマークであり、典型的な質問はグラフィカル ロジック推論です。 もうひとつのテストは、最新の未発表の最先端の問題を含む、最も難しい数学テストとして宣伝されているEpochAI Frontier Mathです。 テレンス・タオ氏のこのテストに対する第一印象は、「AI を数年間困惑させるかもしれない」というものでした。 テストでは、o3 は前回の SOTA と比較して 2 ポイントから 25 ポイント向上しました。 人間の専門数学者であれば、これらの問題を解くのに何時間から何日もかかりますが、O3 では数分間考えるだけで済みます。
主な焦点はコーディング能力のデモンストレーションでした。低設定ではo3-miniとo1-miniは同等の性能を示しましたが、中設定と高設定ではo3-miniが公式のo1バージョンを上回りました。 この研究に参加した北京大学卒業生の任宏宇氏は、現場でo3-miniのプログラミング機能を実演した。 彼はChatGPT αと呼ばれるChatGPTの特別なバージョンを使用しました。 タスクは次のとおりです。 大きなテキストボックスのあるHTMLファイルに対して、ローカルサーバーを起動するPythonスクリプトを作成してください。ボックスにテキストを入力して送信ボタンを押すと、OpenAI o3-mini APIにコードリクエストが送信され、中程度の推論エフォートを使用して生成されたコードが取得され、デスクトップ上の一時ファイルに保存されます。そして、そのファイルを新しいPythonターミナルで実行します。詳細は以下の通りです。
o3-mini の思考プロセスには 38 秒かかりましたが、コードは即座に出力され、最初の試行で正常に実行されました。 このデモンストレーションはあまり直感的ではないかもしれないが、その場にいなかったもう一人の OpenAI 研究者、エイダン・クラークは大量に汗をかいていた。 要約すると、o3-mini は 38 秒で独自の UI を作成し、API 経由で「自身」を呼び出しました。 その後のデモンストレーションでは、Ren Hongyu 氏は o3-mini にこの UI 内でスクリプトを記述して実行し、低レベルの思考条件下での GPQA データセットに対する「その」パフォーマンスを評価するように依頼しました。 スクリプトは評価を正しく実行し、61.62% という結果を返しました。これは、実際の評価結果と基本的に一致しています。 ちょっとSFっぽい感じがしませんか? 残念なことに、o3 と o3-mini はどちらも現在早期プレビュー段階であり、表示することしかできず、再生することはできません。 セキュリティ研究者は、OpenAI の Web サイトで早期アクセスを申請できます。 北京大学の卒業生であり、GPT-4oのコア開発者がライブ放送室に登場しました。この生放送で注目すべきもう一人の人物は、新たに紹介された北京大学の卒業生、任宏宇氏(左端)だ。 彼は昨年OpenAIに研究科学者として入社し、主に言語モデルの学習を担当しています。GPT-4oのコア開発者であり、GPT-Nextプロジェクトチームのメンバーでもあります。 レン・ホンユ博士はスタンフォード大学を卒業しています。OpenAIに入社する前は、Apple、Google、NVIDIA、Microsoftで幅広い研究インターンシップの経験を積んでいました。 もう一つ面白かった!最終日にはサンタの帽子をかぶった「カエル」が最前列に登場しました。 昨日はライブ配信11日目で、「カエル」のサンタ帽子はこんな感じでした。 |
O3がやってきた!北京大学卒業生のRen Hongyuがライブストリームに登場。世界トップ200プログラマーにランクインし、Terence Taoが難しいと評した数学のテストを解きます。
関連するおすすめ記事
-
ジェンセン・フアン:私は市場シェアを気にしていません。Nvidia の唯一の目標は新しい市場を創造することです。
-
Google が大規模モデルが r をカウントできない理由を明らかに: トークナイザーの問題だけではなく、埋め込み次元が鍵となる。
-
テスラの販売台数は10年ぶりに減少し、EV販売台数は第4四半期にBYDに追い抜かれたが、国内の新エネルギー車は総じて過去最高を記録した。
-
シリコンバレーは大騒ぎ!DeepSeekはOpenAIとAnthropicからの攻撃に直面し、アメリカのネットユーザーも激怒している。
-
累計13万1600台納車!東風eπ007レンジエクステンダーバージョン。
-
AIタンパク質研究はノーベル賞受賞後、再びネイチャー誌に掲載され、第一原理レベルの精度を達成しました。これは、Microsoft Research Asiaによる4年間の研究の集大成です。