1985年のゲームであるSuper Mario Bros.は、AI 40年のベンチマークに使用されています

画像:Damien McFerran / Time Extension

私たちのように、あなたはあなたが見ているすべての場所で「ai」という用語を聞くのにかなりうんざりしているので、ここでさらに別の例にスポットライトを当てることを許してください。

技術クランチ1985年のNESクラシックが報告していますスーパーマリオブラザーズ現代のAIモデルの問題解決パフォーマンスをベンチマークするために使用されています。カリフォルニア大学サンディエゴ校に拠点を置く研究組織であるHao AI Labは、4つのAIモデルを選択し、任天堂の象徴的な8ビットのプラットフォーマーを引き受けるように任命しました。

AnthropicのClaude 3.7がトップに登場し、その相対的なClaude 3.5が2位になりました。 GoogleのGemini 1.5 ProとOpenaiのGPT-4oはパックの裏にあり、非常にひどく苦労しているように見えました。

明確にするために、研究者はゲームをわずかにいじりました。エミュレーションの下で実行されていましたGamingagentAIが画面上のアクションを制御できるようにするフレームワークは、チームが各AIモデルに指示を提供することを許可しました。 AIは、Pythonコードの形で入力を生成します。

ここで興味深いのは、HaoがOpenaiのO1のような「推論」モデルが、一般的に他の非ゲームのベンチマークでより良いパフォーマンスを発揮しているにもかかわらず、「非合理的」モデルほどうまくいかなかったことを発見したことです。これは、名前が示唆するように、推論モデルがアクションを選択するために少し時間をとるためであり、その遅れは、私たち全員がよく知っているように、スーパーマリオブラザーズのようなタイトルの人生とゲームの違いになる可能性があるためです。

この研究にあまりにも多くの在庫を置く前に、技術クランチ業界には、ビデオゲームがAIをベンチマークする良い方法だとは思わない人がいることに注意してください。

[ソースTechCrunch.com]