
IA Juega Super Mario: ¿Un Nuevo Benchmark?
Olvídense de Pokémon, ¡algunos investigadores creen que Super Mario Bros. es el verdadero desafío para la IA! El Hao AI Lab de UC San Diego enfrentó modelos de IA contra el juego clásico, y los resultados fueron sorprendentes.
Claude Toma la Delantera: Claude 3.7 de Anthropic superó el desafío, con Claude 3.5 no muy lejos. Gemini 1.5 Pro de Google y GPT-4o de OpenAI, sin embargo, tuvieron dificultades para seguir el ritmo de la acción.
Framework GamingAgent: Las IA no solo saltaron a una NES original. Jugaron a través de un emulador, utilizando GamingAgent de Hao. Este framework proporcionó instrucciones básicas como "esquivar obstáculos" y alimentó la IA con capturas de pantalla. Luego, la IA usó código Python para controlar a Mario.
Razonamiento vs. Reflejos: Hao Lab descubrió algo interesante. Los modelos de razonamiento, que resuelven problemas paso a paso, no funcionaron tan bien como los modelos sin razonamiento. El tiempo es crítico en Super Mario Bros., y los modelos de razonamiento tardan más en tomar decisiones.
La "Crisis de Evaluación": Andrej Karpathy de OpenAI ha expresado su preocupación por depender demasiado de los benchmarks de juegos. Los juegos son abstractos y ofrecen datos infinitos, a diferencia del mundo real. ¿Son las habilidades en juegos realmente indicativas del progreso general de la IA? ¡Tal vez no, pero es divertido ver a la IA intentarlo!
Source: TechCrunch