OpenAI Researcher Says AI Benchmarks Fail to Measure Frontier Model Capabilities

OpenAI Researcher Says AI Benchmarks Fail to Measure Frontier Model Capabilities