AIベンチマークは壊れている。代わりに何が必要か
2026.03.31
・
MIT Technology Review
数十年にわたり、人工知能の評価は「機械が人間を上回るかどうか」という問いを通じて行われてきた。チェスから高度な数学、コーディングからエッセイ執筆に至るまで、AIモデルやアプリケーションの性能は個々の人間がタスクを完遂する場合と比較して試験されている。この枠組みは魅力的だ。限定された問題でAIと人間を比較することは、明確な…