![](https://res.cloudinary.com/techfeed/image/fetch/w_280,h_210,c_fill/https%3A%2F%2Fimage.itmedia.co.jp%2Fnews%2Farticles%2F2312%2F08%2Fcover_news061.jpg)
人だと正解率92%なのに、GPT-4だと15%になる新型テスト集「GAIA」 米Metaなどが開発
ARANK
米Metaや米HuggingFaceなどに所属する研究者らは、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル(LLM)を評価するためのベンチマークを発表した。
米Metaや米HuggingFaceなどに所属する研究者らは、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル(LLM)を評価するためのベンチマークを発表した。