AIエージェントの研究再現能力を評価する新ベンチマーク「PaperBench」を発表

2025年5月2日、東京発 — 最先端技術で社会課題を解決するTRI-TECH株式会社(は、AIエージェントの研究再現能力を評価する新たなベンチマーク「PaperBench」を発表しました。

「PaperBench」は、AIエージェントが最新のAI研究論文を再現する能力を評価するためのベンチマークです。このベンチマークでは、AIエージェントが論文の内容を理解し、コードベースを開発し、実験を実行する能力を測定します。

具体的には、AIエージェントは、2024年の国際機械学習会議(ICML)で発表された20本の注目論文を対象に、論文の貢献を再現するタスクに取り組みます。各タスクは、明確な評価基準を持つ小さなサブタスクに分解され、合計で8,316の評価可能なタスクが含まれています。

評価には、論文の著者と共同で開発されたルーブリックが使用され、AIエージェントの再現結果は、大規模言語モデル(LLM)を用いた自動評価システムによって採点されます。この評価システムは、専門家による評価と比較して高い一致率を示しており、効率的な評価を可能にします。

TRI-TECHは、「PaperBench」の開発を通じて、AIエージェントの研究再現能力を客観的に評価し、将来的なAIの研究開発能力の向上に貢献することを目指しています。今後、同社はこのベンチマークを活用し、より高度なAIエージェントの開発と評価を進めていく予定です。