AIエージェントのウェブ検索能力を評価する新ベンチマーク「BrowseComp」を発表

2025年5月2日、東京発 — 最先端技術で社会課題を解決するTRI-TECH株式会社(本社:東京都港区、代表取締役社長:白石 慶一)は、AIエージェントのウェブ検索能力を評価する新たなベンチマーク「BrowseComp」を発表しました。

「BrowseComp」は、AIエージェントがインターネット上で複雑かつ見つけにくい情報を検索・取得する能力を測定するためのベンチマークです。このベンチマークは、1,266問の高難度な問題で構成されており、各問題は短く明確な答えを持ち、正誤の評価が容易です。問題の作成にあたっては、既存の高度なAIモデルでも解決が困難であることが確認されており、AIエージェントの持続的な探索能力と創造的な検索戦略を評価することができます。

TRI-TECHのAI研究開発部門は、「BrowseComp」の開発を通じて、AIエージェントの実世界における情報探索能力の向上を目指しています。今後、同社はこのベンチマークを活用し、より高度なAIエージェントの開発と評価を進めていく予定です。