ServiceNow AI выпустила EVA-Bench Data 2.0 для оценки ИИ-агентов

Краткая выжимка по источнику: EVA-Bench Data 2.0 расширяет набор данных для проверки ИИ-агентов на 3 домена, 121 инструмент и 213 сценариев.

Источник: huggingface.co EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

Источник: Hugging Face

Краткая выжимка по источнику Hugging Face: ServiceNow AI опубликовала EVA-Bench Data 2.0 - набор данных для оценки систем, которые работают с инструментами и сценариями задач. В названии релиза заявлены 3 домена, 121 инструмент и 213 сценариев. Это указывает на фокус бенчмарка на более практичной проверке ИИ-агентов, а не только на оценке ответов в изолированных текстовых задачах.

Ключевые моменты

EVA-Bench Data 2.0 опубликован в блоге Hugging Face от ServiceNow AI.
Набор охватывает 3 домена, 121 инструмент и 213 сценариев.
Материал важен для разработчиков, которые тестируют ИИ-агентов и их способность выбирать и применять инструменты.

Почему это важно

Такие датасеты помогают сравнивать агентные системы по практическим сценариям и выявлять слабые места в работе с инструментами.

Читать источник