15.11.2024

Новый бенчмарк для языковых моделей: оценка производительности на больших объемах данных

Исследователи из AIRI, МФТИ и Лондонского института математических наук (LIMS) разработали бенчмарк BABILong, призванный измерить реальную производительность языковых моделей при работе с крупными объемами данных. Редакция Inc. ознакомилась с подробностями этого инструмента.

BABILong включает 20 задач, требующих обработки и интеграции разрозненных фактов из объемных текстов. Эти задачи охватывают такие навыки, как связывание информации из различных фактов, индукция и дедукция, подсчеты, а также работа со списками и множествами.

Ключевым параметром при оценке производительности нейросетей является длина контекста, или объем данных, который модель использует для решения задачи. Чем больше длина контекста, тем потенциально лучше результат. Однако популярные модели эффективно обрабатывают лишь 10–20% данных, чаще всего акцентируясь на первых и последних абзацах. К тому же, чем сложнее задача, тем заметнее снижается производительность.

BABILong оценивает качество ответов моделей, а также анализирует зависимость точности от длины контекста. В основу инструмента легли задачи из датасета BABI, адаптированные под более объемные данные из литературы. Теперь задачи требуют не просто поиска нужной информации, но и ее анализа в разных частях текста.

В ходе тестирования исследователи применяли бенчмарк к популярным open-source моделям, анализируя их работу с контекстом от 1 тыс. до 50 млн токенов. Эксперименты показали, что по мере увеличения объема данных, превышающих 25% от заявленной длины контекста, производительность моделей резко снижается. Это подчеркивает важность улучшения механизмов обработки контекста.

Для тестирования языковых моделей на длинных контекстах с русскоязычными текстами была создана адаптация бенчмарка — Libra. Этот инструмент разработан в партнерстве с командой R&D SberDevices и представляет аналогичные задачи для оценки производительности моделей на русском языке.

BABILong доступен в публичном репозитории и предназначен для использования в научных исследованиях. Ожидается, что результаты разработки будут представлены на конференции NeurIPS 2024 в Ванкувере.

Ранее «Яндекс» представил новую версию нейросетей YandexGPT 4, которые способны обрабатывать около 60 страниц текста и поддерживают функцию chain-of-thought. Линейка YandexGPT 4 включает в себя мощную версию Pro и облегченный вариант Lite. Эти модели обеспечивают высокое качество ответов и предназначены для решения более сложных бизнес-задач — от анализа обращений клиентов до автоматизации процессов закупок.

Оцените статью
ODELAX.RU
Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x

Проверить франшизу

Спасибо
Ваша заявка отправлена
Скоро мы свяжемся с Вами