Платформа контента «Дзен», принадлежащая интернет-компании VK, вынудила робота GPTBot от OpenAI прекратить сбор данных с веб-сайта dzen.ru в соответствии с указаниями файла robots.txt. Данный файл предназначен для регулирования работы программ, выполняющих автоматический сбор информации с веб-ресурсов, сообщает издание «Коммерсантъ».
Представители VK пояснили, что блокировка GPTBot необходима для снижения нагрузки на серверы «Дзена», которые ежесекундно обрабатывают более 150 тысяч запросов. Стоит отметить, что файл robots.txt является рекомендательным и технически роботы могут игнорировать его директивы.
GPTBot был запущен OpenAI в августе прошлого года с целью сканирования веб-ресурсов и сбора открытых данных для улучшения нейросети ChatGPT. Однако продукт столкнулся с критикой из-за несанкционированного сбора данных. OpenAI опубликовала инструкции о том, как заблокировать доступ бота к сайту или предоставить ему данные лишь частично.
В середине февраля Роскомнадзор уведомил несколько хостинг-провайдеров о выявлении GPTBot, рекомендуя блокировать возможность бота просматривать и анализировать онлайн-страницы. Это мероприятие направлено на предотвращение сбора информации о критических уязвимостях ресурсов.