Илон Маск, в разговоре с председателем совета директоров Stagwell Марком Пенном, заявил, что разработчики искусственного интеллекта уже исчерпали все доступные человеческие знания для обучения моделей ИИ. Эксперт Илья Суцкевер, бывший главный научный сотрудник OpenAI, также утверждает, что индустрия достигла «пика данных», и недостаток обучающих материалов вынудит отказаться от существующих методов разработки моделей.
По мнению Маска, будущее искусственного интеллекта лежит в использовании синтетических данных — материалов, которые генерируют сами модели ИИ. Крупные компании, такие как Microsoft, Meta* (запрещена в РФ), OpenAI и Anthropic, уже используют синтетические данные для обучения своих флагманских моделей. Ожидается, что по прогнозам Gartner в 2024 году 60% данных, применяемых в проектах ИИ и аналитики, будут синтетическими.
Так, модель Phi-4 от Microsoft обучалась на синтетических данных наряду с реальными, как и модель Gemma от Google. Компания Anthropic использовала синтетические данные для создания одной из своих самых производительных систем, Claude 3.5 Sonnet. Meta* применяла искусственно сгенерированные данные при доработке своей последней серии моделей Llama.
Одним из преимуществ обучения на синтетических данных является значительная экономия средств. Например, ИИ-стартап Writer сообщил, что его модель Palmyra X 004, почти полностью созданная с использованием синтетических источников, обошлась всего в $700 тыс. Для сравнения, сопоставимая модель от OpenAI стоила $4,6 млн.
Тем не менее, некоторые исследования показывают, что синтетические данные могут снизить «креативность» ИИ и повысить предвзятость в его выводах, что в долгосрочной перспективе может ограничить его функциональные возможности.
Недавно Microsoft представила новейшую модель Phi-4, которая, по заявлениям компании, значительно превосходит своих предшественников, особенно в решении математических задач. Эти успехи стали возможны благодаря улучшенному качеству обучающих данных.