ИИ "проглотит" всю информацию из интернета к 2026 году

На модерации Отложенный

Системы искусственного интеллекта (ИИ) могут поглотить все бесплатные знания Интернета уже к 2026 году, предупреждает новое исследование.

Модели искусственного интеллекта, такие как GPT-4 активно поглощают триллионы данных, которые есть онлайн. Согласно новым прогнозам, они исчерпают запас общедоступных данных где-то между 2026 и 2032 годами.

Это означает, что для создания более совершенных моделей технологическим компаниям нужно будет начать искать данные в других местах. Это может быть создание синтетических данных, обращение к источникам более низкого качества или, что более тревожно, использование личных данных на серверах, на которых хранятся сообщения электронной почты. Исследователи опубликовали свои выводы 4 июня на сервере препринтов arXiv.

"Если чат-боты начнут использовать все доступные данные и не смогут получать новые, я бы ожидаю увидеть относительную стагнацию в этой области, - полагает автор исследования Пабло Вильялобос, исследователь исследовательского института Epoch AI. - Модели будут совершенствоваться лишь постепенно, с течением времени, по мере открытия новых алгоритмических идей и естественного получения новых данных".

Чтобы оценить, сколько текста доступно онлайн, исследователи использовали веб-индекс Google, подсчитав, что в настоящее время насчитывается около 250 миллиардов веб-страниц, содержащих по 7000 байт текста на страницу. Затем они использовали последующий анализ трафика интернет и активности пользователей в Интернете, чтобы спрогнозировать рост этого доступного массива данных.

Результаты показали, что высококачественная информация, взятая из надежных источников, будет исчерпана самое позднее к 2032 году, а низкокачественные языковые данные будут израсходованы в период с 2030 по 2050 год. Данные по изображениям закончатся в период с 2030 по 2060 год.

Сейчас нейронные сети предсказуемо улучшаются по мере увеличения их наборов данных - явление, называемое законом нейронного масштабирования. Поэтому остается открытым вопрос - смогут ли компании повысить эффективность моделей, чтобы учесть нехватку свежих данных?

По мнению Виллалобоса, маловероятно, что дефицит данных резко затормозит будущий рост моделей искусственного интеллекта, поскольку есть несколько возможных подходов, которые можно использовать для решения проблемы.

"Компании будут пытаться использовать личные данные для обучения моделей, беря их из социальных сетей, - добавляет он. - Если им это удастся и если полезность частных данных будет сопоставима с полезностью общедоступных веб-данных, то вполне вероятно, что у ведущих компаний, занимающихся искусственным интеллектом, будет более чем достаточно данных, чтобы продержаться до конца десятилетия".

Другой вариант — использовать синтетические, искусственно сгенерированные данные для питания голодных моделей. Ранее этот подход успешно использовалось в системах обучения играм, программированию и математике.

Исследователи отмечают, что нехватка данных - не единственная проблема для дальнейшего совершенствования искусственного интеллекта. По данным Международного энергетического агентства, поисковые запросы Google на базе ChatGPT потребляют почти в 10 раз больше электроэнергии, чем традиционный поиск.