Ученые придумали, как обучать ИИ заметно быстрее
Метод, позволяющий радикально сократить время обучения искусственной нейронной сети, предложила группа ученых из университета Уотерлу, 16 октября пишет журнал Массачусетского технологического института (МТИ) MIT Technology Review.
Обучение нейронных сетей происходит на очень больших заранее классифицированных подборках данных. Не все типы алгоритмов на нейросетях требуют обучения, но многие. В погоне за все более точными результатами работы, собираются все большие обучающие выборки и тратится заметная доля электроэнергии по всему миру.
База данных небольших изображений с примерами рукописного написания цифр MNIST содержит порядка 60 тыс. примеров. Эта выборка используется для достаточно простой задачи — классификации рукописных цифр от 0 до 9.
Некоторые другие системы искусственного интеллекта (ИИ) обучают на значительно больших выборках. К примеру, алгоритм GPT-3, предназначенный для написания текстов, обучен на 175 млрд параметров, основанных на 570 Гб текста.
Исследователи из университета Уотерлу развили наработки другой группы из МТИ. Первоначальная идея состояла в искусственном создании небольшого количества обучающих примеров таким образом, чтобы алгоритм работал близко по точности к обученному на большой выборке. Искусственно созданные примеры, по сути, представляли собой графическое изображения данных обученной нейросети.
Группа из Уотерлу пошла дальше. Был предложен метод, задающий вероятностные значения для каждой точки изображения. «Вместо того, чтобы сказать: „Это изображение — цифра 3“, мы говорим: „Это изображение — на 60% цифра 3, на 30% цифра 8 и на 10% цифра 0“», — пояснил один из исследователей, аспирант Илья Сухолуцкий.
Таким образом исследователи из Уотерлу решили снизить размер выборки MNIST не до 10 изображений, как это сделали коллеги из МТИ, а до 5 и менее, сохранив при этом достаточную точность. В результате группа пришла к выводу, что для классификации практически любой сложности достаточно двух правильно созданных примеров.
Ученые перенесли основную часть работы на подготовку обучающей выборки, радикально ускорив сам процесс обучения. На практике это дает возможность передавать конечным пользователям (как правило, компаниям) готовую обучающую модель. Пользователям, которых может быть значительно больше, чем один, не нужно тратить много машинного ресурса для обучения своих алгоритмов. Это, в свою очередь, сделает технологии ИИ более доступными.
Сейчас исследователи работают над поиском оптимальных методов подготовки синтетических обучающих выборок.