В DeepSeek придумали более стабильный и эффективный способ обучения ИИ

Изображение: (cc) geralt
Искусственный интеллект
Искусственный интеллект

Новый более стабильный и эффективный способ обучения нейросетей или так называемого искусственного интеллекта (ИИ) разработали ученые китайской компании DeepSeek, сообщила 31 декабря пресс-служба организации.

Новый метод называется «гиперсвязи с ограничением на многообразие» (Manifold-Constrained Hyper-Connections — mHC). Он решает ключевую проблему нестабильности при обучении сверхбольших моделей, открывая путь к созданию более эффективных нейросетей.

В основе наиболее продвинутых моделей, например, в ChatGPT от американской OpenAI или в последних версиях от DeepSeek, лежат так называемые остаточные соединения. Этот механизм позволяет информации беспрепятственно передаваться через сотни слоев нейронной сети, что считается залогом успешного обучения.

Последнюю попытку усовершенствовать этот способ назвали методом гиперсвязей. Он позволил добавить сложные развязки и повысить «умственные» способности моделей, но обладает существенным изъяном. Новая сложная архитектура вносит большой элемент непредсказуемости, информация при таком обучении может и бесследно исчезать, и лавинообразно усиливаться, что приводит к сбоям в обучении и резко ограничивает масштабируемость.

Сотрудники DeepSeek предложили наложить на сложную архитектуру жесткие математические ограничения. Они «заставили» внутренние механизмы сети работать в рамках строго заданных правил (проецирование на многообразие дважды стохастических матриц), которые гарантируют сохранение баланса и стабильности информационного потока. Ученые обеспечили контролируемую сложность, которая не выходит за заданные пределы.

«Эта характеристика обеспечивает хорошо обусловленное распространение сигнала, при котором сохраняется среднее значение признаков, а норма сигнала строго регулируется, что эффективно снижает риск исчезающих или лавинообразных градиентов», — говорится в опубликованной статье.

Тестирование новой архитектуры mHC на крупных языковых моделях показало повышение стабильности обучения и улучшило его качество. Кроме того, введение нового метода увеличило общее время обучения всего на 6,7%.

Стоит отметить, в феврале ожидается, что DeepSeek представит новую модель своего чат-бота — V4.