Ученые заставили работать ИИ на процессорах быстрее, чем на видеокартах
Алгоритм машинного обучения SLIDE (Sub-LInear Deep Learning Engine) значительно ускорила при работе на центральных процессорах команда исследователей из Университета Райса под руководством доцента кафедры информатики Аншумали Шривастава, 11 апреля сообщает американское интернет-издание о компьютерных технологиях Tom’s Hardware.
Группа исследователей взяла ранее разработанный алгоритм искусственного интеллекта (ИИ) SLIDE, который уже работал на центральных процессорах не менее эффективно, чем на видеокартах, и оптимизировала его с применением инструкций Intel AVX512 и AVX512-bfloat16.
В ряде задач оптимизированный алгоритм показал на 44-ядерных центральных процессорах Intel Xeon семейства Cascade Lake от 4 до 15 большую производительность, чем алгоритм на основе библиотеки машинного обучения Tensorflow на серверных видеокартах NVIDIA Tesla V100.
Группа Шривастава не планирует останавливаться на достигнутом результате. В дальнейшем исследователи проведут оптимизацию работы с векторами и оперативной памятью. Планируется достигнуть еще лучших результатов.
Для задач машинного обучения центральные процессоры менее эффективны, чем видеокарты и специализированные нейропроцессоры. Обучение нейросетей подразумевает гигантское количество операций перемножения матриц. Такие операции хорошо распараллеливаются и не требуют большой точности вычислений.
В большинстве случаев достаточно операций с 8 или 16-битными числами. Как раз для таких математических задач хорошо подходят видеокарты с их большим количеством относительно простых вычислительных блоков. Аналогично и еще более оптимально для обучения ИИ строятся и нейропроцессоры.
В данном случае исследователи использовали специальные блоки центральных процессоров, работающие с очень широкими инструкциями, и упаковали множество операций в одну. Таким образом за один раз производится сразу много операций на одном вычислительном конвейере, и достигается заметный прирост производительности.