Нейросети не смогли считать циферблаты. Стоит ли над этим посмеиваться?

То, что искусственный интеллект всё еще не умеет считывать время с классических циферблатов, вовсе не говорит, что это неразрешимая задача. Когда такой класс проблем станет решаемым, в сфере ИИ возникнут многие новые возможности, 14 сентября сообщает IT-редакция ИА Красная Весна.
Ранее был опубликован новый бенчмарк Clockbench, оценивающий способность разных нейросетей анализировать изображение разного вида циферблатов и считывать с них время. Разработчики бенчмарка объявили, что лучший результат среди ИИ показала модель Gemini 2.5 Pro, она справилась всего с 13,3% вопросов, тогда как люди дали 89,1% правильных ответов.
Исследование охватило 36 типов циферблатов и пять различных положений стрелок, что в итоге привело к 720 вопросам. Использовались и нестандартные циферблаты, например, с римскими цифрами или 24-часовые. Нейросетям предлагалось считать его время, однако справились они с этим довольно плохо, что вызвало резонанс в социальных сетях.
Не стоит пренебрежительно относиться к этой теме и делать из нее анекдот, мол, куда там этим «нейронкам» до человека. Прорыв в сфере искусственного интеллекта произошел из-за развития больших языковых моделей, позволяющих быстро конструировать правдоподобные тексты на основе обучающей текстовой же выборки. Современные нейросети также могут создавать достаточно достоверные изображения и видео, однако их анализ, возможность их направить на вход нейросети, всё еще остается активно решаемой научной проблемой.
Одним из исследователей в этой сфере является Джон Кармак, известный как создатель прорывных графических технологий, используемых в компьютерных играх жанра «шутер от первого лица»: серии Doom, Quake. После ухода из id Software он сначала занимался системами виртуальной реальности и частными космическими полетами, а в настоящий момент он основал исследовательскую компанию Keen Technologies и занимается вопросами сильного искусственного интеллекта (Artificial General Intelligence, AGI).
Предметом его интереса стало создание такого ИИ, который смог бы играть в компьютерную игру без обучения, опираясь только на видеоизображение и возможность давать системе на вход сигналы вроде управления джойстиком и нажатия кнопок специально построенным роботом. В своем докладе на конференции Upper Bound 2025 Кармак рассказал о своей разработке и о ее сложностях.
Чтобы максимально упростить ситуацию и восприятие игры, компания вступила в партнерство с Atari и взяла ее хиты за основу обучения своего ИИ. Особенностью разработки стало восприятие игрового пространства через видеокамеру в реальном режиме времени, что выдвигает особые требования к скорости работы системы. Кроме того, для работы системы оказались не нужны большие вычислительные мощности, достаточно обычного игрового ноутбука.
В целом доклад Кармака говорит, что создание систем ИИ, работающих в основе своей не вокруг текста, а сразу вокруг графики, активно ведется, а раз к этой теме есть серьезный интерес, рано или поздно искусственный интеллект, способный эффективно оперировать разного рода изображениями, станет возможным. Причем даже в реальном времени.
И тогда мы столкнемся с прорывом, похожим по масштабу с тем, как это было с большими языковыми моделями: последствия и возможные сферы применения будет трудно предугадать. Поэтому, да, сегодняшние «нейронки» еще не могут считывать циферблаты. При этом нельзя не вспомнить, что новое поколение «зумеров» и следующие за ним также уже не имеют представления, как это делать.
Однако завтра ситуация может измениться. К «нейронкам» предъявляются всё новые и новые требования по мере их развития, и тяжело представить, что они смогут сделать завтра. Так что не стоит недооценивать потенциал всей сферы в целом на основе анекдотов, которые завтра окажутся уже не смешными.