Как представить себе ИИ. Мнение одного из «отцов» виртуальной реальности
Вместе с избранным президентом США Дональдом Трампом к власти в январе 2025 года придет и его новая команда. Многие считают, что другом Трампа является Илон Маск, и в следующий период президенства он может иметь влияние на политику. Однако и помимо Маска новая команда Трампа уже сильно связана с технократами из Кремниевой долины.
Напарником Трампа в должности вице-президента будет в следующий срок сенатор от Огайо Джеймс Дэвид Вэнс. Вэнсу в свое время удалось обзавестись хорошими связями с основателями компаний в Кремниевой долине. Он занимался крупными инвестициями в технологические проекты в Кремниевой долине и хорошо понимает суть того, во что вкладывал деньги. В свою очередь, компании Кремневой долины также заинтересованы в нахождении «своего человека» у власти.
Технократы, о которых идет речь, не просто ставят ИТ-технологии на первое место, но и обсуждают, что ИИ и машины должны заменить людей на производстве и в других отраслях, и это есть благо.
В этой логике интересно, что высокопрофессиональные специалисты из США сами говорят о концепции искусственного интеллекта. В связи с этим хотелось бы получше рассмотреть, что представляет собой данная сфера не только в плане технологическом, но в социальном. То есть, так сказать, формируемый тип сознания. Некоторое представление об этом может дать нижеследующий текст, увидевший свет еще до возвращения Трампа в Белый дом.
ИА Красная Весна предлагает перевод статьи из американского еженедельника The New Yorker от 1 марта 2024 года «Как представить себе ИИ» Джарона Ланье, которого нередко называют «отцом виртуальной реальности».
Как представить себе ИИ?
Чтобы понять его сильные и слабые стороны, нам, возможно, придется принять новую точку зрения.
Технология сама по себе никогда не бывает самодостаточной. Чтобы она принесла пользу, необходимо, чтобы ее дополняли другие элементы. Среди них — понимание обществом природы технологии, привычка использования и принятие пользователем ответственности за использование технологии. Без такого ореола технологии используются неэффективно и неполноценно.
Хорошим примером этого могут служить мРНК-вакцины, созданные во время эпидемии COVID. Они были удивительным научным достижением, но из-за всеобщего непонимания они не прижились так хорошо, как могли бы. Возможно, даже не стоит называть технологию технологией при отсутствии элементов, необходимых для ее внедрения в мир людей: если мы не можем понять, как работает технология, мы рискуем поддаться магическому мышлению.
Необходима мысленная картинка, иллюстрирующая то, как работает та или иная технология. Я не знаю о вакцинах достаточно, чтобы создать ее. Но у меня есть картинка-представление о вакцинах, и она дает мне приблизительное понимание. Она достаточно хороша, чтобы помочь мне следить за новостями о вакцинах и понимать процесс разработки, риски и вероятное будущее этой технологии.
У меня в голове есть похожие по уровню детализации картинки о ракетах, финансовом регулировании и ядерной энергетике. Они не идеальны, но дают мне достаточно хорошее понимание. Даже эксперты используют такие картинки-представления для общения друг с другом: иногда упрощенный взгляд на вещи помогает им увидеть лес за деревьями.
В вопросе создания таких картинок-представлений для информационных технологий, я испытываю напряженность в отношениях со многими специалистами в сфере информатики. Я считаю, что картинка-представление о ИИ, которую создает и транслирует наше сообщество, контрпродуктивна. Мы привнесли в мир ИИ, но он окружен ореолом идей и представлений, которые не приносят пользы и сбивают с толку.
Хуже всего, наверное, то чувство человеческой обреченности и бесполезности, которое многие транслируют в связи с ИИ. Мне трудно понять, почему некоторые из моих коллег говорят, что то, чем они занимаются, может привести к вымиранию человечества, и при этом утверждают, что этим все равно стоит заниматься. Трудно понять такой стиль общения и не задаться вопросом, не превращается ли ИИ в новый вид религии.
Мы не только создаем апокалиптическую атмосферу. Мы плохо объясняем, что это за штука и как она работает.
Большинство людей, не связанных с техническими науками, могут лучше понять сложную абстракцию, когда она разбита на небольшие части, о которых можно рассказывать истории. Но в мире компьютерных наук разбить объект на части и рассказать о них истории может быть нелегко. Обычно мы предпочитаем рассматривать системы искусственного интеллекта целостно. Возможно, это происходит потому, что так мы сопротивляемся демистификации того, что мы делаем, — потому что хотим подходить к этому мистически.
Обычная терминология, начиная с самого словосочетания «искусственный интеллект», сводится к идее, что мы создаем новых существ, а не новые инструменты. Это представление подкрепляется биологическими терминами, такими как «нейроны» и «нейронные сети», а также антропоморфными терминами, такими как «обучение» или «тренировка», которые специалисты по информатике используют постоянно.
Проблема еще и в том, что у ИИ нет фиксированного определения. Всегда можно отмахнуться от любого конкретного комментария об ИИ из-за того, что он не учитывает какое-то другое потенциальное определение. Отсутствие привязки к термину совпадает с экзистенциальным чувством, согласно которому человеческие рамки скоро будут преодолены.
Есть ли способ объяснить ИИ в терминах, не предполагающих бесполезность или замену человека? Если мы сможем говорить о нашей технологии по-другому, возможно, появится лучший способ внедрить ее в общество.
В этой статье я надеюсь объяснить, как работают модели ИИ, не погружаясь в зачастую противоречивые технические детали, а вместо этого подчеркивая, как технология изменяется и зависит от участия человека. Это не пособие по информатике, а рассказ о забавных объектах во времени и пространстве, которые служат метафорами того, как мы научились по-новому манипулировать информацией.
Нарисовать нашу человеко-ориентированную картинку-представление о большой модели ИИ можно за четыре шага. Каждый шаг прост. Но в итоге получится нечто, что легко представить и использовать в качестве инструмента для мышления.
1. Деревья
Самый первый шаг (и в каком-то смысле самый простой) может оказаться и самым трудным для объяснения. Мы можем начать с вопроса: как с помощью компьютера определить, кто изображен на фотографии — кошка или собака? Проблема в том, что кошки и собаки выглядят в целом одинаково. И у тех, и у других есть глаза и морды, хвосты, четыре лапы, а также шерсть. Компьютеру легко измерить изображение — определить, светлое оно или темное, более синее или красное. Но такие измерения не позволят отличить кошку от собаки. Подобный вопрос можно задать и в других примерах. Например, как программа может проанализировать, что отрывок, скорее всего, был написан Уильямом Шекспиром?
С точки зрения техники, ответ на этот вопрос основан на использовании запутанного клубка статистических данных, который мы и называем нейронной сетью. Но первое, что нужно понять в этом ответе, это то, что мы имеем дело со сложной технологией.
Когда исследователи говорят, что ИИ обладает «эмерджентными свойствами» — а мы часто это говорим, — это еще один способ сказать, что мы не знали, что будет делать сеть, пока не попытались ее построить. ИИ — не единственная область, которая так работает; медицина и экономика похожи. В таких областях мы пробуем разные вещи, пробуем снова и находим методы, которые работают лучше. Мы не начинаем с построения теории на основе первых принципов, с помощью которой рассчитываем способ получения идеального результата. Тем не менее мы можем работать со сложностью, даже если не можем ее идеально предсказать.
Давайте попробуем поразмышлять о том, как отличить фотографию кошки от фотографии собаки. Цифровые изображения состоят из пикселей, и нам нужно что-то сделать, чтобы выйти за рамки обычного их перечисления. Один из подходов — наложить на изображение сетку, которая измеряет нечто большее, чем просто цвет.
Например, мы могли бы начать с измерения степени изменения цветов в каждом квадрате сетки. Итак, у нас есть число в каждом квадрате, которое может отражать заметность острых краев в этом участке изображения. Один слой таких измерений все равно не позволит отличить кошек от собак. Но мы можем наложить вторую такую сетку поверх первой, измеряя какие-то изменения в первой сетке, а затем еще одну и еще. Мы можем построить башню из слоев, самый нижний из которых измеряет участки изображения, а каждый последующий слой измеряет слой под ним. Этой основной идее уже полвека, но только недавно мы нашли нужные решения, чтобы заставить ее хорошо работать. Никто на самом деле не знает, есть ли лучший способ.
Вы можете представить себе высокую структуру из этих сеток, как большой ствол дерева, растущий из изображения. Ствол, вероятно, будет не круглым, а прямоугольным, поскольку большинство картинок прямоугольные. Внутри дерева каждый маленький квадратик на каждой сетке украшен числом. Представьте, что вы взбираетесь на дерево и по мере подъема заглядываете внутрь с помощью рентгеновского аппарата: числа, которые вы обнаружите на самых верхних уровнях, зависят от чисел, расположенных ниже.
Увы, то, что у нас есть на данный момент, все равно не поможет отличить кошек от собак. Но теперь мы можем начать «тренировать» наше дерево. Представьте, что низ нашего дерева плоский и что под него можно подложить картинки. Теперь возьмите коллекцию картинок с кошками и собаками, которые четко и правильно обозначены как «кошка» и «собака», и поместите их одну за другой под самый нижний слой. Измерения будут идти каскадом вверх, к верхнему слою дерева — слою кроны, если хотите, который могут увидеть люди на вертолетах.
Поначалу результаты, отображаемые кроной, не будут согласованными. Но мы можем погрузиться в дерево и, скажем, с помощью волшебного лазера, скорректировать числа в его различных слоях, чтобы получить лучший результат. Мы можем увеличить те числа, которые окажутся наиболее полезными для отличия кошек от собак. Этот процесс не прост, поскольку изменение числа на одном слое может вызвать рябь изменений на других слоях. В конце концов, если мы добьемся успеха, все числа на листьях кроны будут единицами, когда на картинке будет собака, и двойками, когда будет кошка.
Таким образом, как ни удивительно, мы создали инструмент — обученное дерево, — который отличает кошек от собак. Ученые-информатики называют элементы сетки, встречающиеся на каждом уровне, «нейронами», чтобы навести на мысль о связи с биологическим мозгом, но сходство это ограничено. Хотя биологические нейроны иногда организованы в «слои», как, например, в коре головного мозга, в общем случае это не так; на самом деле, в коре головного мозга меньше слоев, чем в искусственной нейронной сети. Однако оказалось, что добавление большого количества слоев значительно улучшает результат, поэтому так часто встречается термин «глубокий», например, «глубокое обучение» — он означает большое количество слоев.
Невозможно найти идеальную метафору. При написании этой статьи я пытался использовать вместо деревьев — башни и другие высокие предметы. Но деревья понятны людям. Однако в этой метафоре есть и изъян, потому что «дерево» — это также один из самых распространенных терминов в информатике, обозначающий разветвленную абстрактную структуру. Эти деревья — не те деревья.
Как обучаются наши деревья? Ключевая техника обучения основана на трюке под названием «градиентный спуск», который впервые был описан по крайней мере в 1847 году математиком Коши. Основная идея заключается в том, чтобы сделать ряд все более точных предположений о том, какие числа на каких уровнях дерева должны приобрести больший вес.
2. Волшебный лес
Те же принципы, которые мы использовали для различения кошек и собак, применимы к тексту, компьютерному коду, музыке, фильмам и всему остальному. Теоретически мы можем взять весь интернет и любые другие данные, которые попадутся нам в руки, и построить деревья, обученные правильно их маркировать. Мы можем построить волшебный лес таких деревьев, способных распознавать практически все в цифровом виде.
Однако есть одна загвоздка. Можно собрать точно помеченные фотографии кошек, собак и многого другого. Но большая часть информации, произведенной человечеством, не была помечена так ясно и последовательно, и, возможно, не может быть помечена. Нам нужен подход, который описывает в некотором приближении систему почти универсальных меток. Известное нам свойство, позволяющее это сделать, — это близость.
Предположим, что в интернете определенная последовательность текста имеет тенденцию располагаться рядом с определенным видом изображения. Это говорит о том, что текст и изображение связаны друг с другом. Вы можете представить себе обширное пространство деревьев, возникающих из такого рода ассоциаций, простирающихся вдаль, связанных, возможно, зарослями или подземной мицелиальной сетью — огромный лес взаимной классификации.
Слово «кошка» часто встречается рядом с изображениями этого существа в интернете. Но деревья в нашем метафорическом лесу приобретают более широкие связи. Дерево, способное распознать изображение кошки, может иметь корни, соединяющие его с другими деревьями, которые распознают образы кошачьих мемов или кошачьих домиков. Оно может быть связано с деревьями игрушек, обожаемых кошками, а также с деревьями, способными распознавать кошачьи болезни и поклонников кошек.
Исследователи стремятся создать более «мультимодальные» модели ИИ, предполагая, что изображения, текст и фильмы могут быть связаны в едином инструменте. Это превращает ИИ в своего рода согласование того, как человечество отмечало связи между различными вещами, — по крайней мере, в том виде, в каком эти вещи попадали в обучающие данные. Теоретически достаточно большой лес может классифицировать практически все, что представлено в цифровой форме, при наличии достаточного количества примеров.
Вырастить большой лес — это грандиозная задача. Она занимает много времени и требует огромных ресурсов. Когда число рядом с «GPT» увеличивается, скажем, с 3 до 4, — это, помимо прочего, означает новый «цикл обучения», в котором выращивается новый лес, способный распознавать больше вещей с большей надежностью. Насколько велики эти леса? Какие вещи будут в него включены? Мы не знаем заранее.
Деревья в этом лесу не являются явными, их нельзя увидеть, мы не получаем их список. Они существуют в особом пространстве. Лишь в нашей картинке-представлении деревья разнесены в пространстве, потому что люди — существа времени и пространства. Таких деревьев — миллиарды и миллиарды. Трудно передать масштаб общего результата создания моделей ИИ.
3. Продукты леса
Представьте, что у вас есть дерево для идентификации кошек, но нет изображений кошек. Вот тут-то и приходит на помощь так называемый «генеративный» ИИ.
Дерево, распознающее кошек, можно заставить работать и в обратном направлении. Начните с прямоугольного поля случайных пикселей. Теперь поместите свой прямоугольник под дерево, распознающее кошек, и посмотрите, распознает ли оно кошку. Этого не произойдет, потому что изображение состоит только из случайных пикселей. Но теперь перемешайте случайные пиксели.
Для вас результат по-прежнему будет выглядеть, как снег, но на дереве он может вызвать слабое узнавание. Если вы видите, что узнавание дерева увеличивается, сохраните результат. Если уменьшается — выбросьте изменения. И так повторяйте это снова и снова. В конце концов из снега появится кошка.
Какую кошку вы в итоге создали? Это ненастоящая кошка. Это случайная интерполяция некоторых кошек, которые участвовали в обучении дерева распознавания кошек в самом начале нашего пути. Эти данные были получены из изображений кошек, которые были размещены в интернете, но новое изображение, как правило, не соответствует ни одному из них. Это просто изображение, на котором узнается кошка. Повторите этот процесс, и вы получите новую комбинацию. Обучите ИИ создавать такие изображения — не только для кошек, но и для многих других вещей, — и вы получите базовую форму генеративного искусственного интеллекта.
4. Фантомные деревья
Теперь на уровне метафоры мы готовы понять, что происходит, когда мы взаимодействуем с генеративными системами искусственного интеллекта. Мы взаимодействуем с ними при помощи запросов («промптов») — комбинаций слов, которые описывают, что мы хотим. Слова в наших подсказках распознаются деревьями в нашем лесу. Вы можете представить, как деревья начинают светиться в ответ на наши запросы. Но активация отдельных деревьев не так важна, как то, что происходит в промежутках между ними.
Предположим, вы требуете от генеративной системы ИИ создать «акварель с изображением кошки на парашюте, играющей на трубе перед приземлением в Национальном парке Йосемити». В лесу нет отдельных деревьев, соответствующих этому запросу, потому что в интернете никогда не было картинок, связанных с этим конкретным набором слов. В каком-то смысле между деревьями для «акварели», «кошки», «парашюта», «трубы» и «Йосемити» находится открытая поляна. Но, опираясь на деревья для этих понятий и создавая нечто, что узнаваемо для каждого из них, искусственный интеллект может заполнить прогалину. Он может соорудить фантомное дерево на поляне, скроенное специально по вашему запросу.
«Акварель с изображением кошки на парашюте, играющей на трубе перед приземлением в Йосемити» — необычное дерево. Кажется, что его сооружение требует чего-то вроде творческого подхода. Как именно кошка помещается в подвесную систему парашюта? Как она будет держать трубу? Это вопросы, на которые нет однозначных ответов. И все же, опираясь на все деревья, активированные подсказкой, ИИ найдет решение. Это статистический процесс — поиск способа быть более чем одной вещью одновременно.
Вы можете представить себе, как программа ИИ обходит все деревья, соответствующие запросу, и выбирает только те из возникающих образов, которые удовлетворяют всем условиям сразу. В интернете на изображениях про использование парашютов обычно показаны люди, а не кошки. Но если кошка примет позу, похожую на человеческую, это с большей вероятностью удовлетворит дерево «использование парашюта». Процесс выводит нечто приемлемое. Результат не идеален, но обычно достаточно хорош для серьезных задач или, на худой конец, получается милым.
Определенные виды результатов могут иметь экономическую ценность. Например, лес может распознавать краткие пересказы документов, которые приближенно описывают длинные версии — например, резюме объемного отчета для руководителей, — а затем в ответ на запрос может создавать резюме документов, которых он никогда раньше не видел.
Для тех, кто не занимается программированием, тот факт, что ИИ могут создавать код, может показаться удивительным. Но компьютерные программы — это вид текста, и учебные данные имеются в изобилии. Программирование бывает вызывающе утомительным, потому что написание программы включает в себя множество раздражающих мелких проблем, с которыми нужно разобраться, прежде чем вы сможете приступить собственно к решению задачи. Но программисты уже создали многие миллионы программ, которые справляются с подобными мелочами. В них есть небольшие вариации для каждого отдельного случая, и код выложен в Сеть. Подобно тому, как тело кошки можно подогнать под парашютную подвеску, эти уже существующие программы могут быть слегка подогнаны генеративным ИИ под особенности запроса. По некоторым оценкам, генеративный ИИ может повысить производительность труда программистов на 20-30% и более.
5. Высота леса
Оставят ли такие технологии без работы художников или программистов? Я так не думаю. Есть доводы в пользу того, что ИИ не всегда может выполнять работу творческого человека в полном объеме. Почему?
Чтобы ответить на этот вопрос, нужно подумать не только о возможностях, но и об ограничениях технологии. Когда вы просите искусственный интеллект создать новое фантомное дерево в ответ на запрос, в мире появляется нечто новое. Задействуется своего рода творчество. Однако наша схема наводит на мысль, что это творчество ограничено неким потолком. ИИ заполняет пространство между деревьями, но не забирается выше них.
Есть ли такие ограничения у человеческого разума? Можем ли мы мыслить за пределами того, что нам уже известно, выше известных деревьев? Может ли искусственный интеллект подняться выше своего леса? Исследователи расходятся во мнениях по этим важным вопросам. На данный момент слишком мало известно и о человеческих, и об искусственных процессах, чтобы сказать что-то уверенно.
Однако на практике нам приходится делать предположения о людях и машинах, поскольку мы внедряем машины в мир людей. Я считаю, что нам лучше исходить из того, что люди могут подняться выше метафорических деревьев ИИ. Это предположение поможет нам избежать ловушки, связанной снижением потолка для всей цивилизации.
Одна из опасностей ИИ заключается в том, что мы можем начать действовать так, будто все, что может быть сделано в будущем, достаточно похоже на то, что уже делали в прошлом, а значит может быть поручено ИИ полностью. Я считаю, что мы должны сопротивляться такой установке.
Одна из проблем с типичными антропоморфными повествованиями об ИИ заключается в том, что игнорируются наши интуитивные представления о слабых сторонах ИИ. Из-за этого дискуссии обычно сводятся к противопоставлению крайностей.
Есть энтузиасты, которые считают, что мы строим большой мозг, который решит все наши проблемы или уничтожит нас. И скептики не видят особой ценности в ИИ. Скептики часто концентрируются только на третьем шаге нашей схемы — обратной работе по созданию нового контента, который распознается нашими метафорическими деревьями.
Сфокусировавшись на этом этапе, специалист по вычислительной лингвистике Эмили Бендер и ее коллеги назвали некоторые модели «стохастическими попугаями», которые используют статистику для переработки существующей информации.
При этом не учитывается четвертый шаг, на котором в нашем метафорическом лесу образуется новое дерево. Создавая эти деревья, генеративные ИИ превращают неявные до сего момента связи в учебных данных в явные. Невозможно заранее перечислить множество потенциальных комбинаций, поэтому мы можем считать этот процесс творческим. Но также мы можем увидеть и его пределы.
Я считаю образ нового дерева, тянущегося вверх, но, как правило, не превосходящего по высоте кроны остальных деревьев, полезным и сбалансированным. Он предлагает альтернативу мнению о том, что искусственный интеллект не делает ничего, кроме отрыжки из информации, но при этом выражает скептицизм в отношении того, станет ли искусственный интеллект трансцендентной, неограниченной формой интеллекта.
Заполнение пространства между деревьями — это здорово, но не стоит путать это с подъемом потолка. Что он делает, так это максимизирует ценность данных, используемых для обучения. А это уже само по себе достаточно веская причина для того, чтобы с энтузиазмом относиться к последним достижениям ИИ.
Если вы хотите понять, где генеративные ИИ принесут наибольшую пользу, спросите себя: какие виды человеческой деятельности уже многократно повторялись, с небольшими вариациями? В этих областях генеративный ИИ, вероятно, сможет улучшить ситуацию.
Писатель-фантаст Артур Кларк высказал приобретшую сегодня известность мысль, что достаточно развитая технология неотличима от магии. Но это верно только в том случае, если технологию недостаточно хорошо объясняют. Технологи отвечают за то, чтобы их дары не воспринимались как магия.
Джарон Лантье родился в 1962 году в Нью-Йорке в семье еврейских эмигрантов из Европы. В 13 лет поступил в Университет Нью-Мексико, где прошел курсы магистратуры. С 1979 по 1980 год Ланье работал в Университете Нью-Мексико над проектом «Цифровое графическое моделирование для обучения», финансируемым Национальным научным фондом, одновременно посещая школу искусств Нью-Йоркского университета.
В 1983–1984 гг. исследователь работал в американской компании по разработке видеоигр Atari. В 1984 г. совместно с изобретателем проводной перчатки Томасом Циммерманом основал компанию VPL Research, которая одной из первых разрабатывала и продавала продукты виртуальной реальности до своего банкротства в 1990 г.
С 1997 по 2001 год Ланье был главным научным сотрудником компании Advanced Network and Services, в состав которой входило инженерное бюро Internet2. Был основателем или руководителем четырех стартапов, которыми сейчас владеют Oracle, Adobe, Google и Pfizer.
В настоящее время работает в Microsoft Research в должности «octopus» (Office of the Chief Technology Officer Prime Unifying Scientist). Его часто называют «отцом VR» (вирутальной реальности). Он также внес значительный вклад в развитие и популяризацию технологии VR.
(теги пока скрыты для внешних читателей)