Не спешите доверяться финансовым советам чат-ботов — исследование

Изображение: (cc) geralt
Искусственный интеллект
Искусственный интеллект

Поскольку рассказы о возможностях искусственного интеллекта не уходят с газетных полос, возникает один насущный вопрос: могут ли такие чат-боты, как ChatGPT, помочь в решении финансовых вопросов или потенциально заменить специалистов отрасли? Новое исследование ученых Университета штата Вашингтон (WSU) и Университета Клемсона, проанализировавших более 10 000 ответов искусственного интеллекта на вопросы финансового экзамена, дает несколько отрезвляющих ответов, пишет 19 декабря портал Study Finds.

«Еще слишком рано беспокоиться о том, что ChatGPT полностью займет финансовые должности», — говорит один из авторов, профессор Джей Фэйрхерст из Колледжа бизнеса Карсона при WSU. «ChatGPT может очень хорошо синтезировать общие концепции, для которых в Интернете уже давно есть хорошие объяснения. Но если дело касается специфических вопросов — ждите проблем».

По оценкам Goldman Sachs, от 15% до 35% финансовых операций потенциально могут быть автоматизированы с помощью ИИ, в то время как международная аудит-консалтинговая корпорация KPMG предполагает, что генеративный ИИ может революционизировать методы работы управляющих активами и благосостоянием. Однако эти прогнозы основаны на важном предположении — что системы искусственного интеллекта обладают адекватным пониманием финансов.

«Прохождения сертификационных экзаменов недостаточно. Нам действительно нужно копнуть глубже, чтобы понять, на что действительно способны эти модели», — отмечает Фэйрхерст.

Исследователи собрали обширный набор данных из 1083 вопросов с множественным выбором, взятых из различных экзаменов на получение финансового лицензирования. Это те же тесты, которые должны пройти профессиональные финансисты, чтобы получить лицензию.

С использованием этого банка вопросов были протестированы четыре различные модели искусственного интеллекта: Google Bard, Meta (организация, деятельность которой запрещена в РФ) LLaMA и две версии OpenAI ChatGPT (версии 3.5 и 4). Исследователи оценивали не только точность ответов, но и использовали сложные методы обработки естественного языка, чтобы сравнить, насколько хорошо системы искусственного интеллекта могут объяснить свои выводы по сравнению с письменными объяснениями экспертов.

Результаты показали явные различия между моделями искусственного интеллекта. Из всех протестированных моделей ChatGPT 4 стала явным лидером, ее показатели точности на 18–28 процентных пунктов выше, чем у других моделей. Однако, когда исследователи доработали более раннюю бесплатную версию ChatGPT 3.5, добавив в нее примеры правильных ответов и пояснений, произошло интересное изменение. После этой настройки ее точность почти сравнялась с точностью ChatGPT 4 и даже превзошла ее в предоставлении ответов, которые напоминают ответы людей-профессионалов.

Однако обе модели по-прежнему имели существенные ограничения. Хотя они показали хорошие результаты по вопросам, касающимся торговли, счетов клиентов и запрещенных действий (точность 73,4%), показатели по вопросам, касающимся оценки финансовых характеристик клиентов и инвестиционных целей, понижались до 56,6%. Модели давали еще менее точные ответы в специализированных ситуациях, таких как определение страхового покрытия и налогового статуса клиентов.

Исследовательская группа не останавливается на экзаменационных вопросах. Сейчас она изучает другие способы тестирования возможностей ChatGPT, в том числе в области оценки потенциальных сделок по слиянию. Предварительные результаты показывают, что модель искусственного интеллекта с трудом справляется с этой более сложной задачей.

Эти ограничения имеют важные последствия для финансовой отрасли, особенно в отношении должностей начального уровня.

Ближайшее будущее ИИ в сфере финансов, по-видимому, связано скорее с сотрудничеством, чем с заменой персонала. Несмотря на то, что эти системы демонстрируют впечатляющие возможности в обобщении информации и решении рутинных аналитических задач, частота их ошибок, особенно в сложных ситуациях, связанных с клиентами, указывает на то, что человеческий надзор остается важным в отрасли, где такие ошибки могут иметь серьезные финансовые и юридические последствия, констатирует издание.