Ведущие образцы ИИ провалили экзамен по математике в Китае

Изображение: (cc) mikemacmarketing
Искусственный интеллект
Искусственный интеллект

Экзамен по математике провалили семь больших языковых моделей ИИ, в том числе ChatGPT-4o от OpenAI, согласно данным Шанхайской лаборатории искусственного интеллекта сообщает 20 июня издание Yicai.

Модели искусственного интеллекта недавно заставили «сесть» за вступительный экзамен в китайский колледж. Они относительно успешно справились с тестами по английскому и китайскому языкам, но каждый из них провалил экзамен по математике.

Chat GPT-4o, а также открытые модели, разработанные китайскими компаниями Alibaba Group Holding, 01.AI, Zhipu AI, Shanghai Artificial Intelligence Laboratory и французской Mistral AI, прошли испытание OpenCompass, системой оценки Shanghai AI Lab.

По словам представителей Шанхайской лаборатории искусственного интеллекта, жесткие вступительные экзамены в китайские колледжи — хороший способ оценить уровень интеллекта ИИ. Все тесты были отмечены вручную, и экзаменаторам не сказали, что их сдавали машины. Экзамены содержали как объективные, так и субъективные вопросы, добавляет лаборатория.

Согласно результатам, опубликованным вчера OpenCompass, самым умным оказался Qwen 2-72B от Alibaba, набравший 303 балла из 420 по трем предметам. За ним следуют Chat GPT-4o от американской компании OpenAI с 296 баллами и InternLM 2.0 от Shanghai AI Lab с 295,5 баллами. ИИ от Mistral AI занял последнее место с результатом 185.

Однако каждый из них не справился с математическим тестом. InternLM 2.0 получил наивысшую оценку — всего 75 баллов из 150. GPT-4o занял второе место с 73 баллами.

Эксперты обнаружили, что ответы генеративных моделей ИИ на субъективные математические вопросы были нелогичными и запутанными. Иногда рассуждения были неверными, но ответ был правильным. ИИ хорошо запоминают формулы, но затрудняются объяснить, как они решали задачи.

Это говорит о том, что «магистрантам» есть куда улучшать свои математические навыки, сказал Линь Дахуа, ученый из Шанхайской лаборатории искусственного интеллекта. Математика предполагает сложные рассуждения, что является ключевой способностью, если «магистранты» будут использоваться в финансах и других жизненно важных областях.

Модели ИИ показали хорошие результаты в современном китайском языке, но в знании классического китайского языка у них был большой пробел. Qwen набрал 124 балла из 150, а GPT-4o преуспел в английском языке, набрав 109 баллов из 120.

В английском языке большинство людей, проходящих тест, теряют баллы за недостаточное количество слов, но у моделей ИИ баллы, как правило, снимались за превышение лимита слов.