Ведущие образцы ИИ провалили экзамен по математике в Китае
Экзамен по математике провалили семь больших языковых моделей ИИ, в том числе ChatGPT-4o от OpenAI, согласно данным Шанхайской лаборатории искусственного интеллекта сообщает 20 июня издание Yicai.
Модели искусственного интеллекта недавно заставили «сесть» за вступительный экзамен в китайский колледж. Они относительно успешно справились с тестами по английскому и китайскому языкам, но каждый из них провалил экзамен по математике.
Chat GPT-4o, а также открытые модели, разработанные китайскими компаниями Alibaba Group Holding, 01.AI, Zhipu AI, Shanghai Artificial Intelligence Laboratory и французской Mistral AI, прошли испытание OpenCompass, системой оценки Shanghai AI Lab.
По словам представителей Шанхайской лаборатории искусственного интеллекта, жесткие вступительные экзамены в китайские колледжи — хороший способ оценить уровень интеллекта ИИ. Все тесты были отмечены вручную, и экзаменаторам не сказали, что их сдавали машины. Экзамены содержали как объективные, так и субъективные вопросы, добавляет лаборатория.
Согласно результатам, опубликованным вчера OpenCompass, самым умным оказался Qwen 2-72B от Alibaba, набравший 303 балла из 420 по трем предметам. За ним следуют Chat GPT-4o от американской компании OpenAI с 296 баллами и InternLM 2.0 от Shanghai AI Lab с 295,5 баллами. ИИ от Mistral AI занял последнее место с результатом 185.
Однако каждый из них не справился с математическим тестом. InternLM 2.0 получил наивысшую оценку — всего 75 баллов из 150. GPT-4o занял второе место с 73 баллами.
Эксперты обнаружили, что ответы генеративных моделей ИИ на субъективные математические вопросы были нелогичными и запутанными. Иногда рассуждения были неверными, но ответ был правильным. ИИ хорошо запоминают формулы, но затрудняются объяснить, как они решали задачи.
Это говорит о том, что «магистрантам» есть куда улучшать свои математические навыки, сказал Линь Дахуа, ученый из Шанхайской лаборатории искусственного интеллекта. Математика предполагает сложные рассуждения, что является ключевой способностью, если «магистранты» будут использоваться в финансах и других жизненно важных областях.
Модели ИИ показали хорошие результаты в современном китайском языке, но в знании классического китайского языка у них был большой пробел. Qwen набрал 124 балла из 150, а GPT-4o преуспел в английском языке, набрав 109 баллов из 120.
В английском языке большинство людей, проходящих тест, теряют баллы за недостаточное количество слов, но у моделей ИИ баллы, как правило, снимались за превышение лимита слов.
(теги пока скрыты для внешних читателей)