В РАН Сибири искусственный интеллект обучат тибетской письменности
Работающий прототип интеллектуальной системы распознавания символов тибетского языка запланировали создать к концу 2022 года ученые Центра восточных рукописей и ксилографов ИМБТ СО РАН в Улан-Удэ. Об этом 10 февраля сообщила газета «Наука в Сибири».
Сотрудники Института монголоведения, буддологии и тибетологии Сибирского отделения Российской академии наук (ИМБТ СО РАН) совместно с Центром искусственного интеллекта МТС ведут научно-технологический проект по оцифровке одного из крупнейших собраний книг на тибетском языке. Технологическим партнером проекта является Высший колледж информатики Новосибирского государственного университета (НГУ).
«Мы отбираем определенные сочинения, затем сканируем, вручную вводим их в электронную форму и с помощью специального программного обеспечения создаем дата-сеты, представляющие собой изображения и привязанные к ним текстовые аннотации», — указал руководитель Центра восточных рукописей и ксилографов кандидат физико-математических наук Олег Ринчинов.
Ученый объяснил, что получаемые таким образом информационные блоки служат для глубокого обучения искусственного интеллекта. Систему обучения искусственного интеллекта разрабатывает команда программистов из Новосибирска, обслуживающая серверы суперкомпьютеров НГУ.
«В данном случае оптическое распознавание символов — задача не из легких, ведь в тибетской письменности не десятки и не сотни лексем», — указал на сложность проводимой работы директор Высшего колледжа информатики НГУ кандидат химических наук Алексей Окунев.
Конечная цель указанного проекта — получение индексируемого цифрового корпуса восточных текстов с возможностью поиска по содержимому. Отмечается, что это расширит возможности ученых по проведению различных исследований —тибетологических, филологических, исторических и других.