ЦХИНВАЛ, 13 апр — Sputnik, Виктория Тедеева. Девятиклассница из Владикавказа Милана Плиева выбрала OCR-систему (программа, которая преобразует изображения с текстом в машиночитаемый формат) для оцифровки осетинских книг и для обучения нейросетей. Об этом Sputnik рассказала старший преподаватель кафедры прикладной математики и информатики СОГУ Мария Макаренко.
По ее словам, участница конкурса "Большие вызовы" провела исследование существующих систем оцифровки. Ее цель – создать цифровую копию обширной библиотеки осетинских книг из ВКонтакте.
"Это позволит в дальнейшем обучать нейронные сети, что, в свою очередь, откроет путь к созданию качественных инструментов, таких как переводчики и, в перспективе, умные колонки, способные говорить на осетинском языке. Хотя это долгосрочная цель, первый шаг уже сделан: выбрана наиболее подходящая система оцифровки, обеспечивающая высокое качество и возможность дальнейшего обучения", - рассказала она.
Как отметила Макаренко, в отличие от текущего проекта "Осетик.ру", который в основном занимается переводом с русского на осетинский, работа Миланы Плиевой направлена на создание фундамента для обратного перевода – с осетинского на русский.
"Такой подход критически важен для сохранения уникальных особенностей осетинского языка, которые могут быть утеряны при переводе в другом направлении. Для этого необходимо не просто фотографировать книги, а получать редактируемый текст, предложения, которые станут основой для дальнейших переводов. Именно в этом направлении и работает Милана", - пояснила она.
Старший преподаватель кафедры прикладной математики и информатики СОГУ Мария Макаренко
© Photo : Пресс-служба СОГУ
По словам преподавателя, для русского языка современные нейросетевые системы распознавания текста демонстрируют очень высокую точность, приближающуюся к 100%, благодаря специализированному дополнительному обучению.
"В отличие от этого, для осетинского языка качество распознавания значительно ниже, в пределах 60-70%, как показал анализ Миланы Плиевой. Наша цель – выбрать наиболее эффективную систему и дополнительно обучить ее для повышения точности, минимизируя последующую редактуру. Редактирование, тем не менее, остается необходимым для всех языков, но объем его будет варьироваться", - сказала Макаренко.
Она подчеркнула, что это школьный проект, а не готовый инструмент.
"Хотя мы стремимся к созданию более практичного решения, текущая работа выполняется школьницей в рамках учебного проекта. Было протестировано около пяти-шести OCR-систем, показавших разное качество. Мы выбрали программу "Tesseract", несмотря на его текущую точность около 60%. Преимущество "Tesseract" в возможности дообучения: предоставив системе множество пар "фотография – корректный текст", мы можем обучить нейронную сеть", - пояснила старший преподаватель.
Макаренко добавила, что в случае необходимости получения экспертной оценки, они в первую очередь обращаются к сотрудникам из Центра развития осетинского языка.
"В Центре развития осетинского языка есть высококвалифицированные специалисты, включая множество докторов филологических наук. Мы активно сотрудничаем и консультируемся с ними по всем рабочим вопросам", - сказала она.
Макаренко отметила, что информатика является прикладной наукой, которую можно успешно применять в различных областях, включая родной язык.
"Я преподаю в СОГУ и одновременно в Яндекс-Лицее при IT-клубе Владикавказа, который является центром дополнительного образования. Я предлагаю учащимся выполнять проекты, связанные с осетинским языком. Это позволяет студентам и школьникам не только осваивать программирование, но и находить практическое применение своим знаниям. Например, проект "Рудзынг", где мы создаем игры на осетинском языке, вдохновляет ребят на разработку собственных проектов. Участие в таких реальных проектах, которыми пользуются люди, мотивирует их гораздо сильнее, чем работа "в стол"", - отметила она.
Макаренко подчеркнула, что современные дети обладают всеми условиями для всестороннего развития, однако, наличие возможностей не гарантирует успеха.
"Важны также желание и готовность приложить усилия, ведь, как известно, гениальность – это в первую очередь упорный труд, а не только врожденные способности. Многие молодые люди сталкиваются с трудностями, связанными с необходимостью много и усердно работать, что может быть непросто. Поэтому, несмотря на обилие ресурсов, прогресс в этом направлении не всегда стремительный", - заявила она.