"Цифровизация осетинского языка": ИИ будет говорить на иронском и дигорском диалектах

Подписывайтесь на Sputnik в Дзен
ЦХИНВАЛ, 19 ноя – Sputnik, Олег Джагаев. На этой неделе глава Северной Осетии Сергей Меняйло заявил, что в республике началась реализация масштабной программы "Цифровизация осетинского языка", направленной на то, чтобы сделать осетинский язык "видимым и слышимым" в цифровой среде.
Подробнее об этом проекте Sputnik поговорил с человеком, который будет непосредственно курировать его, – советником главы РСО-Алания по вопросам цифровизации осетинского языка Александром Нартиковым.

Качество перевода пока оставляет желать лучшего

По словам Нартикова, реализация программы "Цифровизация осетинского языка" началась еще в 2023 году.
"В частности, мы участвовали в формировании первого этапа создания корпуса осетинского языка, тогда осетинский язык появился сначала в Яндекс-переводчике, а потом в Google-переводчике. Но качество перевода пока остается неудовлетворительным, поэтому необходимо провести ряд мероприятий для того, чтобы все-таки доучить искусственный интеллект (ИИ) говорить на осетинском", – рассказал он.
Нартиков отметил, что на сегодняшний день корпус осетинского языка готов только на 10%.

"Мы перевели с помощью языковедов и других экспертов, скажем так, около ста тысяч фраз. Однако, чтобы корпус был более значимый, более объемный, нужно порядка миллиона переведенных фраз. То есть мы пока провели одну десятую всей работы, и сейчас нам необходимо включиться, приложить усилия и перевести от миллиона до полутора миллионов фраз, чтобы сформировать серьезный и значимый корпус. Это станет базой, на которой будет строиться весь проект", – заявил собеседник агентства.

"Яндекс.Переводчик" поддерживает осетинский язык: новые горизонты для изучающих

ИИ будет не только понимать, но и говорить на осетинском

Как подчеркнул Нартиков, реализация программы "Цифровизация осетинского языка" предполагает не только переводческую работу, но и работу по голосовому определению осетинского языка.
"Эта технология, которая преобразовывает текст в звучащую речь, называется синтез речи (англ. Text-to-Speech (TTS) – ред.). Сейчас нам нужно записать голос для синтеза речи на осетинском, нужно собрать большой объем записей на осетинском языке, чтобы научить искусственный интеллект понимать осетинскую речь", – отметил он.
По словам куратора проекта, участвовать в выборе голоса для ИИ будет и население Северной Осетии.
"Мы хотим, чтобы ответственность за то, каким голосом будет говорить ИИ, женским или мужским, взяли на себя жители республики. Поэтому мы проведем понятный конкурс и выберем голос, а вся республика поучаствует в этом выборе", – сообщил Нартиков.  
Æ в цифровой среде. Какие приложения помогут в изучении осетинского языка
Он также подчеркнул, что ИИ будет говорить как на иронском, так и на дигорском диалектах осетинского языка.
"Проект будет учитывать интересы всех социальных институтов. Мы постараемся, чтобы искусственный диалект понимал любой диалект и любой говор. Что касается интеграции в федеральные сервисы, то там, возможно, будет только осетинский литературный язык, так как эти сервисы не принадлежат нам. А уже на уровне республики мы максимально расширим возможности платформы. Это, на мой взгляд, будет максимально логичным решением", – сказал собеседник агентства.

Проблем со специалистами нет

По словам Нартикова, если на первом этапе создания корпуса осетинского языка над проектом работали около 20 специалистов, то в дальнейшем это число увеличится в разы.
"Мы уже выходим на республиканский масштаб, и, соответственно, людей, занятых проектом, будет больше. Никаких проблем с поиском специалистов мы не видим. Главное – делать свою работу и не останавливаться", – заявил он.

Нужно зафиксировать языковой суверенитет

Нартиков подчеркнул, что руководство Северной Осетии в настоящее время работает над тем, чтобы жители республики могли бесплатно пользоваться разрабатываемой технологией.

"Мы сейчас говорим о коммерческой компании, которая будет в своем арсенале иметь такой сервис перевода осетинского языка. И, конечно, когда к тому или иному сервису идут большие объемы запросов, то он очень часто становится платным. Поэтому мы сейчас обсуждаем соглашения, чтобы государственные органы и учреждения могли использовать эту программу бесплатно. То есть мы хотим зафиксировать, чтобы все те объемы деятельности, которые республике нужны, были бы для нее доступны. Для обычных граждан же потребности в таких больших объемах нет, но, конечно, очень важно зафиксировать, скажем так, языковой суверенитет, чтобы у нас в республике все-таки были свои, самостоятельные сервисы. Это очень важно, и мы будем на этом акцентировать свое внимание", – отметил собеседник агентства.

Пользователи смогут регистрировать сайты на осетинском языке в домене рф - Меняйло

Результаты проекта будут открыты для всех

Нартиков отметил, что на базе программы "Цифровизация осетинского языка" можно будет "построить различного рода сервисы".
"Это могут быть образовательные платформы, в которых ИИ будет проверять корректность учащихся, это может быть умная колонка, которая общается с детьми и взрослыми. Это может быть все, что угодно, возможных областей применения этой программы очень много", – считает он.
Нартиков добавил, что результаты проекта не будут скрываться от общественности, наоборот, они будут "максимально передаваться", чтобы каждый мог реализовать свои идеи, связанные с осетинским языком.