Яндекс в социальной сети Хабрхабр рассказал о том, как происходила работа по добавлению чувашского языка в Яндекс.Переводчик. Для получения текущего качества перевода они использовали не только предоставленные нашей лабораторией чувашского языка 250 тысяч пар чувашско-русских предложений, но и воспользовались многими подходами для улучшения качества.
Для чувашско-русской пары Яндекс использовал свою систему на основе нейросетей. Но из-за малого количества данных (для хорошего качества требуется порядка 1 миллиона пар) они также прибегли к родственным связям нашего чувашского языка — на примерах азербайджанского, башкирского, татарского, казахского, киргизского, турецкого и узбекского языков. Также был применен метод обратного перевода: огромный объем качественных русских текстов был переведен автоматически на чувашский и таким образом были созданы синтетические пары. При этом с помощью специального метода им удалось избавиться от большей части ошибочно переведенных данных.
Чувашский язык сейчас доступен в веб-версии переводчика, а также на мобильных устройствах. Нашей лабораторией было предоставлено 250 тысяч пар предложений. Но работа не стоит на месте и накопление объема продолжается — на данный момент мы уже располагаем 280 тысячами пар.
Также будет продолжены исследования и с нашей стороны. Созданный нами переводчик также продолжит свое существование в целях накопления пар для получения более качественного перевода.
Еще больше интересных и актуальных новостей вы найдете в чувашской версии сайта!
Станислав Убасси // 3072.53.4949
2020.02.12 05:27 | |
Ĕнер конференцине хутшăнтăм (Гуманитари институчĕ иртерчĕ - Наука кунне халаларĕç).
Çавăнта директор çумĕ Генннадий Николаев тап-таса чăвашла кăна калаçнипе фольклор секцине ертсе пычĕ (дисскуссисем вăхăтсенче те чăвашла интереслĕ шухăшсене пĕлтерчĕ).
Пурте тĕлĕнсе хытса кайрĕç: пирĕн пуçлăх мĕнле таса чăвашла калаçма пултарать! Халличчен ĕçлекенсемпе вырăсла кăна калаçатччĕ.
Пурне те питĕ килĕшрĕ çакнашкал пулăм.
Ст. Убасси.