Как сообщает лаборатория чувашского языка, основанная энтузиастами, в параллельном корпусе чувашского языка количество пар чувашско-русских предложений перевалило за 200 тысяч.
Параллельный корпус чувашского языка на данный момент создается для сбора параллельных текстов, на основе которых впоследствии энтузиасты хотят добавить чувашско-русский и русско-чувашский автоматический перевод в системы Яндекса, Гугла и т.д. В то же время идет и разработка своего собственного переводчика на основе нейронного алгоритма (ресурс будет готов в ближайшее время). На данный момент разработчикам удалось достичь качества в 24 BLEU (для сравнения: русско-английский перевод Яндекса и Гугла имеет качество 30–35 BLEU).
Как сообщают энтузиасты, для более качественного перевода необходимо собрать порядка миллиона пар. Работа по набору пар началась в апреле текущего года и за это время удалось довести их количество до 200 тысяч. В следующем году планируется довести количество до полумиллиона пар.
Работа в данном направлении ведется группой, куда входят энтузиасты: Николай Плотников (руководитель, разработка корпуса), Александр Антонов (специалист по машинному переводу), Светлана Трофимова, Эрбина Портнова, Алина Иванова (обработка текстов) и другие.
Еще больше интересных и актуальных новостей вы найдете в чувашской версии сайта!