Комплексный анализ многоязычных текстов, охватывающих двойные алфавиты
Основное содержимое статьи
Аннотация
Распознавание языка при обработке естественного языка (NLP) направлено на определение конкретного языка текста или документа. По мере увеличения количества языков эта задача усложняется. В данном исследовании представлена подробная модель определения языков по тексту с акцентом на представление узбекского языка в двойном алфавите, - латинице-кириллице. Учитывая пробелы исследований в этой области, мы представляем точную модель распознавания узбекского языка, использующую подходящую архитектуру трансформера. Модель была протестирована на разработанном нами корпусе узбекского языка, который является надежным ориентиром для последующих исследований по идентификации узбекского языка. Наш подход охватывает 21 язык, включая узбекский, представленный двумя алфавитами: латиницей и кириллицей. Наши результаты показывают, что модель распознавания языка на основе модели XLM-RoBERTa значительно превосходит своих предшественников по точности и эффективности.