Комплексный анализ многоязычных текстов, охватывающих двойные алфавиты

Основное содержимое статьи

Ф.Т. Адилова
Р.Р. Давронов
Р.А. Сафаров

Аннотация

Распознавание языка при обработке естественного языка (NLP) направлено на определение конкретного языка текста или документа. По мере увеличения количества языков эта задача усложняется. В данном исследовании представлена подробная модель определения языков по тексту с акцентом на представление узбекского языка в двойном алфавите, - латинице-кириллице. Учитывая пробелы исследований в этой области, мы представляем точную модель распознавания узбекского языка, использующую подходящую архитектуру трансформера. Модель была протестирована на разработанном нами корпусе узбекского языка, который является надежным ориентиром для последующих исследований по идентификации узбекского языка. Наш подход охватывает 21 язык, включая узбекский, представленный двумя алфавитами: латиницей и кириллицей. Наши результаты показывают, что модель распознавания языка на основе модели XLM-RoBERTa значительно превосходит своих предшественников по точности и эффективности.

Информация о статье

Как цитировать
Адилова, Ф., Давронов, Р., & Сафаров, Р. (2023). Комплексный анализ многоязычных текстов, охватывающих двойные алфавиты. Международный Журнал Теоретических и Прикладных Вопросов Цифровых Технологий, 5(3), 47–56. извлечено от https://ijdt.uz/index.php/ijdt/article/view/110
Раздел
Articles

Наиболее читаемые статьи этого автора (авторов)