An Integrated Analysis of Multilingual Texts Spanning Dual Alphabets

Ф.Т. Адилова; Р.Р. Давронов; Р.А. Сафаров

An Integrated Analysis of Multilingual Texts Spanning Dual Alphabets

PDF (English)

Опубликован: Oct 2, 2023

Ключевые слова:

NLP, Многоязычные языковые модели, Облачный API естественного языка, Открытый ИИ, ChatGPT, сжатие модели, преобразователь

Ф.Т. Адилова

Академия наук Республики Узбекистан Математический институт имени В.И. Романовского

Р.Р. Давронов

Академия наук Республики Узбекистан Математический институт имени В.И. Романовского

Р.А. Сафаров

Академия наук Республики Узбекистан Математический институт имени В.И. Романовского

Аннотация

Распознавание языка при обработке естественного языка (NLP) направлено на определение конкретного языка текста или документа. По мере увеличения количества языков эта задача усложняется. В данном исследовании представлена подробная модель определения языков по тексту с акцентом на представление узбекского языка в двойном алфавите, - латинице-кириллице. Учитывая пробелы исследований в этой области, мы представляем точную модель распознавания узбекского языка, использующую подходящую архитектуру трансформера. Модель была протестирована на разработанном нами корпусе узбекского языка, который является надежным ориентиром для последующих исследований по идентификации узбекского языка. Наш подход охватывает 21 язык, включая узбекский, представленный двумя алфавитами: латиницей и кириллицей. Наши результаты показывают, что модель распознавания языка на основе модели XLM-RoBERTa значительно превосходит своих предшественников по точности и эффективности.

Как цитировать

Адилова, Ф., Давронов, Р., & Сафаров, Р. (2023). Комплексный анализ многоязычных текстов, охватывающих двойные алфавиты. Международный Журнал Теоретических и Прикладных Вопросов Цифровых Технологий, 5(3), 47–56. извлечено от https://ijdt.uz/index.php/ijdt/article/view/110

Выпуск

Том 5 № 3 (2023): Международный журнал теоретических и прикладных вопросов цифровых технологий

Раздел

Articles

Боковая панель статьи

Основное содержимое статьи

Аннотация

Информация о статье

Наиболее читаемые статьи этого автора (авторов)