Эффективность Lora в задачах обобщения текстов:  сравнение моделей T5 и uzT5

Фатима Адилова; Рифкат Давронов; Самариддин Кушмуратов

doi:10.62132/ijdt.v7i3.204

PDF

Опубликован: Oct 9, 2024

DOI: https://doi.org/10.62132/ijdt.v7i3.204

Ключевые слова:

низкоранговые адаптации, T5-base, T5-Large, uzT5, сжатые модели

Фатима Адилова

Институт математики им. В.И. Романовского Академии Наук Республики Узбекистан

Рифкат Давронов

Институт математики им. В.И. Романовского Академии Наук Республики Узбекистан

Самариддин Кушмуратов

Институт математики им. В.И. Романовского Академии Наук Республики Узбекистан

Аннотация

В данной работе представлен анализ применения метода низкоранговой адаптации (Low-Rank Adaptation, LoRA) для задачи одноязычной генерации текстов на узбекском языке. Мы использовали модели T5-base, T5-Large и uzT5, чтобы определить, какая из них показывает наилучшие результаты при использовании LoRA, а также сравнили их производительность с традиционной тонкой настройкой. В качестве набора данных использовали текст из 5000 новостей с платформы Kun.uz, из которых 4000 были использованы для обучения, а 1000 — для тестирования. Производительность моделей оценивалась с помощью метрик BLEU, ROUGE-1, ROUGE-2, ROUGE-L и ROUGE-LSUM. Результаты показали, что модель uzT5-base с параметрами LoRA равными r=256 и α=512, демонстрирует наивысшие показатели среди всех рассмотренных моделей, обеспечивая наилучшие значения метрик ROUGE и BLUE при умеренном количестве параметров для обучения, что делает её более вычислительно эффективной по сравнению с mT5-large.

Как цитировать

Адилова, Ф., Давронов, Р., & Кушмуратов, С. (2024). Эффективность Lora в задачах обобщения текстов: сравнение моделей T5 и uzT5. Международный Журнал Теоретических и Прикладных Вопросов Цифровых Технологий, 7(3), 112–116. https://doi.org/10.62132/ijdt.v7i3.204

Выпуск

Том 7 № 3 (2024): Международный журнал теоретических и прикладных вопросов цифровых технологий

Раздел

Articles

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Библиографические ссылки

Anil, R., et al. (2023). PaLM 2: Pre-trained Large Model for Language Understanding. ArXiv. DOI: 10.48550/arXiv.2305.10403

Touvron, H., et al. (2023). LLaMA 2: Open and Efficient Foundation Language Models. ArXiv. DOI: 10.48550/arXiv.2302.13971

Raffel, C., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arxiv.org/abs/1910.10683.

Houlsby, N., et al. (2019). Parameter-efficient Transfer Learning for NLP. https://arxiv.org/abs/1902.00751.

Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation of Large Language Models. https://arxiv.org/abs/2106.09685.

Li, X. L., Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Genera-tion. https://arxiv.org/abs/2101.00190.

Lester, B., et al. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. https://arxiv.org/abs/2104.08691.

Wang, A., et al. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Nat-ural Language Understanding. https:arxiv.org/ abs/1804.07461.

Wang, A., et al. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. https://arxiv.org/abs/1905.00537.

Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng, Weizhu Chen, and Tuo Zhao. 2023b. Adap-tive Budget Allocation for Parameter-Efficient Fine-Tuning. In The Eleventh In-ternational Conference on Learning Repre-sentations.

Arnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, and Zhiqiang Shen. 2023. One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning. arXiv preprint arXiv:2306.07967.

Tim Dettmers, Artidoro Pagnoni, Ari Holtz-man, and Luke Zettlemoyer. 2023. QLoRA: Efficient finetuning of quantized LLMs. In Thirty-seventh Conference on Neural In-formation Processing Systems.

Ansell, B., et al. (2021). Composable Sparse Fine-Tuning for Cross-Lingual Transfer. https://arxiv.org/abs/2110.07560.

Artetxe, M., et al. (2020). Translation Arti-facts in Cross-lingual Transfer Learning. ArXiv.

Karthikeyan, K., et al. (2020). Cross-lingual Transfer Learning for Multilingual Task-Oriented Dialog. arxiv.org/abs/2004.04721.

Lauscher, A., et al. (2020). From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual Transfer. arxiv.org/abs/2005.00633.

Whitehouse, P., et al. (2022). Cross-lingual Transfer Learning for Text Classification with Multilingual BERT.

https://arxiv.org/abs/2104.08645.

Vu, X. T., et al. (2022). Zero-Shot Cross-Lingual Transfer with AdapterFusion. https://arxiv.org/abs/2402.14778.

Ladhak, F., et al. (2020). Wikilingua: A Mul-tilingual Abstractive Summarization Da-taset. https://arxiv.org/abs/2010.03093.

Huang, Y., et al. (2023). LoRAHub: Com-bining Individually Trained LoRA Modules for Generalization. https://arxiv.org/html/2307.13269v2.

Chengsong Huang, Qian Liu, Bill Yuchen Lin, Tianyu Pang, Chao Du, and Min Lin. 2023. LoraHub: Efficient Cross-Task Gen-eralization via Dynamic LoRA Composi-tion. https://arxiv.org/abs/2307.13269.

Tianxiang Sun, Yunfan Shao, Hong Qian, Xuanjing Huang, and Xipeng Qiu. 2022. Black-Box Tuning for Language-Model-as-a-Service. In Proceedings of the 39th Inter-national Conference on Machine Learning, volume 162 of Proceedings of Machine Learning Research, pages 20841–20855. PMLR.

https://huggingface.co/rifkat/t5-base-uzbek

Davronov, R., Adilova, F. UzRoberta: A Pre-Trained Language Model for Uzbek / AIP Conference Proceedings., 2024, 3004(1), 050001

Lin, Chin-Yew. 2004. ROUGE: a Package for Automatic Evaluation of Summaries. In Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, July 25 - 26, 2004.

Kishore Papineni and Salim Roukos and Todd Ward and Wei-jing Zhu BLEU: a Method for Automatic Evaluation of Ma-chine Translation / Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadel-phia, July 2002, pp. 311-318.

Боковая панель статьи

Основное содержимое статьи

Аннотация

Информация о статье

Библиографические ссылки