Эффективность Lora в задачах обобщения текстов: сравнение моделей T5 и uzT5

Основное содержимое статьи

Фатима Адилова
Рифкат Давронов
Самариддин Кушмуратов

Аннотация

В данной работе представлен анализ применения метода низкоранговой адаптации (Low-Rank Adaptation, LoRA) для задачи одноязычной генерации текстов на узбекском языке. Мы использовали модели T5-base, T5-Large и uzT5, чтобы определить, какая из них показывает наилучшие результаты при использовании LoRA, а также сравнили их производительность с традиционной тонкой настройкой. В качестве набора данных использовали текст из 5000 новостей с платформы Kun.uz, из которых 4000 были использованы для обучения, а 1000 — для тестирования. Производительность моделей оценивалась с помощью метрик BLEU, ROUGE-1, ROUGE-2, ROUGE-L и ROUGE-LSUM. Результаты показали, что модель uzT5-base с параметрами LoRA равными r=256 и α=512, демонстрирует наивысшие показатели среди всех рассмотренных моделей, обеспечивая наилучшие значения метрик ROUGE и BLUE при умеренном количестве параметров для обучения, что делает её более вычислительно эффективной по сравнению с mT5-large.

Информация о статье

Как цитировать
Адилова, Ф., Давронов, Р., & Кушмуратов, С. (2024). Эффективность Lora в задачах обобщения текстов: сравнение моделей T5 и uzT5. Международный Журнал Теоретических и Прикладных Вопросов Цифровых Технологий, 7(3), 112–116. https://doi.org/10.62132/ijdt.v7i3.204
Раздел
Articles

Библиографические ссылки

Anil, R., et al. (2023). PaLM 2: Pre-trained Large Model for Language Understanding. ArXiv. DOI: 10.48550/arXiv.2305.10403

Touvron, H., et al. (2023). LLaMA 2: Open and Efficient Foundation Language Models. ArXiv. DOI: 10.48550/arXiv.2302.13971

Raffel, C., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arxiv.org/abs/1910.10683.

Houlsby, N., et al. (2019). Parameter-efficient Transfer Learning for NLP. https://arxiv.org/abs/1902.00751.

Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation of Large Language Models. https://arxiv.org/abs/2106.09685.

Li, X. L., Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Genera-tion. https://arxiv.org/abs/2101.00190.

Lester, B., et al. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. https://arxiv.org/abs/2104.08691.

Wang, A., et al. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Nat-ural Language Understanding. https:arxiv.org/ abs/1804.07461.

Wang, A., et al. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. https://arxiv.org/abs/1905.00537.

Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng, Weizhu Chen, and Tuo Zhao. 2023b. Adap-tive Budget Allocation for Parameter-Efficient Fine-Tuning. In The Eleventh In-ternational Conference on Learning Repre-sentations.

Arnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, and Zhiqiang Shen. 2023. One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning. arXiv preprint arXiv:2306.07967.

Tim Dettmers, Artidoro Pagnoni, Ari Holtz-man, and Luke Zettlemoyer. 2023. QLoRA: Efficient finetuning of quantized LLMs. In Thirty-seventh Conference on Neural In-formation Processing Systems.

Ansell, B., et al. (2021). Composable Sparse Fine-Tuning for Cross-Lingual Transfer. https://arxiv.org/abs/2110.07560.

Artetxe, M., et al. (2020). Translation Arti-facts in Cross-lingual Transfer Learning. ArXiv.

Karthikeyan, K., et al. (2020). Cross-lingual Transfer Learning for Multilingual Task-Oriented Dialog. arxiv.org/abs/2004.04721.

Lauscher, A., et al. (2020). From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual Transfer. arxiv.org/abs/2005.00633.

Whitehouse, P., et al. (2022). Cross-lingual Transfer Learning for Text Classification with Multilingual BERT.

https://arxiv.org/abs/2104.08645.

Vu, X. T., et al. (2022). Zero-Shot Cross-Lingual Transfer with AdapterFusion. https://arxiv.org/abs/2402.14778.

Ladhak, F., et al. (2020). Wikilingua: A Mul-tilingual Abstractive Summarization Da-taset. https://arxiv.org/abs/2010.03093.

Huang, Y., et al. (2023). LoRAHub: Com-bining Individually Trained LoRA Modules for Generalization. https://arxiv.org/html/2307.13269v2.

Chengsong Huang, Qian Liu, Bill Yuchen Lin, Tianyu Pang, Chao Du, and Min Lin. 2023. LoraHub: Efficient Cross-Task Gen-eralization via Dynamic LoRA Composi-tion. https://arxiv.org/abs/2307.13269.

Tianxiang Sun, Yunfan Shao, Hong Qian, Xuanjing Huang, and Xipeng Qiu. 2022. Black-Box Tuning for Language-Model-as-a-Service. In Proceedings of the 39th Inter-national Conference on Machine Learning, volume 162 of Proceedings of Machine Learning Research, pages 20841–20855. PMLR.

https://huggingface.co/rifkat/t5-base-uzbek

Davronov, R., Adilova, F. UzRoberta: A Pre-Trained Language Model for Uzbek / AIP Conference Proceedings., 2024, 3004(1), 050001

Lin, Chin-Yew. 2004. ROUGE: a Package for Automatic Evaluation of Summaries. In Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, July 25 - 26, 2004.

Kishore Papineni and Salim Roukos and Todd Ward and Wei-jing Zhu BLEU: a Method for Automatic Evaluation of Ma-chine Translation / Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadel-phia, July 2002, pp. 311-318.