РОЗРОБКА СИСТЕМИ АВТОМАТИЧНОГО ПОШУКУ ТА РОЗПІЗНАВАННЯ ТЕКСТОВИХ СИМВОЛІВ ІЗ ВИКОРИСТАННЯМ НЕЙРОННИХ МЕРЕЖ
Ключові слова:
розпізнавання символів, нейронні мережі, CRAFT, машинне навчання, класифікаціяАнотація
Метою дослідження є розробка програмного засобу для автоматичного пошуку та розпізнавання символів на зображеннях із використанням нейронних мереж. Розробка використовує дві нейронні мережі. Перша аналізує повнорозмірне зображення, знаходить символи та визначає їхні координати у форматі QUAD. Друга мережа отримує виділені фрагменти зображення та класифікує символи на основі навчального набору даних. Розпізнавання тексту відбувається посимвольно, тому в якості основи для моделі пошуку було обрано модель CRAFT. Модель розпізнавання символів побудована за класичною архітектурою класифікаторів, що включає два шари згортки з об’єднанням та чотири повністю з’єднані шари. Результати дослідження показують, що поєднання двох моделей забезпечує точність розпізнавання 83,87% на тестовому наборі даних. Тестування підтвердило, що основними факторами, які впливають на точність роботи, є якість тренувального набору, параметри навчання та спосіб локалізації символів. Практичне значення отриманих результатів полягає у можливості застосування розробленої системи для автоматизації обробки текстової інформації в різних галузях: документообіг, комп’ютерний зір, розпізнавання вивісок тощо.
Посилання (Бібліографія)
PyTorch documentation – PyTorch 2.5 documentation. PyTorch. URL: https://pytorch.org/docs/stable/index.html
OpenCV: OpenCV modules. OpenCV documentation index. URL: https://docs.opencv.org/4.x/index.html
Character Region Awareness for Text Detection. arXiv.org. URL: https://doi.org/10.48550/arXiv.1904.01941
K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, pages 234–241. Springer, 2015.
Papers with Code - ICDAR 2015 Dataset. The latest in Machine Learning | Papers With Code. URL: https://paperswithcode.com/dataset/icdar-2015 (date of access: 21.01.2025).
Papers with Code - ICDAR 2017 Dataset. The latest in Machine Learning | Papers With Code. URL: https://paperswithcode.com/dataset/icdar-2017 (date of access: 21.01.2025).
GitHub - ankush-me/SynthText: Code for generating synthetic text images as described in "Synthetic Data for Text Localisation in Natural Images", Ankush Gupta, Andrea Vedaldi, Andrew Zisserman, CVPR 2016. GitHub. URL: https://github.com/ankush-me/SynthText (date of access: 21.01.2025).
GitHub - Belval/TextRecognitionDataGenerator: A synthetic data generator for text recognition. GitHub. URL: https://github.com/Belval/TextRecognitionDataGenerator (дата звернення: 08.12.2024).
Home | AimStack. AimStack. URL: https://aimstack.io/ (date of access: 21.01.2025).
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Гєрман Пелех, Віталій Булатецький

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.