РОЗРОБКА СИСТЕМИ АВТОМАТИЧНОГО ПОШУКУ ТА РОЗПІЗНАВАННЯ ТЕКСТОВИХ СИМВОЛІВ ІЗ ВИКОРИСТАННЯМ НЕЙРОННИХ МЕРЕЖ

Автор(и)

  • Гєрман Пелех Волинський національний університет імені Лесі Українки
  • Віталій Булатецький Волинський національний університет імені Лесі Українки https://orcid.org/0000-0002-9883-4550

Ключові слова:

розпізнавання символів, нейронні мережі, CRAFT, машинне навчання, класифікація

Анотація

Метою дослідження є розробка програмного засобу для автоматичного пошуку та розпізнавання символів на зображеннях із використанням нейронних мереж. Розробка використовує дві нейронні мережі. Перша аналізує повнорозмірне зображення, знаходить символи та визначає їхні координати у форматі QUAD. Друга мережа отримує виділені фрагменти зображення та класифікує символи на основі навчального набору даних. Розпізнавання тексту  відбувається посимвольно, тому в якості основи для моделі пошуку було обрано модель CRAFT. Модель розпізнавання символів побудована за класичною архітектурою класифікаторів, що включає два шари згортки з об’єднанням та чотири повністю з’єднані шари. Результати дослідження показують, що поєднання двох моделей забезпечує точність розпізнавання 83,87% на тестовому наборі даних. Тестування підтвердило, що основними факторами, які впливають на точність роботи, є якість тренувального набору, параметри навчання та спосіб локалізації символів. Практичне значення отриманих результатів полягає у можливості застосування розробленої системи для автоматизації обробки текстової інформації в різних галузях: документообіг, комп’ютерний зір, розпізнавання вивісок тощо.

Посилання (Бібліографія)

PyTorch documentation – PyTorch 2.5 documentation. PyTorch. URL: https://pytorch.org/docs/stable/index.html

OpenCV: OpenCV modules. OpenCV documentation index. URL: https://docs.opencv.org/4.x/index.html

Character Region Awareness for Text Detection. arXiv.org. URL: https://doi.org/10.48550/arXiv.1904.01941

K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.

O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, pages 234–241. Springer, 2015.

Papers with Code - ICDAR 2015 Dataset. The latest in Machine Learning | Papers With Code. URL: https://paperswithcode.com/dataset/icdar-2015 (date of access: 21.01.2025).

Papers with Code - ICDAR 2017 Dataset. The latest in Machine Learning | Papers With Code. URL: https://paperswithcode.com/dataset/icdar-2017 (date of access: 21.01.2025).

GitHub - ankush-me/SynthText: Code for generating synthetic text images as described in "Synthetic Data for Text Localisation in Natural Images", Ankush Gupta, Andrea Vedaldi, Andrew Zisserman, CVPR 2016. GitHub. URL: https://github.com/ankush-me/SynthText (date of access: 21.01.2025).

GitHub - Belval/TextRecognitionDataGenerator: A synthetic data generator for text recognition. GitHub. URL: https://github.com/Belval/TextRecognitionDataGenerator (дата звернення: 08.12.2024).

Home | AimStack. AimStack. URL: https://aimstack.io/ (date of access: 21.01.2025).

##submission.downloads##

Опубліковано

16.04.2025

Як цитувати

[1]
Пелех, Г. і Булатецький, В. 2025. РОЗРОБКА СИСТЕМИ АВТОМАТИЧНОГО ПОШУКУ ТА РОЗПІЗНАВАННЯ ТЕКСТОВИХ СИМВОЛІВ ІЗ ВИКОРИСТАННЯМ НЕЙРОННИХ МЕРЕЖ. Прикладні проблеми комп’ютерних наук, безпеки та математики. 4 (Квіт 2025), 33–39.

Статті цього автора (авторів), які найбільше читають