Разработка прототипа системы распознавания и классификации корпоративных документов

И. В. Перлов; С. А. Селиванов; А. В. Синицын; Ш. М. Шахгусейнов

doi:10.31432/1994-2443.2025.11

Разработка прототипа системы распознавания и классификации корпоративных документов

И. В. Перлов, С. А. Селиванов, А. В. Синицын, Ш. М. Шахгусейнов

https://doi.org/10.31432/1994-2443.2025.11

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Актуальность. В современных условиях становится важным повышение точности и скорости обработки документов. Цель. Разработка системы конвертации, распознавания и классификации корпоративных документов в нередактируемых форматах.
Материалы и методы. В разработке использовался язык программирования Python 3.10, библиотеки scikit-learn 1.6, joblib и poppler, модуль Razdel, PyTorch 2.2, Hugging Face Transformers 4.39. пакеты PyPDF2/pdfminer.six/pdfplumber; инструмент Tesseract OCR 5 с использованием pytesseract. Для устранения разрывов строк и уменьшения шума использовался пакет OpenCV-python. Веб-интерфейс строился на Vite и React с использованием Bootstrap 5.
Результаты. Разработан прототип системы, позволяющий эффективно конвертировать документ из нередактируемого формата в редактируемый в форме определенного документа.
Выводы. Использование технологий искусственного интеллекта ускоряет рабочие процессы, уменьшает окно ошибок. Решение интегрируется в рабочие процессы, но для обучения классификации требуется большое количество данных

Ключевые слова

искусственный интеллект, извлечение информации, классификация документов, оптическое распознавание символов, извлечение сущностей, автоматизация документооборота

Об авторах

И. В. Перлов

Федеральное государственное бюджетное образовательное учреждение высшего образования «МИРЭА — Российский технологический университет»
Россия

Иван Владимирович Перлов

проспект Вернадского, 78, г. Москва, 119454

С. А. Селиванов

Сергей Александрович Селиванов, канд. техн. наук, доцент

проспект Вернадского, 78, г. Москва, 119454

А. В. Синицын

Александр Владимирович Синицын, канд. физ.-мат. наук

проспект Вернадского, 78, г. Москва, 119454

Ш. М. Шахгусейнов

Шамхал Мехти оглы Шахгусейнов

проспект Вернадского, 78, г. Москва, 119454

Список литературы

1. Su J., Ahmed M., Lu Yu., Pan Sh., Bo W., Liu Yu. RoFormer: Enhanced transformer with Rotary Position Embedding. Neurocomputing. 2024;568:127063. https://doi.org/10.1016/j.neucom.2023.127063

2. Romero-Fresco P. Subtitling through Speech Recognition: Respeaking. Manchester: St. Jerome, 2011. 261 p. ISBN 9781905763283.

3. Park J., Lee E., Kim Y., Kang I., Koo H.I., Cho N.I. Multi-Lingual Optical Character Recognition System Using the Reinforcement Learning of Character Segmenter. IEEE Access. 2020;8:174437-174448. https://doi.org/10.1109/ACCESS.2020.3025769

4. Memon J., Sami M., Khan R.A. Handwritten Optical Character Recognition (OCR): Comprehensive Systematic Literature Review (SLR). IEEE Access. 2020;8:142642- 142668. https://doi.org/10.1109/ACCESS.2020.3012542

5. Hossain A., Ali M. Recognition of Handwritten Digit using Convolutional Neural Network (CNN). Global Journal of Computer Science and Technology. 2019;19(2):27-33. https://doi.org/10.34257/GJCSTDVOL19IS2PG27

6. Wani N., Mangire G., Kumar A., Solse N., Gaikwad P.S. Legal Document Classification using TF-IDF and KNN. International Journal of Advanced Research in Science, Communication and Technology. 2022;2(1):590-595. https://doi.org/10.48175/IJARSCT-7522

7. Nasu Iu., Lanin V.V. Development of Legal Document Classification System Based on Support Vector Machine. Trudy ISP RAN / Proc. ISP RAS. 2023;35(2):49-56. https://doi.org/10.15514/ISPRAS2023-35(2)-4

8. Yulianti E., Bhary N., Abdurrohman J., Dwitilas F.W., Nuranti E.Q., Husin H.S. Named entity recognition on Indonesian legal documents: a dataset and study using transformer-based models. International Journal of Electrical and Computer Engineering (IJECE). 2024;14(5):5489-5501. https://doi.org/10.11591/ijece.v14i5.pp5489-5501

9. Leitner E., Rehm G., Moreno-Schneider J. Fine-Grained Named Entity Recognition in Legal Documents. Lecture Notes in Computer Science. 2019;11702:272-287. https://doi.org/10.1007/978-3-030-33220-4_20

10. Wadud M.A.H., Mridha M.F., Shin J., Nur K., Saha A.K. Deep-BERT: Transfer Learning for Classifying Multilingual Offensive Texts on Social Media. Comput Syst Sci Eng. 2023;44(2):1775–1791. https://doi.org/10.32604/csse.2023.027841

11. Kalyan K.S., Rajasekharan A., Sangeetha S. AMMU: A survey of transformer-based biomedical pretrained language models. Journal of Biomedical Informatics. 2022 Feb;126:103982. https://doi.org/10.1016/j.jbi.2021.103982

12. Al-Askary Y.B., Al-Momen S. Enhanced OCR Techniques for Recognizing Mathematical Expressions in Scanned Documents. Ibn AL-Haitham Journal For Pure and Applied Sciences. 2025;38(4):295–306. https://doi.org/10.30526/38.4.3640

13. Wang Z., Liu M., Liu K. Utilizing Machine Learning Techniques for Classifying Translated and Non-Translated Corporate Annual Reports. Applied Artificial Intelligence. 2024;38(1):e2340393. https://doi.org/10.1080/08839514.2024.2340393

14. Dong M., Gagnon M-A. Unveiling chemical industry secrets: Insights gleaned from scientific literatures that examine internal chemical corporate documents—A scoping review. PLoS ONE. 2025;20(1):e0310116. https://doi.org/10.1371/journal.pone.0310116

Рецензия

Для цитирования:

Перлов И.В., Селиванов С.А., Синицын А.В., Шахгусейнов Ш.М. Разработка прототипа системы распознавания и классификации корпоративных документов. Информация и инновации. 2025;20(2):41-57. https://doi.org/10.31432/1994-2443.2025.11

For citation:

Perlov I.V., Selivanov S.A., Sinitsyn A.V., Shakhguseynov Sh.M. Development of a prototype system for recognizing and classifying corporate documents. Information and Innovations. 2025;20(2):41-57. (In Russ.) https://doi.org/10.31432/1994-2443.2025.11

JATS XML

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1994-2443 (Print)
ISSN 2949-2157 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Информация и инновации

Разработка прототипа системы распознавания и классификации корпоративных документов

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов