Preview

Информация и инновации

Расширенный поиск

Разработка прототипа системы распознавания и классификации корпоративных документов

https://doi.org/10.31432/1994-2443.2025.11

Аннотация

Актуальность. В современных условиях становится важным повышение точности и скорости обработки документов. Цель. Разработка системы конвертации, распознавания и классификации корпоративных документов в нередактируемых форматах.
Материалы и методы. В разработке использовался язык программирования Python 3.10, библиотеки scikit-learn 1.6, joblib и poppler, модуль Razdel, PyTorch 2.2, Hugging Face Transformers 4.39. пакеты PyPDF2/pdfminer.six/pdfplumber; инструмент Tesseract OCR 5 с использованием pytesseract. Для устранения разрывов строк и уменьшения шума использовался пакет OpenCV-python. Веб-интерфейс строился на Vite и React с использованием Bootstrap 5.
Результаты. Разработан прототип системы, позволяющий эффективно конвертировать документ из нередактируемого формата в редактируемый в форме определенного документа.
Выводы. Использование технологий искусственного интеллекта ускоряет рабочие процессы, уменьшает окно ошибок. Решение интегрируется в рабочие процессы, но для обучения классификации требуется большое количество данных

Об авторах

И. В. Перлов
Федеральное государственное бюджетное образовательное учреждение высшего образования «МИРЭА — Российский технологический университет»
Россия

Иван Владимирович Перлов

проспект Вернадского, 78, г. Москва, 119454



С. А. Селиванов
Федеральное государственное бюджетное образовательное учреждение высшего образования «МИРЭА — Российский технологический университет»
Россия

Сергей Александрович Селиванов, канд. техн. наук, доцент

проспект Вернадского, 78, г. Москва, 119454



А. В. Синицын
Федеральное государственное бюджетное образовательное учреждение высшего образования «МИРЭА — Российский технологический университет»
Россия

Александр Владимирович Синицын, канд. физ.-мат. наук

проспект Вернадского, 78, г. Москва, 119454



Ш. М. Шахгусейнов
Федеральное государственное бюджетное образовательное учреждение высшего образования «МИРЭА — Российский технологический университет»
Россия

Шамхал Мехти оглы Шахгусейнов

проспект Вернадского, 78, г. Москва, 119454



Список литературы

1. Su J., Ahmed M., Lu Yu., Pan Sh., Bo W., Liu Yu. RoFormer: Enhanced transformer with Rotary Position Embedding. Neurocomputing. 2024;568:127063. https://doi.org/10.1016/j.neucom.2023.127063

2. Romero-Fresco P. Subtitling through Speech Recognition: Respeaking. Manchester: St. Jerome, 2011. 261 p. ISBN 9781905763283.

3. Park J., Lee E., Kim Y., Kang I., Koo H.I., Cho N.I. Multi-Lingual Optical Character Recognition System Using the Reinforcement Learning of Character Segmenter. IEEE Access. 2020;8:174437-174448. https://doi.org/10.1109/ACCESS.2020.3025769

4. Memon J., Sami M., Khan R.A. Handwritten Optical Character Recognition (OCR): Comprehensive Systematic Literature Review (SLR). IEEE Access. 2020;8:142642- 142668. https://doi.org/10.1109/ACCESS.2020.3012542

5. Hossain A., Ali M. Recognition of Handwritten Digit using Convolutional Neural Network (CNN). Global Journal of Computer Science and Technology. 2019;19(2):27-33. https://doi.org/10.34257/GJCSTDVOL19IS2PG27

6. Wani N., Mangire G., Kumar A., Solse N., Gaikwad P.S. Legal Document Classification using TF-IDF and KNN. International Journal of Advanced Research in Science, Communication and Technology. 2022;2(1):590-595. https://doi.org/10.48175/IJARSCT-7522

7. Nasu Iu., Lanin V.V. Development of Legal Document Classification System Based on Support Vector Machine. Trudy ISP RAN / Proc. ISP RAS. 2023;35(2):49-56. https://doi.org/10.15514/ISPRAS2023-35(2)-4

8. Yulianti E., Bhary N., Abdurrohman J., Dwitilas F.W., Nuranti E.Q., Husin H.S. Named entity recognition on Indonesian legal documents: a dataset and study using transformer-based models. International Journal of Electrical and Computer Engineering (IJECE). 2024;14(5):5489-5501. https://doi.org/10.11591/ijece.v14i5.pp5489-5501

9. Leitner E., Rehm G., Moreno-Schneider J. Fine-Grained Named Entity Recognition in Legal Documents. Lecture Notes in Computer Science. 2019;11702:272-287. https://doi.org/10.1007/978-3-030-33220-4_20

10. Wadud M.A.H., Mridha M.F., Shin J., Nur K., Saha A.K. Deep-BERT: Transfer Learning for Classifying Multilingual Offensive Texts on Social Media. Comput Syst Sci Eng. 2023;44(2):1775–1791. https://doi.org/10.32604/csse.2023.027841

11. Kalyan K.S., Rajasekharan A., Sangeetha S. AMMU: A survey of transformer-based biomedical pretrained language models. Journal of Biomedical Informatics. 2022 Feb;126:103982. https://doi.org/10.1016/j.jbi.2021.103982

12. Al-Askary Y.B., Al-Momen S. Enhanced OCR Techniques for Recognizing Mathematical Expressions in Scanned Documents. Ibn AL-Haitham Journal For Pure and Applied Sciences. 2025;38(4):295–306. https://doi.org/10.30526/38.4.3640

13. Wang Z., Liu M., Liu K. Utilizing Machine Learning Techniques for Classifying Translated and Non-Translated Corporate Annual Reports. Applied Artificial Intelligence. 2024;38(1):e2340393. https://doi.org/10.1080/08839514.2024.2340393

14. Dong M., Gagnon M-A. Unveiling chemical industry secrets: Insights gleaned from scientific literatures that examine internal chemical corporate documents—A scoping review. PLoS ONE. 2025;20(1):e0310116. https://doi.org/10.1371/journal.pone.0310116


Рецензия

Для цитирования:


Перлов И.В., Селиванов С.А., Синицын А.В., Шахгусейнов Ш.М. Разработка прототипа системы распознавания и классификации корпоративных документов. Информация и инновации. 2025;20(2):41-57. https://doi.org/10.31432/1994-2443.2025.11

For citation:


Perlov I.V., Selivanov S.A., Sinitsyn A.V., Shakhguseynov Sh.M. Development of a prototype system for recognizing and classifying corporate documents. Information and Innovations. 2025;20(2):41-57. (In Russ.) https://doi.org/10.31432/1994-2443.2025.11

Просмотров: 52


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1994-2443 (Print)
ISSN 2949-2157 (Online)