Информационный потенциал корпуса научных текстов
https://doi.org/10.31432/1994-2443-2023-18-4-21-37
Аннотация
В статье рассматриваются общедоступные корпуса текстов, представленные в сети Интернет, дается характеристика и рассматривается потенциал корпусной лингвистики для анализа развития научных трендов, дискурса и изменений в области терминологии.
Представлен набор данных, подготовленный на основе корпуса текстов научных статей в отраслевом научном журнале по транспорту нефти и корпуса Google Books Corpus. Набор данных позволяет рассмотреть изменения в частотности применимости терминов с 1940 по 2019 гг.
Представлены результаты анализа частот использования терминов, сделано сопоставление изменений в технологической отрасли с развитием ключевой лексики.
Результаты показывают, что исследования, сделанные с использованием данных корпусов научно-технических текстов, имеют хороший потенциал для понимания трендов технологического развития и динамики изменений в промышленности и терминоведении.
Об авторе
В. Н. КомарицаРоссия
Валентин Николаевич Комарица — кандидат технических наук, заместитель начальника отдела издательских проектов и медиакоммуникаций
Москва
Список литературы
1. Микова Н.С., Соколова А.В. Мониторинг глобальных технологических трендов: теоретические основы и лучшие практики // ФОРСАЙТ. 2014. Т. 8. № 4.
2. Нгуен Тхань Вьет, Кравец А.Г. Новый метод прогнозирования технологических трендов на основе анализа научных статей и патентов. International Journal of Open Information Technologies ISSN: 2307-8162 vol. 10, no. 10, 2022.
3. Башков А.С., Соломенцев Я.К. Использование векторных методов представления слов в задачах выявления трендов // Вестник Российского нового университета. Серия «Сложные системы модели, анализ и управление». 2019. Выпуск 2. С. 80-88.
4. Сощенко А. Е., Комарица В.Н. Анализ зависимости между числом публикаций и количеством цитирования статей в научной периодике трубопроводного транспорта углеводородов // Наука и технологии трубопроводного транспорта нефти и нефтепродуктов. — 2015. — № 3(19). — C. 108-115.
5. Эрец Эйден. Неизведанная территория: как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры: / Эрец Эйден, Жан-Батист Мишель. — Москва. Изд-во АСТ. 2016. — 350 с.
6. Stop Hyping Big Data and Start Paying Attention to Long Data. URL: http://goo.gl/X7oEC (data dostupa 01.08.2023).
7. Google Books. URL: https://ru.wikipedia.org/wiki/Google_Книги, (data dostupa 08.08.2023).
8. Jean-Baptiste Michel, Erez Lieberman Aiden: What we learned from 5 million books. URL: https://www.ted.com/, (data dostupa 08.08.2023).
9. Котов Ю.А., Коломец Н.В. Элементы системы TextLab для частотного анализа текста. Современные тенденции развития науки и технологий. Сборник научных трудов по материалам Международной научно-практической конференции. В 5-ти частях. Часть II. Под общей редакцией Ж.А. Шаповал. 2017.
10. McEnery Tony, Wilson Andrew. Corpus Linguistics: An Introduction. 2nd edition. — Edinburgh University Press, 2001. — 235 p.
11. Zhongquan Du, Feng Jiang, Luda Liu. Profiling figure legends in scientific research articles: A corpus-driven approach, Journal of English for Academic Purposes, Volume 54, 2021, 101054, ISSN 1475-1585, URL: https://doi.org/10.1016/j.jeap.2021.101054.
12. Мордовин А. Ю. Лингвистическая идеология корпусов текстов / Иркутский гос. лингвистический ун-т. — Иркутск: 2014. – 190 с.
13. Бутенко Ю.И. Модель текста научно-технической статьи для разметки в корпусе научно-технических текстов. Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2022. Т. 20. № 3. С. 5-13.
14. Плунгян В.А., Резникова Т.И., Сичинава Д.В. Национальный корпус русского языка: общая характеристика. Научно-техническая информация. Серия 2: Информационные процессы и системы. 2005. № 3. С. 9-13.
15. Генеральный интернет-корпус русского языка. URL: http://www.webcorpora.ru/, (дата доступа 01.08.2023 г.).
16. Корпус биографических текстов — Russian Corpus of Biographical Texts. URL: https://sites.google.com/site/utcorpus (дата доступа 29.08.2023 г.).
17. Корпус русских учебных текстов. URL: http://web-corpora.net/learner_corpus (дата доступа 07.09.2023 г.).
18. Corpora of Academic Texts. URL: https://www.clarin.eu/resource-families/corpora-academic-texts (data dostupa 07.09.2023).
19. Davies M. 2011. Google Books Corpus (155 billion words, 1810-2009). URL: http://googlebooks.byu.edu/, (data dostupa 01.08.2023).
20. Глазкова А.В. Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке // Труды Института системного программирования РАН. 2018. Том 30. № 6. С. 221-236. DOI: 10.15514/ISPRAS-2018-30(6)-12.
21. Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении / АН СССР. Ин-т языкознания. — Ленинград: Наука. Ленингр. отд-ние, 1967. — 403 с.
22. Комарица В.Н. Анализ ключевых слов в научных статьях. Научно-техническая информация. Серия 1. Организация и методика информационной работы. 2023. № 9. С. 9 — 15.
23. Гринев-Гриневич С.В., Сорокина Э.А. Перспективные направления развития терминологических исследований // Вестник Московского государственного областного университета. Серия: Лингвистика. 2018. № 5. С. 18–28.
24. Маслов В.П. О законе Ципфа и ранговых распределениях в лингвистике и семиотике / В.П. Маслов., Т.В. Маслова // Математические заметки. — 2006. — Т. 80. – N. 5 — С. 718-732.
25. Google Books Ngram Viewer. URL: https://books.google.com/ngrams/, (data dostupa 21.08.2023).
26. 15 years of Google Books. Blog Google. URL: https://blog.google/products/search/15-years-google-books/, (data dostupa 15.08.2023).
27. ChatGPT. URL: http://ru.wikipedia.org/, (data dostupa 04.08.2023).
Рецензия
Для цитирования:
Комарица В.Н. Информационный потенциал корпуса научных текстов. Информация и инновации. 2023;18(4):21-37. https://doi.org/10.31432/1994-2443-2023-18-4-21-37
For citation:
Komaritsa V.N. Information Potential of a Corpus of Scientific Texts. Information and Innovations. 2023;18(4):21-37. (In Russ.) https://doi.org/10.31432/1994-2443-2023-18-4-21-37