Preview

Информация и инновации

Расширенный поиск

Проблемы разработки алгоритмов для определения качества ансамблей тематических моделей для построения рубрикаторов

https://doi.org/10.31432/1994-2443-2018-13-3-53-58

Полный текст:

Аннотация

Интеллектуальный анализ данных - одно из самых актуальных направлений исследований в современном мире. Спектр его применения чрезвычайно широк и охватывает практически все научные дисциплины. Весьма актуальна задача анализа текстовых коллекций с целью установления тематических рубрик, к которым должны быть отнесены отдельные статьи с соблюдением принципа систематизации «от общего к частному» и формированием перечня «ядерных» рубрик. Одним из методов интеллектуального анализа текстовой информации является кластеризация и, в частности, тематическое моделирование. Решение задачи кластеризации текстовых коллекций принципиально неоднозначно, и тому есть несколько причин. Во-первых, не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд достаточно разумных критериев, но все они могут давать разные результаты. Во-вторых, число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. В-третьих, результат кластеризации существенно зависит от метрики расстояния, выбор которой, как правило, также субъективен и определяется экспертом. В настоящее время среди методов интеллектуального анализа данных все большее распространение получают ансамбли моделей, позволяющие значительно повысить точность результатов моделирования. Цель данного исследования - повышение эффективности кластеризации текстовой информации при использовании ансамбля тематических моделей. В статье рассмотрено использование алгоритма голосования на основе группы из различных оценочных алгоритмов, что позволяет выбрать наиболее подходящее решение, достаточно точно оценить качество тематических моделей и сформировать набор релевантных тем. В данной работе проведено исследование и предложена концепция оценки качества ансамбля тематических моделей с помощью использования простого голосующего алгоритма. Вычислительный эксперимент использования оценочного алгоритма, анализирующего поисковые запросы, демонстрирует в общем случае совпадение с результатами экспертного оценивания.

Об авторах

А. П. Ширяев
Национальный исследовательский университет «МИЭТ», г. Москва, Россия
Россия


А. Р. Федоров
Национальный исследовательский университет «МИЭТ», г. Москва, Россия
Россия


П. А. Федоров
Национальный исследовательский университет «МИЭТ», г. Москва, Россия
Россия


Л. Г. Гагарина
Национальный исследовательский университет «МИЭТ», г. Москва, Россия
Россия


Е. М. Портнов
Национальный исследовательский университет «МИЭТ», г. Москва, Россия
Россия


Список литературы

1. Воронцов К.В. Вероятностное тематическое моделирование. URL: http://www.machinelearning. ru/wiki/images/2/22/Voron-2013-ptm.pdf (дата обращения 26.09.2018)

2. Бериков В.Б., Лбов Г.С. Современные тенденции в кластерном анализе. URL: https://docplayer. ru/26851064-Sovremennye-tendencii-v-klasternom- analize-v-b-berikov-g-s-lbov.html (дата обращения)

3. Кашницкий Ю.С., Игнатов Д.И. Ансамблевый метод машинного обучения, основанный на рекомендации классификаторов // Интеллектуальные системы. Теория и приложения. 2015. Т. 19. № 4. С. 37-55

4. Skurichina M., Duin R. P. W. Limited bagging, boosting and the random subspace method for linear classifiers // Pattern Analysis Applications. - 2002. - Pp. 121-135.

5. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. - М: Фазис, 2005 г. , 159 стр.

6. Blei D., Ng A., and Jordan M. Latent Dirichlet allocation // Journal of Machine Learning Research. - 2003. - vol. 3. - Pp. 993-1022.

7. Thomas Hofmann. Probabilistic latent semantic analysis // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999

8. Vorontsov K.V., Potapenko A.A. EM-like algorithms modification for probabilistic topic modeling // Machine learning and data analysis - 2013. - vol. 1, № 6. - Pp. 657-686

9. Воронцов К.В. Лекции по алгоритмам кластеризации многомерного шкалирования URL: http://www.cs.ru/voron/download/Clustering.pdf (дата обращения 26.09.2018)

10. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space// ICLR Workshop. - 2013

11. David Newman, Jey Han Lau, Karl Grieser, and Timothy Baldwin. Automatic evaluation of topic coherence // In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. - Association for Computational Linguistics, 2010. - Pp. 100-108


Рецензия

Для цитирования:


Ширяев А.П., Федоров А.Р., Федоров П.А., Гагарина Л.Г., Портнов Е.М. Проблемы разработки алгоритмов для определения качества ансамблей тематических моделей для построения рубрикаторов. Информация и инновации. 2018;13(3):53-58. https://doi.org/10.31432/1994-2443-2018-13-3-53-58

For citation:


Shiryaev A.P., Fedorov A.R., Fedorov P.A., Gagarina L.G., Portnov E.M. Problems of Algorithms Development to Determine Quality of Topic Models Ensembles for Make Rubricators. Information and Innovations. 2018;13(3):53-58. (In Russ.) https://doi.org/10.31432/1994-2443-2018-13-3-53-58

Просмотров: 148


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1994-2443 (Print)