Проблемы разработки алгоритмов для определения качества ансамблей тематических моделей для построения рубрикаторов

А. П. Ширяев; А. Р. Федоров; П. А. Федоров; Л. Г. Гагарина; Е. М. Портнов

doi:10.31432/1994-2443-2018-13-3-53-58

Проблемы разработки алгоритмов для определения качества ансамблей тематических моделей для построения рубрикаторов

А. П. Ширяев, А. Р. Федоров, П. А. Федоров, Л. Г. Гагарина, Е. М. Портнов

https://doi.org/10.31432/1994-2443-2018-13-3-53-58

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Интеллектуальный анализ данных - одно из самых актуальных направлений исследований в современном мире. Спектр его применения чрезвычайно широк и охватывает практически все научные дисциплины. Весьма актуальна задача анализа текстовых коллекций с целью установления тематических рубрик, к которым должны быть отнесены отдельные статьи с соблюдением принципа систематизации «от общего к частному» и формированием перечня «ядерных» рубрик. Одним из методов интеллектуального анализа текстовой информации является кластеризация и, в частности, тематическое моделирование. Решение задачи кластеризации текстовых коллекций принципиально неоднозначно, и тому есть несколько причин. Во-первых, не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд достаточно разумных критериев, но все они могут давать разные результаты. Во-вторых, число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. В-третьих, результат кластеризации существенно зависит от метрики расстояния, выбор которой, как правило, также субъективен и определяется экспертом. В настоящее время среди методов интеллектуального анализа данных все большее распространение получают ансамбли моделей, позволяющие значительно повысить точность результатов моделирования. Цель данного исследования - повышение эффективности кластеризации текстовой информации при использовании ансамбля тематических моделей. В статье рассмотрено использование алгоритма голосования на основе группы из различных оценочных алгоритмов, что позволяет выбрать наиболее подходящее решение, достаточно точно оценить качество тематических моделей и сформировать набор релевантных тем. В данной работе проведено исследование и предложена концепция оценки качества ансамбля тематических моделей с помощью использования простого голосующего алгоритма. Вычислительный эксперимент использования оценочного алгоритма, анализирующего поисковые запросы, демонстрирует в общем случае совпадение с результатами экспертного оценивания.