УДК 004.2
Ивженко С.П., Изофатов К.А.
ПРИМЕНЕНИЕ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА ДЛЯ КЛАСТЕРИЗАЦИИ ПАТЕНТНОЙ ИНФОРМАЦИИ
Саратовский государственный технический университет
Работа посвящена исследованию применимости самоорганизующихся карт Кохонена для кластеризации текстовых документов вообще и патентной информации в частности.
Ключевые слова: кластеризация, Кохонен, нейронные сети, редукция.
The work is affects researches on usability self-organizing maps of Kohonen for text clusterization purposes and patents database clusterisation as it.
Key words: clusterization, Kohonen, neural network, reduction.
Широкое применение информационных систем ведет к росту объемов информации и повышает необходимость использования автоматизированных аналитических систем, использующих эффективные методики выделения полезной информации.
Можно выделить основные проблемы, связанные с увеличением количества информации: экспоненциальный рост числа документов, делающий невозможной обработку данных традиционными методами без потери качества; отсутствие семантического индексирования, что не позволяет приводить интеллектуальную обработку документов в полном объеме; неструктурированный характер информации, не позволяющий применить традиционные механизмы ее обработки и анализа.
Кластерный анализ играет важную роль среди методов, разработанных для формирования однородных классов в произвольной проблемной области.
Результатом работы является обоснование применимости самоорганизующихся карт Кохонена для решения задач кластеризации текста и разработка модификации этого метода для повышения скорости обучения сети.
Для достижения поставленной цели решены следующие задачи:
-
выполнено обобщение известных методов и алгоритмов автоматической кластеризации текстовых документов и выбран наиболее подходящий из них, основанный на самоорганизующихся картах Кохонена;
-
предложено две модификации метода поиска победителя во время обучения самоорганизующихся карт Кохонена, позволяющие существенно увеличить скорость обучения сети;
-
выполнено обобщение известных методов представления текстовых документов и редукции пространства признаков. В результате выбран метод отображения документов в пространство его признаков по критерию tf*idf. Алгоритм редукции пространства признаков основан на отсечении высокочастотных и низкочастотных термов;
-
создан программный комплекс для автоматической кластеризации патентной информации и отображения полученных кластеров в доступном для аналитика виде, с целью навигации по данной коллекции документов;
-
с помощью программного комплекса выполнена оценка значений параметров разработанных алгоритмов и проверена работоспособность предложенного метода кластеризации патентной информации.
Литература:
- Дебок Г., Кохонен Т. Анализ финансовых данных с помощью самоорганизующихся карт. – М:Альпина Паблишер. 2001, - 317 с.
- Тузов В. А. Основные направления исследований, основанные на семантическом анализе текстов. - URL: http://www.apmath.spbu.ru/ ru/info/tuzov/onapr.html. Дата обращения: 10.10.2010.