Рейтинг пользователей: / 4
ХудшийЛучший 

УДК 004.2

Ивженко С.П., Изофатов К.А.

ПРИМЕНЕНИЕ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА ДЛЯ КЛАСТЕРИЗАЦИИ ПАТЕНТНОЙ ИНФОРМАЦИИ

Саратовский государственный технический университет

Работа посвящена исследованию применимости самоорганизующихся карт Кохонена для кластеризации текстовых документов вообще и патентной информации в частности.

 Ключевые слова: кластеризация, Кохонен, нейронные сети, редукция.

The work is affects researches on usability self-organizing maps of Kohonen for text clusterization purposes and patents database clusterisation as it.

Key words: clusterization, Kohonen, neural network, reduction.

Широкое  применение информационных систем ведет к росту объемов информации и повышает необходимость использования автоматизированных аналитических  систем, использующих эффективные методики выделения полезной информации.

Можно выделить основные проблемы, связанные с увеличением количества информации: экспоненциальный рост числа документов, делающий невозможной обработку данных традиционными методами без потери качества; отсутствие семантического индексирования, что не позволяет приводить интеллектуальную обработку документов в полном объеме; неструктурированный характер информации, не позволяющий применить традиционные механизмы ее обработки и анализа.

Кластерный анализ играет важную роль среди методов, разработанных для формирования однородных классов в произвольной проблемной области.

Результатом работы является обоснование применимости самоорганизующихся карт Кохонена для решения задач кластеризации текста и разработка модификации этого метода  для повышения скорости обучения сети.

Для достижения поставленной цели решены следующие задачи:

  1. выполнено обобщение известных методов и алгоритмов автоматической кластеризации текстовых документов и выбран наиболее подходящий из них, основанный на самоорганизующихся картах Кохонена;
  2. предложено две модификации метода поиска победителя во время обучения самоорганизующихся карт Кохонена, позволяющие существенно увеличить скорость обучения сети;
  3. выполнено обобщение известных методов представления текстовых документов и редукции пространства признаков. В результате выбран метод отображения документов в пространство его признаков по критерию tf*idf. Алгоритм редукции пространства признаков основан на отсечении высокочастотных и низкочастотных термов;
  4. создан программный комплекс для автоматической кластеризации патентной информации и отображения полученных кластеров в доступном для аналитика виде, с целью навигации по данной коллекции документов;
  5. с помощью программного комплекса выполнена оценка значений параметров разработанных алгоритмов и проверена работоспособность предложенного метода кластеризации патентной информации.

Литература:

  1. Дебок Г., Кохонен Т. Анализ финансовых данных с помощью самоорганизующихся карт. – М:Альпина Паблишер.  2001,  - 317 с.
  2. Тузов В. А. Основные направления исследований, основанные на семантическом анализе текстов. - URL: http://www.apmath.spbu.ru/ ru/info/tuzov/onapr.html. Дата обращения: 10.10.2010.
 
Секции-октябрь 2011
КОНФЕРЕНЦИЯ:
  • "Научные исследования и их практическое применение. Современное состояние и пути развития.'2011"
  • Дата: Октябрь 2011 года
  • Проведение: www.sworld.com.ua
  • Рабочие языки: Украинский, Русский, Английский.
  • Председатель: Доктор технических наук, проф.Шибаев А.Г.
  • Тех.менеджмент: к.т.н. Куприенко С.В., Федорова А.Д.

ОПУБЛИКОВАНО В:
  • Сборник научных трудов SWorld по материалам международной научно-практической конференции.