ПРИМЕНЕНИЕ МЕТОДОВ ОПРЕДЕЛЕНИЯ СОДЕРЖАТЕЛЬНОЙ ЧАСТИ ВЕБ-СТРАНИЦЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ТЕМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ВЕБ-СТРАНИЦ

УДК 004.91

Паутов Константин Геннадьевич,Попов Федор Алексеевич,,,,,

Pautov K.G., Popov F.A.

USING METHODS OF EXTRACTING THE MAIN CONTENT FROM WEB PAGES IN PROBLEM OF WEB PAGE CLASSIFICATION

Аннотация. В статье рассматриваются основные подходы к решению задачи определения содержательной части веб-страниц: структурные методы, методы, основанные на использовании визуальных признаков и методы, основанные на измерении плотности текста внутри сегментов. Оцен

Ключевые слова: извлечение основного содержимого, классификация веб-страниц, извлечение данных из текста.

Abstract. In this paper we describe the most popular methods for identifying and extracting the main content of your web pages. Assess the possibility of applying these methods to the problem subject classification of web pages.

Keywords: text mining, main content extracting, web page classification

ЧИТАТЬ ВЕСЬ ТЕКСТ >>>