КЛАССИФИКАЦИЯ ТЕСТОВЫХ ДАННЫХ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОЦЕНКИ КАЧЕСТВА РАСПОЗНАВАНИЯ OCR-СИСТЕМ

Яковлев И.А.

КЛАССИФИКАЦИЯ ТЕСТОВЫХ ДАННЫХ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОЦЕНКИ КАЧЕСТВА РАСПОЗНАВАНИЯ OCR-СИСТЕМ

Московский Государственный Университет Приборостроения и Информатики

This work describes the approach to the classification of test data used to test the quality of the OCR-systems.

Keywords: quality control, OCR, test data.

В этой работе описывается подход к классификации тестовых данных, применяемых для проверки качества работы OCR-систем.

Ключевые слова: контроль качества, OCR, тестовые данные.

В современной литературе, связанной с тестирование программного обеспечения, не встречается каких-либо упоминаний о подходах к тестированию OCR-систем. Это можно объяснить тем, что количество OCR-систем не так велико[1]. Небольшое количество существующих OCR-систем приводят к обесцениванию любых знаний о процессах тестирования и контроля качества программных продуктов такого типа, и, как следствие, к закрытости этих знаний от внешнего мира.

Если немного углубиться в структуру OCR-системы, то вне зависимости от её конкретного назначения и способа реализации, можно выделить четыре крупных фазы её работы, реализуемых различными модулями системы [2]:

Фаза предобработки изображения;
Фаза обнаружения и анализа данных на обработанном изображении;
Фаза выделения признаков и свойств символа на изображении;
Фаза классификации, идентификация конкретного символа по вектору признаков.

Модуль предобработки изображения подготавливает входное изображения для последующего использования его модулем поиска данных. К примеру, может идти преобразование цветного изображения в черно-белое, отсечение гарантированно не содержащих текст областей изображения или выделение областей с черным фоном и белым текстом.

Модуль обнаружения данных выделяет на обработанном изображении области, в которых могут содержаться интересующие нас текстовые данные. Помимо определения областей расположения символов на изображении, так же могут выделяться различные элементы оформления (сноски, колонтитулы), таблицы, рисунки, а так же определяется структура самого документа (многоколоночный или простой текст, наличие форм).

Модуль выделения признаков символа отвечает за составление набора характеристик, присутствующих в каждом найденном модулем анализа предполагаемом символе. Такими характеристиками могут быть наличие замкнутых окружностей, скелет символа, особенности контура символа, и другие. На этом этапе формируется список предположений о принадлежности графического изображения символа тому или иному символу.

Последний модуль, опираясь на список гипотез, выбирает наиболее подходящую из них и выдает код символа, соответствующий изображению символа. На этом этапе может использоваться информация не только об изображении символа, но и гипотезах соседних символов.

Как видно из приведенной выше схемы работы абстрактной OCR-системы, работа всех четырех модулей идет последовательно. Это приводит к неприятному эффекту наложения ошибок, когда допущенная ошибка на первой фазе приводит к появлению и росту количества ошибок на последующих фазах (к примеру, неверно определенный уровень яркости изображения в первой фазе может привести к ошибкам определения блоков данных на странице, что, в свою очередь, порождает ошибки классификации).

Для максимально возможной изоляции ошибок различных модулей друг от друга при оценке качества работы OCR-системы является разделение тестовых данных на различные группы. В качестве принципа, по которому будет производится разбиение на группы, можно предложить следующие характеристики изображений:

Свойства изображения

- Размер (в пикселях)

- Разрешение изображения (точек на дюйм)

- Формат изображения
Представление текстовых данных

- Простой текст;

- Форматированный текст
Свойства шрифта текста

- Начертание

- Насыщенность

- Ширина и др.
Цветовые свойства исходного текста

- Простое (черный шрифт на белом фоне)

- Сложное (цветная подложка, разноцветные шрифты, градиенты)
Способ формирования изображения

- Изначально компьютерное

- Отсканированное

- Сфотографированное
Наличие искажений на изображении

- Размытие от движения

- Качество печати текста на бумажном оригинале

- Дефекты на сканирующих линзах

- Плохое освещение

- Блики от вспышки

- Искривление, трапециевидное искажение
Язык текста на изображении;

После проведение анализа результатов работы OCR-системы (изучения распознанного текста) на разделенных по таким критериям тестовых данных, можно получить не только общую оценку качества работы системы (например, процент количества ошибок распознавания), но так же и определить наиболее «узкие» места системы при работе с различными классами изображений или текстов.

Литература:

List of optical character recognition software // Wikipedia. URL: http://en.wikipedia.org/wiki/List_of_optical_character_recognition_software (дата обращения: 19.09.2011).
Cheriet M., Kharma N., Liu C.-L., Suen C. Character Recognition Systems: A Guide for Students and Practitioners. – Wiley-Interscience, 2007 – 360 c.