Яковлев И.А.
КЛАССИФИКАЦИЯ ТЕСТОВЫХ ДАННЫХ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОЦЕНКИ КАЧЕСТВА РАСПОЗНАВАНИЯ OCR-СИСТЕМ
Московский Государственный Университет Приборостроения и Информатики
This work describes the approach to the classification of test data used to test the quality of the OCR-systems.
Keywords: quality control, OCR, test data.
В этой работе описывается подход к классификации тестовых данных, применяемых для проверки качества работы OCR-систем.
Ключевые слова: контроль качества, OCR, тестовые данные.
В современной литературе, связанной с тестирование программного обеспечения, не встречается каких-либо упоминаний о подходах к тестированию OCR-систем. Это можно объяснить тем, что количество OCR-систем не так велико[1]. Небольшое количество существующих OCR-систем приводят к обесцениванию любых знаний о процессах тестирования и контроля качества программных продуктов такого типа, и, как следствие, к закрытости этих знаний от внешнего мира.
Если немного углубиться в структуру OCR-системы, то вне зависимости от её конкретного назначения и способа реализации, можно выделить четыре крупных фазы её работы, реализуемых различными модулями системы [2]:
-
Фаза предобработки изображения;
-
Фаза обнаружения и анализа данных на обработанном изображении;
-
Фаза выделения признаков и свойств символа на изображении;
-
Фаза классификации, идентификация конкретного символа по вектору признаков.
Модуль предобработки изображения подготавливает входное изображения для последующего использования его модулем поиска данных. К примеру, может идти преобразование цветного изображения в черно-белое, отсечение гарантированно не содержащих текст областей изображения или выделение областей с черным фоном и белым текстом.
Модуль обнаружения данных выделяет на обработанном изображении области, в которых могут содержаться интересующие нас текстовые данные. Помимо определения областей расположения символов на изображении, так же могут выделяться различные элементы оформления (сноски, колонтитулы), таблицы, рисунки, а так же определяется структура самого документа (многоколоночный или простой текст, наличие форм).
Модуль выделения признаков символа отвечает за составление набора характеристик, присутствующих в каждом найденном модулем анализа предполагаемом символе. Такими характеристиками могут быть наличие замкнутых окружностей, скелет символа, особенности контура символа, и другие. На этом этапе формируется список предположений о принадлежности графического изображения символа тому или иному символу.
Последний модуль, опираясь на список гипотез, выбирает наиболее подходящую из них и выдает код символа, соответствующий изображению символа. На этом этапе может использоваться информация не только об изображении символа, но и гипотезах соседних символов.
Как видно из приведенной выше схемы работы абстрактной OCR-системы, работа всех четырех модулей идет последовательно. Это приводит к неприятному эффекту наложения ошибок, когда допущенная ошибка на первой фазе приводит к появлению и росту количества ошибок на последующих фазах (к примеру, неверно определенный уровень яркости изображения в первой фазе может привести к ошибкам определения блоков данных на странице, что, в свою очередь, порождает ошибки классификации).
Для максимально возможной изоляции ошибок различных модулей друг от друга при оценке качества работы OCR-системы является разделение тестовых данных на различные группы. В качестве принципа, по которому будет производится разбиение на группы, можно предложить следующие характеристики изображений:
-
Свойства изображения
- Размер (в пикселях)
- Разрешение изображения (точек на дюйм)
- Формат изображения
-
Представление текстовых данных
- Простой текст;
- Форматированный текст
-
Свойства шрифта текста
- Начертание
- Насыщенность
- Ширина и др.
-
Цветовые свойства исходного текста
- Простое (черный шрифт на белом фоне)
- Сложное (цветная подложка, разноцветные шрифты, градиенты)
-
Способ формирования изображения
- Изначально компьютерное
- Отсканированное
- Сфотографированное
-
Наличие искажений на изображении
- Размытие от движения
- Качество печати текста на бумажном оригинале
- Дефекты на сканирующих линзах
- Плохое освещение
- Блики от вспышки
- Искривление, трапециевидное искажение
-
Язык текста на изображении;
После проведение анализа результатов работы OCR-системы (изучения распознанного текста) на разделенных по таким критериям тестовых данных, можно получить не только общую оценку качества работы системы (например, процент количества ошибок распознавания), но так же и определить наиболее «узкие» места системы при работе с различными классами изображений или текстов.
Литература:
- List of optical character recognition software // Wikipedia. URL: http://en.wikipedia.org/wiki/List_of_optical_character_recognition_software (дата обращения: 19.09.2011).
- Cheriet M., Kharma N., Liu C.-L., Suen C. Character Recognition Systems: A Guide for Students and Practitioners. – Wiley-Interscience, 2007 – 360 c.