Рейтинг пользователей: / 0
ХудшийЛучший 

Яковлев И.А.

КЛАССИФИКАЦИЯ ТЕСТОВЫХ ДАННЫХ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОЦЕНКИ КАЧЕСТВА РАСПОЗНАВАНИЯ OCR-СИСТЕМ

Московский Государственный Университет Приборостроения и Информатики

This work describes the approach to the classification of test data used to test the quality of the OCR-systems.

Keywords: quality control, OCR, test data.

В этой работе описывается подход к классификации тестовых данных, применяемых для проверки качества работы OCR-систем.

Ключевые слова: контроль качества, OCR, тестовые данные.

В современной литературе, связанной с тестирование программного обеспечения, не встречается каких-либо упоминаний о подходах к тестированию OCR-систем. Это можно объяснить тем, что количество OCR-систем не так велико[1]. Небольшое количество существующих OCR-систем приводят к обесцениванию любых знаний о процессах тестирования и контроля качества программных продуктов такого типа, и, как следствие, к закрытости этих знаний от внешнего мира.

Если немного углубиться в структуру OCR-системы, то вне зависимости от её конкретного назначения и способа реализации, можно выделить четыре крупных фазы её работы, реализуемых различными модулями системы [2]:

  1. Фаза предобработки изображения;
  2. Фаза обнаружения и анализа данных на обработанном изображении;
  3. Фаза выделения признаков и свойств символа на изображении;
  4. Фаза классификации, идентификация конкретного символа по вектору признаков.

Модуль предобработки изображения подготавливает входное изображения для последующего использования его модулем поиска данных. К примеру, может идти преобразование цветного изображения в черно-белое, отсечение гарантированно не содержащих текст областей изображения или выделение областей с черным фоном и белым текстом.

Модуль обнаружения данных выделяет на обработанном изображении области, в которых могут содержаться интересующие нас текстовые данные. Помимо определения областей расположения символов на изображении, так же могут выделяться различные элементы оформления (сноски, колонтитулы), таблицы, рисунки, а так же определяется структура самого документа (многоколоночный или простой текст, наличие форм).

Модуль выделения признаков символа отвечает за составление набора характеристик, присутствующих в каждом найденном модулем анализа предполагаемом символе. Такими характеристиками могут быть наличие замкнутых окружностей, скелет символа, особенности контура символа, и другие. На этом этапе формируется список предположений о принадлежности графического изображения символа тому или иному символу. 

Последний модуль, опираясь на список гипотез, выбирает наиболее подходящую из них и выдает код символа, соответствующий изображению символа. На этом этапе может использоваться информация не только об изображении символа, но и гипотезах соседних символов.

Как видно из приведенной выше схемы работы абстрактной OCR-системы, работа всех четырех модулей идет последовательно. Это приводит к неприятному эффекту наложения ошибок, когда допущенная ошибка на первой фазе приводит к появлению и росту количества ошибок на последующих фазах (к примеру, неверно определенный уровень яркости изображения в первой фазе может привести к ошибкам определения блоков данных на странице, что, в свою очередь, порождает ошибки классификации).

Для максимально возможной изоляции ошибок различных модулей друг от друга при оценке качества работы OCR-системы является разделение тестовых данных на различные группы. В качестве принципа, по которому будет производится разбиение на группы, можно предложить следующие характеристики изображений:

  1. Свойства изображения

    - Размер (в пикселях)

    - Разрешение изображения (точек на дюйм)

    - Формат изображения

  2. Представление текстовых данных

    - Простой текст;

    - Форматированный текст

  3. Свойства шрифта текста

    - Начертание

    - Насыщенность

    - Ширина и др.

  4. Цветовые свойства исходного текста

    - Простое (черный шрифт на белом фоне)

    - Сложное (цветная подложка, разноцветные шрифты, градиенты)

  5. Способ формирования изображения

    - Изначально компьютерное

    - Отсканированное

    - Сфотографированное

  6. Наличие искажений на изображении

    - Размытие от движения

    - Качество печати текста на бумажном оригинале

    - Дефекты на сканирующих линзах

    - Плохое освещение

    - Блики от вспышки

    - Искривление, трапециевидное искажение

  7. Язык текста на изображении;

После проведение анализа результатов работы OCR-системы (изучения распознанного текста) на разделенных по таким критериям тестовых данных, можно получить не только общую оценку качества работы системы (например, процент количества ошибок распознавания), но так же и определить наиболее «узкие» места системы при работе с различными классами изображений или текстов.

Литература:

  1. List of optical character recognition software // Wikipedia. URL: http://en.wikipedia.org/wiki/List_of_optical_character_recognition_software (дата обращения: 19.09.2011).
  2. Cheriet M., Kharma N., Liu C.-L., Suen C. Character Recognition Systems: A Guide for Students and Practitioners. – Wiley-Interscience, 2007 – 360 c.
 
Секции-октябрь 2011
КОНФЕРЕНЦИЯ:
  • "Научные исследования и их практическое применение. Современное состояние и пути развития.'2011"
  • Дата: Октябрь 2011 года
  • Проведение: www.sworld.com.ua
  • Рабочие языки: Украинский, Русский, Английский.
  • Председатель: Доктор технических наук, проф.Шибаев А.Г.
  • Тех.менеджмент: к.т.н. Куприенко С.В., Федорова А.Д.

ОПУБЛИКОВАНО В:
  • Сборник научных трудов SWorld по материалам международной научно-практической конференции.