Втора част. Елементи на дигитализацията и разпознаването

  1. Графични и текстови формати, кодиране на текст
  2. Преобразуване на сиво изображение в качествен черно-бял образ
  3. Отделяне (сегментация) на символи и думи в сканиран текст
  4. Задача за търсене и измерване на резултатите от търсенето
  5. Рзмерване РЅР° РїРѕРґРѕР±РёРµ РЅР° РґСѓРјРё СЃ помощта РЅР° Хаусдорфова метрика

Графични и текстови формати, кодиране на текст

Видове графични формати:
Компресирани и некомпресирани - gif, jpg, tif

Софтуер за визуализация и обработка на графични файлове - IrfanView

Форматът pgm - ASCII, binary
Пример:
Задача Р·Р° програмиране:  Напишете функции Р·Р° четене Рё писане РЅР° ASCII Рё binary pgm файлове.

Видове текстови формати:
Кодиране РЅР°  текст:
Шрифтове:

Преобразуване на сиво (gray-scale) изображение в черно-бяло (black/white)

Гранична стойност (праг) на преобразуването (threshold). Локални и глобални методи.
Пример: сивото изображение -> праг 189 -> черно-бяло изображение

Задача Р·Р° програмиране: 
Да се напише функция за (глобално) преобразуване на сиво изображение в черно-бяло, като граничната стойност се задава като параметър на функцията.

Хистограма за разпределението на стойностите на пикселите в сиво изображение.

Задача Р·Р° програмиране:   Да СЃРµ напише програма Р·Р° създаване РЅР° хистограма Р·Р° разпределението РІ сивата скала РЅР° СЃРёРІРѕ изображение. Хистограмата РґР° Р±СЉРґРµ записана като pgm файл.

Хистограма за разпределението на свързаните обекти. в преобразуваното сиво изображение.

Пример: сивото изображение - получените стойности - хистограмата - черно-бяло изображение

Задача Р·Р° програмиране: 
Да се напише програма за създаване на хистограма за намиране на броя на свързаните обекти (множества) при гранични стойности от 0 до 255 за проебразуване на на сиво изображение в черно-бяло. Хистограмата да бъде записана като pgm файл.


Отделяне (сегментация) на букви и думи в сканиран текст

Отделяне на редовете - хоризонтална проекция. Ако редовете са хоризонтални, то хистограмата ще има нулеви стойности между редовете. Редовете може и да са с малък наклон.

Задача Р·Р° програмиране:  Напишете програма Р·Р° получаване РЅР° хоризонтална хистограма РЅР° сканирана текстова страница - черно-бяло изображение,  зададено като  pgm файл. Хистограмата РґР° Р±СЉРґРµ записана като pgm файл.

Отделяне на символи или думи в един ред - вертикална проекция. Когато символите или думите са добре разделени, то хистограмата ще има нулеви стойности между символите или думите.

Задача Р·Р° програмиране:  Напишете програма Р·Р° получаване РЅР° вертикална хистограма РЅР° отделен ред РѕС‚ сканирана страница СЃ текст  - черно-бяло изображение,  зададено като  pgm файл. Хистограмата РґР° Р±СЉРґРµ записана като pgm файл.

Задача Р·Р° програмиране:  Напишете програма Р·Р° сегментиране РЅР° думите РѕС‚ сканирана страница СЃ текст  - черно-бяло изображение,  зададено като  pgm файл.


Задача за търсене и измерване на резултатите от търсенето

Форулиравка на общата задача за търсене.
Recall - Precision (Доставено - Точност)

Задача за търсене на дума в сканиран текст.
Пример:  Търсене РЅР° думата "песни" РІ 49 страници сканиран машинописен текст.

Рзмерване РЅР° РїРѕРґРѕР±РёРµ РЅР° РґСѓРјРё СЃ помощта РЅР° Хаусдорфова метрика

( hd1bul.pdf )


Редин доклад на семинар по този въпрос.