Втора част. Елементи на дигитализацията и
разпознаването
- Графични и текстови формати, кодиране на текст
- Преобразуване на сиво изображение в качествен
черно-бял образ
- Отделяне (сегментация) на символи и думи в сканиран текст
- Задача за търсене и измерване на резултатите от търсенето
- Рзмерване РЅР° РїРѕРґРѕР±РёРµ РЅР° РґСѓРјРё СЃ помощта РЅР° Хаусдорфова метрика
Графични и текстови формати, кодиране на текст
Видове графични формати:
- точкови (bitmap) - bmp,
pcx, pgm
- векторни (мащабируеми) - tif, eps, cdr
Компресирани и некомпресирани - gif, jpg, tif
Софтуер за визуализация и обработка на графични файлове - IrfanView
Форматът pgm
- ASCII, binary
Пример:
Задача за програмиране:
Напишете функции за четене и писане на ASCII и binary pgm
файлове.
Видове текстови формати:
- plain, txt (MS Notepad, MS WordPad, DOS Edit, Linux Vi, Linux
mcedit, ... )
- doc (MS Word, Open Office)
- rtf (Rich Text Format)
- TeX (WinEdit, MikTeX)
- html (Brouser, Internet)
- pdf (Adobe Acrobat)
- ps (GSview)
Кодиране на текст:
- ASCII: Western (ISO-8859-1), Cyrillic (Windows-1251),
Western (Windows-1252), Greek (Windows-1253), ...
- Unicode: Unicode (UTF-8)
Шрифтове:
- ръкописен
- машинописен (непропорционален)
- печатен (пропорционален)
Преобразуване на сиво
(gray-scale) изображение в черно-бяло (black/white)
Гранична стойност (праг) на преобразуването (threshold). Локални
Рё
глобални методи.
Пример: сивото изображение -> праг 189 -> черно-бяло изображение
Задача за програмиране: Да
се напише функция за (глобално) преобразуване на сиво изображение в
черно-бяло, като граничната стойност се задава като параметър на
функцията.
Хистограма за разпределението на
стойностите на пикселите в сиво
изображение.
Задача за програмиране:
Да се напише програма за създаване на хистограма за разпределението в
сивата скала на сиво изображение. Хистограмата да бъде записана като pgm файл.
Хистограма за разпределението на
свързаните обекти. в преобразуваното сиво изображение.
Пример: сивото изображение - получените стойности - хистограмата - черно-бяло
изображение
Задача за програмиране:
Да се напише програма за създаване на хистограма за намиране на броя на
свързаните обекти (множества) при гранични стойности от 0 до 255 за
проебразуване на на сиво изображение в черно-бяло. Хистограмата да бъде
записана като pgm
файл.
Отделяне (сегментация) на букви и
думи в сканиран текст
Отделяне на редовете -
хоризонтална проекция. Ако редовете са
хоризонтални, то хистограмата ще има нулеви стойности между редовете.
Редовете може и да са с малък наклон.
Задача за програмиране: Напишете
програма за получаване на хоризонтална хистограма на сканирана текстова
страница - черно-бяло изображение, зададено като pgm файл.
Хистограмата да бъде записана като pgm файл.
Отделяне на символи или думи в
един ред - вертикална проекция. Когато
символите или думите са добре разделени, то хистограмата ще има нулеви
стойности между символите или думите.
Задача за програмиране: Напишете
програма за получаване на вертикална хистограма на отделен ред от
сканирана страница с текст - черно-бяло изображение,
зададено като pgm файл.
Хистограмата да бъде записана като pgm файл.
Задача за програмиране: Напишете програма за
сегментиране на думите от сканирана
страница с текст - черно-бяло изображение, зададено
като pgm
файл.
Задача за търсене и измерване на резултатите от търсенето
Форулиравка на общата задача за търсене.
- Задаване на критерии за търсене
- Процес на търсене
- Оценка на резултатите от търсенето
Recall - Precision (Доставено - Точност)
Задача за търсене на дума в сканиран текст.
Пример: Търсене на думата "песни" в 49 страници сканиран
машинописен текст.
- Критерии за търсене - разстоянието от всяка дума до избран шаблон.
- Процес на търсене - специализиран софтуер.
- Оценка на резултатите от търсенето:
Рзмерване РЅР° РїРѕРґРѕР±РёРµ РЅР° РґСѓРјРё СЃ помощта РЅР° Хаусдорфова метрика
Редин доклад
на семинар по този въпрос.