УЧЕНРЧЕСКРРРќРЎРўРРўРЈРў РџРћ МАТЕМАТРРљРђ Р
РНФОРМАТРРљРђ
ПЕТА ЛЯТНА РЗСЛЕДОВАТЕЛСКА ШКОЛА
24 юли – 12 август 2005 Рі., Р”РРџРљРЈ –
Варна
Дигитализация и разпознаване на стари
документи
Николай Киров
1 и 2 август 2005 г., понеделник и вторник
09:00 – 10:30 Лекции
17:30 - 19:00 Упражнения
Рнформатика
Програма “Мария
Кюри” на Европейската комисия – проект “Дигитализация на културно и
научно наследство в България”
Съдържание
-
Първа част. Дигитализация
на културното и научно наследство на човечеството
- Значението на дигитализацията - какво се дигитализира, защо
СЃРµ
дигитализира, как се дигитализира?
- Технологии за дигитализация на документи
- Търсене в текстови документи
- Хардуер и софтуер за дигитализация и разпознаване на текст
- Рнсталиране Рё работа СЃ програмата ABBYY FineReader
-
Втора част. Елементи на
дигитализацията и разпознаването
- Графични и текстови формати, кодиране на текст
- Преобразуване на сиво или цветно изображение в качествен
черно-бял образ
- Отделяне (сегментация) на символи и думи в сканиран текст
- Задача за търсене и измерване на резултатите от търсенето
- Рзмерване РЅР° РїРѕРґРѕР±РёРµ РЅР° РґСѓРјРё СЃ помощта РЅР° Хаусдорфова метрика
1. Значение на
дигитализацията
Ще отговорим на въпросите: какво се дигитализира,
защо се дигитализира, как се дигитализира?
2. Технология за
дигитализация на документи
Класическата технология се състои от сканиране на
документа, отделяне на текстов и снимков материал, разпознаване на
текста (с използване на речник) и съхранение на документа в база
данни, като се добави описание на документа, включващо класификация,
основни характеристики и др. (т.нар. метаданни).
3. Търсене в
текстови документи
Стандартната технология за търсене включва следните
3 етапи: сканиране на текста, разпознаване и произвеждане на ASCII
или Unicode файл и търсене в текстов файл. При прилагане на тази
технология за стари документи възникват някои трудности: при сканиране
(лошо състояние на документа, пожълтяла хартия, избледняло мастило,
зацапвания и допълнителни бележки върху текста) и при разпознаване
(наличие на шум в изображението, трудности при сегментирането на
символите, наличие на букви, които не са от съвременната азбука,
остарели думи, които ги няма в съвременен речник, ръкописи). Затова
често се прилага друг подход за търсене в стари документи който се
състои от:
* сканиране на текста в сивата скала;
* трансформация на изображението за получаване на
качествено черно-бяло изображение;
* сегментиране на думите от текста;
* търсене на дума, поредица от думи или части от
дума в черно-бялото изображение.
4. Хардуер и
софтуер за дигитализация и разпознаване на текст
Ще се запознаем с различни видове скенери, режими на
работа и настройки за получаване на качествено изображение. Ще
разгледаме принципите на работа на програми за сканиране и обработка
на изображения и разпознаване на текст.
5. Рнсталиране Рё
работа с програмата ABBYY FineReader
Това е една от най-добрите програми за сканиране и
обработка на изображения и за разпознаване на печатен текст.
1. Графични и
текстови формати, кодиране на текст
Ще разгледаме точкови и векторни формати за графични
изображения с техните характеристики - разделителна способност,
цвят, размер, компресия и др. По-детайлно ще изучим формата pgm
(Portable GrayMap), който ще използваме в по-нататъшната работа. Ще
обсъдим предназначението, вътрешната организация, предимствата и
недостатъците на различните текстови формати - txt,
doc, rtf, html,
pdf, ps и др. Ще се спрем и на
раз-личните кодировки (ASCII и Уникод)
за представяне на българските букви в текстови файлове.
2. Преобразуване на
сиво или цветно изображение в качествен черно-бял образ
Ще разгледаме глобални и локални методи за
определянето на прагова стойност за преобразуване на сивото в черно
или бяло за изображения, съдържащи текст. Ще се спрем на два глобални
метода с построяване на хистограми - за разпределението на сивия цвят и
за разпределението на броя на свързаните черни обекти при различни
стойности на прага.
3. Отделяне
(сегментация) на символи и думи в сканиран текст
Отделянето на редовете в черно-бяло изображение,
състоящо се от една страница от текстов документ, се извършва с
построяването на хоризонтална хистограма на черните пиксели. Ако
редовете са хоризонтални, то хистограмата ще има нулеви стойности между
редовете. Отделянето на буквите или думите се прави с помощта на
вертикална хистограма на отделен ред. Когато символите или думите са
добре разделени, то хистограмата ще има нулеви стойности между
символите или думите.
4. Задача за
търсене и измерване на резултата от търсенето
Дадено е множество от обекти, избираме един обект от
множеството (шаблон) и търсим други, подобни на него обекти. Подобието
дефинираме с помощта на някаква метрика, т.е. можем да измерваме
“разстояние” (неотрицателно число) между всеки два елемента на
множеството и колкото това число е по-малко, толкова обектите са
“по-подобни”. По такъв начин можем да наредим всички обекти от
множеството в зависимост от разстоянието им до шаблона. Колкото
по-напред в наредбата са търсените обекти, толкова по-успешно е
търсенето. Това всъщност е идеята за измерване на резултата от
търсенето.
5. Рзмерване РЅР°
подобие на думи с помощта на Хаусдорфова метрика
Ще разгледаме различни начини за дефиниране на
разстояние между две точки в равнината. Ще изследваме свойствата на
различните разстояния. Ще дефинираме и изучим Хаусдорфово разстояние
между две множества в равнината. За целите на сравняването на думи ще
дефинираме “сумирано” Хаусдорфово разстояние и с негова помощ ще
измерваме “разстояние” между думи, представени като pgm файлове.