УЧЕНРЧЕСКРРРќРЎРўРРўРЈРў РџРћ МАТЕМАТРРљРђ Р РНФОРМАТРРљРђ


ПЕТА ЛЯТНА РЗСЛЕДОВАТЕЛСКА ШКОЛА

24 юли – 12 август 2005 Рі., Р”РРџРљРЈ – Варна



Дигитализация и разпознаване на стари документи

Николай Киров



1 и 2 август 2005 г., понеделник и вторник
09:00 – 10:30 Лекции
17:30 - 19:00 Упражнения
Рнформатика


Програма “Мария Кюри” на Европейската комисия – проект “Дигитализация на културно и научно наследство в България”

Съдържание


Първа част. Дигитализация на културното и научно наследство

    1. Значение РЅР° дигитализацията
    Ще отговорим РЅР° въпросите: какво СЃРµ дигитализира, защо СЃРµ дигитализира, как СЃРµ дигитализира?
    2. Технология Р·Р° дигитализация РЅР° документи
    Класическата технология СЃРµ състои РѕС‚ сканиране РЅР° документа, отделяне РЅР° текстов Рё СЃРЅРёРјРєРѕРІ материал, разпознаване РЅР° текста (СЃ използване РЅР° речник) Рё съхранение РЅР° документа РІ база данни, като СЃРµ добави описание РЅР° документа, включващо класификация, РѕСЃРЅРѕРІРЅРё характеристики Рё РґСЂ. (С‚.нар. метаданни).
    3. Търсене РІ текстови документи
    Стандартната технология Р·Р° търсене включва следните 3 етапи: сканиране РЅР° текста, разпознаване Рё произвеждане РЅР° ASCII или Unicode файл Рё търсене РІ текстов файл. РџСЂРё прилагане РЅР° тази технология Р·Р° стари документи възникват РЅСЏРєРѕРё трудности: РїСЂРё сканиране (лошо състояние РЅР° документа, пожълтяла хартия, избледняло мастило, зацапвания Рё допълнителни бележки РІСЉСЂС…Сѓ текста) Рё РїСЂРё разпознаване (наличие РЅР° шум РІ изображението, трудности РїСЂРё сегментирането РЅР° символите, наличие РЅР° Р±СѓРєРІРё, които РЅРµ СЃР° РѕС‚ съвременната азбука, остарели РґСѓРјРё, които РіРё РЅСЏРјР° РІ съвременен речник, СЂСЉРєРѕРїРёСЃРё). Затова често СЃРµ прилага РґСЂСѓРі РїРѕРґС…РѕРґ Р·Р° търсене РІ стари документи който СЃРµ състои РѕС‚:
    * сканиране РЅР° текста РІ сивата скала;
    * трансформация РЅР° изображението Р·Р° получаване РЅР° качествено черно-бяло изображение;
    * сегментиране РЅР° думите РѕС‚ текста;
    * търсене РЅР° РґСѓРјР°, поредица РѕС‚ РґСѓРјРё или части РѕС‚ РґСѓРјР° РІ черно-бялото изображение.
    4. Хардуер Рё софтуер Р·Р° дигитализация Рё разпознаване РЅР° текст
    Ще СЃРµ запознаем СЃ различни РІРёРґРѕРІРµ скенери, режими РЅР° работа Рё настройки Р·Р° получаване РЅР° качествено изображение. Ще разгледаме принципите РЅР° работа РЅР° програми Р·Р° сканиране Рё обработка РЅР° изображения Рё разпознаване РЅР° текст.
    5. Рнсталиране Рё работа СЃ програмата ABBYY FineReader
    РўРѕРІР° Рµ една РѕС‚ най-добрите програми Р·Р° сканиране Рё обработка РЅР° изображения Рё Р·Р° разпознаване РЅР° печатен текст.

Втора част. Елементи на дигитализацията и разпознаването

    1. Графични Рё текстови формати, кодиране РЅР° текст
    Ще разгледаме точкови Рё векторни формати Р·Р° графични изображения СЃ техните характеристики - разделителна СЃРїРѕСЃРѕР±РЅРѕСЃС‚, цвят, размер, компресия Рё РґСЂ. РџРѕ-детайлно ще изучим формата pgm (Portable GrayMap), който ще използваме РІ РїРѕ-нататъшната работа. Ще РѕР±СЃСЉРґРёРј предназначението, вътрешната организация, предимствата Рё недостатъците РЅР° различните текстови формати - txt, doc, rtf, html, pdf, ps Рё РґСЂ. Ще СЃРµ спрем Рё РЅР° раз-личните РєРѕРґРёСЂРѕРІРєРё (ASCII Рё РЈРЅРёРєРѕРґ) Р·Р° представяне РЅР° българските Р±СѓРєРІРё РІ текстови файлове.
    2. Преобразуване РЅР° СЃРёРІРѕ или цветно изображение РІ качествен черно-Р±СЏР» образ
    Ще разгледаме глобални Рё локални методи Р·Р° определянето РЅР° прагова стойност Р·Р° преобразуване РЅР° сивото РІ черно или бяло Р·Р° изображения, съдържащи текст. Ще СЃРµ спрем РЅР° РґРІР° глобални метода СЃ построяване РЅР° хистограми - Р·Р° разпределението РЅР° СЃРёРІРёСЏ цвят Рё Р·Р° разпределението РЅР° Р±СЂРѕСЏ РЅР° свързаните черни обекти РїСЂРё различни стойности РЅР° прага.
    3. Отделяне (сегментация) РЅР° символи Рё РґСѓРјРё РІ сканиран текст
    Отделянето РЅР° редовете РІ черно-бяло изображение, състоящо СЃРµ РѕС‚ една страница РѕС‚ текстов документ, СЃРµ извършва СЃ построяването РЅР° хоризонтална хистограма РЅР° черните пиксели. РђРєРѕ редовете СЃР° хоризонтални, то хистограмата ще РёРјР° нулеви стойности между редовете. Отделянето РЅР° буквите или думите СЃРµ прави СЃ помощта РЅР° вертикална хистограма РЅР° отделен ред. Когато символите или думите СЃР° РґРѕР±СЂРµ разделени, то хистограмата ще РёРјР° нулеви стойности между символите или думите.
    4. Задача Р·Р° търсене Рё измерване РЅР° резултата РѕС‚ търсенето
    Дадено Рµ множество РѕС‚ обекти, избираме един обект РѕС‚ множеството (шаблон) Рё търсим РґСЂСѓРіРё, РїРѕРґРѕР±РЅРё РЅР° него обекти. Подобието дефинираме СЃ помощта РЅР° някаква метрика, С‚.Рµ. можем РґР° измерваме “разстояние” (неотрицателно число) между всеки РґРІР° елемента РЅР° множеството Рё колкото това число Рµ РїРѕ-малко, толкова обектите СЃР° “по-подобни”. РџРѕ такъв начин можем РґР° наредим всички обекти РѕС‚ множеството РІ зависимост РѕС‚ разстоянието РёРј РґРѕ шаблона. Колкото РїРѕ-напред РІ наредбата СЃР° търсените обекти, толкова РїРѕ-успешно Рµ търсенето. РўРѕРІР° всъщност Рµ идеята Р·Р° измерване РЅР° резултата РѕС‚ търсенето.
    5. Рзмерване РЅР° РїРѕРґРѕР±РёРµ РЅР° РґСѓРјРё СЃ помощта РЅР° Хаусдорфова метрика
    Ще разгледаме различни начини Р·Р° дефиниране РЅР° разстояние между РґРІРµ точки РІ равнината. Ще изследваме свойствата РЅР° различните разстояния. Ще дефинираме Рё изучим Хаусдорфово разстояние между РґРІРµ множества РІ равнината. Р—Р° целите РЅР° сравняването РЅР° РґСѓРјРё ще дефинираме “сумирано” Хаусдорфово разстояние Рё СЃ негова РїРѕРјРѕС‰ ще измерваме “разстояние” между РґСѓРјРё, представени като pgm файлове.