Программа ввода и распознавания документов Fine Reader: Методические указания

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РФ ВОСТОЧНО-СИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ Бурятский Региональный Центр ...

Author: Сластин В.С. | Цыдыпов Ц.Ц.

10 downloads 238 Views 240KB Size Report

This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!

Report copyright / DMCA form

DOWNLOAD PDF

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РФ ВОСТОЧНО-СИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ Бурятский Региональный Центр Федерации Интернет-Образования

Методические указания по изучению темы: «Программа ввода и распознавания документов Fine Reader»

Составители: Сластин В.С. Цыдыпов Ц.Ц.

Улан-Удэ, 2001

Ввод документов (сканирование). Сканирование – это перевод графической ( рисунки, фотографии) или текстовой информации в цифровой вид. Для этого используются сканеры. Сканер – это устройство ввода данных, получаемых путем анализа (разбиения на составляющие) образов изображений. Сканеры подразделяются на двухуровневые, полутоновые и цветные. Двухуровневые (бинарные) работают лишь с двумя уровнями яркости – черный и белый и могут быть использованы для сканирования штриховых рисунков, например чертежей. При полутоновом способе воспроизведения каждый пиксель имеет несколько возможных уровней яркости (16, 64, 256 градаций серого цвета). Можно использовать для сканирования черно-белых фотографий. Цветные сканеры на сегодняшний день получили массовое применение. Важным показателем сканера является разрядность, которая показывает количество одновременно сканируемых цветов и измеряется в битах: 24бит - 16,7 миллионов цветов, 30 бит – 1 миллиард. Основным показателем сканера является разрешающаяся способность и измеряется в точках на дюйм (dpi). Разрешающаяся способность сканера подразделяется на оптическое (реальное) и программное. Оптическое разрешение показывает предельные возможности светочувствительного элемента сканера: в последствии программными методами сканер может повысить качество изображения и соответственно и разрешение. Разрешение сканера имеет два показателя - по горизонтали и вертикали. Например, 600х300, 600х600, 800х800 dpi. Однако чаще всего употребляется первое значение – 100, 300, 400, ,1200 dpi. По типу сканеры подразделяются на ручные, планшетные и барабанные. Программа ввода и распознавания документов Fine Reader Цель работы: получить навыки работы с программой Fine Reader для распознавания текста. FineReader - это система оптического распознавания текстов. Она преобразует полученное с помощью сканера графическое изображение (картинку) в текст (т.е. в коды букв, «понятные» компьютеру). I. Процесс ввода текстов в компьютер осуществляется в несколько этапов: 1. Сканирование. 2. Выделение блоков на изображении. 3. Распознавание. Затем нужно проверить ошибки и сохранить результат распознавания (передать его в другое приложение, в буфер и т.п.). II. Провести сканирование и распознавание можно одной кнопкой Scan&Read. III. Если Вы работаете с программой FineReader впервые, то запустите Мастер Scan&Read (меню Scan&Read, пункт Мастер Scan&Read...). 1. Вызов программы Fine Reader 1. Открыть меню панели задач щелчком левой кнопки мыши на кнопке Пуск. 2. Щелкнуть на пункте меню Программы\ ABBYY FineReader\ FineReader 2

2. Структура окна программы Fine Reader 1 2 3 4

5

6

7

8

9 1. Строка меню 2. Окно для указания языка входного текста. 3. Окно для указания типа входного текста. Авто – подходит для большинства печатных текстов, Пишущая машинка – для машинописного текста, Матричный принтер – для текста, напечатанного на матричном принтере в черновом режиме. 4. Панель инструментов Scan&Read. 5. Панель инструментов стандартная. 6. Окно «Изображение». В окне Изображение выводится изображение, подлежащее распознаванию. 7. Окно «Пакет». В окне Пакет показан список страниц открытого пакета. 8. Окно «Текст». В окно Текст выводятся результаты распознавания. 9. Окно «Изображение». В этом окне выводится изображение, подлежащее распознаванию крупным планом, в котором можно рассмотреть детали изображения.

3

Панель инструментов Scan&Read. На инструментальной панели Scan&Read находятся кнопки, управляющие основными действиями программы. Цифры на кнопках указывают порядок выполнения действий для получения электронной версии бумажного документа. Scan/Open&Read (Сканировать/Открыть и распознать) - сканирование - сегментация - распознавание - проверка результатов - сохранение (или экспорт во внешнее приложение)

Панель инструментов стандартная. Новый. Создает новый пакет. Crtl+N Открыть. Открывает новый пакет или изображение. Crtl+О Вырезать. Вырезает выделенный фрагмент текста и помещает в буфер обмена. Crtl+Х. Копировать. Копирует выделенный фрагмент текста или изображение активного блока (в виде растрового изображения) в буфер обмена. Crtl+С. Вставить. Копирует содержимое из буфер обмена в то место где находится курсор. Crtl+V. Предыдущая страница. Открывает страницу пакета, предшествующую открытой. Crtl+Num-. Следующая страница. Открывает страницу пакета, следующую за открытой. Crtl+Num+. Повернуть по часовой стрелке. Поворачивает изображение по часовой стрелке на 90 градусов. Повернуть против часовой стрелки. Поворачивает изображение против часовой стрелки на 90 градусов. Очистить от мусора. Удаляет «мусор» в виде черных точек на изображении. 4

Позволяет установить масштаб изображения и текста. Контекстная справка. Shift+F1. Позволяет получить информацию о кнопке, пункте меню, диалоге и т.д. Сканирование 1. Проверьте параметры сканирования Яркость: для светлых документов необходимо уменьшить яркость (сделать их темнее), для темных – увеличить (сделать их светлее). Разрешение: 300 dpi - для большинства документов; 400 - 600 dpi - для документов, набранных мелким шрифтом. Подробнее о подборе яркости вручную Советы по подбору яркости вручную Особенности входного изображения: Что сделать: Светлые или тонкие буквы Уменьшить яркость (сделать темнее) Темные или толстые буквы Увеличить яркость (сделать светлее) Глянцевая бумага Уменьшить яркость Слипшиеся символы Увеличить яркость Разрывы Уменьшить яркость Смазанные или заполненные контуры букв Увеличить яркость 2. Запустить сканирование Нажмите кнопку . Вы можете добавлять отсканированные страницы в пакет, по умолчанию создаваемый при запуске программы. Или Вы можете открыть другой пакет (нажмите кнопку ) и записывать отсканированные страницы в него. Если у Вас отмечен пункт Открывать последний пакет (меню Сервис, пункт Опции..., закладка Установки), то при загрузке программа будет открывать последний пакет, с которым Вы работали в предыдущей сессии. 3. Запустить сканирование с распознаванием Нажмите стрелку справа от кнопки и из локального меню выберите пункт Сканировать и распознать. Система отсканирует изображение, выделит на нем блоки, а затем распознает его. 4. Установить параметры сканирования

5

Из меню Сервис выберите пункт Настройки сканера…В открывшемся диалоге установите формат бумаги, разрешение, яркость, ориентацию сканируемого изображения, и т.п. Работа с изображением Для работы с изображениями необходимо прежде всего выделить страницы пакета. В таблице приведены способы выделения страниц пакета. Выделить одну страницу Нажмите на нее мышью. Выделить несколько страниц Удерживая клавишу SHIFT, подряд нажмите мышью на первую страницу выборки, а затем - на последнюю. Выделить несколько страниц не Удерживая клавишу CTRL, подряд последовательно нажимайте на интересующие Вас страницы.

1. Повернуть изображение Распознаваемое изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз и строки должны быть параллельны нижнему краю экрана. Вы можете указать программе, чтобы она автоматически подбирала ориентацию страницы. Автоматический подбор ориентации страницы при сегментации и распознавании 1.В меню Сервис выберите пункт Опции... 2.В диалоге Опции выберите закладку Сегментация. 3.Отметьте пункт Подбирать ориентацию страницы. Этот пункт следует отмечать если в одном пакете Вы распознаете страницы разной ориентации. Если ориентация не подбирается автоматически, повернуть изображение можно вручную: 1.Выделите нужные изображения. 2.Нажмите кнопку Нажмите кнопку

, чтобы повернуть изображения влево на 90 градусов. , чтобы повернуть изображения вправо на 90 градусов.

6

Из меню Изображение выберите пункт Повернуть на 180 градусов, чтобы перевернуть изображение вверх ногами. Таким же образом Вы можете повернуть активное открытое изображение. 2. Инвертировать изображение 1.Выделите нужные изображения. 2.Из меню Изображение выберите пункт Инвертировать. 3. Очистить изображение 1.Выделите нужные изображения с помощью мыши. 2.Нажмите кнопку на панели Стандартная. Таким же образом Вы можете очистить активное открытое изображение. 4. Получить информацию об открытом изображении 1. Нажмите правой кнопкой на изображение и в локальном меню выберите пункт Свойства... 2. В открывшемся диалоге выберите закладку Изображение. Об открытом изображении Вы можете узнать: Ширину и высоту (в точках) Вертикальное и горизонтальное разрешение (в точках на дюйм, dpi) Тип изображения (черно-белое, серое или цветное) Сжатие. Работа с блоками 1. Автоматическая сегментация изображений Сегментировать изображения выделенных страниц 1.Выделите нужные страницы с помощью мыши 2.Нажмите кнопку . Сегментировать все изображения без блоков. Нажмите стрелку справа от кнопки 2-Сегментировать и из открывшегося меню выберите пункт Сегментировать все страницы без блоков. Сегментировать активное изображение Нажмите кнопку 2-Сегментировать. 2. Ручная сегментация страницы 1.Активизируйте открытое изображение. 2.По умолчанию выбран инструмент стрелка. 3.Установите курсор мыши в угол предполагаемого блока. 4.Нажмите мышью и, не отпуская кнопки, потяните в противоположный по диагонали угол. Текст заключается в рамку. По умолчанию это текстовый блок. Границы блоков не должны пересекаться, иначе содержимое их пересечения распознается повторно. Распознавание 7

1. Установить язык распознавания и тип текста Язык распознавания и тип текста являются главными параметрами распознавания. FineReader поддерживает распознавание более 52 языков причем 22 из них имеют словарную поддержку. При распознавании текста на том или ином языке выберите нужный язык из списка на панели Распознавание . Если Вы не видите нужного языка в списке, то выберите значение Другой... и в открывшемся списке найдите нужный язык или выберите несколько языков, слова которых встречаются в распознаваемом тексте. Тип текста определяется в системе автоматически. Однако, если Вы распознаете тексты, напечатанные на пишущей машинке или матричном принтере в черновом режиме, то для того, чтобы повысить надежность и скорость распознавания, выберите соответствующее значение в списке на панели инструментов. Если Вы распознавали тексты, напечатанные на пишущей машинке или матричном принтере, то при возвращении к типографскому тексту не забудьте снова выбрать значение Авто. 2. Запустить распознавание Распознать выделенные страницы 1.Выделите нужные страницы в окне пакета. 2.Нажмите кнопку

.

Распознать открытую страницу. Активизируйте открытое изображение и нажмите кнопку 3-Распознать. Распознать все нераспознанные страницы Нажмите стрелку справа от кнопки 3-Распознать и из открывшегося меню выберите пункт Распознать все нераспознанные страницы. Программа выделяет блоки (если они еще не выделены) и распознает изображения. 3. Фоновое распознавание Вы можете запустить распознавание файлов пакета и в это время редактировать уже распознанные файлы того же пакета. Нажмите стрелку справа от кнопки 3-Распознать и из открывшегося меню выберите пункт Фоновое распознавание...Запустится специальная копия программы FineReader, которая будет распознавать нераспознанные страницы пакета, в то время как Вы сможете редактировать распознанные страницы. 4. Открыть изображение 8

1.Нажмите кнопку . 2.Выберите диск и папку, где находится нужные Вам файлы. 3.В открывшемся диалоге в списке Файлы типа выберите строку Изображение... 4.Выберите нужные файлы и нажмите OK. Выбранные файлы копируются в текущий пакет. 5.Вы можете указать, чтобы выбранные изображения не копировались, а перемещались в пакет (отметьте пункт Перемещать файлы в пакет). Тогда при загрузке в текущий пакет выбранные файлы будут копироваться туда, где находится Ваш пакет и удаляться оттуда, откуда Вы их открыли. Изменить нумерацию страниц в пакете 1.Выделите страницу или несколько страниц подряд. 2.Из меню Сервис выберите пункт Перенумеровать страницы... 3.Введите новый номер для первой страницы из выборки (страницы с наименьшим номером). Если для перенумерации выбранных страниц требуется сдвинуть другие страницы, система предупредит Вас об этом. Список поддерживаемых графических форматов. FineReader открывает файлы следующих форматов: BMP: 2-битный – ч/б, 4- и 8-битный – Palette, 24-битный – Palette и TrueColor PCX, DCX: 2-битный – ч/б, 4- и 8-битный – серый, JPEG: 8-битный – серый и TrueColor TIFF: ч/б – несжатый, CCITT3, CCITT3FAX (некоторые форматы), CCITT4, Packbits, серые – несжатый, Packbits, JPEG, TrueColor -несжатый, JPEG Palette -- несжатый, Packbits PNG: ч/б, серое, цветное Также можно добавлять изображения из буфера или через drag-&-drop. Сохранение и экспортфайлов. 1. FineReader сохраняет изображения в следующих форматах: BMP: ч/б, серый, цветной PCX: ч/б, серый JPEG: серый, цветной TIFF: ч/б – несжатые, CCITT3, CCITT4, packbits серые -- несжатый, packbits, JPEG цветные – несжатый и JPEG PNG: ч/б, серое, цветное 2. Поддерживаемые текстовые форматы

9

FineReader сохраняет результаты распознавания в следующих форматах: TXT, RTF, DOC, HTML, CSV, DBF, XLS, PDF. При сохранении в формате RTF или DOC FineReader автоматически создает текстовые стили, которые называются FR1, FR2, и т.д. Если Вы сохраняете пакет для дальнейшей работы, результаты распознавания каждой страницы записываются в отдельный файл в расширением FRF (FineReader Format). Перед тем, как сохранять результаты распознавания в том или ином формате, проверьте, все ли нужные Вам опции сохранения выставлены. Сохранить пакет для дальнейшей работы 1. 2. 3.

Из меню Файл выберите пункт Сохранить пакет… В появившемся диалоге введите имя нового пакета и путь к нему. Нажмите кнопку Готово. Сохранить результаты распознавания в файл

1. Если Вы хотите сохранить не все страницы пакета, то выделите нужные в окне Пакет. 2. Нажмите стрелку справа от кнопки 5-Сохранить и в открывшемся меню выберите пункт Сохранить в файл. 3. В открывшемся диалоге Сохранить как выберите диск, каталог и укажите имя и расширение файла, в который Вы хотите экспортировать распознанный текст. 4. Установите переключатель Какие страницы сохранять в положение Все распознанные или Только выделенные. 5. Чтобы записывать каждую страницу в отдельный файл, отметьте пункт Записывать каждую страницу в отдельный файл. Тогда имена, которые эти файлы получат, будут состоять из заданного Вами имени и порядкового номера (1, 2, и т.д.). 6. Нажмите OK. Передать результаты распознавания в другое приложение Вы можете передать результаты распознавания в одно из следующих приложений: MS Word, MS Excel, Corel WordPerfect, Lotus Word Pro или PROMT. 1. Активизируйте окно пакета (нажмите в нем мышью) и нажмите стрелку справа от кнопки 5-Сохранить. 2. В открывшемся меню выберите пункт Передать в Word, Передать в Excel и т.п. Для выделенных страниц 10

1. Если Вы хотите передать в другое приложение не все страницы, а только некоторые, то выделите нужные Вам страницы в окне Пакет. 2. Нажмите на стрелку справа от кнопки 5-Сохранить и выберите пункт Мастер сохранения результатов 1. В открывшемся списке выберите нужное приложение и отметьте пункт Сохранять только выделенные страницы. По нажатию Готово в этом диалоге результаты распознавания передаются в выбранное приложение.

11