МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ АНАЛИЗА И РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ В ИНФОРМАЦИОННОТЕЛЕКОММУНИКАЦИОН...
54 downloads
185 Views
451KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ АНАЛИЗА И РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ В ИНФОРМАЦИОННОТЕЛЕКОММУНИКАЦИОННЫХ СИСТЕМАХ В.Н. Васильев, И.П. Гуров, А.С. Потапов Санкт-Петербургский государственный университет информационных технологий, механики и оптики (СПбГУ ИТМО) 197101, г. Санкт-Петербург, пр. Кронверкский, д. 49
Аннотация. В статье представлен аналитический обзор подходов к решению задач анализа изображений в информационно-телекоммуникационных системах. Помимо задач хранения и передачи изображений актуальными являются задачи поиска сходных изображений в информационных системах или цифровых фотоальбомах, извлечение изображений по содержанию из баз данных, например, в геоинформационных системах (ГИС), компьютерное распознавание логотипов и т.д. Законченного универсального решения этих задач не известно, поэтому существует большое разнообразие частных методов и алгоритмов, ориентированных на тот или иной аспект анализа изображений. В статье с позиций рассмотрения современных методов математического и алгоритмического
обеспечения
информационно-телекоммуникационных
систем
проведена систематизация существующих алгоритмов с выделением двух основных аспектов – вида используемого представления изображений и критерия принятия решения при анализе изображений. По виду представления выделены низкоуровневые, признаковые, контурные и структурные методы, а также методы, основанные на знаниях. По критерию принятия решения выделены эвристические, байесовские, энтропийные и теоретико-информационные методы. Проведен сравнительный анализ перечисленных групп методов с определением преимуществ и недостатков каждого из них, на основе чего сделаны выводы о применимости каждого из методов к
1
конкретным задачам анализа изображений в информационно-телекоммуникационных системах.
Annotation. Analytical survey of approaches to solving the tasks of image analysis in informational-telecommunication systems is carried out. In addition to the tasks of information storing and transferring, there are such important tasks as identification of similar images in information or digital photograph albums, image retrieval from databases by content, e.g. in geographic information systems (GIS), recognition of logos and so on. Complete universal solutions for these tasks are unknown, so there are many particular methods and algorithms, which utilize one or another image analysis technique. In this article existent methods of image analysis are systematically discussed in the context of modern mathematical and algorithmic tools in informational-telecommunication systems. Two main aspects of image analysis methods are revealed: type of image representation and criterion function for choosing solution. Low-level, feature-based, contour, structural, and knowledge-based representations are considered. Heuristic, Bayesian, entropic, and information-theoretic methods are distinguished on the base of the type of criterion function. Comparative analysis of the mentioned above methods is carried out, and advantages and disadvantages of each of them are pointed out. Applicability of each method to the specific tasks of image analysis in information systems is considered.
2
1. Введение За последнее десятилетие благодаря существенному росту информационной емкости запоминающих устройств и пропускной способности каналов связи в общем объеме
информации,
хранимой
и
передаваемой
в
информационно-
телекоммуникационных системах, заметно возросла доля информации, приходящейся на изображения. При этом крайне актуальной стала проблема доступа к изображениям по их содержанию, для решения которой требуется распознавание изображений по эталону (в качестве которого может выступать как другое изображений, так и набросок от руки или словесное описание). Такая процедура требуется для организации поиска в специализированных базах изображений самого разнообразного назначения (базы логотипов, гео-информационные системы, базы биометрических данных, каталоги продукции, фотостоки и т.д.), а также для поиска произвольных изображений в домашних цифровых фотоальбомах, в сети Интернет и др. Существует два основных подхода к проблеме извлечения изображений из баз данных [1]: с использованием текстовых аннотаций и путем распознавания изображений. Использование текстовых аннотаций является сравнительно простым в алгоритмическом плане и достаточно надежным средством, однако во многих случаях наличие текстовых аннотаций не может быть гарантировано, например, в силу большого числа изображений, их плоховербализуемого содержания или по каким-либо другим причинам, и, кроме этого, при составлении таких аннотаций невозможно предсказать, на какие именно характеристики изображения будет направлен тот или иной запрос, поскольку аннотации оказываются весьма субъективными [2]. В связи с этим, в данной статье проводится обзор методов сопоставления и распознавания изображений как более перспективной технологии работы с изображениями в информационно-телекоммуникационных системах. Проблеме распознавания изображений, начиная с середины прошлого века, было посвящено значительное число работ, однако до сих пор эта проблема далека от полного решения. Это связано с большой информационной емкостью и априорной неопределенностью, присущей изображениям (которые могут содержать произвольные объекты и быть сформированными с помощью сенсоров различных типов), а также с
3
большой изменчивостью изображений (изменение ракурса или освещения приводит к изменению значений одновременно во всех элементах изображения) [3]. Кроме того, объекты, которые могут присутствовать на изображениях, обычно входят в сложные иерархические отношения типа "часть-целое" и "частное-общее". Как
результат,
нет
прямого
соответствия
между
изображениями,
представленными в информационных системах в виде массивов пикселей, и теми семантическими метками, которые должны быть присвоены объектам на изображениях в процессе их распознавания [4]. Именно сложность решения общей задачи распознавания изображений ведет к разработке большого числа частных методов. Из-за большого разнообразия существующих методов возникает вопрос об их сходстве и различии и эффективности применения при решении той или иной задачи. Одним из центральных компонентов методов распознавания принято считать используемое представление изображений [5]. Поскольку не удается построить явного отображения из пространства значений пикселей, составляющих изображение, в пространство семантических описаний сцены, оказывается необходимым вводить некоторые промежуточные уровни представления изображений. Под представлением обычно понимается формальная система, содержащая алгоритмы для получения в явном виде описаний объектов заданного класса [6, с. 36]. Тогда процесс распознавания объектов
по
их
изображениям
может
интерпретироваться
как
процесс
последовательного преобразования информации, начиная с исходного представления изображения в виде массива пикселей и заканчивая семантическим описанием изображения через некоторую совокупность промежуточных представлений. Можно выделить следующие типы промежуточных представлений изображений [4]:
низкоуровневые [7];
признаковые [8, 9];
контурные [10];
структурные [3, 11]. В качестве конечных представлений в задачах распознавания изображений
можно рассматривать представления, основанные на знаниях. В отдельную группу выделяются методы, основанные на знаниях [12]. Отличительной особенностью этих
4
методов является то, что в них представление, основанное на знаниях, не только является выходным представлением системы распознавания изображений, но и используется в самом процессе распознавания. Иными словами, эти методы работают под управлением знаний с потоком информации «сверху вниз» в отличие от прочих методов, работающих под управлением данных с потоком информации «снизу вверх» [4]. В отдельную группу методов можно выделить иерархические методы [13], включающие
одновременное
использование
нескольких
промежуточных
представлений перечисленных выше типов. Помимо
вопроса
об
используемых
промежуточных
представлениях
изображений в процессе их распознавания возникает вопрос о том, каким образом строятся описания изображений в рамках выбранных представлений [5]. Здесь можно выделить критерий качества описания, в наибольшей степени характеризующей методы распознавания, поскольку именно критерий качества определяет, какое именно описание изображения будет сформировано в рамках данного представления. Следующие подходы к заданию критерия качества являются наиболее типичными:
эвристический (включающий самые разнообразные способы выбора решения, см., напр., [14, 15]);
байесовский [16];
энтропийный [17];
теоретико-информационный [18]. Тип промежуточного представления изображений и подход к заданию критерия
качества не являются исчерпывающими характеристиками метода распознавания изображений. К примеру, важен также и алгоритм оптимизации критерия качества [19], однако систематизация по данному компоненту на настоящий момент затруднительна ввиду отсутствия достаточной теоретической проработки проблемы. Рассмотрим различные типы представлений и подходы к заданию критерия качества и проведем анализ возможности их применения в задачах распознавания изображений.
5
2. Представления изображений в виде необработанных данных В задачах распознавания изображений в качестве исходного представления, из которого затем осуществляется отображение в конечное представление, обычно рассматривается представление изображения в виде массива «сырых» данных – набора результатов физических измерений, выполненных для некоторой сцены. Под сценой обычно понимается набор физических объектов или некоторый фрагмент реального мира [20, с. 11]. Чаще всего регистрируемую физическую величину представляет интенсивность электромагнитного излучения в некотором спектральном диапазоне, например, видимом, ИК, рентгеновском или радиодиапазоне. Однако изображение может содержать и совершенно другую информацию и представлять собой, например, цифровую карту высот, гидроакустические данные или распределение плотности некоторых элементарных частиц в зависимости от направления. Элементом изображения при начальном представлении является пиксель (от pixel: picture element), поэтому такие представления обычно называют представлениями на уровне пикселей [21]. Пиксели, образующие изображение, с соответствующими им значениями интенсивностей организованы в массив, размерность которого определяется исходной природой
данных.
Упорядочивание
пикселей
в
массиве
соответствует
пространственной организации сцены. Для многих задач массив пикселей является двумерным, но широко распространены приложения, например, медицинские, в которых размерность массива может быть больше двух. В случае объемных изображений их элементы принято называть вокселями (от voxel: volume pixel). Последовательность изображений может трактоваться как изображение большей размерности (на уровне пиксельных представлений время ничем не отличается от дополнительной пространственной координаты). Основной проблемой, связанной с представлениями на пиксельном уровне, является проблема эффективности этих представлений в задачах хранения и передачи информации, что особенно актуально для объемных изображений. Существует несколько альтернативных способов представления объемных изображений [4], такие как, например, трехмерный массив вокселей, стереопара, проекция на Гауссову сферу и
6
т.д. Однако разработка таких представлений вызвана необходимостью решения чисто технических проблем, не связанных с задачами распознавания изображений, поэтому здесь мы на них останавливаться не будем. Представления на пиксельном уровне являются исходными для любых приложений интерпретации изображений в информационно-телекоммуникационных системах. Именно потому, что это представление является общим для различных задач компьютерной обработки изображений, часто говорят, что "изображения – это массивы пикселей" [4]. Однако стоит отделять изображение (содержание) от его конкретного представления (формы). Представления на пиксельном уровне содержат в себе всю имеющуюся информацию о наблюдаемой сцене, но в форме, неудобной для автоматического анализа [20, с. 12]. В частности, такие представления редко используются для распознавания или сопоставления изображений. Это и вызывает необходимость привлечения других представлений изображений с целью извлечения содержащейся в них релевантной информации.
7
3. Низкоуровневые представления Представления на пиксельном уровне не содержат информации о том, как следует работать с изображениями. Для определения набора операций над изображениями естественно их представить в качестве элементов некоторого математического пространства. Это дает обширный набор строгих внутренне непротиворечивых средств анализа и преобразования изображений. В частности, если выбранное
пространство
является
метрическим,
то
появляется
возможность
формального определения "расстояния" (т.е. степени сходства) между изображениями, что является основой для их распознавания. Два основных класса математических моделей изображений включают [7]: функциональные представления и представления в виде случайных полей. 3.1. Функциональные модели При использовании функциональных моделей изображение интерпретируется как функция из некоторого (например, Гильбертова) пространства: f : G V , G R n ,V R m ,
где G – область определения функции, а V – область ее значений. Величина n – размерность изображения (обычно равная двум), а m – размерность вектора значений, хранящихся в каждом пикселе. Например, для полутоновых изображений m 1, а для цветных RGB изображений m 3 . Функциональное представление является базовым для проведения таких операций над изображениями, как пространственное преобразование изображений, преобразования интенсивности, фильтрация и др. Пространственное преобразование изображения (масштабирование, вращение и т.д.) осуществляется с помощью преобразования координат в области G :
f 2 (x) f ( g (x)), g : G G2 ,
8
где g – функция, ставящая в соответствие каждой точке из области определения G исходного изображения
f
точку в области определения G2 преобразованного
изображения f 2 . Преобразование интенсивности (например, изменение яркости или контраста для всего изображения) или преобразования цвета (если V
– это цветовое
пространство) может быть представлено следующим образом:
f 2 (x) h( f (x)), h : V V2 , где h – функция, зависящая только от значения функции f в данной точке и ставящая в соответствие этому значению новое значение, возможно, из другой области V2 . Часто привлекаемой
операцией
над
изображениями
является
линейная
фильтрация, которая представима в виде свертки с некоторым ядром :
f 2 T ( f ) f , ( f )(x) f (y )(x y )dy . G
К примеру, с помощью линейной фильтрации представляются такие операции, как сглаживание изображения или его дифференцирование. Еще
одной
важной
возможностью,
предоставляемой
функциональными
моделями изображений, является смена базиса в исходном функциональном пространстве . Частным, но очень важным, примером является дискретное преобразование Фурье (ДПФ): N 1 N 1 ~ 2 f (u, v) f ( x, y) exp i (ux vy) , N x 0 y 0
где N – число пикселей на изображении, u и v – пространственные частоты. Функциональные
(и
другие
математические)
представления
позволяют
формально ввести понятие инвариантности как неизменности описания изображения при некоторых его преобразованиях. В частности, описание изображения через модуль ~ его Фурье-спектра f (u, v) является инвариантным к сдвигу исходного изображения. Инвариантность представления является основной характеристикой в задачах распознавания.
9
3.2. Распознавание изображений в рамках функциональных моделей Задача распознавания изображений, интерпретируемых как функции, сводится к поиску пространственного преобразования и, возможно, преобразования яркости, которые минимизируют расстояние между изображениями в заданном метрическом пространстве. Простейшей нормой здесь является евклидова норма L2 :
f 2 f1
L2
| f 2 (x) f1 (x) | dx . 2
Использование этой нормы ведет к широко распространенным корреляционным методам [22-26], в которых степень сходства двух изображений определяется как корреляция. При разных взаимных сдвигах изображений взаимную корреляционную функцию удобно вычислять через обратное дискретное преобразование Фурье (ДПФ) произведения Фурье-спектров:
C f1, f2 ( x, y)
1 N2
N 1 N 1
~
~
2
f1 (u, v) f 2* (u, v) exp i N (ux vy) .
u 0 v 0
Простейшие корреляционные методы могут быть использованы для поиска смещения между эталонным и распознаваемым изображениями при условии, что интенсивности изображений преобразованы линейно. Несмотря на существенные ограничения,
накладываемые
на
возможные
преобразования
изображений,
классический корреляционный метод широко используется для решения ряда частных задач. Существуют более сложные модификации корреляционного метода, к которым можно отнести локальную корреляцию [23, 24] и метод Фурье-Меллина [25, 26]. В методе локальной корреляции производится поиск смещений каждой точки эталонного изображения относительно распознаваемого с использованием корреляции по некоторой окрестности точки. Это позволяет восстанавливать нелинейные пространственные преобразования двух изображений, что может использоваться, например, в задачах стереозрения или распознавания объектов с изменяющейся формой. Однако метод локальной корреляции имеет свои ограничения, например, требование к отсутствию глобального преобразования координат (в том числе вращения и масштабирования) и интенсивностей.
10
В методе Фурье-Меллина используется инвариантное к сдвигу преобразование ~ изображения (модуль Фурье-спектра) f (u, v) . Затем осуществляется переход в полярно-логарифмическую систему координат, в которой масштабирование и поворот исходного изображения эквивалентно сдвигу вдоль соответствующих осей. Метод Фурье-Меллина позволяет распознавать изображения, полученные из эталона путем применения к ним преобразования из группы подобия. Функциональные представления изображений, как правило, инвариантны к сравнительно простым преобразованиям изображений (зачастую к пространственным преобразованиям ограниченных классов), поэтому соответственно ограничена сфера их применения. 3.3. Модели на основе случайных полей Продуктивной
концепцией
является
представление
изображений
как
выборочных функций (реализаций) случайного процесса. Такие модели являются более общими, чем функциональные, так как представляют изображения некоторыми случайными функциями, по отношению к которым детерминированные функции являются частным подклассом. Однако зачастую модели на основе случайных полей описывают статистические свойства изображений, не отражая при этом их пространственной структуры [27]. Стремление включить в стохастическую модель информацию о пространственных положениях элементов изображения приводит, как правило, к использованию различных моделей случайных полей (см., напр., [28, 29]), однако, редко используемых в задачах распознавания. Стохастические модели изображений берут свое начало из теории цифровой обработки сигналов. Исходно они предназначались для решения задач подавления шума, помехоустойчивого кодирования и сжатия, в частности, в целях передачи изображений по каналам связи (см., напр., [30, с. 439-440, 652-657, 745-766], а также приведенные там ссылки). Сейчас стохастические модели положены в основу многих графических форматов, которые используются для хранения изображений в информационно-телекоммуникационных системах, а также широко используются для
11
описания текстуры [17, 31], реставрации изображений [7, 32], для декомпозиции изображений на области [32, 33] и т.д. В рамках порождающих стохастических моделей изображений предполагается, что имеется набор параметров χ (1 ,..., N ) с заданной плотностью распределения априорных вероятностей p(χ ) , а также функция построения изображения, задающая распределение вероятностей по изображениям при данных параметрах: p( f | χ ) . Моделью конкретного изображения будет являться набор значений этих параметров. 3.4. Сопоставление изображений в рамках стохастических моделей Использование стохастических моделей изображений позволяет использовать в качестве меры сходства вместо корреляции взаимную информацию, вычисляемую через энтропию H
i( f1 (x), f 2 (T (x))) H ( f1 (x)) H ( f 2 (T (x))) H ( f1 (x), f 2 (T (x))) , где T – некоторое пространственное преобразование, а вычисления энтропии некоторой случайной величины и совместной энтропии двух случайных величин осуществляются как
H ( f ) p( f ) log 2 p( f ) и H ( f1 , f 2 ) p( f1 , f 2 ) log 2 p( f1 , f 2 ) . f
f1 f 2
Величина взаимной информации является инвариантной к произвольным глобальным (не зависящим от координат) преобразованиям яркости изображений, а не только к линейным преобразованиям, как это имеет место в случае корреляции, что делает эту меру сходства существенно более универсальной. К сожалению, при этом оказывается необходимым вести поиск в пространстве параметров преобразования T, что уже для преобразования подобия может оказаться проблематичным в силу увеличения размерности пространства параметров. Поскольку определенными
стохастические параметрами,
модели
оказывается
изображений возможным
характеризуются
отделить
случайную
составляющую изображений (конкретную реализацию случайного процесса) от регулярной составляющей (параметров модели). Возможно выполнение сопоставления изображения с эталоном по этим параметрам. Однако описание изображения через
12
параметры модели следует рассматривать в качестве признакового представления изображений. Таким образом, функциональные и стохастические модели преимущественно используются на предварительном этапе обработки изображений и построения описаний последующих уровней (признакового, контурного, структурного), либо для задач распознавания изображений, обладающих малой изменчивостью.
13
4. Признаковые методы 4.1. Признаковые представления Признак определяется как функция от значений, содержащихся в одном или более пикселях, и вычисляется так, что численно выражает некоторую значимую характеристику объекта [34]. Можно классифицировать различные признаки изображений следующим образом [8]:
Общие признаки: признаки, независимые от приложения, такие как цвет, текстура, форма. Они могут быть далее разделены на: o признаки пиксельного уровня: признаки, вычисляемые в каждом пикселе, такие как цвет, положение; o локальные признаки: признаки, вычисляемые в некотором окне или ограниченной области изображения; o глобальные признаки: признаки, вычисляемые по всему изображению. Обычно, это статистические свойства изображений, например, гистограмма, среднее значение, дисперсия и другие статистические моменты.
Предметно-зависимые признаки: признаки, зависимые от приложения, например, описывающие лица людей, отпечатки пальцев и т.д. Эти признаки формируются на основе общих признаков для конкретной предметной области. С другой стороны, все признаки могут быть условно разделены на
низкоуровневые и высокоуровневые признаки. Низкоуровневые признаки могут быть извлечены непосредственно из исходного изображения, тогда как высокоуровневые признаки базируются на низкоуровневых признаках. Точки, в которых значение некоторого локального признака достигает экстремального значения, называются точками интереса [35]. Однако описание изображения
в
виде
совокупности
взаимосвязанных
точек
интереса
следует
рассматривать как описание следующего уровня абстракции, о чем, в частности, свидетельствует и то, что методы распознавания изображений на основе точек интереса во многом сходны со структурными методами.
14
4.2. Распознавание изображений на основе признаков Описание некоторого изображения или каких-то его областей совокупностью признаков позволяет применять дискриминантные методы распознавания образов, поэтому признаковый подход наиболее широко используется в распознавании объектов [36-38] или текстур [39, 40], принадлежащих ограниченному числу классов, то есть в условиях низкой априорной определенности. Признаковые методы применяются в целях распознавания только в тех случаях, когда удается построить инвариантные признаки. При этом в большинстве случаев построение таких признаков для конкретных условий является задачей разработчика. После того как признаки выбраны, для решения задач распознавания изображений может быть использован математический аппарат распознавания образов. В частности, популярными являются такие методы, как метод опорных векторов [41, 42] и метод на основе смесей нормальных плотностей распределения вероятностей [43]. Использование инвариантных признаков позволяет осуществить распознавание объектов или категоризацию (например, разделение по сюжетам) изображений в достаточно широком круге приложений, в частности, в задачах распознавания [44-46], однако описание сложных сцен или объектов, подверженных сложным типам изменчивости, в рамках признакового подхода оказывается затруднительным, как и распознавание по глобальным признакам объектов по их фрагментам.
15
5. Контурные методы Низкоуровневые
и
признаковые
представления
позволяют
добиться
инвариантности только по отношению к весьма ограниченным классам преобразований. Изменчивость других типов, вызванная, например, сменой сенсора или собственными изменениями объекта, оказывается трудно формализуемой, так как существенно зависит
от
свойств
объектов,
образующих
наблюдаемую
сцену.
Важной
характеристикой изображения при этом являются пространственные взаимосвязи между его элементами, образующими иерархическую структуру. Необходимость использования нескольких представлений промежуточного уровня часто иллюстрируют [4], опираясь на аналогию анализа текста (или речи) и изображений. Так же как буквы группируются в слова, слова в предложения, а предложения в текст, пиксели следует группировать в элементы промежуточного представления, которые уже, в свою очередь, образуют конкретные объекты. Подобная аналогия, однако, не говорит, сколько и каких должно быть промежуточных уровней. Могут быть выделены контурные и структурные представления. Как показывает мировой опыт исследователей [3, 19, 47-50], именно эти типы представлений оказываются крайне полезными в задачах сопоставления и распознавания изображений в условиях изменчивости. 5.1. Контурные представления Под контуром обычно понимается местоположение локального изменения или резкого перепада яркости на изображении [51]. При этом подразумевается, что такие перепады возникают на границах объектов. Процедуры построения контурных описаний изображений можно разделить на глобальные и локальные. Для глобальных процедур характерно (см. [52]) разбиение изображения на однородные области, на основе которых и строятся контуры, например, как границы этих областей [3] либо как их срединные оси (см., напр., [6, с. 310]). Локальные процедуры основываются либо на определении цепочек максимумов на градиентном поле изображения (или пересечений нуля второй производной), либо
16
на
непосредственной
функциональных
или
аппроксимации
яркостных
стохастических
моделей
переходов
изображений.
[51]
в
Контуры
рамках могут
трактоваться также как цепочки точек интереса, обладающих экстремальными значениями некоторого признака края [8], что, однако, не влияет на сущность методов их обнаружения. Построение градиентного поля полутонового изображения осуществляется с помощью операторов, выполняющих дискретное дифференцирование. Классическими операторами, служащими для этой цели, являются операторы Робертса [53], Превитт [54], Собела [55, с. 291] и др. Могут также использоваться и маски больших размеров. Поскольку таким операторам присуще свойство подавления шума, увеличение размера маски приводит к большей
робастности процедур извлечения контуров, однако и
увеличивает
вероятность обнаружения ложных контуров [51]. Помимо получения более гладких контуров, удобных для дальнейшего анализа, привлечение масок разных размеров обосновывается иерархичностью организации физического мира [6, с. 67]. Были предложены различные методы для формирования контуров на разных уровнях разрешения. В работе [56] обосновано использование фильтра 2G , где 2 –
x2 y2 оператор Лапласа и G exp – Гауссова функция. Более того, выглядит 2 2 правдоподобным, что именно эту функцию воспроизводят X-клетки сетчатки и наружного коленчатого тела зрительного аппарата человека [6, с. 77]. Широко применяются и другие подходы к обнаружению контуров, такие как, например, предложенные Канни [57], Деришем [58], Линденбергом [59] и др. (см., напр., [60, 61]). Таким образом, построение градиентного поля изображения основывается на какой-либо математической модели. Затем осуществляется выделение контуров как цепочек максимумов на этом поле. Однако возникает проблема обоснования формализации понятия контура (о существовании этой проблемы свидетельствует разнообразие подходов к обнаружению контуров). Как правило, приводятся следующие аргументы в пользу привлечения контуров [10, с. 43]:
17
контур является концентратором информации в изображении;
контур полностью характеризует форму объектов на изображении;
контуры объекта, в отличие от его остальных точек, устойчивы на изображениях, полученных в разное время, разных ракурсах и при смене датчика;
контурные точки составляют незначительную часть всех точек изображения, поэтому работа с ними позволяет резко сократить объем вычислений. В
несколько
других
терминах
аргументация
использования
контуров
заключается в том, что нарушения непрерывности в физическом пространстве (поверхности) порождают также и перепады яркости на изображении [6, с. 64]. А значит, последние могут быть использованы для получения информации о реальных поверхностях. 5.2. Контурные методы распознавания изображений Использование контуров широко распространено в задачах совмещения пары изображений или изображения с векторной моделью (например, картой местности или чертежом детали), описание формы объектов или областей по их контурам, например, с помощью методов математической морфологии [20], для решения задачи стереопсиса [62] и т.д. Контурные представления также служат основой для построения структурных описаний изображений. При распознавании изображений в рамках контурного подхода обычно используется преобразование расстояния [63, 64], привлекаемое для вычисления меры Хаусдорфа [15, 47]. При выполнении преобразования расстояния для каждой точки изображения определяется минимальное расстояние до множества точек контуров. Далее на карту расстояний накладываются контуры другого изображения (при некоторой гипотезе сопоставления), что позволяет вычислить суммарное расстояние между двумя наборами контуров. При этом, как правило, необходимо осуществлять перебор значений параметров взаимного преобразования изображений, поэтому пространство поиска должно быть не слишком большим (либо число параметров должно быть мало, либо на них должны быть наложены достаточно сильные ограничения).
18
Итак, хотя контурные методы распознавания являются весьма робастными [4], в них оказывается затруднительным поиск пространственных преобразований сложного типа, а также распознавание объектов при наличии большого числа ложных контуров.
19
6. Структурные методы Если исходные изображения можно считать (как правило) двумерным сигналом, контуры на изображениях – одномерным сигналом, то следующие по уровню абстракции промежуточные символьные представления изображений
являются
безразмерными (или, условно, с размерностью, равной нулю). Однако способы получения таких представлений могут быть разными. 6.1. Непроизводные структурные элементы В качестве основы структурных представлений изображений могут быть использованы точки интереса, строящиеся в рамках признакового подхода [8]. При этом, как правило, используются более сложные детекторы, чем детекторы края. Могут привлекаться детекторы линий, полос, пятен [9] или углов, находящихся в соединениях отрезков вида “Г”, “T”, “Y” и “X” [65, 66]. Используются также детекторы признаков, предназначенные для узких предметных областей, например, для обнаружения лиц [67, 68]. Исследуется и противоположная возможность, заключающаяся в автоматическом построении детекторов признаков на основе содержащейся в изображении информации [69]. Более последовательным для построения описаний изображений данного уровня абстракции является использование представлений предыдущего уровня, то есть контурных представлений. Построение структурных элементов на основе контуров может выполняться путем сегментации контуров, их аппроксимации или обнаружения точек максимальной кривизны. При этом контурные структурные элементы являются менее разнообразными, чем элементы, построенные на основе детекторов признаков, и обычно включают отрезки прямых линий [70], дуги окружностей [71] или эллипсы [72], углы [3] и т.д. Существует также и промежуточный подход, при котором выделяются геометрические элементы на основе краевых точек, не объединенных в связанные контуры [73-76]. Этот подход более распространен в промышленных приложениях технического зрения и фотограмметрии, поскольку краевые точки могут быть
20
локализованы с субпиксельной точностью, что позволяет выполнять более точные измерения параметров геометрических элементов, например, с помощью метода наименьших квадратов [73, 74]. При этом, однако, точки, принадлежащие разным элементам, не разделены. Поэтому здесь применяются специфические методы, которые одновременно решают проблему группирования и регрессии. Среди методов этого вида наибольшей популярностью пользуется преобразование Хо (Хафа) [74, 75]. 6.2. Составные структурные элементы Дальнейшее развитие структурного подхода заключается в формировании на основе непроизводных элементов составных структурных элементов. Типы составных структурных элементов могут быть как проблемно-зависимыми, так и достаточно общими. В качестве первых могут служить, например, такие элементы, составленные из отрезков прямых линий, как проекции прямоугольных параллелепипедов на плоскость (в более простом случае ищутся также параллельные линии, прямоугольники и параллелограммы), нахождение которых необходимо, например, для обнаружения зданий и дорог на аэрокосмических изображениях [70, 77]. Последнее важно в геоинформационных системах для извлечения изображения по содержанию. Существуют различные подходы к группированию непроизводных структурных элементов с целью образования более сложных структурных элементов, вид которых не зависит от предметной области. К таким элементам относятся, например, элементы вида "L", "U" и другие соединения, пары параллельных прямых линий, пятна, составленные из пятен меньших размеров, и т.д. [6, с. 104; 78]. Однако все подходы к группированию в том или ином виде опираются на подобие структурных элементов. На основе подобия составные структурные элементы могут дальше группироваться, формируя более крупномасштабные элементы изображения. Попытки строгого обоснования различных типов составных структурных элементов практически отсутствуют. Имеется лишь общая концепция Д. Марра (см. [6]) об иерархической пространственной организации реального мира, которую также должны отражать иерархические структурные представления изображений.
21
6.3. Структурные методы распознавания изображений При структурном сопоставлении изображений, как правило, производится поиск соответствий между структурными элементами с учетом их взаимного расположения, типа, размеров, взаимной ориентации и т.д. Поиск может осуществляться перебором возможных комбинаций соответствий [49], методами эволюционных вычислений [79], нейронными сетями [80], методами итеративной оптимизации [81], с помощью преобразования Хо [82] и т.д. Иными словами, в структурных методах вместо поиска в пространстве параметров пространственного преобразования производится поиск в пространстве вариантов соответствий структурных элементов. К сожалению, в большинстве случаев привлекаемые структурные представления не полностью инвариантны по отношению условиям формирования изображений. В связи с этим, на изображениях, полученных в разных условиях, структурные элементы выделяются по-разному, что уменьшает вероятность корректного сопоставления и снижает его точность. Тем не менее, структурные методы принято считать одними из наиболее робастных [19]. В частности, с помощью структурных методов могут сопоставляться аэрокосмические изображения, полученные с помощью сенсоров различных типов и в разные сезоны [49], что является существенным при построении геоинформационных систем. Также в рамках данного подхода могут сопоставляться [3] изображения с векторной моделью или наброском, сделанным от руки, что может быть использовано для извлечения изображений из баз данных по содержанию. В то же время, из-за отсутствия общей и ясной теории построения структурных представлений создание системы структурного распознавания изображений может быть сопряжено с определенными трудностями. В ряде случаев из-за потери большого количества информации в процессе построения структурных описаний происходит чрезмерное обобщение, в результате чего могут отождествляться изображения с разным содержанием [49]. В зависимости от задачи это может быть как положительным, так и отрицательным свойством. Кроме того, структурными методами плохо распознаются малоразмерные (менее 50х50 пикселей) и слабоструктурированные (например, дымы) объекты.
22
7. Методы, основанные на знаниях Как отмечалось выше, в качестве конечного представления изображений в задачах их распознавания выступает некоторая система представления знаний. Более того, многие авторы указывают на необходимость использования знаний и в самом процессе анализа изображений [83, 84]. Аргументация здесь используется примерно следующая: если мы издали видим темное пятно над столом, то мы можем догадаться, что это телефон, хотя информации в самом изображении телефона для этого недостаточно, то есть мы используем для анализа изображения высокоуровневую информацию. В связи с этим полагается, что и весь процесс обработки зрительной информации должен вестись под управлением знаний (подход сверху вниз). В качестве основной аргументации [4] в пользу этого выступает утверждение о недостоверности результатов, полученных в подходах, ведомых данными (подходах снизу вверх), и о проблеме комбинаторного взрыва количества возможных различных интерпретаций. В классическом распознавании изображений знания описываются в терминах тех представлений, которые используются в самих алгоритмах распознавания. Распознавание может вестись на основе каких-либо низкоуровневых представлений, тогда и объект описывается соответствующим образом, например, в виде его инвариантных признаков [37, 85], коэффициентов Фурье или вейвлет преобразования [46, 86] и т.д. Распознаваемые объекты могут храниться в виде контурных [63] или структурных [82] описаний, если привлекаются более абстрактные представления. Таким образом, распознавание часто сводится к получению описания изображения и его сравнению (вычисление некоторой меры сходства) с описанием объекта, поиск которого производится. Если в классическом распознавании изображений знания представляются неявно, то в последние десятилетия появилась тенденция явного представления знаний в системах автоматической интерпретации изображений. Здесь выделяют три типа знаний [83]: перцепционное, семантическое и функциональное знание. Перцепционное знание позволяет интерпретировать изображения в терминах линий, областей и т.д., в то время как семантическое знание описывает определенные абстрактные понятия, такие как форма или конкретные объекты и отношения между ними. Функциональное
23
знание предназначено для регулирования процесса интерпретации изображения в зависимости от предметной области и поставленной цели. Существуют следующие подходы к представлению знаний в системах анализа изображений: семантические сети [87, 88], объектно-ориентированные представления и фреймы [12, 84, 89], продукционные системы [83, 87], мультиагентный подход [90, 91], представления, основанные на логике предикатов, и некоторые другие. Часто для записи знаний различного типа в одной системе может привлекаться несколько представлений. Все эти представления заимствованы из теории экспертных систем. Как
правило,
системы,
основанные
на
знаниях,
априорно
имеют
высокоуровневое описание сцены (напр., [87]). Задача заключается в привязке этого высокоуровневого описания к изображению, а вовсе не в построении самого описания. Высокоуровневое описание сцены задается не полностью: могут быть неточно известны положения объектов, какие-то объекты или их части в априорном описании могут быть пропущены из-за неполноты этого описания или могут быть указаны лишние, если часть объекта закрыта. Однако выбор всегда осуществляется из малого числа альтернативных описаний сцены, каждое из которых выдвигается в качестве гипотезы и проверяется на соответствие с изображением. Это позволяет избежать комбинаторного взрыва числа возможных описаний, характерного для подхода снизу вверх, однако методы, основанные на знаниях, способны работать лишь в сильно ограниченных предметных областях. Более того, при разработке систем, основанных на знаниях, также возникает потребность решать проблему построения промежуточных описаний изображений. Например, в работах [87, 92] используется одна и та же система AIDA (в ней семантические
знания
представляются
с
помощью
семантических
сетей,
а
функциональные – с помощью продукционных правил) для двух разных задач: восстановления трехмерной формы близких объектов и выбора опорных точек на аэрокосмических изображениях. Однако в каждом из применений этой системы оказывается необходимым решать свои задачи более низкого уровня: сегментация по яркостному изображению и карте глубины в первом случае и выделение узких полос на изображении (параллельных контуров на градиентном изображении) во втором случае. В системах, подобных системе AIDA, также используется ряд концептов (например,
24
полигон) и взаимосвязей между ними (например, понятие перпендикулярности), которые неявно закладываются в алгоритмы первоначального анализа изображений. Лишь иногда эти понятия выделяются в явном виде в качестве перцепционных знаний. Поскольку полнота системы низкоуровневых понятий не исследуется, далеко не любые высокоуровневые знания могут быть представлены в рамках выбранного формализма (например, семантических сетей). Значит, при применении подобных систем к конкретным задачам значительная часть работы переносится на разработчика, который выбирает низкоуровневые признаки
и
реализует
эвристические
процедуры
их
выделения.
При
этом
универсальный набор необходимых низкоуровневых признаков не обсуждается. Таким образом, прежде чем рассматривать возможность создания системы распознавания, способной строить семантическое описание произвольной сцены в рамках некоторого представления знаний, необходимо решить проблему построения промежуточных представлений. Представления, основанные на знаниях, используются и для распознавания сцен [93]. Эти методы весьма схожи с методами структурного сопоставления, где структурные элементы заменяются метками, соответствующими реальным объектам на изображениях. В отличие от структурных элементов, метки являются более уникальными и легче отождествляются друг с другом. Как уже отмечалось, существующие представления, основанные на знаниях, полностью зависят от предметной области и для переноса на другую область требуют существенных трудозатрат. Однако подход на основе знаний может быть эффективно использован в случае наличия текстовых аннотаций к распознаваемым изображениям [1].
25
8. Подходы к заданию критерия качества в методах анализа и распознавания изображений 8.1. Эвристические методы Критерий, на основе которого определяется степень соответствия двух изображений при том или ином их взаимном преобразовании, является существенным компонентном методов распознавания. В то же время во многих методах используются критерии, применимость которых строго не обосновывается, либо обосновывается в рамках очень сильных ограничений. К подобным критериям относятся, к примеру, коэффициент корреляции для значений яркостей [22, 25], мера Хаусдорфа для контуров [15, 47] или среднеквадратичное отклонение для структурных элементов или точек интереса [3, 73]. Хотя все эти критерии и имеют некоторую математическую основу, их применение к реальным изображениям во многом эвристично. В частности, это связано с тем, что использование подобных критериев для точек интереса, контуров или структурных элементов осуществляется безотносительно к способу получения тех или иных сопоставляемых элементов изображения. Кроме этого, каждый из указанных критериев привлекается для конкретного типа представлений изображений. Можно показать [18], что эти критерии могут быть получены как частные следствия более общих критериев, таких как апостериорная вероятность или количество информации, при наложении ряда упрощающих ограничений. Эти ограничения (часто не указываемые при описании того или иного критерия и присутствующие в них лишь неявно) необходимо учитывать на практике. Помимо частных критериев, которые все же имеют какое-то обоснование, часто привлекаются ad hoc критерии (см., напр., [78-81]), подобранные на основе опыта разработчиков и их здравого смысла для конкретной задачи. Такие критерии обладают большим разнообразием и низкой достоверностью. В связи с этим, эвристические методы рекомендуется применять только на начальном этапе проектирования систем анализа изображений.
26
8.2. Байесовские методы Байесовский подход к анализу изображений является одним из наиболее разработанных общих и строго обоснованных подходов к заданию критерия качества решения. Данный подход может применяться как для распознавания изображений на основе различных типов представлений [94, 95], так и для построения описаний изображений в рамках этих представлений [96-99], а также решения ряда других задач анализа изображений [100-102]. В рамках данного подхода решение выбирается на основе его апостериорной вероятности, вычисляемой по правилу Байеса:
P(h | f )
P ( h) P ( f | h ) , P( f )
где P(h | f ) – апостериорная вероятность решения (гипотезы) h при данном изображении f, P( f | h) – правдоподобие данных (изображения) f в рамках решения h, P(h) – априорная вероятность решения h, P( f ) – априорная вероятность появления
изображения f, не влияющая на выбор решения. В качестве решения h может выступать описание любого уровня (признаковое, контурное, структурное), в том числе и результат распознавания изображения. К примеру, в рамках низкоуровневых методов
предполагается, что имеется набор
скрытых переменных χ (1 ,..., N ) с заданной плотностью распределения априорных вероятностей
p(χ ) ,
а
также
функция
построения
изображения,
задающая
распределение вероятностей по изображениям при данных скрытых переменных: p( f | χ ) , где f – изображение. Описанием конкретного изображения будет являться
набор значений этих скрытых переменных. Приведем простейшую модель [69], в которой интенсивности отдельных пикселей считаются распределенными по одному и тому же нормальному закону, характеризующемуся двумя параметрами: (средним) a и (дисперсией) :
p f | (a, )
p( f ( x, y)) ( x, y )
( f ( x, y) a) 2 1 exp . 2 2 ( x , y ) 2
27
Эта модель, очевидно, очень упрощенная, так как она не учитывает пространственные зависимости, которые как раз и характеризуют изображения. Однако в силу своей простоты она является удобной стартовой точкой при построении более сложных статистических моделей [69]. Более сложные модели могут включать учет статистик высоких порядков, ограничения на пространственный спектр или некоторые общие предположения о свойствах изображений, такие как инвариантность к масштабу или стационарность (см., напр., [103]). Однако повышению адекватности стохастических моделей препятствуют два обстоятельства: трудность явного задания распределения вероятностей P( f | h) для высокоуровневых
представлений
изображений
и
неизвестность
априорного
распределения вероятностей P(h) , которое существенным образом сказывается на выборе решения [101], но при этом в рамках байесовского подхода не может быть строго определено [104]. При математической корректности и широкой распространенности байесовского подхода он обладает рядом методологических недостатков, связанных с выбором распределения априорных вероятностей и заданием плотности распределения условных вероятностей на множестве изображений, что накладывает ограничения на применение данного подхода совместно с некоторыми типами представления изображений. 8.3. Энтропийные методы В рамках энропийного подхода к анализу изображений основной величиной, на основе которой осуществляется выбор решения, является энтропия, введенная в шенноновской теории информации.
В этой теории количество информации,
содержащееся в некотором сообщении, определяется как
I ( x) log 2 P( x) , где x – значение некоторой случайной величины, P(x) – вероятность принятия случайной величиной данного значения, I(x) – количество собственной информации в сообщении, содержащем значение x. Математическое ожидание E X I (X ) количества информации I (X ) называется энтропией H (X ) данной случайной величины X:
28
H ( X ) E X I ( X ) I ( x) P( x) P( x) log 2 P( x) . x
x
Энтропия значений, хранящихся в пикселях изображения, H f ( x, y) | h , вычисленная при некоторой гипотезе h, выступает в качестве критерия выбора решения. Согласно принципу минимума энтропии [17], лучшим является решение, для которого достигается минимум энтропии. Данный принцип может быть выведен из правила Байеса. В результате логарифмирования можно получить
I (h | f ) I ( f | h) I (h) I ( f ) . Если пренебречь значением I(h), то выбор решения будет осуществляться только на основе величины I ( f | h) . Для изображений эта величина имеет вид энтропии. К примеру, если точки изображения рассматриваются как независимые, то вероятность для всего изображения представляется как произведение вероятностей для каждой его точки:
p( f | h) p( f ( x, y) | h) , ( x, y (
откуда
I f | h log 2 p f ( x, y) | h p f ( x, y) z | hlog 2 p f ( x, y) z | h H f ( x, y) | h . ( x, y )
z
Поскольку в шенноновской теории количество информации вычисляется через вероятности, неудивительно, что энтропийные методы анализа изображений наследуют все те трудности, с которыми сталкиваются байесовские методы. В частности, вычислить количество информации I(h), содержащейся в гипотезе h, невозможно без знания априорной вероятности P(h). В принципе минимума энтропии эта трудность игнорируется. Данный принцип, однако, дополняется важным принципом максимума энтропии [17]. Согласно этому принципу, если какие-то два статистических распределения одинаково хорошо описывают наблюдаемые частоты значений некоторой случайной величины, то следует выбрать распределение, обладающее максимальной энтропией. Принцип максимума энтропии может служить руководством для задания априорных распределений вероятностей. Плотность распределения случайной величины выступает
29
в
роли
статистической
модели
источника
информации.
Выбор
плотности
распределения с максимальной энтропией – это выбор модели, в которую не привнесено информации, помимо той, которая содержится в исходных данных. Это часто отождествляют с выбором наименее детальной или наиболее простой модели [17]. Сочетание принципов минимума и максимума энтропии приводит к подходу минимакса энтропии [17], в котором выбор модели осуществляется как поиск компромисса между ее точностью и простотой, выраженных в форме энтропии. Таким образом, энтропийные методы имеют много общего с байесовскими методами. В них остается нерешенной проблема выбора формы распределения условных вероятностей и лишь частично решена проблема выбора априорных вероятностей решений. Энтропийные методы нашли широкое применение в задачах совмещения изображений [105-107], выявления изменений в серии изображений [108], извлечении признаков [109] и построении контуров [110], реставрации изображений [111], распознавании объектов [112] и т.д. 8.4. Теоретико-информационные методы Теоретико-информационный подход к анализу изображений основывается на принципе минимальной длины описания. Данный подход базируется
не на
шенноновской, а на алгоритмической теории информации, в которой количество информации вводится, исходя из комбинаторных соображений. Шенноновская теория информации базируется на теории вероятностей. По утверждению А.Н. Колмогорова, реальная сущность энтропии основывается на чисто комбинаторных
предположениях,
которые
несравненно
более
слабые,
чем
привлеченные К. Шенноном вероятностные предположения. Основная идея А.Н. Колмогорова [113] заключалась в том, что теория информации должна предшествовать теории вероятностей, а не основываться на ней, поскольку в отличие от последней основания теории информации по самой своей сути должны иметь конечный комбинаторный характер. Одним из способов такого определения количества информации является ее определение на основе формального понятия алгоритма, в качестве которого чаще
30
всего привлекается машина Тьюринга. Тогда количество информации, содержащейся в некотором наборе данных, понимается как длина минимальной программы, которая способна породить этот набор данных [114]. Выбор осуществляется шенноновской оптимальные
модели
источника
информации
путем
обращения
идеи
из
модели
теории коды,
здесь
знания же
в
рамках
оптимального
наилучшая
источника модель
данного
кодирования сообщений
определяется
подхода [115]:
в
выводились как
модель,
обеспечивающая оптимальное кодирование. Из этих соображений может быть выведен принцип минимальной длины описания [114]: наилучшей моделью является та модель, которая позволяет минимизировать сумму: - длины описания модели; - длины описания данных в рамках модели. Существует
несколько
близких
теоретико-информационных
подходов,
опирающихся на алгоритмическую теорию информации [116-120], однако в методах анализа изображений длины описаний вычисляются без прямого обращения к данной теории. Вместо этого используются явные представления изображений, задающие алгоритмы восстановления исходных изображений по их описаниям. По сути, представление задает априорное распределение вероятностей на множестве решений, а длина описания изображения заменяет значение правдоподобия [5]. Во многих случаях использование данного подхода оказывается эффективнее, чем явное задание априорных вероятностей P(h) и формы распределения P( f | h) . Привлечение понятия представления изображений позволяет объединять этот подход естественным образом с низкоуровневыми, признаковыми, контурными и структурными методами. В области анализа изображений принцип МДО стал активно применяться, начиная с 1990-х годов, и область его применения расширяется. Перечислим ряд примеров.
Сегментация (по текстуре или цвету) изображения [121-123].
Выделение признаков на изображении [69].
Построение структурных элементов изображения [124] и их группирование [125], а также описание формы границ областей [126, 127].
31
Распознавание объектов на изображении [128] и распознавание рукописных символов [129, 130].
Оценивание параметров пространственного преобразования между парой изображений одной и той же сцены, снятой с разных ракурсов, по набору опорных точек [131] и собственно сопоставление и совмещение пары изображений (нахождение соответствия между точками изображений) [132].
Оценивание поля движения по видеосерии [133-135]. Перспективным признается использование принципа МДО в задаче выявления
изменений [136], а также в ряде других задач анализа изображений [137-139]. В то же время на настоящий момент методология использования принципа МДО является заметно менее развитой, чем методология байесовского подхода.
32
Заключение Широкое разнообразие методов анализа изображений объективно обусловлено большим количеством предметных областей, в которых эти методы применяются. Изображения в разных предметных областях могут варьироваться как по своему содержанию, для описания которого может оказаться эффективным то или иное представление изображений, так и по степени изменчивости изображений (типичными причинами изменчивости изображений являются смена ракурса съемки, освещения, типа камеры, а также собственная изменчивость объектов). В узких предметных областях с низкой изменчивостью изображений наиболее практичными могут оказаться признаковые методы. Глобальные признаки позволяют осуществлять быструю категоризацию изображений или распознавание изолированных объектов. Простыми в реализации являются корреляционные методы, которые, в отличие от признаковых методов, позволяют распознавать объект на изображении, содержащем несколько объектов, однако корреляционные методы более чувствительны к геометрическим и яркостным преобразованиям изображений. Методы обеих указанных групп обладают низкой степенью инвариантности к разнообразным факторам изменчивости изображений, в связи с чем являются недостаточно универсальными. Структурные методы обладают наибольшей степенью инвариантности и применимы к широким предметным областям с большой изменчивостью изображений. В то же время при построении структурных описаний происходит, как правило, потеря большого объема информации, в связи с чем эти методы не применимы к малоразмерным объектам. Структурное распознавание изображение можно также оказаться весьма ресурсоемким из-за необходимости перебора большого числа вариантов сопоставления структурных элементов. Однако при наличии перспективных искажений или сложных типов изменчивости объектов на изображениях альтернативу структурным методам найти затруднительно. Повышение эффективности структурных методов может быть достигнуто за счет дополнительного использования локальных текстурных и цветовых признаков.
33
Компромисс между низкоуровневыми и структурными методами представляют контурные методы распознавания изображений, которые допускают достаточно простую и эффективную реализацию. Наиболее существенным недостатком контурных методов является трудность их применения в случаях сложных пространственных преобразований изображений. Перспективными
для
построения
универсальных
систем
распознавания
изображений могут оказаться иерархические методы [13, 140], включающие несколько взаимодействующих
уровней
описания
изображений.
Однако
их
применение
ограничено слабой проработанностью теории создания подобных иерархических систем. Критерий выбора решения также является важным компонентом методов распознавания. С возрастанием сложности используемого представления повышается сложность задания адекватного критерия, и возрастает влияние критерия на эффективность метода распознавания. В простейших случаях могут быть использованы эвристические критерии, введение которых требует наименьших трудозатрат. Байесовский подход является наиболее разработанным и может быть рекомендован к использованию на практике в большинстве случаев. Однако для наиболее сложных случаев (как по используемым представлениям, так и по степени изменчивости изображений и широты предметной области) перспективным представляется задание критерия выбора решения на основе принципа минимальной длины описания. Существует множество задач, требующих применения методов распознавания изображений в информационно-телекоммуникационных системах. Можно выделить два класса задач в зависимости от того, являются ли распознаваемые объекты произвольными или относятся к четко определенному типу (лицам, зданиям, иероглифам и т.д.). Задачи первого класса, возникающие, например, при проведении видеоконференций или при поиске антропогенных объектов в гео-информационных системах, имеют решения приемлемого качества. Для получения этих решений привлекаются корреляционные, признаковые, контурные или структурные методы в зависимости от типа распознаваемых объектов. К примеру, признаковые методы часто применяются в задачах распознавания лиц, поиска местности заданного типа на аэрокосмических изображениях, категоризации изображений и т.д. Контурные и
34
структурные методы чаще используются для распознавания иероглифов, поиска объектов искусственного происхождения на аэрокосмических снимках, поиска изображения по цифровой карте местности в гео-информационных системах или объекта по чертежу в конструкторских базах данных, поиска изображения по наброску, выполненному от руки. Задачи
второго
класса связаны с построением
универсальных
систем
распознавания изображений. Такие задачи возникают при построении систем информационного поиска в домашних фотоальбомах, базах торговых знаков, фотостоках,
сети
Интернет,
где
изображения
могут
обладать
произвольным
содержанием. На настоящий момент большинство функционирующих систем подобного типа используют текстовые аннотации или ключевые слова, на основе которых производится поиск. К примеру, изображения на фотостоках обычно содержат порядка 50 ключевых слов, по совпадению с которыми пользователи, намеривающиеся приобрести фотографии, осуществляют поиск. Тот же принцип используется при проверке уникальности торговых знаков. В результате, пользователи оказываются перед необходимостью просмотра сотен и тысяч изображений в поисках требуемого изображения, которого может и не оказаться в отобранном по ключевым словам наборе. Кроме того, необходимость составления текстовых аннотаций и списков ключевых слов осложняет процесс создания соответствующих баз изображений. К сожалению, существующие методы распознавания изображений (среди которых привлекаются признаковые, контурные и структурные методы) лишь в незначительной степени позволяют облегчить данную проблему. Тем не менее, приложение методов анализа изображений к задачам, не включающим ограничения на типы распознаваемых изображений, являются наиболее перспективными, но требующим развития как теории построения иерархических представлений изображений, так и теории задания критерия выбора решения в методах распознавания, использующих подобные представления.
35
Литература 1. Popescu A., Moëllic P.-A., Millet Ch. SemRetriev: an ontology driven image retrieval system. // Proc. 6th ACM Int. conf. on Image and Video Retrieval. 2007. P. 113–116. 2. Hörster E., Lienhart R., Slaney M. Image retrieval on large-scale image databases // Proc. 6th ACM int. conf. on Image and Video Retrieval, CIVR 2007. 2007. P. 17–24. 3. Lutsiv V.R., Malyshev I.A., Pepelka V., Potapov A.S. Target independent algorithms for description and structural matching of aerospace photographs // Proc. SPIE. 2002. V. 4741. P. 351–362. 4. Rares A., Reinders M.J.T., Hendriks E.A. Image interpretation systems // Technical Report (MCCWS 2.1.1.3.C), MCCWS project, Information and Communication Theory Group. TU Delft. 1999. 32 p. 5. Потапов А.С. Исследование представлений изображений на основе принципа репрезентационной длины описания // Изв. вузов. Приборостроение. 2008. Т. 51. № 7. С. 3-7. 6. Марр Д. Зрение. Информационный подход к изучению представления и обработки зрительных образов: М., Радио и связь. 1987. 400 с. 7. Chan T.F., Shen J., and Vese L. Variational PDE models in image processing // Notice Amer. Math. Soc. 2003. V. 50. P. 14–26. 8. Lei B.J., Hendriks E.A., Reinders M.J.T. On feature extraction from images // Technical Report, Deliverable 2.1.1.2.A+B, MCCWS project, Information and Communication Theory Group. TU Delft. 1999. 57 p. 9. Baker S. Design and Evaluation of Feature Detectors: PhD thesis. Columbia University. 1998. 167 p. 10. Фурман Я.А. и др. Введение в контурный анализ и его приложения к обработке изображений и сигналов: М., ФИЗМАТЛИТ. 2002. 592 с. 11. Фу К. Структурные методы в распознавании образов: М., Мир. 1977. 320 с. 12. Crevier D., Lepage R. Knowledge-based image understanding systems: a survey // Comp. Vision and Image Understanding. 1997. V. 67. № 2. P. 161–185. 13. Lutsiv V., Malyshev I., Potapov A. Hierarchical structural matching algorithms for registration of aerospace images // Proc. SPIE. 2003. V. 5238. P. 164–175.
36
14. Keysers D., Deselaers T., Gollan C., Ney H. Deformation models for image recognition // Trans. on Pattern Analysis and Machine Intelligence. 2007. V. 29. № 8. P. 1422–1435. 15. Yang C.H.T., Lai S.H., Chang L.W. Hybrid image matching combining Hausdorff distance with normalized gradient matching // Pattern Recognition. 2007. V. 40. № 4. P. 1173–1181. 16. Kopparapu S.K., Desai U.B. Bayesian approach to image interpretation // The Springer International Series in Engineering and Computer Science. 2001. V. 616. 127 p. 17. Zhu S.C., Wu Y., Mumford D. Minimax entropy principle and its application to texture modeling // Neural Computation. 1997. № 9. P. 1627–1660. 18. Потапов А.С. Распознавание образов и машинное восприятие: общий подход на основе принципа минимальной длины описания: С-Пб, Политехника. 2007. 548 с. 19. Brown L.G. A survey of image registration techniques // ACM Computing surveys. 1992. V. 24. P. 325–376. 20. Nacken P. Image analysis methods based on hierarchies of graphs and multi-scale mathematical morphology: PhD thesis, Univ. of Amsterdam. 1994. 176 p. 21. Pinz A. Interpretation and fusion - recognition versus reconstruction // In Pinz A. and Burger W., eds. Vision Milestones 1995, OGAI lecture series. 1995. P. 9–21. 22. Essannouni L., Ibn-Elhaj E., Aboutajdine D. Fast cross-spectral image registration using new robust correlation // J. of Real-Time Image Processing. 2006. V. 1. № 2. P. 123–129. 23. Потапов А.С., Малышев И.А., Луцив В.Р. Совмещение аэрокосмических изображений с субпиксельной точностью методом локальной корреляции // Оптический журнал. 2004. Т. 71. № 5. С. 31–36. 24. Casasent D. and Psaltis D. Deformation-invariant, space-variant optical pattern recognition // Progress in Optics. 1978. V. 16. P. 291–365. 25. Lan Z-D., Mohr R., Remagnino P. Robust matching by partial correlation // Proc. 6th British Machine Vision Conference. 1995. P. 651–660. 26. Goecke R., Asthana A., Pettersson N., Petersson L. Visual vehicle egomotion estimation using the Fourier-Mellin transform // IEEE Trans. Intelligent Vehicles Symposium. 2007. P. 450–455. 27. Розенфельд А., Дейвис Л.С. Сегментация и модели изображения // ТИИЭР. 1979. Т. 67. № 5. С. 71–81.
37
28. Zhu S.C., Wu Y.N., Mumford D.B. Filters, random fields, and maximum entropy (FRAME): towards a unified theory for texture modeling // Int’l J. Computer Vision. 1998. V. 27. No. 2. P. 1–20. 29. Tu Z.W. and Zhu S.C. Image Segmentation by data driven Markov chain Monte Carlo // IEEE Trans. PAMI. 2002. V. 24. No. 5. P. 657–673. 30. Прэтт У. Цифровая обработка изображений: М.. Мир. 1982. Кн. 2. 480 с. 31. Geman D. et al. Boundary detection by constrained optimization // IEEE Trans. Pattern Analysis and Machine Intelligence (PAMI). 1990. V. 12. P. 609–628. 32. Geman S., Geman D. Stochastic relaxation, Gibbs distributions and Bayesian restoration of images // IEEE Trans. PAMI. 1984. V. 6. P. 721–741. 33. Mumford D., Shah J. Optimal approximation by piecewise smooth functions // Comm. Pure and Appl. Math. 1989. V. 42. P. 577–685. 34. Castleman K.R. Digital Image Processing: New York, Prentice Hall Press. 1996. 667 p. 35. Moravec H.P. Visual mapping by a robot rover // Proc. 6th Int. Joint Conf. on Artificial Intelligence. 1979. P. 598–600. 36. Petrou M., Kadyrov A. Affine invariant features from the trace transform // IEEE Trans. on Pattern Analysis and Machine Intelligence. 2004. V. 26. № 1. P. 30–44. 37. Lowe D. Object recognition from local scale-invariant features // Proc. Int. Conf. on Computer Vision. 1999. P. 1150–1157. 38. Разин И.В., Тетерин В.В. Математическая модель для экспресс-оценки степени сходства изображений // Оптический журнал. 2001. № 11. С. 33–37. 39. Kruizinga P., Petkov N. Nonlinear operator for oriented texture // IEEE Trans. on Image Processing/ 1999. V. 8. № 10. P. 1395–1407. 40. Portilla J., Simoncelli E.P. A parametric texture model based on joint statistics of complex wavelet coefficients // Int. J. of Computer Vision. 2000. V. 40. № 1. P. 49–71. 41. Вапник В.Н., Червоненкис А. Теория распознавания образов: М., Наука. 1974. 415 с. 42. Vapnik V.N. Statistical Learning Theory: N.Y., Wiley. 1998. 43. Tenmoto H., Kudo M., Shimbo M. MDL-Based selection of the number of components in mixture models for pattern classification. In: Advances in Pattern Recognition, A. Amin, D. Dori, P. Pudil, and H. Freeman, eds. Lecture Notes in Computer Science. No. 1451. Springer, 1998. P. 831–836.
38
44. Baumberg A. Reliable feature matching across widely separated views // Conf. on Computer Vision and Pattern Recognition. 2000. P. 774–781. 45. Rao C., Guo Y., Sawhney H.S., Kumar R. A heterogeneous feature-based image alignment method // Int. Conf. on Pattern Recognition, ICVR06. 2006. P. 345–350. 46. Zavorin I., LeMoigne J. Use of multiresolution wavelet feature pyramids for automatic registration of multisensor imagery // IEEE Trans. Image Processing. 2005. V. 14. № 6. P. 770–782. 47. Olson C.F. A probabilistic formulation for Hausdorff matching // Proc. IEEE Conf. on Computer Vision and Pattern Recognition. 1998. P. 150–156. 48. Efrat A., Gotsman C. Subpixel image registration using circular fiducials // Int. J. Comp. Geom. and Appl. 1994. V. 4, No. 4. P. 403–422. 49. Lutsiv V., Malyshev I., Potapov A. Hierarchical structural matching algorithms for registration of aerospace images // Proc. SPIE. 2003. V. 5238. P. 164–175. 50. Lutsiv V., Potapov A., Novikova T., Lapina N. Hierarchical 3D structural matching in the aerospace photographs and indoor scenes // Proc. SPIE. 2005. V. 5807. P. 455–466. 51. Абду И.Э., Прэтт У.К. Количественный расчет детекторов контуров, основанных на подчеркивании перепадов яркости с последующим пороговым ограничением // ТИИЭР. 1979. Т. 67. № 5. С. 59–70. 52. Павлидис Т. Иерархические методы в структурном распознавании образов // ТИИЭР. 1979. Т. 67. № 5. С. 39–49. 53. Робертс Л. Автоматическое восприятие трехмерных сцен. // В кн. Интегральные роботы: М., Мир. 1973. С. 162–208. 54. Prewitt J.M.S. Object enhancement and extraction. In: Picture Processing and Psychopictorics, Lipkin B.S. and Rosenfeld A., eds. New York, Academic Press. 1970. P. 75–149. 55. Дуда Р.,Харт П. Распознавание образов и анализ сцен: М., Мир.1976. 511 с. 56. Marr D. and Hildreth E. Theory of edge detection // Proc. R. Soc. Lond. B207. 1980. P. 187–217. 57. Canny J.F. A computational approach to edge detection // IEEE Trans. Pattern Analysis and Machine Intelligence. 1986. V. 8. No. 6. P. 679–698.
39
58. Deriche R. Optimal edge detection using recursive filtering // Proc. 1st Int. Conf. Computer Vision. 1987. P. 501–505. 59. Lindeberg T. Edge detection and ridge detection with automatic scale selection // Int. J. of Computer Vision. 1998. V. 30. Iss. 2. P. 117–156. 60. Park R.-H., Yoon K.S., Choi W.Y. Eight-point discrete Hartley transform as an edge operator and its interpretation in the frequency domain // Pattern Recognition Letters. 1998. V. 19. P. 569–574. 61. Chanda B., Kundu M.K., Padmaja Y.V. A multi-scale morphologic edge detector // Pattern Recognition. 1998. V. 31. No. 10. P. 1469–1478. 62. Grimson W.E.L. and Marr D. A computer implementation of a theory of human stereo vision // Proc. ARPA Image Understanding Workshop, L.S. Baumann, ed., SRI. 1979. P. 41–45. 63. Olson C.F., Huttenlocher D. Automated target recognition by matching oriented edge pixels // IEEE Trans. on Image processing. 1997. V. 6. No 1. P. 103–113. 64. Pinz A., Prantl M., Ganster H. A robust affine matching algorithm using an exponentially decreasing distance function // J. of Universal Computer Science. 1995. V. 1. No. 8. P. 614-631. 65. Smith S.M. and Brady J.M. SUSAN - a new approach to low level image processing // Int. Journal of Computer Vision. 1997. V. 23. No. 1. P. 45-78. 66. Parida L., Geiger D., and Hummel R.. Junctions: detection, classification, and reconstruction // IEEE Trans. Pattern Analysis and Machine Intelligence. 1998. V. 20. No. 7. P. 687-698. 67. Smeraldi, F., Bigun, J. Retinal Vision applied to facial features detection and face authentication // Pattern Recognition Letters. 2002. V. 23. No. 4. P. 463–475. 68. Zhao W., Chellappa R., Phillips P.J., Rosenfeld A. Face recognition: a literature survey //ACM Computing Surveys. 2003. V. 35. P. 399–458. 69. Lillholm M., Nielsen M., Griffin L.D. Feature-Base Image Analysis // Int. J. Computer Vision. 2003. V. 52. No. 2/3. P. 73–95. 70. Lagunovsky D. and Ablameyko S. Straight-line-primitive extraction in grey-scale object recognition // Pattern Recog. Letters. 1999. V. 20. P. 1005–1014.
40
71. Cappellini V., Fini S., Harrigan E., Mecocci A. Circular shape detection in remote sensing multispectral images. In: Visual Form Analysis and Recognition, Arcelli C., Cordella L.P., Sanniti di Baja G., eds. New York, Plenum Press. 1992. P. 119–126. 72. Kanatani K. and Ohta N. Automatic detection of circular objects by ellipse growing // Proc. SSII2002. 2002. P. 355–360. 73. Gander W., Golub G.H., and Strebel R. Fitting of circles and ellipses - least squares solution // BIT. 1994. V. 34. P. 556–577. 74. Fitzgibbon A., Pilu M., Fisher R. Direct least-square fitting of Ellipses // IEEE Trans. PAMI. 1999. V. 21. No. 5. P. 476–480. 75. Gull N. and Zapata E.L. Lower order circle and ellipse Hough transform // Pattern Recognition. 1997. V. 30. No.10. P.1792–1744. 76. McLaughlin R.A. Randomized Hough transform: improved ellipse detection with comparison // Pattern Recognition Letters. 1998. V. 19. P. 299–305. 77. Noronha S., Nevatia R. Detection and modeling of buildings from multiple aerial images // IEEE Trans. PAMI. 2001. V. 23. No. 5. P. 501–518. 78. Iqbal Q. and Aggarwal J.K. Lower-level and high-level approaches to content-based image retrieval // Proc. IEEE South West Symposium on Image Analysis and Interpretation. 2000. P. 197–201. 79. Thomas P. and Vernon D. Image registration by differential evolution // Proc. Irish Machine Vision and Image Processing Conference. 1997. P. 221–225. 80. Jerebko A., Barabanov N., Luciv V., Allinson N. Neural net based image matching // Proc. SPIE. 2000. V. 3962. P. 128–137. 81. Thevenaz P. et al. A pyramid approach to subpixel registration based on intensity // IEEE Trans. Image Processing. 1998. V. 7. No. 1. P. 27–41. 82. Olson C.F. Improving the generalized Hough transform through imperfect grouping // Image and Vision Computing. 1998. V. 16. P. 627–634. 83. Linying S., Sharp B., Chibelushi C. Knowledge-based image understanding: a rule-based production system for X-ray segmentation // Int. Conf. on Enterprise Information Systems (ICEIS). 2002. P. 530–533. 84. Минский М. Фреймы для представления знаний: пер. с англ. – М., Энергия. 1979. 151 с.
41
85. Kreutz M., Völpel B., and Janßen H. Scale-invariant image recognition based on higherorder autocorrelation features // Pattern Recognition. 1996. V.29. No.1. P. 19–26. 86. Shen, L., Bai, L.: A review on Gabor wavelets for face recognition // Pattern Analysis and Applications. 2006. V. 9. P. 273–292. 87. Liedtke C.-E., Grau O., Growe S. Use of explicit knowledge for the reconstruction of 3-D object geometry // Int. Conf. on Computer Analysis of Images and Patterns. 1995. P. 580– 587. 88. Growe S. Knowledge based interpretation of multisensor and multitemporal remote sensing images // IAPRS. 1999. V. 32. Part 7-4-3 W6. P. 130–138. 89. Draper B.A. et al. The Schema System // Int. J. of Computer Vision. 1989. No. 2. P. 209– 250. 90. Boissier O., Demazeau Y. MAVI: A multi-agent system for visual integration // Proc. IEEE Conf. on Multisensor Fusion and Integration for Intelligent Systems. 1994. P. 731– 738. 91. Veenman C.J., Reinders M.J.T. A multi-agent framework for a hybrid facial action tracker // Proc. 4th annual conference of the Advanced School for Computing and Imaging. 1998. P. 127–132. 92. Liedtke C.-E., Buckner J., Grau O., Growe S., Tonjes R. AIDA: a system for the knowledge based interpretation of remote sensing data // 3d Airborne Remote Sensing Conference and Exhibition. 1997. V. 2. P. 313–320. 93. Growe S., Tonjes R. A knowledge based approach to automatic image registration // Proc. Int. Conf. on Image Processing. 1997. V. 3. P. 228–231. 94. Hao Wu, Yunqiang Chen, Tong Fang. Coupled Bayesian framework for dual energy image registration // Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2006. V. 2. P. 2475–2482. 95. Machado A.M.C., Campos M.F.M., Gee J.C. Bayesian model for intensity mapping in magnetic resonance image registration // Journal of Electronic Imaging. 2003. V. 12. Iss. 1. P. 31–39. 96. Konishi S., Yuille A.L., Coughlan J.M., Zhu S.Ch. Statistical edge detection: learning and evaluating edge cues // IEEE Trans. Pattern Analysis and Machine Intelligence. 2003. V. 25. № 1. P. 57–74.
42
97. Nagao K. Bayesian approach with nonlinear kernels to feature extraction // Proc. 17th Int. Conf. on Pattern Recognition (ICPR'04). 2004. V. 2. P. 153–156. 98. Cox I.J., Rehg J.M., Hingorani S. A Bayesian multiple-hypothesis approach to edge grouping and contour segmentation // Int. J. of Computer Vision. 1993. V. 11. № 1. P. 5– 24. 99. Growe S., Schröder T., Liedtke C.-E. Use of Bayesian networks as judgement calculus in a knowledge based image interpretation systems // IAPRS. 2000. V. XXXIII. P. 1–10. 100. Perera A., Hoogs A. Bayesian Object-Level Change Detection in Grayscale Imagery // Proc. Pattern Recognition, 17th International Conference on (ICPR'04). 2004. V. 1. P. 71– 75. 101. Weiss Y., Adelson E.H. Slow and smooth: a Bayesian theory for the combination of local motion signals in human vision // A.I. Memo № 1624, C.B.C.L. Paper № 158. 1998. 42 p. 102. Jia Z., Balasuriya A. Motion based image segmentation with unsupervised Bayesian learning // Proc. IEEE Workshop on Motion and Video Computing. 2005. P. 2–7. 103. Mumford D. and Gidas B. Stochastic models for generic images // Quaterly of Applied Mathematics. 2001. Vol. 59. P. 85–111. 104. Li M., Vitanyi P.M.B. Philosophical issues in Kolmogorov complexity (invited lecture) // Proc. on Automata, Languages and Programming (ICALP '92). 1992. V. 623. P. 1–15. 105. Ma B. Parametric and nonparametric approaches for multisensor data fusion: PhD thesis, University of Michigan. 2001. 196 p. 106. Viola P.A. Alignment by maximization of mutual information: PhD thesis, MIT, Cambridge, Massachusetts. 1995. 156 p. 107. Wang F., Vemuri B. Non-rigid multi-modal image registration using cross-cumulative residual entropy // Int. J. Computer Vision. 2007. V. 74. № 2. P. 201–215. 108. Schneider R.Z., Fernandes D. Entropy among a sequency of SAR images for change detection // Proc. Geoscience and Remote Sensing Symposium (IGARSS '03). 2003. V. 2. P. 1389–1391. 109. Torkkola K. Feature extraction by non-parametric mutual information maximization // J. machine learning research. 2003. V. 3. № 7/8. P. 1415–1438.
43
110. Shuyu Li, Fang Pu, Deyu Li. An improved edge detection algorithm based on area morphology and maximum entropy // Proc. 2nd Int. Conf. Innovative Computing, Informatio and Control (ICICIC 2007). 2007. P. 536. 111. Maisinger K., Hobson M.P., Lasenby A.N. Maximum-entropy image reconstruction using wavelets // Monthly Notices of the Royal Astronomical Society. 2004. V. 347. № 1. P. 339–354. 112. Keysers D., Och F.J., Ney H. Maximum entropy and Gaussian models for image object recognition // Pattern Recognition, 24th DAGM Symposium, Zurich, Switzerland, LNCS 2449. 2002. P. 498–506. 113. Колмогоров А.Н. Комбинаторные основания теории информации и исчисления вероятностей // УМН. 1983. Т. 38. Вып. 4. С. 27–36. 114. Vitanyi P.M.B. and Li M. Minimum description length induction, Bayesianism, and Kolmogorov complexity // IEEE Trans. Information Theory. 2000. V. 46. № 2. P. 446– 464. 115. Solomonoff R.J. The discovery of algorithmic probability // J. of Computer and System Sciences. 1997. V. 55. № 1. P. 73–88. 116. Solomonoff R.J. A formal theory of inductive inference, par1 and part 2 // Information and Control. 1964. V. 7. P. 1–22, 224–254. 117. Wallace C.S., Freeman P.R. Estimation and inference by compact coding // J. Royal Stat. Soc. 1987. Series B. V. 49. № 3. P. 240–251. Discussion: ibid. P. 252–265. 118. Rissanen J.J. Modeling by the shortest data description // Automatica-J.IFAC. 1978. V. 14. P. 465–471. 119. Li M., Vitanyi P.M.B. Inductive reasoning and Kolmogorov complexity // Proc. 4th IEEE Structure in Complexity Theory Conf. 1989. P. 165–185. 120. Vovk V., Gammerman A. Complexity approximation principle // The Computer Journal. 1999. V. 42. № 4. P. 318–322. 121. Luo Q., Khoshgoftaar T.M. Unsupervised multiscale color image segmentation based on MDL principle // IEEE Trans. on Image Processing. 2006. V. 15. № 9. P. 2755–2761. 122. Galland F., Bertaux N., Réfrégier Ph. Multi-component image segmentation in homogeneous regions based on description length minimization: Application to speckle, Poisson and Bernoulli noise // Pattern Recognition. 2005. V. 38. Iss. 11. P. 1926–1936.
44
123. Lee T.C.M. A minimum description length based image segmentation procedure, and its comparison with a cross-validation based segmentation procedure // J. American Statistical Association. 2000. V. 95. P. 259–270. 124. Lindeberg T., Li M.-X. Segmentation and classification of edges using minimum description length approximation and complementary junction cues // Computer Vision and Image Understanding. 1997. V. 67. № 1. P. 88–98. 125. Cazorla M.A. et al. Bayesian models for finding and grouping junctions // Energy Minimization Methods in Computer Vision and Pattern Recognition. 1999. P. 70–82. 126. Ward A., Hamarneh Gh. Statistical shape modeling using MDL incorporating shape, appearance, and expert knowledge // Lecture Notes in Computer Science, Medical Image Computing and Computer-Assisted Intervention (MICCAI). 2007. P. 278–285. 127. Davies R.H., Twining C.J., Cootes T.F., Waterton J.C., Taylor C.J. A minimum description length approach to statistical shape modeling // IEEE Trans. Medical Imaging. 2002. V. 21. № 5. P. 525–537. 128. Lanterman A. Minimum Description Length understanding of infrared scenes // Proc. SPIE. 1998. V. 3371. P. 375–386. 129. Li M., Gao Q. and Vitanyi P.M.B. Recognizing on-line handwritten characters using MDL // Proc. IEEE Information Theory Workshop. 1993. P. 24–25. 130. Gao Q., Li M., Vitanyi P.M.B. Applying MDL to learning best model granularity // Artificial Intelligence. 2000. V. 121. P. 1–29. 131. Yvan G. et al. Self-consistency and MDL: a paradigm for evaluating pointcorrespondence algorithms, and its application to detecting changes in surface elevation // Int. J. of Computer Vision. 2003. V. 51. № 1. P. 63–83. 132. Maybank S.J. and Sturm P.F. MDL, collineations and the fundamental matrix // Proc. 10th British Machine Vision Conference. 1999. P. 53–62. 133. Ayer S., Sawhney H. Layered representation of motion video using robust maximumlikelihood estimation of mixture models and MDL encoding // ICCV. 1995. P. 777–784. 134. Mansouri A.-R. and Konrad J. Minimum description length region tracking with level sets // Proc. SPIE Image and Video Communications and Process. 2000. V. 3974. P. 515– 525.
45
135. Mansouri A.-R. and Konrad J. Motion segmentation with level sets // Proc. IEEE Int. Conf. Image Processing. 1999. V. II. P. 126–130. 136. Radke R.J., Andra S., Al-Kofahi O., Roysam B. Image change detection algorithms: a systematic survey // IEEE Trans. on Image Processing. 2005. V. 14. Iss. 3. P. 294–307. 137. Maybank S.J., Sturm P.F. Minimum description length and the inference of scene structure from images // IEE Colloquium on Applied Statistical Pattern Recognition. 1999. P. 9–16. 138. Feldman J. Perceptual grouping by selection of a logically minimal model // Int. J. Computer Vision. 2003. V. 55. № 1. P. 5–25. 139. Pilu M., Fisher R.B. Part segmentation from 2D edge images by the MDL criterion // Image and Vision Computing. 1997. V. 15. № 8. P. 563–573. 140. Потапов А.С. Теоретико-информационный подход к введению обратных связей в многоуровневых системах компьютерного зрения // Оптический журнал. Т. 74. № 10. 2007. С. 59–65.
46