УДК Проблемы “ложной” компактности в дискретном пространстве признаков в задачах таксономии Крисилов В.А. кандидат технических наук, доцент, заведующий кафедрой системного программного обеспечения института компьютерных систем Одесского Национального политехнического университета, ул. Дерибасовская 20, кв.36, Одесса-26, 65026, Украина Тел.380482227840,
[email protected] Юдин Сергей Анатольевич, студент кафедры СПО, магистр, ОНПУ, ул.ген. Петрова 22-а, кв.17, Одесса , Украина,380482643912,
[email protected] Сухарев Денис Евгеньевич, ассистент кафедры СПО ОНПУ, пр.Академика Глушко 5-б, кв.31, Одесса-113, 65113, Украина, 380482454673,
[email protected] Problems of "false" compactness in discrete space of attributes in tasks of taxonomy. In given article the questions connected to use of algorithms of taxonomy based on hypothesis of λ-compactness are examined; the decision of a problem of the existence of objects in the discrete limited spaces also is offered.
Проблеми “помилкової” компактності в дискретному просторі ознак у задачах таксономії.
Проблемы “ложной” компактности в дискретном пространстве признаков в задачах У даній статті розглядаються таксономии. В данной статье
питання, зв’язані з використанням алгоритмів таксономії заснованих на гіпотезі λ-компактності і пропонується рішення проблеми нерозрізненості об’єктів у дискретних обмежених просторах.
рассматриваются вопросы, связанные с использованием алгоритмов таксономии основанных на гипотезе λкомпактность и предлагается решение проблемы неразличимости объектов в дискретных ограниченных пространствах.
Одной из основных задач интеллектуального анализа данных (ИАД) является таксономия, также называемая кластерным анализом, кластеризацией, группировкой объектов, автоматической классификацией. Решение других задач ИАД, таких, как распознавание образов [1,2,3,8], квалиметрия[3,4], прогнозирование[1,2,8] часто требует проведения предварительного кластерного анализа. Таксономия упрощает последующий анализ данных. Ведь после разбиения множества объектов на классы, отпадает необходимость хранить отдельно описание каждого объекта. В этом случае становится достаточным хранение следующей информации: - характеристики одного наиболее типичного представителя класса (прецедента); - максимально возможное отклонение каждого свойства от среднего; - список объектов, принадлежащих этому классу;
1
Такая форма представления множества объектов, упрощает процедуры анализа данных, а также уменьшает объем памяти, занимаемой этими данными. Однако необходимо заметить, что при проведении таксономии, как следствие уменьшения объема хранимых данных, может происходить потеря информации. Тем не менее, алгоритмы таксономии широко используются и лежат в основе большого количества приложений решающих задачи анализа данных [1,2]. Часто при решении реальных задач ИАД выборки, на которых строится анализ данных, являются неполными, в них встречаются пробелы и ошибки, кроме того, характеристики, представленные в них могут быть измерены в разных шкалах: количественной, отношений порядка, наименований [2]. Очевидно, что в этом случае, для применения статистических алгоритмов к известной объективной информации необходимо добавить ряд субъективных гипотез. Одной из таких эвристических гипотез является гипотеза компактности [1,2]. Эта гипотеза основывается на том, что при правильном выборе системы информативных признаков реализации одного и того же образа отображаются в признаковом пространстве в геометрически близкие точки, образуя при этом компактные скопления. В данной формулировке очень важным является правильный выбор системы признаков. Т.к. если система содержит большое число неинформативных “шумящих” признаков, возможна ситуация, при которой объекты одного и того же образа будут геометрически разбросаны и не будут образовывать скоплений. Наряду с гипотезой компактности получила распространение еще одна эвристическая гипотеза – λ-компактности [1,2]. Часто человек, проводя “ручную” таксономию, придает больше значения нарушению однородности распределения объектов, чем абсолютному расстоянию, между ними. На рис.1 приведен пример такой ситуации: несмотря на то, что абсолютное расстояние между точками 4 и 5 меньше чем между точками 5 и 6 большинство экспертов проводит границу именно между первой парой точек. Этот результат нельзя объяснить с точки зрения гипотезы компактности, однако гипотеза λ-компактности предлагает аппарат, позволяющий не только объяснять, но и получать такие более “естественные” для человека результаты таксономии.
Рис.1. Пример таксономии при неоднородном распределения объектов Гипотеза компактности в своей формулировке опирается на понятие абсолютного расстояния между объектами. В основе гипотезы λ-компактности лежит понятие λ-расстояния (λ), которое учитывает нормированное расстояние между элементами множества (d) и нормированную характеристику локальной плотности множества в окресностях этих элементов (τ) [1,2]. Для того, чтобы рассчитать d необходимо построить полный граф, соединяющий между собой все объекты исследуемого множества. Затем, найти самое длинное ребро – диаметр графа (D). Пусть δ – расстояние меду двумя любыми точками a и b графа, равное длине ребра соединяющего эти точки в полном графе. Тогда нормированное расстояние[2] между двумя любыми точками a и b исследуемого множества вычисляется по формуле: d = δ / D. Для определения нормированной характеристики локальной неоднородности, прежде всего надо найти самое короткое ребро из смежных ребру (a,b) – βmin. Далее находится отношение τ* = δ / βmin. С целью нормализации оно делится на максимальное значение τ*, найденное в полном графе (τmax ). Отношение τ = τ* / τmax представляет собой нормированную характеристику локальной неоднородности [2].
2
Функционал λ = f(τ,d) – называется λ-расстоянием [2], и является основным понятием, с которым оперирует гипотеза λ-компактности. В результате проведения ряда экспериментов[2] было установлено, что зависимость выглядит следующим образом: λ = τ × d . Гипотеза λ-компактности утверждает, что при правильном выборе системы информативных признаков, объекты одного и того же образа формируют λ-компактные скопления, т.е. образуют λ-близкие “сгустки”. При “ручной” таксономии человек стремится проводить границу между таксонами, таким образом, чтобы она проходила через участки с наибольшим λрасстоянием. Однако, при наличии нескольких вариантов таксономии, человек отдает предпочтение варианту, в котором таксоны содержат приблизительно равное количество объектов. Этот критерий получил название критерия равномощности[2]: 2
k
h = kk∏ i =1
mi m
.
Здесь k – количество таксонов, mi – число объектов в i-м таксоне, а m – общее число объектов. Исходя из приведенных выше факторов, влияющих на решение принимаемое человеком при “ручной” таксономии формулируется критерий качества кластерного анализа F=hτd[2]. Дальнейшие исследования[2] показали, что критерий качества действительно зависит от этих трех величин, но они оказывают на него разное влияние: F = hq τs dv. Здесь v,s и q – параметры, позволяющие регулировать влияние конкретного фактора на критерий качества. С целью определения значения этих коэффициентов была проведена серия экспериментов [2]. В окончательном варианте критерий качества таксономии выглядит следующим образом[2]: F = h4τ2d. Этот критерий качества был положен в основу алгоритма таксономии основанного на гипотезе λ-компактности λ-KRAB [1,2]. Работа алгоритма начинается с нахождения пары точек с минимальным значением λ-расстояния между ними. Эти точки соединяются ребром графа. Затем соединяются следующие самые λ-близкие точки, с тем условием, что из одной в другую нельзя попасть по ребрам уже построенного графа – иначе эти точки из рассмотрения исключаются. Процедура заканчивается, когда все точки окажутся присоединенными к графу. Такой граф называется λ-кратчайшим незамкнутым путем (λ-КНП). Затем для разбиения множества A на два таксона необходимо разорвать одно из ребер графа λ-КНП. Выбирается ребро j с λ-длиной
λ j = τ 2j d j . Оставшимися ребрами λ-КНП соединяются два подмножества по mi точек в каждом i-
м подмножестве. Эта информация позволяет для данного варианта разбиения рассчитать характеристику равномощности таксонов hj. Общая оценка качества Fj этого j-го варианта таксономии равна
λ j h 4j .
Вычисление величины Fj для всех (m-1) ребер графа позволяет найти
такой вариант таксономии, при котором достигается максимум критерия F. При помощи таксономии можно решать задачи из разных областей жизнедеятельности человека. Задачи палеонтологии, геологии, экономики, социологии уже сейчас решаются методами, реализующими кластерный анализ. Таксономия может быть успешно применена в задачах ИАД в области образования. Формализованные процедуры формирования классов анализируемых объектов лежат в основе таких распространенных задач как: - Выделение и анализ количественного и качественного состава различных групп успешности учащихся. Под группами успешности в данном случае понимаются таксоны, полученные при анализе успеваемости студентов;
3
-
Анализ временной динамики количественного и качественного состава групп успешности за период обучения – по университету, факультету, специальности, отдельной группе. - Выявление закономерностей и причинно-следственных связей, влияющих на успешность обучения: виды и качество довузовской подготовки, организационные и методические факторы обучения и т.д. Первым шагом для решения этих задач является анализ множества баллов на наличие таксонов, наилучшим образом характеризующих уровень знаний студентов. Следствием такого анализа может быть улучшение качества оценивания работы студентов – выбор оптимальной шкалы баллов, например, путем увеличения степени ее дискретизации. С целью решения задачи выделения количественного и качественного состава различных групп успешности, на базе алгоритма λ-KRAB была разработана программа, реализующая таксономию на множестве положительных оценок, полученных студентами пяти курсов за пять лет обучения – неудовлетворительные оценки в учет не принимались. В качестве источника данных была взята функционирующая база данных системы ”Деканат” института компьютерных систем Одесского национального политехнического университета. Анализ достоверности информации показал, что ошибочные данные составляют около 3-5%. Вследствие чего анализируемая информация считалась корректной. Оценивание студентов в Одесском национальном политехническом университете осуществляется по стобальной шкале. Однако существует формальное отображение этой шкалы в “традиционную” пятибальную систему оценивания: - [0;59] – плохо, неудовлетворительно – 1 и 2; - [60;74] – удовлетворительно – 3; - [75;89] – хорошо – 4; - [90;100] – отлично – 5; Вследствие существования такого отображения и отсутствия в выборке неудовлетворительных баллов, ожидалось выделение трех основных таксонов: [60-74] – троечники, [75-89] – хорошисты, [90-100] – отличники. В качестве информативного признака был принят рейтинговый балл, полученный студентом, в одном акте оценивания. Под актом оценивания понимался зачет, экзамен или курсовой проект. Однако, после отображения объектов в это информативное признаковое пространство была получена шкала [60;100] с единичной градацией в каждом возможном значении которой находились оценки. Естественно, попытка применить к данному одномерному пространству признаков алгоритм таксономии λ-KRAB с целью получения качественной таксономии, ничего не дала. На рис2,a изображено множество объектов, компактность которых исследуется в рамках одного признака, и наиболее естественный результат таксономии. Однако, при дальнейшем исследовании (рис.2,b) оказывается, что точкам А и В, выделенным на рисунке белым цветом, соответствует не один объект, а, к примеру, сто. Остальным же точкам на плоскости соответствует действительно один объект.
a b Рис.2. Пример ложной компактности
4
Т.е. компактные скопления существуют, но они “скрыты”. Вследствие этого, варианты 1 и 2, приведенные на рис.2,b – наиболее предпочтительные варианты таксономии. Однако, в этом случае экспертная таксономия, как и таксономия базирующаяся на гипотезах компактности однозначно разобьют все множество на два таксона так как это показано на рис.2,a. В данном случае результат таксономии будет заведомо неверным. Такие области в множествах объектов, для которых маловероятна или невозможна правильная таксономия будем называть областями ложной компактности. Описанный выше пример рассматривать в непрерывных пространствах не целесообразно, т.к. в таких пространствах вероятность попадания в точку равна нулю. А если координаты объектов в пространстве не совпадают, то между ними появляется ненулевое расстояние, которое дает возможность выделить области компактности и провести правильную таксономию. В частности, для примера, если предположить, что в окресностях точек А и В располагается еще по пятьдесят несовпадающих точек, расстояние между которыми стремится но не равно нулю алгоритмы основывающиеся на гипотезах компактности разделят множество объектов именно так, как это показано на рис2,b. Для дискретных ограниченных пространств вероятность попадания в точку обратно пропорциональна количеству точек, и имеет вполне конкретное численное значение для каждого пространства. Следовательно, в дискретных пространствах возможны ситуации аналогичные приведенному выше примеру. При автоматической таксономии часто решаются задачи именно в дискретных пространствах признаков, поэтому решение проблем ложной компактности из частного случая становится важным элементом анализа в процессе таксономии, основанной на гипотезах компактности. Далее будет предложен метод, позволяющий решить проблему ложной компактности, и дать возможность автоматическим средствам таксономии получать естественный результат в общем случае в ограниченных дискретных пространствах. Примером ограниченного дискретного пространства может быть шкала баллов. В этой шкале баллы могут принимать ограниченное количество строго определенных значений. Шкалы баллов специально разрабатываются таким образом, чтобы в них использовались все возможные значения. Следовательно, рано или поздно возможна ситуация, при которой будут проставлены все возможные баллы. Более того, некоторые одинаковые баллы могут быть проставлены по нескольку раз. Ограниченное дискретное пространство, в котором объекты располагаются, занимая все возможные значения, будем называть заполненным. В этом случае единственным вариантом таксономии представляется выделение всех точек в один таксон, что, как правило, является неудовлетворительным решением. У этой проблемы существует как минимум два варианта решения. Можно увеличить степень дискретизации признакового пространства и построить новые правила отображения в него значений свойств объектов. Это, действительно, может привести к нарушению равномерности распределения объектов в пространстве и ликвидировать его заполненность. Но это решение – временное, т.к. из-за ограниченности дискретных пространств после добавления к множеству исходных объектов нескольких новых, признаковое пространство вновь может оказаться заполненным, и процедуры увеличения степени дискретизации и переформирования правил отображения надо будет реализовывать опять. Второй вариант заключается в выделении “скрытых” всплесков. Заполненность пространства неизбежно приводит к неразличимости объектов. Каждый новый объект, добавляемый в уже заполненное пространство признаков, ничем не отличается от объекта, координаты которого совпадают с координатами нового объекта, но который уже находился в этом пространстве до него. В этом случае оба объекта “сливаются” в одну точку и становятся неразличимыми в выбранном информативном пространстве признаков. В общем случае в заполненном пространстве нельзя точно сказать, сколько объектов находится в той или иной точке. Следовательно, задача состоит в проверке наличия объектов, попадающих в одну и ту же точку, а также количества объектов в каждом таком наборе. Для этого к выбранному ранее информативному признаковому пространству следует добавить еще одно измерение,
5
характеризующее количество объектов в каждой точке. В случае одномерного пространства для этого проще всего построить график, отложив на оси абсцисс дискретные значения признака, а на оси ординат количество объектов попавших в каждое значение – гистограмму. На рис.3 приведена гистограмма баллов, позволяющая наглядно увидеть, как заполненность информативного пространства признаков, так и наличие “скрытых” всплесков.
Рис.3. Гистограмма в случае одномерного пространства признаков Из гистограммы можно однозначно определить наличие компактных всплесков, т.е. решить одну из подзадач ликвидации ложной компактности. Для этого сначала преобразуем координаты объектов на гистограмме, а затем подадим их на вход алгоритма λ-KRAB и построим λ-КНП [1,2]. Для уравнивания влияния всех информативных признаков и количества объектов на вычисление декартового расстояния между точками производятся следующие преобразования: значения координат по всем осям гистограммы нормируются к единице. Для этого по каждому признаку находится максимальное значение этого признака Tmax у объектов исследуемого множества, и все значения этого признака делятся на Tmax. В результате значения всех признаков у объектов находятся в диапазоне [0;1], что соответствует одинаковому влиянию всех признаков на расстояние между объектами. Далее с использованием алгоритма λ-KRAB производится таксономия объектов с нормированными значениями признаков в пространстве информативных признаков и признака, определяющего плотность распределения объектов к дискретном пространстве. На рис.4 приведен λ-КНП, полученный в результате использования алгоритма λKRAB. Пунктиром обозначено самое длинное в графе ребро. Под длиной здесь понимается λрасстояние межу объектами. Цифра рядом с самым длинным ребром – значение λ-расстояния. При таксономии для выделения отдельных таксонов необходимо разрывать самые длинные ребра λКНП, поэтому пунктироное ребро – первый кандидат на разрыв.
6
Рис.4. λ-КНП в нормированном пространстве признаков Как уже упоминалось выше, количество ребер, которые необходимо разорвать для проведения наилучшей, с точки зрения алгоритма, таксономии определяет функция качества таксономии F[1,2], график которой для рассматриваемого λ-КНП, приведен на рис.5.
Рис.5. График функции качества таксономии Как видно из графика на рис.5 наилучшей считается таксономия, разбивающая множество объектов на два таксона, для чего достаточно разорвать ребро, обозначенное пунктиром на рис.4. Разрыв этого ребра приведет к появлению двух таксонов, один из которых содержит все области компактности, а другой, напротив, области в которых не наблюдается всплесков. Следующей подзадачей при решении задачи ликвидации ложной компактности является автоматическое разделение таксона, содержащего “скрытые” наборы объектов, на отдельные
7
таксоны в зависимости от значений признаков у объектов попавших в эти наборы и плотности распределения объектов в этих наборах. Характерно, что на этом шаге анализа информационные признаки важнее плотности распределения, т.к. они несут семантическую нагрузку, а формирование классов несущих смысловую нагрузку – основная цель таксономии. Следовательно, необходимо уменьшить влияние количественного признака. Экспериментально установлено, что для получения в дальнейшем качественных результатов достаточно нормированную к единице частоту попадания объектов в точку уменьшить на два порядка. Поскольку на этом этапе решается задача таксономии области, содержащей “скрытые” всплески, имеет смысл рассматривать только точки находящиеся в этой области, не принимая в учет точки, расположенные в области, где всплесков не наблюдается, как маловлияющие на результаты таксономии. На рис.6 приведен λКНП области всплесков, а на рис.7 – функция, определяющая качество таксономии для этого λКНП. Из графика на рис.7 видно, что лучше всего разделить область на шесть таксонов. Следовательно, необходимо разорвать пять самых длинных ребер. На рис.6 пунктирными линиями показана последовательность разрыва ребер. Каждый из таксонов теперь будет представлять точки, в которых располагаются, “скрытые” наборы объектов. Эти таксоны будем называть основными.
Рис.6. λ-КНП области “скрытых всплесков”
Рис.7. Функция качества таксономии для λ-КНП из рис.6 Первый таксон, находящийся слева от первого разорванного ребра, включает в себя нижний предел троечников. В большинстве своем это двоечники, с трудом “вытягивающие” на тройку или “лентяи” просто не стремящиеся к повышению своего рейтингового балла. Во второй таксон попали люди, стабильно занимающиеся на тройку. Аналогичная ситуация наблюдается для хорошистов и отличников.
8
Включать в основные таксоны, точки из области, где не наблюдается всплесков, можно поразному. Например, можно их распределить, в зависимости от того, в окресность какого основного таксона они попадают. При этом радиус окресности может быть пропорционален количеству объектов в основном таксоне. Еще одним вариантом классификации оставшихся точек может быть включение в основной таксон всех точек расположенных в пространстве перед, либо за ним до следующего таксона. Поскольку одномерное пространство признаков было изначально заполнено, проводить дополнительную таксономию на множестве объектов попавших в таксон, не содержащий всплесков, не имеет смысла. Вместо этого проведем классификацию, и распределим оставшиеся баллы, по уже сформированным таксонам. Будем относить к основному таксону, множество объектов лежащих в одномерном пространстве правее таксона, вплоть до следующего основного таксона. В результате получим следующие таксоны: [60;64] – “слабые” троечники, [65;74] – “стабильные” троечники, [75;79] – “слабые” хорошисты, [80;89] – “стабильные” хорошисты, [90;94] – “слабые” отличники, [95;100] – “стабильные” отличники. Из полученных результатов видно, что не смотря на проблему ложной компактности, произведенная последовательность действий, позволила провести качественную, и обоснованную таксономию. Однако область применимости предложенного алгоритма ограничена. Например, он не позволяет решить задачу таксономии в случае заполненного пространства при условии отсутствия всплесков. В этом случае единственным вариантом решения остается изменение степени дискретизации и правил отображения значений свойств объектов в дискретное пространство признаков. Тем не менее, алгоритм анализа позволяет решить широкий круг задач упирающихся в проблему ложной компактности, а также существенно расширить область применимости алгоритма λ-KRAB и гипотезы λ-компактности. Приведем описание алгоритма. Анализ начинается после определения множества информативных признаков исследуемого множества объектов. • На первом шаге анализа к n-мерному множеству информативных признаков надо добавить еще один n+1-й признак, определяющий распределение точек в дискретном пространстве признаков. • На втором шаге производится нормирование значений n+1 признака. • Строится λ-КНП и функция качества. Если деление на два таксона, является неоптимальным – значительных всплесков в исследуемом множестве нет, и анализ на этом заканчивается. • Если же деление на два таксона является наилучшим вариантом таксономии, причем всем объектам одного из таксонов соответствуют значения плотности распределения, большие чем у любого из объектов другого таксона, строится λ-КНП для первого таксона. При этом важно уменьшить степень влияния частотного признака. • Исходя из значений функции, определяющей качество таксономии, для полученного λКНП формируется множество таксонов. • Решается либо задача классификации объектов принадлежащих таксону с меньшими значениями плотности распределения по сформированным основным таксонам, либо задача таксономии для оставшихся объектов в n-мерном пространстве признаков, что имеет смысл, если это дискретное n-мерное пространство не является заполненным. Проблема ложной компактности – не является частным случаем при таксономии множества объектов в одномерном пространстве признаков. Она может возникнуть в пространствах любой размерности при условии возможности попадания разных объектов в одну и ту же точку пространства.
9
Описанный выше подход к анализу, позволяет однозначно определить наличие “скрытых” наборов объектов, и, если такие наборы в исследуемом множестве есть, решить проблему ложной компактности. Литература: 1. 2. 3. 4. 5. 6. 7. 8.
Загоруйко Н.Г. Гипотезы компактности и λ-компактности в методах анализа данных. Сибирский журнал индустриальной математики. Новосибирск: Январь-июнь. 1998. Том 1. №1. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Издательство Института математики. 1999. 259с. Крисилов В.А., Анализ и унификация задач интеллектуальной обработки данных Крисилов В.А., Оценка сложных объектов – основной механизм при решении задач количественного обоснования решений. Carpenter G.A., Grossberg S. A massively parallel architecture for a self-organizing neural pattern recognition machine. Comput. Vision Graph. Image Process. 1986. Vol.37. P. 54—115. Hopfield J.J., Tank D.W. Neural computation of decisions optimisation problems. Biol. Cybernetic. 1985. Vol.52. P.141—152. Вороновский Г.К., Махотило К.В., Петрашев С.Н., Сергеев С.А.. Генетические алгоритмы, искусственные нейронные сети и проблема виртуальной реальности. Харьков: Основа, 1997. 107 с. Бондарев В.Н., Аде Ф.Г. “Искусственный интеллект”. Севастополь: Изд-во СевНТУ. 2002. 615с.
10