П. Ю. Малков КОЛИЧЕСТВЕННЫЙ АНАЛИЗ биологических данных
ГАГУ – 2005
Федеральное агентство по образованию Государствен...
10 downloads
304 Views
705KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
П. Ю. Малков КОЛИЧЕСТВЕННЫЙ АНАЛИЗ биологических данных
ГАГУ – 2005
Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования «Горно-Алтайский государственный университет»
П.Ю. МАЛКОВ
КОЛИЧЕСТВЕННЫЙ АНАЛИЗ биологических данных учебное пособие
Горно-Алтайск 2005 1
Печатается по решению редакционно-издательского совета Горно-Алтайского государственного университета
ББК 28с М 18 УДК 57.087.1
Малков П. Ю. Количественный анализ биологических данных: Учебное пособие. Горно-Алтайск: РИО ГАГУ, 2009. 71 с. Ответственный редактор: д.б.н. В. М. Ефимов Рецензенты: д.п.н., профессор А. И. Гурьев д.б.н., профессор, Заслуженный деятель науки РФ Ю. С. Равкин В пособии изложены базовые приемы статистической обработки биологических данных. Указаны возможности практической реализации статистического анализа применительно к задачам морфологии организмов, экологии, биогеографии и т.п. Представленные в книге методы не требуют специальной математической подготовки. Учебное пособие предназначено для студентов биологических специальностей, может быть полезно преподавателям средних школ и детских эколого-биологических центров.
© П.Ю. Малков, 2005 © Горно-Алтайский госуниверситет, 2005
2
ПРЕДИСЛОВИЕ Основное назначение предлагаемого учебного пособия - ознакомить студентов биологических специальностей с количественными методами анализа результатов наблюдений. Не претендуя на исчерпывающую полноту изложения, автор акцентирует внимание на базовых понятиях и методах, усвоение которых позволит студентам осознанно подойти к использованию более сложных статистических приёмов. Для углубленного изучения составлен список дополнительной литературы. Рассматриваемые в пособии методы иллюстрируются конкретными примерами, относящимися, преимущественно, к сфере интересов морфологии и экологии животных. Все примеры основаны на реальных исследованиях, опубликованных в монографиях, журналах и сборниках биологического профиля, а также на материалах, собранных автором и его коллегами по кафедре зоологии, экологии и генетики Горно-Алтайского государственного университета (Г-АГУ). Автор выражает искреннюю признательность рецензентам А. И. Гурьеву и Ю. С. Равкину, за внимательное прочтение рукописи и ценные рекомендации. Благодарю Д. Р. Хайдарова, выполнившего рисунок для обложки, В. М. Муравьеву, Н. П., Ю. П. и А. Н. Малковых за предоставленные научные данные. Неоценимую помощь автору оказал В. М. Ефимов, взявший на себя труд отредактировать рукопись.
3
ГЛАВА I ВВЕДЕНИЕ В БИОМЕТРИЮ 1.1. Значение количественных методов в биологии Выдающийся естествоиспытатель Р. Чэпман еще в 1928 году отметил, что “в ходе истории различных ветвей науки можно видеть переход от относительно неточного чистого описания к относительной точности, связанной с количественными методами и математическими вычислениями”. Как показывает опыт, такое утверждение по праву можно отнести практически ко всем биологическим дисциплинам. Безвозвратно уходят в Лету те времена, когда исследователь-биолог лишь на основании личных впечатлений мог говорить: “данные явления отличаются”. Сейчас, для того чтобы иметь шанс быть услышанным, необходимо иметь в запасе более или менее объективные критерии, опираясь на которые можно пытаться познать причинно-следственные отношения. Как правило, это возможно лишь с применением количественных методов анализа, в первую очередь основанных на аппарате математической статистики. Немаловажно и то, что использование таких методов делает описание какого-либо биологического явления действительно международным, выраженным языком цифр, а потому и более универсальным. Обработка количественных данных о биологических объектах и их оценка являются задачей одного из прикладных разделов математической статистики - биологической или вариационной статистики. Слово “статистика” в прямом смысле означает учение о народонаселении, объединенном в некоторую политическую единицу. Из-за зависимости социальных наук от статистических методов широко распространено в корне неправильное представление, что будто бы математическая статистика является методом экономики. Фактически же она не менее тесно связана с биологическими, медицинскими, техническими исследованиями. В последнее время методы математической статистики стали активно применяться в работах по лингвистике, истории и т.п. К слову, именно биологам (особенно на первых порах) принадлежит наиболее весомый вклад в развитие этой науки. Кроме терминов “биологическая” и “вариационная” статистика в биологии зачастую используется термин “биометрия” (от греч. bios - жизнь и metrei - измерять). Статистический анализ эффективен, если в первую очередь представляют интерес общие свойства какого-либо явления. В таких случаях (а они нередки в биологии) приходится жертвовать уникальностями и оперировать наиболее массовыми его проявлениями. Именно в связи с этим исследователю-биологу нередко приходится отвлекаться от конкретного содержания и пользоваться абстрактными значениями. К счастью в статистике, как и в дру-
4
гих математических науках, одна и та же формула может быть использована для анализа разнообразных материальных объектов, что позволяет в большинстве практических случаев использовать ранее уже разработанные и обоснованные методы [Фишер, 1958]. 1.2. Историческая справка Идея использовать математику для описания и анализа биологических явлений витала в умах людей на протяжении всей истории цивилизации. Известно, что ещё древние пифагорейцы считали материальный мир неполноценным воплощением идеальных чисел и полагали возможным при помощи вычислений познать универсальные законы. Значительно позднее Галилео Галилей в знаменитых “Диалогах” [1637], говоря о размерах животных, рассуждал чисто математически и писал, что “скелет животного возрастает как третья степень увеличивающихся линейных размеров” (цит. по: [Шмидт-Ниельсен, 1987]). В начале XIIX века Реомюр пытался найти математические законы строения пчелиных сот, а за 30 лет до него Борелли делал математические расчёты движения животных [Рокицкий, 1973]. В 1835 году вышла книга бельгийского антрополога Кетле, в которой он показал, что самые различные физические особенности человека и даже его поведение согласуется с теорией вероятностей [Лакин, 1990]. Однако лишь в конце XIX – начале XX века, когда торжествуют идеи сэра Чарльза Дарвина и “вопиют” гениальные прозрения монаха Грегора Менделя, когда разработаны основные положения теории вероятностей складываются подходящие условия для зарождения новой науки – биометрии. Наибольшая заслуга в теоретическом обосновании и практической реализации биометрии, бесспорно, принадлежит английской школе статистиков. Во главе школы стояли Френсис Гальтон и его преемник Карл Пирсон. Гальтону принадлежит первая попытка применить статистические методы к решению проблемы наследственности и изменчивости организмов. Он заложил основы регрессионного анализа. Пирсон развил учение о разных типах кривых распределения, разработал критерий χ2, ввёл в биометрию такие показатели, как стандартное отклонение, коэффициент вариации и др. Надо отметить, что исследования Гальтона и Пирсона поначалу не получили признания у научной общественности и их статьи даже отказывались печатать в ведущих научных изданиях, в частности, в докладах Королевского общества (раздел биология). Поэтому в 1901 году Пирсон был вынужден организовать выпуск собственного журнала “Biometrika”, который существует до сих пор и считается наиболее авторитетным изданием в своей области.
5
Недоверие к первым биометрическим работам было обусловлено несколькими причинами. С одной стороны, взгляды Гальтона и Пирсона не укладывались в систему устоявшихся на тот период мнений концептуального характера – парадигму, основанную на музейно-натуралистических подходах к познанию природы. Другая проблема заключалась в том, что первые биометрики акцентировали своё внимание на относительно многочисленных рядах данных и фактически не интересовались анализом так называемых “малых выборок”. Поэтому, даже приняв методологию Гальтона и Пирсона большинство биологов не смогли бы использовать её на практике. Положение стало меняться только после того, как английский ученый В. С. Госсет в 1908 году под псевдонимом Student опубликовал свою работу “Вероятная ошибка средней”, где он описал разработанный им t-критерий. Парадоксально, но эту статью фактически игнорировал К. Пирсон и его ближайшие ученики. Однако она получила своё дальнейшее развитие в трудах другого блистательного английского статистика Рональда Фишера. Вклад этого учёного в методологию и мировоззрение современной биологии, и биологической статистики в частности, трудно переоценить. Его научные работы по праву можно считать вершиной “классической” вариационной и фундаментом “современной” многомерной статистики. Он основатель дисперсионного и дискриминантного анализа. Совместно с американским экономистом Хотеллингом он предложил известную разновидность факторного анализа – метод главных компонент. Кроме того, занимаясь преподавательской деятельностью в Лондонском и Кембриджском университетах, он имел возможность пропагандировать биометрию среди будущей научной элиты, что, безусловно, способствовало её скорейшему развитию. Последующее развитие биометрии связано, преимущественно, с разработкой методов анализа многомерных систем. Особенно интенсивный рост в этом направлении стал наблюдаться после появления мощных вычислительных средств: стационарных ЭВМ и персональных компьютеров. Отметим, что и в настоящее время биологическая статистика ещё не закончила своё развитие, а наоборот переживает бурный рост и подъём во всём мире. Курс биометрии в России стали читать впервые в МГУ в 1919 году. Лекции читал ученый с мировым именем, один из основоположников популяционной генетики С. С. Четвериков. Ценный вклад в развитие и пропаганду методов вариационной статистики в нашей стране в разное время внесли В. И. Василевич, Л. А. Животовский, А. А. Любищев, Б. М. Миркин, Н. А. Плохинский, Ю. А. Песенко, Н. С. Ростова, П. Ф. Рокицкий, Е. С. Смирнов, П. В. Терентьев, Ю. А. Филипченко, А. В. Яблоков и целый ряд других отечественных учёных.
6
1.3. Фундаментальные понятия биометрии Одно из важнейших понятий биометрии – “генеральная совокупность”, т.е. бесконечное множество однородных, но индивидуально различимых объектов. Предположим, мы поставили цель изучить изменчивость массы тела конкретного вида животных, тогда генеральной совокупностью будут данные о массе всех без исключения особях этого вида. Понятно, что при изучении природных популяций в подавляющем большинстве случаев мы не сможем иметь дело с генеральной совокупностью в её полном объёме, а будем располагать лишь какой-то, как правило, очень небольшой, её частью. Такая отобранная тем или иным способом часть генеральной совокупности получила название выборки. На основании этой выборки исследователь и формирует представление о свойствах генеральной совокупности. Основное требование, предъявляемое к любой выборке, это её представительность или репрезентативность (от лат. represento - представляю). Выборка считается репрезентативной в том случае, если она получена путём случайного отбора, поскольку, если в приведённом примере для анализа мы будем отбирать только самые крупные особи, то они будут характеризовать лишь собранный материал, но никак не генеральную совокупность. Традиционно в биометрии сумму членов генеральной совокупности обозначают буквой N, а число наблюдений, образующих выборку - буквой n. При изучении тех или иных объектов исследователь имеет дело с признаками, проявлением которых один предмет отличается от другого. Примерами признаков могут служить - масса и длина тела, окраска и число яиц в гнезде и т.п. Важным свойством признаков является варьирование величины признака при переходе от одной единицы наблюдения к другой. Отдельные числовые значения варьирующего признака называются вариантами (лат. variatio - изменение) или датами (англ. data - данные). Переменные величины принято обозначать прописными латинскими буквами X, Y, Z, а их варианты – строчными буквами (x1, x2, x3 ... xn). В общем виде значения варианты отмечают символом xi, yi, zi. Все признаки можно разделить на две группы – качественные и количественные. Типичные качественные признаки - окраска, пол, возраст, наличие заболевания и т.п. К примеру, в городской популяции сизых голубей можно выделить особей с типичной “сизой” окраской, черночеканных, альбиносов, меланистов, пегих, красных. В таком случае можно без специальных измерений достаточно определенно судить о наличии или отсутствии того или иного признака у конкретной особи.
7
Количественные признаки, в отличие от качественных, можно анализировать лишь на основании специальных измерений или подсчетов. Их подразделяют на континуальные и дискретные. Континуальные признаки теоретически могут принимать любые возможные значения в пределах между минимальным и максимальным показателем признака. К ним относятся масса, линейные размеры и температура организма, содержание биохимических и неорганических веществ в его тканях и т.п. В качестве примера дискретных признаков можно привести число глазков на клубне картофеля, пятен на надкрыльях жука, яиц в гнезде. Отсюда следует, что непосредственно наблюдаемые значения дискретного признака могут характеризоваться лишь целыми числами, тогда как при континуальном варьировании значения признака могут быть как целыми, так и дробными. Иногда вместо непосредственно измеренных значений количественного признака используют присвоенные им ранги или баллы. В таких случаях количественный признак называется ранжированным.
8
ГЛАВА II СБОР И ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ 2.1. Методы оценки численности популяций Количественные учёты - один из важнейших компонентов экологических исследований, направленных на познание закономерностей пространственного распределения видов, динамики их популяций, функционирования и организации многовидовых сообществ. Сведения о численности отдельных видов, кроме того, имеют практическое значение, особенно в сфере изучения охотничье-промысловых животных, переносчиков заболеваний, вредителей сельского хозяйства, а также редких и исчезающих видов [Кашкаров, 1933 и мн. др.]. Такие данные используются и при изучении фенотипической изменчивости организмов [ТимофеевРесовский и др., 1969]. Методы учёта различных таксономических и экологических групп организмов настолько разнообразны, что нет возможности охватить их в кратком обзоре. Однако вопрос этот чрезвычайно важен, так как универсальных приёмов не существует, а ошибку в проведении учётов значительно труднее исправить, чем ошибку в их последующей обработке. Поэтому, прежде чем приступать к количественным учётам, лучше потратить время на поиск и прочтение специальной литературы [Бей-Биенко, 1932; Методы …, 1952; Любищев, 1958; Организация …, 1963; Василевич, 1969; Свиридов, Водопьянов, 1977; Количественные …, 1987; Равкин, Челинцев, 1990; Пшеницына и др., 1993 и др.]. Здесь мы рассмотрим лишь в первом приближении наиболее известные методики. Для выявления обилия отдельных видов и их соотношений в сообществах нередко пригоден метод учётных площадок. Учётная площадка, в самом общем виде, представляет собой ограниченный тем или иным способом участок земной поверхности, на котором производится подсчёт организмов. Размеры учётных площадок зависят от объекта исследования и могут колебаться в пределах от нескольких см2 (при изучении численности мелких членистоногих или мелких растений) до десятков м2 и более (при лесотипологических работах или учёте крупных млекопитающих). Для получения статистически значимых результатов в пределах каждого местообитания таких площадок закладывается несколько. Метод трансектов (лат. trans - через и sectio - разрезание) применяется для учёта хорошо заметных организмов (сосудистые растения, птицы, дневные бабочки, стрекозы, шмели и т.п.). Он состоит в том, что учётчик движется по маршруту известной протяженности и регистрирует всех представителей исследуемой группы организмов в пределах полосы определенной ширины. По-
9
лученные данные о численности видов в пределах фактически обследованной площади в дальнейшем, для сопоставимости, пересчитываются на определённую единицу площади (число экземпляров /м2, /га или /км2). В геоботанических работах ширина трансекта может быть сведена до одной линии [Быков, 1967]. Для подсчета пресмыкающихся и земноводных обычно используют трансект шириной 3 метра (1.5 метра справа и слева от учётчика) [Динесман, Калецкая, 1952]. В условиях разреженного травянистого покрова этот метод может использоваться и для подсчёта мелких членистоногих - цикадовых, клопов, мелких двукрылых и перепончатокрылых, жуков, клещей, пауков и т. п., но тогда ширина трансекта составляет 0.25 - 1 метр [Второв, 1968; Злотин, 1975 и др.]. Дневных бабочек учитывают обычно на полосе шириной 3 метра [Yamomoto, 1975; Pollard, 1977; Сергеев, Дубатолов, 1988; Дубатолов, Костерин, 1999 и др.]. Однако более эффективно рассчитывать ширину трансекта для каждого вида отдельно по удвоенной средней дальности его обнаружения [Малков, 1994; Малков, Малков, 1999; Бондаренко, 1999, 2003]. Для вычисления обилия в таком случае можно использовать формулу:
xi =
5ni , ki L
(2.1.)
где xi - обилие i вида в пересчете на 1 гектар, ni - число зарегистрированных особей i вида, k i - средняя дальность обнаружения i вида в метрах, L - длина маршрута в километрах. При учёте птиц особи регистрируются как путём визуального наблюдения, так и на слух, поэтому их лучше разделять на три группы по дальности фактического обнаружения: 1) птицы, обнаруженные близко - до 25 м от учётчика; 2) недалеко - в 25 - 100 м от учётчика; 3) далеко - от 100 до 300 м от учётчика. Вычислять обилие проще с помощью формулы:
xi =
40б + 10н + 3д , L
(2.2.)
где xi - обилие i вида в пересчете на 1 км2, б - число особей i вида, замеченных близко, н - недалеко, д - далеко, L - длина маршрута в километрах [Равкин, 1967]. При изучении насекомых, обитателей травяного яруса, нередко применяются различные модификации метода кошения энтомологическим сачком. Наиболее известная его разновидность учёт на время. Для этого в исследуемом местообитании насекомые отлавливаются стандартным сачком (диаметром 40 см) в течение определенного промежутка времени с последующим пересчетом на 1 час [Бей-Биенко, 1932; Сергеев, 1986; Пшеницына и др., 1993].
10
Скрытно живущих и ночных животных обычно приходится отлавливать в разнообразные ловушки. 2.2. Техника измерений и округлений На первом этапе изучения морфологии организмов неизбежно встает вопрос о том, что и как измерять, чтобы наилучшим образом отразить специфику объекта исследования. Совершенно очевидно, что на этот вопрос нет и не может быть универсального ответа, однако по некоторым, наиболее хорошо изученным таксономическим группам животных морфологические промеры стандартизированы. Так, у мелких млекопитающих измеряют длину тела, хвоста, уха, длину ступни задней ноги, а также определенные параметры черепа [Бобринский и др., 1965; Юдин, 1971; Попов, 1977], у птиц - длину крыла, хвоста, клюва и плюсны [Иванов, Штегман, 1964] и т.п. Перечисленные признаки важны для определения, поэтому их наносят на этикетки, которые хранятся вместе с коллекционными экземплярами. Для решения более специальных задач, например, при выяснении возрастной, половой, географической изменчивости таксона имеет смысл делать все возможные измерения и уже в ходе последующего анализа выбирать наиболее информативные признаки. При описании собранного материала в научных статьях, дипломных и курсовых работах всегда необходимо подробно оговаривать, каким образом проводили тот или иной замер, допустим: "ширина крыла - расстояние от кистевого сустава до вершины первого второстепенного махового пера". При изучении морфологии организмов вовсе необязательно делать упор на достижение максимально возможной точности, а нужно исходить лишь из соображений целесообразности. Классики числовой таксономии Дж. Симпсон и Э. Роэ [1939] показали (цит. по: [Майр и др., 1956]), что, если в руках исследователя имеется относительно большая выборка, в качестве единицы измерения следует принимать 1/20 разницы между самым крупным и самым мелким экземпляром в выборке. Например, если значения вариант укладываются в ряд от 10 до 12 мм, измерения следует проводить с точностью до 0.1 мм ((12 – 10) / 20 = 0.1); если от 40 до 50 мм с точностью до 0.5 мм ((50 –40) / 20 = 0.5); если же пределами измерений служат 70 и 90 мм, то измерения следует вести в целых миллиметрах и т.п. В ходе вычисления обобщающих статистических показателей постоянно приходится сталкиваться с необходимостью округлений. Существуют разнообразные способы округления и, в принципе, можно использовать любой из них, важно лишь на протяжении всего хода работ следовать одному и тому же правилу. Обычно поступают следующим образом: если за последней сохраняемой
11
цифрой следуют цифры <5, то они отбрасываются, если ≥5, то последняя цифра увеличивается на единицу. 2.3. Отношения и индексы Абсолютные размеры тела, как правило, весьма изменчивы и зависят от возраста, условий существования и т.п., однако их отношения могут оставаться сравнительно постоянными. Для выявления относительных размеров (индексов) различных частей тела можно пользоваться формулой:
Ix =
y x или Iy = x y
(2.3.),
где Ix - индекс меньшего по величине признака, Iy - индекс большего по величине признака, x – значение меньшего признака, y – значение большего признака. В тех случаях когда признаки x и y примерно равны по величине, возможна ситуация, при которой отдельные значения признака y могут оказаться меньшими. В качестве примера приведем процедуру вычисления относительной длины хвоста, по двум видам кротов: обыкновенному Talpa europea L. и сибирскому Asioscalops altaica Nikolsky (табл. 1). Определяем индекс относительной длины хвоста:
25.2 для обыкновенного крота I = 0.189 , хвоста = для сибирского крота I хвоста
133.6 27 .0 = = 0.176 . 153 .8
Таблица 1 Средние величины некоторых морфологических параметров кротов T. europea (I) и A. altaica (II), мм (по данным Б. С. Юдина [1971]) Признак I II Длина тела с головой 133.6 153.8 Длина хвоста 25.2 27.0 Сравнивая полученные результаты, приходим к выводу, что обыкновенный крот, имея меньшие абсолютные размеры, отличается бόльшей относительной длиной хвоста. Отношения широко используются не только для сравнительных целей, но и для определения слабо различимых видов. Так, например, два вида саранчовых - итальянский прус Calliptamus italicus L. и светлокрылый прус C. abbreviatus Ikonn., внешне очень похожи и их идентификация могла бы представлять определенные трудности, однако оказалось, что они без проблем отличаются по отношению длины надкрылий к длине заднего бедра [Ванькова, 1998].
12
2.4. Вариационные ряды Как уже отмечалось, подвергая варьирующий признак статистическому анализу, мы, в сущности, отвлекаемся от конкретного содержания и оперируем лишь абстрактными значениями. При этом смысл анализа сводится к выявлению общих свойств генеральной совокупности, отраженных в конкретной выборке. В связи с этим уже на самых ранних этапах статистической обработки может оказаться полезной группировка первичных данных. Группировка считается успешной, если удовлетворяет следующим требованиям [Тьюки, 1981]. 1. В ходе группировки не теряется важная информация. 2. В результате группировки первичные данные принимают более компактную форму, что в свою очередь облегчает восприятие и последующие вычисления. Во многих случаях этим положениям соответствует метод вариационных рядов, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной выборке [Плохинский, 1970; Лакин, 1990 и др.]. Вариационные ряды подразделяются на интервальные и безынтервальные. Безынтервальный вариационный ряд целесообразно строить в тех случаях, когда разница между минимальным и максимальным значением вариантов невелика, особенно, если признак варьирует дискретно. Последовательность его построения рассмотрим на примере данных о числе глазков на 40 клубнях картофеля. Результаты подсчёта оказались следующие: 7, 9, 5, 11, 9, 7, 8, 5, 8, 7, 7, 10, 6, 7, 5, 7, 8, 6, 5, 7, 7, 6, 5, 6, 4, 5, 5, 10, 5, 8, 7, 6, 7, 5, 7, 7, 6, 5, 6, 6. Находим минимальное и максимальное значение признака (xmin = 4, xmax = 11). Записываем все возможные, в пределах минимального и максимального, значения, и указываем, как часто принимает ту или иную величину анализируемый признак x. В общем случае частоты признака обозначаются буквой f (англ. frequency). Для их подсчета удобно пользоваться условными обозначениями: . = 1; . . = 2; : . = 3; : : = 4; : : = 5; : : = 6; : : = 7; : : = 8; : : = 9; : : = 10; : : . = 11 и т.д. Вариационный ряд числа глазков на клубнях картофеля (n = 40) Значение признака x 4
5
Частота признака fx
:: :: ::: ::
. 1
10
6
8
7
12
8
4
9
10
11
:
:
.
2
2
1
Полученный вариационный ряд полностью соответствует требованиям, предъявляемым к группировке данных, поскольку первоначальный материал стал более «обозримым», и в результате простейших преобразований мы сделали явной ранее завуалиро-
13
ванную информацию. В частности, хорошо видно, что большая часть значений признака сгруппирована в пределах 5-7 глазков, тогда как крайние значения вариант встречаются относительно редко. Процедуру построения интервального вариационного ряда разберём на материале, собранном студентами Г-АГУ. Измерение длины предплечья у 53 особей летучей мыши вида большой трубконос Murina leucogaster Milne-Edwards без учета половой принадлежности с точностью до 0.1 мм дало следующие результаты: 39.5, 40.4, 38.6, 39.4, 39.5, 40.0, 38.6, 36.0, 39.0, 40.4, 39.5, 42.5, 41.0, 39.6, 41.8, 39.5, 40.0, 39.7, 40.0, 37.5, 42.0, 38.7, 41.5, 40.0, 42.0, 40.0, 41.5, 40.5, 37.6, 40.0, 39.5, 40.7, 40.0, 41.7, 40.0, 41.5, 41.3, 41.2, 39.0, 40.0, 40.0, 42.0, 39.3, 40.5, 39.0, 40.5, 39.5, 40.0, 39.8, 42.0, 41.2, 40.0, 39.5. Отыскиваем минимальное и максимальное значение признака (xmin=36.0, xmax=42.5). Затем находим величину классового интервала (λ) по формуле:
λ=
xmax − xmin , k
(2.4.)
где k - приблизительное число классов, на которое следует разбить вариацию признака. Значения k приведены ниже (табл. 2). Как видно из таблицы, более представительные по объёму выборки следует разбивать на большее число классов. Последнее требование лишь незначительно сказывается на затратах времени, но зато сводит к минимуму потерю информации. Таблица 2 Число наблюдений n
Число классов K
20-30
5
30-100
7
100-1000
10 и больше
Подставляя значения в формулу (2.4.), получаем величину классового интервала (λ=1.1 мм). Принимаем минимальное значение длины предплечья большого трубконоса (xmin=36.0) за середину первого классового интервала. В результате получаем следующие интервалы 35.5 - 36.6 - 37.7 - 38.8 - 39.9 - 41.0 - 42.1 - 43.2. После уменьшения верхних границ классов на точность измерений (0.1 мм.) и распределения значений вариантов по классам получаем вариационный ряд (табл. 3).
14
Таблица 3 Вариационный ряд длины предплечья большого трубконоса (n=53) Классовые 35.536.637.738.839.941.042.1интервалы x 36.5 37.6 38.7 39.8 40.9 42.0 43.1 Центральная величина классового интервала Частота fx
36.0
37.1
38.2
39.3
40.4
41.5
42.6
1
2
3
15
18
13
1
Для вычисления статистических параметров (см. главу III) интервальный вариационный ряд трансформируют в безынтервальный. При этом середину классового интервала принимают за величину, характеризующую все варианты входящие в этот класс. Середину каждого классового интервала находят отношением суммы значений нижней и верхней границы интервала к 2. Отсюда центральная величина первого классового интервала равна 35.5+36.5/2=36.0, второго - 36.6+37.6/2=37.1, третьего 37.7+38.7=38.2 и т.д. 2.5. Графическое отображение данных График (диаграмма) - одно из наиболее эффективных средств представления данных. Правильно построенный график может служить мощным инструментом, как для иллюстрации материала, так и для формирования предварительных гипотез. Неслучайно графики стали почти обязательным элементом дипломных и курсовых работ, многих научных публикаций, основанных на количественных данных. Более широкое распространение получили двумерные графики (2 М), в том числе с добавочной осью ординат, поскольку с них удобнее считывать информацию. Из семейства двумерных графиков наиболее известны точечные диаграммы рассеяния, линейные графики и столбчатые гистограммы. Точечные диаграммы рассеяния строят, когда на графике необходимо сохранить информацию о каждом варианте анализируемой группы данных. В частности, по ним можно установить, существует ли между определенными признаками зависимость или они не связаны друг с другом. Кроме того, точечные диаграммы позволяют быстро определить, перекрывается ли один и тот же признак у представителей разных выборок. Пример такого графика приведен на рисунке 1, где отображено соотношение трёх признаков, проанализированных на экспонатах коллекции черепов алтайской популяции бурого медведя (зоомузей Г-АГУ). Из графика видно, что длина правого верхнего клыка достаточно равно-
15
48
118
44
114
40
110
36
106
32
102
28
98
24
94
20 240
260
280
300
320
340
360
380
400
90 420
Ширина мозговой капсулы, мм
Длина правого верхнего клыка, мм
мерно возрастает при увеличении общей длины черепа, тогда как ширина мозговой капсулы значительно в меньшей степени зависима от этого показателя.
Д_П_В_К Ш_М_К
Максимальная длина черепа, мм
Рис. 1. Точечная диаграмма, показывающая взаимосвязь между некоторыми краниологическими признаками у представителей алтайской популяции бурого медведя. На линейных графиках отдельные точки данных соединены линией. Обычно графики такого типа используются, когда изучается определенная последовательность значений, причем порядок этих значений является одним из существенных признаков. Линейные графики могут быть очень полезными для иллюстрации изменения какого-либо явления во времени и потому они широко применяются при изучении суточной, сезонной и вековой динамики численности организмов, для изучения процессов онтогенеза и т.п.. В случае, если значения одной или нескольких переменных изменяются на порядок и более, график предпочтительнее строить в логарифмическом масштабе [Уильямсон, 1975] (сравните рис. 2 А и 2 Б).
16
120
Число особей на 1 гектар
100
80
60
40
20
0 май_2
июнь_1 июнь_2 июль_1 июль_2 август_1 август_2
2А
Чсило особей на 1 гектар
1000
100
10
1
_2 ст
_1 ав гу
ст
_2 ав гу
ль
_1
Leptidea morsei Fent. in Butler
ию
ль
_2 ию
нь ию
нь ию
м
ай
_2
_1
0.1
Neptis rivularis Scp.
Aporia crataegi L.
2Б Рис. 2. Линейные графики динамики лёта некоторых дневных бабочек в среднегорных березово-еловых лесах Северо-Восточного Алтая. А - график построен в обычном масштабе, Б - график построен в логарифмическом масштабе. Гистограмма (термин впервые использован Пирсоном в 1895 году) представляет собой графическое отображение вариационного ряда. На гистограмме по оси абсцисс откладываются границы классовых интервалов, а по оси ординат – частоты. Затем
17
для каждого класса рисуется столбец, высота которого пропорциональна частоте класса. Основное назначение гистограмм, кроме иллюстративной функции, - выявление соответствия частот полученного в ходе исследования выборки вариационного ряда нормальному распределению (см. главу III). На рисунке 3 приведена гистограмма вариационного ряда, построенного по промерам 53 особей большого трубконоса (табл. 3).
Частота
20 15 10 5 0 36
37.1 38.2 39.3 40.4 41.5 42.6 Длина предплечья, мм
Рис. 3. Гистограмма, иллюстрирующая изменчивость длины предплечья у большого трубконоса на Северном Алтае (n=53).
18
ГЛАВА III АНАЛИЗ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ 3.1. Средняя величина Важнейшим статистическим параметром можно считать среднюю величину. Будучи чисто математической функцией, средняя арифметическая, тем не менее, обладает вполне конкретным и почти интуитивно понятным содержанием. Неслучайно её используют в самых разнообразных отраслях человеческой деятельности, иногда даже имея смутное представление о математической статистике и её законах. Полученная средняя величина, в первую очередь, отражает наиболее типичные значения признака, что позволяет рассматривать её как параметр, на основании которого можно судить не только о свойствах отдельной выборки, но и о генеральной совокупности. В общем виде, среднее значение есть величина, вокруг которой концентрируются все прочие варианты совокупности. Различают несколько типов средних (средняя квадратическая, средняя кубическая, средняя геометрическая), однако практически чаще используют среднюю арифметическую величину. Она представляет собой отношение суммы значений вариантов к числу наблюдений. Математически это можно выразить следующей формулой:
Mx =
x1 + x 2 + x 3 + ... + x n Σx , = n n
(3.1.)
Σfx , n
(3.2.)
где Мx – среднее арифметическое признака x (от англ. mean – среднее), n – число наблюдений, Σ - суммирование значений вариантов (x). При многочисленных выборках, когда по исходным данным построены вариационные ряды, формула для вычисления средней арифметической приобретает вид:
Mx =
где f – частота вариант по отдельным классам. В качестве примера рассчитаем по формуле (3.2.) среднее число глазков на 40 клубнях картофеля (см. стр. 14)
M =
1 ⋅ 4 + 10 ⋅ 5 + 8 ⋅ 6 + 12 ⋅ 7 + 4 ⋅ 8 + 2 ⋅ 9 + 2 ⋅ 10 + 1 ⋅ 11 267 = = 6.7 . 40 40
Средняя арифметическая обладает рядом свойств, часть из которых позволяет существенно упростить её вычисление. Так, если все варианты выборки уменьшить (увеличить) на одно и то же число, то средняя арифметическая соответственно уменьшится (увеличится) на то же число. Это свойство позволяет вычислять среднюю арифметическую не по исходным значениям вариантов, а по уменьшенным (увеличенным) на одно и то же число. Вернёмся к выше рассмотренному вариационному ряду длины предплечья
19
53 особей большого трубконоса (см. стр. 14 и 15). Обозначим условную среднюю величину как M'. Уменьшим значение вариант на 36.0 мм, получаем:
1 ⋅ 0 + 2 ⋅ 1.1 + 3 ⋅ 2.2 + 15 ⋅ 3.3 + 18 ⋅ 4.4 + 13 ⋅ 5.5 + 1 ⋅ 6.6 = . 53 0 + 2.2 + 6.6 + 49.5 + 79.2 + 71.5 + 6.6 215.6 = = ≈ 4.1 53 53 M′ =
Отсюда средняя длина предплечья большого трубконоса, судя по данной выборке, равна М = 4.1+36 = 40.1 мм. 3.2. Показатели вариации Средняя величина, как и всякий статистический параметр, характеризует лишь одно из свойств анализируемого явления и игнорирует другие, в частности, она не отражает такое важнейшее свойство, как изменчивость. В качестве модели изменчивости признака нередко применяется простейший показатель, основанный на крайних (минимальном min и максимальном max) значениях, получивших название лимитов (limit). В биологии лимиты относительно широко используются в определительных таблицах с целью упрощения идентификации видов (подвидов). Кроме того, иногда рассчитывают разность между крайними значениями вариант: xmax - xmin или отношение этих величин друг к другу: xmax / xmin. Существенный недостаток подобных показателей - это их зависимость исключительно от крайних, наименее типичных значений и полное игнорирование прочих вариантов. Для иллюстрации этого рассмотрим два простейших вариационных ряда: Ряд 1 Ряд 2 x1 1 2 3 4 5 x2 1 2 3 4 5 fx 1 2 8 2 1 fx 1 4 4 4 1 Нетрудно заметить, что оба ряда полностью совпадают по средней величине, числу наблюдений и лимитам (M = 3; n = 14; xmin=1; xmax=5), и тем не менее первый вариационный ряд явно отличается меньшим разбросом. В связи с этим для оценки изменчивости признаков предложен ряд параметров, у которых точкой отсчёта для измерения рассеяния отдельных вариантов служит средняя величина. Из таких параметров в практической работе наиболее широко применяется среднее квадратическое или стандартное отклонение (термин введен Пирсоном в 1894 году), представляющее собой следующее соотношение:
σx =
Σ( x − M x )2 n −1
(3.3.).
20
Из этой формулы видно, что при вычислении стандартного отклонения учитывается разница между отдельным вариантом серии наблюдений и их средней величиной: (x - Mx). При этом каждое отклонение возводится в квадрат для того, чтобы нивелировать равновесие отрицательных и положительных отклонений вариантов от средней, так как Σ(x - Mx) = 0. Математическое обоснование формулы приводится в [Баврин, 2002]. Считается, что вычисление стандартного отклонения прямым путём довольно трудоёмко, так как для этого необходимо из каждого значения x вычитать среднюю величину Mx, возводить все полученные разности в квадрат, а затем суммировать их [Бейли, 1962]. Поэтому иногда вместо этого удобнее использовать формулу:
σ =
Σx 2 −
(Σx )2
n −1
(3.4.).
n
В случае если по данным наблюдений построен вариационный ряд формулы (3.3.) и (3.4.) приобретают вид соответственно:
σ =
Σf ( x − M x ) n −1
2
(3.5.), σ =
Σfx 2 −
(Σfx)2
n −1
n
(3.6.).
Стандартное отклонение очень удобная и понятная характеристика, которая выражается в тех же единицах измерения, что и анализируемый признак. Одно из важнейших его свойств заключается в том, что, зная среднюю величину и стандартное отклонение в отдельной выборке, можно с определённой уверенностью судить о генеральной совокупности, из которой взята эта выборка. Из теории статистики и эмпирических исследований известно, что выборка, репрезентативно отражающая генеральную совокупность, как правило, обладает следующими свойствами: ü в пределах M ± 1σ сконцентрировано 68.3 % вариантов генеральной совокупности; ü в пределах M ± 2σ сгруппировано 95.5 % вариантов генеральной совокупности; ü в пределах M ± 3σ расположено 99.7 % вариантов генеральной совокупности.
21
Рис. 4. Диаграмма нормального распределения. Указанная закономерность, получившая название нормального распределения, является одной из ключевых в вариационной статистике и её следует запомнить. Термин “нормальное распределение” введен в биологическую лексику Гальтоном в 1889 году. Однако ещё задолго до этого оно было хорошо известно математикам, которые это распределение часто называют законом Гаусса – Лапласа. Как видно из рисунка 4, нормальное распределение или распределение Гаусса - Лапласа графически может быть отображено симметричной колоколообразной кривой, вершиной которой является свойственная генеральной совокупности средняя величина. Возможность вероятностной оценки генеральной средней будет рассмотрена ниже (раздел 3.3.). Подчинённость самых различных объектов нормальному распределению требует хотя бы поверхностного осмысления, так как принятие этого закона “на слово” может завести нас в область метафизики. Рассмотрим вначале пример, не относящийся к области биологии. Представим рабочего, изготавливающего детали определенного размера. Логично предположить, что большая часть из произведённых им деталей будет совпадать или незначительно отклоняться от требуемой величины. Однако, каков бы ни был навык у данного рабочего, он человек и ему свойственно делать ошибки. При этом, чем больше отклонение от необходимого размера детали, тем ниже вероятность того, что рабочий произведёт такую деталь. Само собой разумеется, у другого рабочего (предположим менее опытного) вариабельность произведённых деталей будет отличаться, однако общий принцип при этом останется неизменным.
22
Чем же обусловлена подчиненность многих количественных признаков такому распределению у животных и растений? Известно, что количественные признаки, в отличие от большинства качественных, контролируются множеством генов, часть из которых оказывает взаимно противоположное, компенсирующее действие. В результате фенотип по таким признакам, в общем, стремится к некоторому уравновешенному, характерному для большинства особей, среднему состоянию. Однако, так как соотношение аллелей в локусах зависит от чисто случайных, стохастических процессов, практически в каждой популяции существует вся гамма переходов от относительно малой, до относительно большой величины того или иного количественного признака. Определённое воздействие на организм оказывает и внешняя среда. Распределение вариантов в конкретной выборке далеко не всегда полностью совпадает с нормальным. Наиболее типичными несоответствиями являются: асимметрия, то есть смещение вершины распределения относительно среднего значения, и эксцесс - выраженная плоско- или островершинность распределения [Лакин, 1990 и др.]. Однако в большинстве случаев всё же можно использовать тесты, основанные на предположении о нормальности распределения. Дело в том, что при возрастании объёма выборки форма выборочного распределения средней арифметической приближается к нормальной, даже если распределение исследуемых переменных не является таковым [Электронный …, 1999 и др.]. Отсюда следует, что для статистического анализа всегда предпочтительнее иметь многочисленную выборку (n>30). Несоответствие нормальному распределению может быть вызвано не только спецификой варьирования признака, но и качественной неоднородностью выборки. Типичный пример такого рода представлен на рисунке 5, где проиллюстрирована изменчивость длины тела с хвостом 25 особей серебристого карася, отловленных в 1985 году на Манжерокском озере (Северный Алтай). На гистограмме хорошо видно, что форма распределения имеет двухвершинный облик. Левая вершина распределения соответствует возрастным категориям: от сеголеток до двухгодовалых, а правая – трёхлетним особям. Таким образом, несовпадение с нормальным распределением, в данном случае, явно обусловлено возрастной изменчивостью анализируемого материала. В этом и подобных случаях первоначальную выборку целесообразнее разбить на качественно более однородные группы.
23
9 8
Абсолютная частота
7 6 5 4 3 2 1 0
0
50
100
150
200
250
300
Длина, мм.
Рис. 5. Распределение длин тела (с хвостом) 25 особей серебристого карася. Практическое применение стандартного отклонения разберём на примере сведений о массе тела самцов алтайской мышовки Sicista napaea Hollister в условиях среднегорья Северного Алтая. Полученные материалы собраны в разные годы, но в один и тот же сезонный период, студентами Г-АГУ, при прохождении летних полевых практик по зоологии позвоночных. Результаты взвешиваний, с точностью до 0.1 гр., оказались следующими: 11.0, 9.3, 11.8, 9.8, 9.4, 9.4, 16.0, 9.3, 9.1, 10.8, 10.8, 8.6, 10.4, 12.0, 15.5, 9.7, 8.6, 8.7, 8.1, 10.7, 9.2, 8.3, 9.1, 7.7. Имеющаяся выборка невелика по объёму (n = 24) и на её основании некорректно судить о сезонной изменчивости массы тела. Поэтому, не вдаваясь в детали, попытаемся получить лишь общее представление об изменчивости этого признака в пределах интересующей нас территории. Для вычисления стандартного отклонения воспользуемся формулой (3.4.), в которой фигурируют такие выражения как: Σx2 и (Σx)2. Несмотря на сходство в их написании эти величины различны по своей сути, первая - представляет собой сумму квадратов значений вариантов, вторая - квадрат суммы значений вариантов. Соответственно: Σx2 = 11.02 + 9.32 + 11.82 + 9.82 + 9.42 + 9.42 + 16.02 + 9.32 + 9.12 + 10.82 + 10.82 + 8.62 + 10.42 + 12.02 + 15.52 + 9.72 + 8.62 + 8.72 + 8.12 + 10.72 + 9.22 + 8.32 + 9.12 + 7.72 = 121 + 86.49 + 139.24 + 96.04 + 88.36 + 88.36 +256 + 86.49 + 82.81 + 116.64 + 116.64 + 73.96 + 108.16 + 144 + 240.25 + 94.09 + 73.96 + 75.69 + 65.61 + 114.49 + 84.64 + 68.89 + 82.81 + 59.29 = 2563.91;
24
(Σx)2 = (11.0 + 9.3 + 11.8 + 9.8 + 9.4 + 9.4 + 16.0 + 9.3 + 9.1 + 10.8 + 10.8 + 8.6 + 10.4 + 12.0 + 15.5 + 9.7 + 8.6 + 8.7 + 8.1 + 10.7 + 9.2 + 8.3 + 9.1 + 7.7)2 = 243.32 = 59194.89. Подставляя вычисленные значения в формулу (3.4.) получаем: σ
=
59194.89 24 24 − 1
2563.91 −
=
2563.91 − 2466.45 23
=
97.46 23
=
4.24 ≈ 2.1 гр. После нахождения средней массы тела прямым и очевидным способом (формула 3.1.) - M=10.1 гр. можно, с определённой долей вероятности, приступить к выяснению свойств генеральной совокупности, то есть, в нашем случае, к изменчивости массы тела самцов алтайской мышовки, обитающих в среднегорном поясе Северного Алтая. Принимая во внимание, что варьирование массы тела в этом случае приближается к нормальному, можно утверждать, что в данных природных условиях около 95 % самцов данного вида имеют массу тела от 5.9 до 14.3 гр., или, иначе говоря, лишь 1 из 20 самцов теоретически может выйти за пределы указанных величин. Стандартное отклонение обладает рядом математических свойств, часть из которых позволяет упростить его вычисление. Например, если уменьшить (увеличить) все варианты анализируемой выборки на одно и то же число, то стандартное отклонение не изменится. Для иллюстрации этого обратимся к вариационному ряду длины предплечья 53 особей большого трубконоса (см. стр. и ). Как и в случае с вычислением средней величины, уменьшим центры классовых интервалов на 36.0 мм. Полученные значения принимаем за условные центры классовых интервалов x'. Вычисляем сумму квадратов отклонений условных центров классовых интервалов от условной средней величины (Mx ' = 4.1 мм), как это показано в таблице 4. =
x' f 0 1 1.1 2 2.2 3 3.3 15 4.4 18 5.5 13 6.6 1 сумма:
(x' – mx' ) - 4.1 - 3.0 - 1.9 - 0.8 0.3 1.4 2.5
(x' - mx' )2 16.81 9.00 3.61 0.64 0.09 1.96 6.25
25
f (x' - mx' )2 16.81 18.00 10.83 9.60 1.62 25.48 6.25 88.59
Таблица 4
Отсюда (см. формулу (3.3.)) σ =
88.59 = 52
1.7 = 1.3 мм.
Рассчитанная таким способом величина стандартного отклонения предметно интерпретируется так же, как и в примере с массой тела самцов алтайской мышовки. Практическое применение σ в биологических науках не ограничивается лишь сферой морфологических и анатомических исследований. Этот показатель хорошо зарекомендовал себя при упорядочивании представлений о сезонных явлениях в природе [Фенологические …, 1982], о распределении и динамике численности организмов, а также при решении вопросов селекции и генетики. Таким образом, стандартное отклонение представляет собой одну из наиболее обоснованных и эффективных описательных статистик. Однако, если необходимо сопоставить изменчивость признаков, представленных в разных единицах измерения (например, мм. и гр.) этот показатель использовать нельзя, так как он измеряется в тех же величинах, что и средняя величина. Кроме того, одно и то же значение стандартного отклонения (например, σ = 2) может указывать как на очень малую (М = 100), так и на очень большую изменчивость (М=5). Для сравнения изменчивости признаков в таких случаях лучше применять коэффициент вариации, равный процентному отношению стандартного отклонения к средней арифметической величине, то есть:
Cv =
σ ⋅ 100% . M
(3.7.)
Специальными исследованиями установлено, что изменчивость одного и того же признака, выраженная коэффициентом вариации, может отличаться как у различных видов, так и у разных популяций в пределах одного вида, причём эти отличия зачастую не случайны и имеют направленный характер. Это послужило основой для формирования единых методологических позиций при изучении индивидуальной и эволюционной изменчивости организмов [Яблоков, 1966; Смирнов, 1971 и др.]. Интересные результаты, в этом плане, получены, например, Л. Н. Добринским [1981], который на основе анализа большого материала по изменчивости морфофизиологических признаков птиц показал, что у некоторых видов степень вариабельности интерьерных признаков четко отличается у северных и южных популяций, тогда как изменчивость индексов ряда внутренних органов не совпадает с географическими градиентами. Последнее объясняется функциональным значением внутренних органов (например, в любой географической зоне требуется строго определённое соотношение массы тела и массы летательной мускулатуры у всех слагающих популяцию особей).
26
Коэффициент вариации находит применение и в селекционной работе [Федоров, 1957; Снедекор, 1961; Мацеевский, Земба, 1988 и др.]. Например, при сравнении двух сходных по продуктивности и качественным показателям сортов, предпочтение должно быть отдано тому из них, который при равных условиях обладает меньшей изменчивостью. 3.3. Ошибка выборочной средней Из предыдущих разделов должно быть ясно, что параметры M и σ вычисляются исключительно на основе исходной серии наблюдений и их точность зависит от того, насколько полно анализируемая выборка представляет генеральную совокупность. Предположим, что при сборе первичного материала выбрана вполне адекватная методика, чётко выдержан принцип репрезентативности, а также не допущено ошибок в математических вычислениях. Будут ли полученные статистические оценки совпадать с истинными, свойственными генеральной совокупности? Вообще говоря, если мы не знаем этих "истинных" значений, то с полной уверенностью на поставленный вопрос нельзя ответить утвердительно. Для того, чтобы убедиться в этом, достаточно взять из любой природной популяции несколько выборок, проанализировать их и сопоставить результаты между собой. В большинстве случаев полученные оценки будут различны. Совершенно очевидно, что наилучшим методом для повышения точности оценок генеральной совокупности по данным выборки является увеличение объёма наблюдений. Иными словами, ошибка статистического параметра, вычисленного по данным выборки, будет тем меньше, чем больше число наблюдений, составляющих эту выборку. Такое свойство выборочных статистик позволило разработать ряд показателей, позволяющих оценивать вероятные пределы, в которых может находиться значение соответствующего генерального параметра. В частности, для вычисления статистической ошибки выборочной средней M используется следующая формула:
m=±
σ , n
(3.9.)
где m - ошибка средней величины. Остальные обозначения понятны из предыдущих разделов. Ошибка средней (точнее стандартная ошибка) в случае нормального распределения подчиняется той же закономерности, что и стандартное отклонение. Отличие состоит в том, что стандартное отклонение отражает разброс всех вариантов относительно средней, а стандартная ошибка показывает пределы, в которых, с известной вероятностью, может располагаться средняя величина. Отсюда, в интервале M ± 1m средняя величина генеральной сово-
27
купности может находиться с вероятностью 68.3 %, в интервале M ± 2m - с вероятностью 95.5 %, а в пределах M ± 3m - с вероятностью 99.7 %. Процедуру вычисления стандартной ошибки выборочной средней рассмотрим на примере сведений о длине тела самцов полёвок-экономок Microtus oeconomus Pall., обитающих в среднегорьях Северного Алтая. Предварительные вычисления, идентичные вычислениям по массе тела алтайских мышовок, показали, что при n = 34 длина тела характеризуется: M = 101.6 мм, σ = 15.0 мм. Подставляем известные значения в формулу (3.9.):
m=
15.0 15.0 = = 2.57 мм . 34 5.83
В результате проведённых вычислений мы, конечно, не узнали "истинное" значение средней длины тела у самцов рассматриваемой популяции, однако теперь с 95 % вероятностью можно утверждать, что оно находится в пределах 101.6 ± 2⋅2.57 мм, то есть от 96.5 до 106.7 мм. Вычисленные таким способом доверительные интервалы будут эффективно отражать анализируемое явление, когда распределение исходных вариантов соответствует нормальному. Однако, если серия наблюдений не велика по объёму (n≤30), то естественно ожидать, что в ней не будут представлены те варианты, которые сильно отклоняются от среднего значения. В результате, это может приводить к неверной оценке. Метод нахождения доверительных интервалов в случае анализа небольших выборок найден английским химиком и статистиком Госсетом. Им же разработана специальная таблица, так называемых, значений t (приложения табл. 1). Величина t показывает, во сколько раз необходимо увеличить стандартную ошибку выборочного статистического параметра для того, что бы при определенном уровне вероятности судить о тех пределах, в которых располагается генеральное значение. Использование этой таблицы не требует особых вычислений, поскольку величина t напрямую зависит лишь от уровня вероятности P и числа степеней свободы ν. В большинстве биологических исследований принимают P=0.95 (то есть 95 случаев из 100), в наиболее ответственных случаях - 0.99 или 0.999. Число степеней свободы ν, при нахождении доверительных интервалов для M, равно: ν = n - 1. Рассмотрим пример. Длина тела самок полёвок-экономок из среднегорий Северного Алтая характеризуется следующими выборочными показателями: n = 10, M = 105.7 мм, σ = 16.7 мм. Вычислим стандартную ошибку выборочной средней величины:
m=
16.7 = 5.29 мм. 10
28
В таблице 1 приложений находим, что при P = 0.95 или 95 % и при ν = 10 – 1 = 9 величина t равна 2.26. Следовательно, с вероятностью P=0.95 или 95 % можно утверждать, что в обследованной популяции средняя длина тела у самок Microtus oeconomus Pall., находится между 105.7-2.26⋅5.29 = 93.7 мм и 105.7+2.26⋅5.29 = 117.7 мм. 3.4. Сравнение средних величин Как в научно-исследовательских работах, так и при решении ряда практических задач анализ отдельных выборок редко является конечной целью. Очень часто приходится сравнивать эти выборки между собою и тогда закономерно встает вопрос, достоверны ли наблюдаемые отличия между выборками или они обусловлены лишь какими-то случайными причинами (например, недостатком данных)? В том случае, когда сравниваемые вариационные ряды обособлены друг от друга настолько, что наименьшее значение признака в одной из выборок превосходит наибольшее значение того же признака в другой выборке можно без специального анализа принять, что они существенно различны. Однако необходимость сравнения полностью изолированных вариационных рядов редко встречается на практике. Чаще всего сопоставляемые выборки, по значению своих максимальных и минимальных вариант, в той или иной мере заходят друг за друга. Такое захождение носит название “трансгрессия”. Степень трансгрессии может быть различной: от частичного до полного поглощения одного вариационного ряда другим. Вопрос о достоверности отличия двух сравниваемых выборок обычно решается при помощи сравнения их средних величин. При этом исходят из простого правила, которое заключается в том, что две выборки, вероятно, различны, если разница между их средними величинами (M1 – M2) более чем в два раза превосходит сумму их средних ошибок (m1 + m2), и почти наверняка различны, если она превышает сумму средних ошибок более чем в три раза. Значительно надежнее пользоваться при этом критерием достоверности различий (t-критерий), определяемым по формуле:
t=
M1 − M 2 . m12 + m22
(3.10.)
Прямые скобки здесь и далее в тексте показывают, что результат вычисления берётся по модулю, то есть без учёта знака. После вычисления фактической (эмпирической) величины t обращаются к таблице стандартных значений tst (приложения табл. 1). Число степеней свободы в данном случае равно n1 + n2 - 2. Гипотезу об отсутствии различий между выборочными средними отвергают, если фактически установленная величина t превзойдет
29
или окажется равной критическому (табличному) значению tst этой величины для принятого уровня вероятности. Когда число наблюдений в двух сериях различается очень сильно, рекомендуется пользоваться более сложной формулой: M1 − M 2 . (3.11.)
t=
n1 2 n2 2 m1 + m2 n2 n1
Однако, по мнению Хэббса и Перлмуттера [Hubbs et al., 1942], а вслед за ними Эрнста Майра с соавторами [1956], формула (3.10.) редко приводит к серьёзным ошибкам, поэтому для большинства биологических исследований её вполне достаточно. Проверим, достоверна ли разница средней величины длины тела низкогорных и высокогорных живородящих ящериц Lacerta vivipara Jacq. в условиях восточной окраины Алтая. По данным В. А. Яковлева [2002] первые характеризуются средней длиной тела равной 54.9 ± 0.82 мм (n = 71 экз.), вторые – 60.0 ± 0.12 мм (n = 69 экз.). Находим фактическую величину t:
t=
54.9 − 60.0 0.82 + 0.12 2
2
=
5.1 = 0.6724 + 0.0144
5.1 5.1 = = 6.15 . 0.6868 0.828
Так как число степеней свободы ν = (71+69) – 2 = 138, стандартная величина tst (3.27 и меньше) уступает вычисленной даже при самом высоком уровне P. Следовательно отличия высокогорных и низкогорных особей живородящей ящерицы L. vivipara в высшей степени достоверны. 3.5. Оценка разности коэффициентов вариации Сопоставление коэффициентов вариации, с одной стороны, позволяет оценить разность в вариации двух различных признаков в одной выборке (популяции), с другой – оценить разность в вариабельности одного и того же признака в двух выборках (популяциях). Есть мнение, что корректной формальной основой для этого может служить t-критерий [Лакин, 1990]. Величину стандартной ошибки коэффициента вариации, в первом приближении, вычисляют по формуле [Рокицкий, 1973; Терентьев, Ростова, 1977; Лакин, 1990]:
mcv = ±
Cv . 2n
(3.12.)
Фактическая величина t определяется отношением:
t=
Cv1 − Cv 2 . mcv2 1 + mcv2 2
(3.13.)
Рассмотрим конкретный пример. На одном из озер в окрестностях г. Горно-Алтайска отловили несколько экземпляров серебри-
30
стого карася Carassius auratus L. В ходе изучения материала подсчитано: число чешуй вдоль боковой линии (n = 25) и число жаберных тычинок (n = 19). Распределение вариант по обоим признакам приближается к нормальному. Первый признак характеризуется статистиками: M1 = 30.8 и σ1 = 1.3, второй признак – M2 = 43.7 и σ2 = 2.3. Отсюда, согласно формуле (3.7.), Cv1 = (1.3/30.8) × 100 % = 4.22 % и Cv2 = (2.3/43.7) × 100 % = = 5.26 %. Определяем ошибки, соответствующих коэффициентов вариации (3.12.):
mcv1 =
4.22 4.22 5.26 5.26 = = 0.60% и mcv 2 = = = 0.85% . 2 ⋅ 25 7.07 2 ⋅19 6.16
Вычисляем фактическую величину t (3.13.):
t=
4.22 − 5.26 0.60 + 0.85 2
2
=
1.04 1.04 = = 1. 1.08 1.04
Поскольку фактическая величина t, заметно уступает табличной даже при P = 0.95 (см. приложения табл. 1) отличия в степени вариабельности проанализированных признаков нельзя считать статистически достоверными. Необходимо специально отметить, что последнее не отрицает возможность таких различий. Тем более неверно на основании этого утверждать о сходстве в варьировании данных признаков.
31
ГЛАВА IV АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ 4.1. Доля и её статистическая ошибка В предыдущей главе акцентировалось внимание исключительно на анализе количественных признаков, которые часто подчиняются закону нормального распределения. Наряду с этим нередки случаи, когда различия между вариантами изучаемой совокупности сводятся к качественным признакам. Так, например, популяцию раздельнополых организмов можно чётко дифференцировать по половому признаку и такое разделение будет вполне информативным, пригодным для сопоставления. С аналогичной ситуацией приходится сталкиваться при сравнении популяций по соотношению выживших и погибших, доминантного и рецессивного фенотипа и т.п. Таким образом, распределение по качественному признаку зачастую сводится к двум группам: варианты, являющиеся носителями признака и варианты не имеющие его. Такое качественное варьирование называется альтернативным, поскольку реализация одной из возможных альтернатив исключает возможность реализации другой [Федоров, 1957], или биномиальным, так как формула, описывающая это распределение, выводится из бинома Ньютона [Павловский, 1967]. Естественное деление популяции только лишь на две группы являются частным случаем более общего явления, когда в анализируемой совокупности можно выделить несколько групп, отличающихся по одному качественному признаку. Общеизвестны, например, категории цвета глаз и волос у людей. В среде охотников выделяют “кряжи”, характеризующие специфику окраса пушного зверя. Представителей любой популяции можно подразделить на те или иные возрастные категории. Однако и в этом, более общем, случае всё многообразие градаций качественного признака в конечном счёте можно свести к двум группам: карие глаза и не карие, лиса-чернобурка и не чернобурка, гусеница и не гусеница и т.п. Для статистического анализа выборки при качественном варьировании необходимы следующие исходные показатели, позволяющие составить представление о генеральной совокупности: n - число анализируемых объектов (число наблюдений); a - число объектов, у которых та или иная альтернатива реализована; b - число объектов, у которых эта альтернатива не реализована. В качестве важнейшей описательной статистики при биномиальном распределении выступает доля или вероятность, показывающая относительную частоту реализованной альтернативы. В книгах по биометрии доля реализованной альтернативы, как пра-
32
вило, обозначается символом p, а противоположенной альтернативы - q. Доля реализованной альтернативы, какого-либо признака, находится из соотношения p = a/n, а доля противоположной альтернативы соответственно q = b/n = (1 – p), так как p + q = 1. Совершенно очевидно, что степень надежности выборочной доли будет возрастать по мере увеличения числа наблюдений. Поэтому для корректной оценки параметров генеральной совокупности обязательно необходимо определять статистическую ошибку выборочной доли mp, которая вычисляется по формуле:
pq = n −1
mp =
p(1 − q ) = n −1
a a ⋅ 1 − n n . n −1
(4.1.)
Алгоритм оценки разности долей может быть различным, но в его основой всегда служит t-критерий. Применимость t-критерия к анализу альтернативно варьирующих признаков обусловлена тем, что биномиальное распределение в пределе приближается к нормальному [Бейли, 1962; Павловский, 1967 и др.]. Считается, что если в обеих выборках доли не выходят за границы 0.2 ≤ p ≥ 0 / 8 оценку можно проводить при помощи t-критерия обычным способом. Вычисление ведётся по формуле:
t=
p1 − p2 m +m 2 p1
.
(4.2.)
2 p2
Фактическая величина t затем сопоставляется с критическим(табличным) значением при числе степеней свободы
ν = n1 + n2 − 2 . При этом, если
t ≥ t st
выборочные доли признаются
различными, а популяции, откуда взяты сравниваемые выборки, принадлежащими к разным генеральным совокупностям. Однако, когда хотя бы в одной из анализируемых совокупностей доля не укладывается в интервал 0.20 ≤ p ≥ 0.80, формула (4.2.) может привести к ошибочным результатам, особенно, если объём выборки недостаточно велик [Плохинский, 1970; Зайцев, 1973 и др.]. В таких случаях более эффективен метод ϕпреобразования Фишера, заключающийся в угловой трансформации выборочных долей ϕ = 2 arcsin p [Плохинский, 1972; Рокицкий, 1973; Терентьев, Ростова, 1977 и др.]. Для этого сравниваемые доли выражают в процентах и вводят так называемую поправку Йетса на непрерывность: p1 % + 100 /(2n1 ) и
p2 % + 100 /( 2n2 ) , где p1 обязательно больше, чем p2. Затем по специальной таблице (приложения табл. 2), на основании “исправленных” поправкой Йетса долей, находят значения ϕ. Гипотеза о принадлежности выборочных совокупностей к одной генеральной совокупности отвергается при выполнении условия [Лакин, 1990]:
33
t=
ϕ1 − ϕ 2 1 1 + n1 n2
≥ t st
.
(4.3.)
Рассмотрим сведения В. А. Паевского [1985] о гибели яиц и птенцов у двух, различных по плотности гнездования, видов птиц: зелёной пересмешки Hippolais icternia Vieill. и зяблика Fringilla coelebs L. на одном из участков Куршской косы в 1974-81 гг. (табл. 5). Таблица 5
Причины гибели яиц и птенцов у зелёной пересмешки и зяблика Вид
Плотность популяции (пар/км2)
Кол-во гнезд с известной судьбой
Кол-во разоренных гнезд
Кол-во общих потерь (яйца, птенцы)
Hippolais icternia Fringilla coelebs
26
170
45
227
Кол-во яиц и птенцов, уничтоженных хищниками 179
218
1405
396
1688
976
Сопоставим сначала доли разоренных хищниками гнезд. У зелёной пересмешки p1 = 45/170 = 0.265 со статистической ошиб-
0.265 ⋅ (1 − 0.265) у зяблика = 0.034 , 170 − 1 p2 = 396/1405 = 0.282 ± m = 0.282 ⋅ (1 − 0.282) = 0.012 . Так как в p2 1405 − 1 кой
±m
p1
=
обоих случаях p не выходит за пределы 0.20 ≤ p ≥ 0.80 трансформации выборочных долей не требуется. Вставляем полученные значения в формулу (4.2.):
t=
0.265 − 0.282 0.0342 + 0.012 2
= 0.47 .
Вычисленная величина t уступает табличным значениям tst = 1.96 (ν > 120). Соответственно отличие в доле разоренных хищниками гнезд у этих видов несущественно, что, по мнению В. А. Паевского [1985], обусловлено очень сходным расположением гнезд у обоих видов. Вычисление долей (и их статистических ошибок) уничтоженных хищниками яиц и птенцов от общего количества потерь дало следующие результаты: зелёная пересмешка p = 0.789 ± 0.272, зяблик p = 0.578 ± 0.012. Находим фактическую величину t по тому же алгоритму, что и в приведенном выше случае (t = 7.07). Най-
34
денная величина превосходит критическое значение tst = 3.29 (P = 0.999, ν > 120), это означает, что различия долей можно считать в высшей степени достоверными. Отсюда следует, что эти два вида демонстрируют разные стратегии размножения: на одной и той же территории, в одних и тех же условиях размножение одного из них H. icternia – более успешно, несмотря на то, что доля потерь от главного фактора гибели гнезд у него выше [Паевский, 1985]. Процедуру оценки разности долей методом ϕ-преобразования рассмотрим на гипотетическом примере. Предположим, что у самки А от самца X приплод составил 8 детёнышей, из которых лишь 1 самец. У самки В, от того же самца X, родилось 4 детёныша, причём 2 из них самцы. Исходя из этого можно предположить, что самка А менее “предрасположена” к рождению самцов. Выясним, являются ли такие различия статистически достоверными. Вычисляем долю самцов в приплоде у первой самки p1 = 1/8 = 0.125 и второй самки p2 = 2/4 = 0.5. Переводим доли в проценты и вносим поправку Йетса: p1’ = 12.5 % + 100/ (2⋅8) = 18.75 %, p2’ = 50.0 % - 100/ (2⋅4) = 37.5 %. По таблице (приложения табл. 2) находим значения ϕ, соответствующие “поправленным” долям: ϕ1 = 0.897 и ϕ2 = 1.318. Подставляем имеющиеся значения в формулу (4.3.): 0.897 − 1.318 0.421 .
t=
1 1 + 8 4
=
0.375
= 0.69
Фактическая величина t = 0.69 заметно уступает стандартному значению (tst = 2.23 и более, так как ν = 10). Это означает, что имеющихся данных явно недостаточно, для того чтобы статистически доказать отличия самок по степени “предрасположенности” к рождению самцов. 4.2. Анализ сопряженности признаков и согласованности распределений (χ2-критерий) Если совокупность объектов изучается по нескольким качественным признакам, зачастую необходимо выяснить, в какой мере эти признаки являются независимыми друг от друга. Для этой цели обычно используют специальный метод, получивший название χ2 (хи-квадрат) критерий. В первоначальном виде он был разработан в 1900 году Пирсоном и позднее дополнялся многими специалистами (Брандтом, Снедекором, Фишером, Ястремским и др.). Для иллюстрации метода χ2 воспользуемся данными о соотношении окрасочных морф сизого голубя в трех городах на юге Сибири: Новосибирск, Усть-Каменогорск и Горно-Алтайск (табл. 6). В ходе сбора первоначального материала голубей подсчитывали на
35
разовых маршрутах приблизительно сходной протяженности. По окрасу оперения выделены четыре градации. Две из них (сизая и черночеканная) - типичны для данного вида, тогда как наличие непигментированных и красных перьев (пегая и красная окраска соответственно) для диких представителей данного вида в целом несвойственно. В ходе последующего анализа пегие и красные окрасочные морфы в связи с их редкостью объединены в одну категорию “нетипичных фенов”. Определим, являются ли классификации популяций по городам и окрасочным морфам независимыми или, иными словами, можно ли считать проанализированные популяции сизых голубей относящимися к одной генеральной совокупности. Исходя из общей логики рассуждения ясно, что если популяции, обитающие в различных городах, принадлежат единой совокупности, то доли окрасочных морф в каждой из них должны быть относительно постоянными. Отсюда, чем больше отклонение наблюдаемой частоты от такого равномерного (“ожидаемого”) распределения частот, тем больше вероятность того, что рассматриваемые популяции отличаются. На первом этапе анализа необходимо вычислить “ожидаемые” частоты, которые находятся делением произведения двух соответствующих этой клетки сумм, записанных по краям таблицы, на сумму всех наблюдаемых частот. Например, ожидаемое число нетипичных по окраске голубей в г. Горно-Алтайске равно 82 ⋅ 72 / 386 = 15.3 , что заметно больше фактического их числа. После нахождения всех ожидаемых частот (в таблице 6 они приведены в скобках) рассчитывается величина χ2, представляющая собой отношение:
χ2 =∑
(O − E ) 2 , E
(4.4.)
где O - наблюдаемые частоты (англ. observed), E - ожидаемые частоты (англ. expected). Таблица 6 Соотношение окрасочных морф сизого голубя в некоторых городах Сибири Город Сизые Новосибирск УстьКаменогорск Горно-Алтайск
Всего
41 (60.5) 50 (57.5) 54 (27.0) 145
Окрасочные морфы ЧёрночеНетипичные канные 68 52 (66.3) (34.2) 74 29 (63.0) (32.5) 17 1 (29.7) (15.3) 159
36
82
Всего
161 153 72
386
Вычисленную таким образом величину χ2 сравнивают со стандартными значениями. Если она превышает то или иное стандартное значение, исходная гипотеза о независимости признаков отвергается на соответствующем уровне вероятности (приложения табл. 3). Как обычно, при этом необходимо учитывать число степеней свободы. В случае, когда по каждому признаку подразделяют не менее трёх градаций, число степеней свободы находят по формуле: ν = (r - 1) + (c -1), где r - число градаций в первой классификации, c - во второй классификации. Если же одна из классификаций содержит только две градации, то число степеней свободы ν = (c – 1), где с – число градаций в более дробной классификации. В нашем примере:
χ2 =
(41 − 60.5)2 + (68 − 66.3)2 + (52 − 34.2)2 + (50 − 57.5)2 + (74 − 63)2 + 60.5
66.3
34.2
57.5
(29 − 32.5)2 + (54 − 27 )2 + (17 − 29.7 )2 + (1 − 15.3)2 +
63
= 32.5 27 29.7 15.3 = 6.29 + 0.04 + 9.26 + 0.98 + 1.92 + 0.38 + 27.00 + 5.43 + 13.37 = 64.67
Так как здесь ν = (3-1) + (3-1) = 4 фактическая величина χ2 заметно превосходит все представленные в таблице критические значения (18.47 и меньше). Следовательно, рассматриваемые в примере популяции сизого голубя следует считать различными по частотному соотношению окрасочных морф. Нетрудно заметить, что наиболее существенное отклонение проявляется в частоте сизой морфы в г. Горно-Алтайске, наблюдаемая величина которой значительно превышает ожидаемую.
Четырехпольная (2×2) таблица сопряженности Первая Вторая классификация Всего классиА не-А фикация В a b a+b не-В c d c+d Всего
a+c
b+d
Таблица 7
a+b+c+d=n
Вычисление величины χ2 упрощается, если исходные данные сгруппированы в четырехпольную таблицу, где каждая из классификаций имеет лишь по две градации. В таких случаях можно ис-
37
пользовать формулы, не требующие предварительного вычисления ожидаемых частот, например, следующее отношение (4.5.), обозначения к которому понятны из таблицы 7: 2
1 n ad − bc − n 2 . χ2 = (a + b)(c + d )(a + c)(b + d )
(4.5.)
При изучении независимости классификаций с помощью четырехпольных таблиц параметр ν равен единице. В популяционно-генетических работах, где оперируют закономерностями Менделя, Харди-Вайнберга и иными предварительно сформулированными гипотезами, в сущности, как и при изучении независимости классификаций, необходимо сопоставить частоты фактического и ожидаемого распределения. Достаточно эффективной статистической основой для этого также может служить критерий χ2 [Хромов-Борисов, 1996]. Рассмотрим конкретный пример. Л. В. Богданов [1977] опубликовал результаты изучения фоновой окраски яиц тонкоклювых кайр Uria aalge Pontopp., населяющих остров Тюлений (цит. по: [Кайданов, 1996]). Яйца были подразделены на три класса: белые (ScW/ScW), голубые (ScW/ScG) и зеленые (ScG/ScG). Окраска яиц детерминируется генотипом матери. Подсчет 754 яиц в 1973 году дал следующие результаты: белые - 115, голубые – 438, зеленые – 201 экз., их доля составляет 0.1525, 0.5809, 0.2666 соответственно. Отсюда доли аллелей: p(ScW) = 0.1525 + 0.5809/2 ≈ 0.44; q(ScG) = 0.5809/2 + 0.2666 ≈ ≈ 0.56. Как утверждает закон Харди-Вайнберга равновесные панмиктические популяции подчиняются распределению: p2 + 2pq + q2. Подставив имеющиеся значения p(ScW) и q(ScG) в формулу получаем, что по Харди-Вайнбергу ожидаются доли: белые – 0.1936, голубые – 0.4928, зеленые – 0.3136. Исходя из общего числа просмотренных яиц (754 экз.) находим абсолютные частоты: белые – 146, голубые – 372, зеленые – 236 экз. Таким образом, в результате несложных преобразований получен ряд ожидаемых частот, пригодный для сравнения с фактическими частотами методом χ2 (табл. 8). Определение величины χ2 при этом проводится по формуле (4.4.). В данном случае необходимо брать лишь одну степень свободы, поскольку для вычисления ожидаемых частот достаточно знать долю лишь одной из аллелей.
38
Таблица 8 Фактические и ожидаемые частоты яиц тонкоклювой кайр популяции о. Тюленьего в 1973 г. (данные Л. В. Богданова [1977]) Белые Голубые Зелёные Всего Фактическое 115 438 201 754 число Ожидаемое по 146 372 236 754 ХардиВайнбергу Так как χ2 = 23.48, а ν = 1 гипотезу о соответствии наблюдаемого в природе распределения формуле Харди-Вайнберга можно отвергнуть при высоком уровне достоверности. Как полагает Л. В. Богданов, это объясняется тем, что голубая окраска скоррелирована с лучшей выводимостью и выживаемостью птенцов, кроме того, она лучше других обеспечивает маскировку от основных хищников – крупных чаек.
39
ГЛАВА V АНАЛИЗ МНОГОМЕРНЫХ СИСТЕМ 5.1. Общие положения Системой обычно считается множество элементов, находящихся в отношениях и связи друг с другом, образующих определенную целостность, единство [Энциклопедический словарь, 2002]. Система не ограничивается лишь простой суммой элементов, а обладает более общими свойствами, которые выражаются в структурированности и взаимозависимости её частей. Ярким примером системы, обладающей внутренней (имманентной) структурой, является организм. Одним из первых к пониманию этого пришел французский палеонтолог и сравнительный анатом Ж. Кювье, ещё в 1806 году сформулировавший знаменитое правило корреляции. Согласно этому правилу, все органы живого организма составляют единую систему, части которой зависят друг от друга настолько, что изменение одной из них влечет за собой изменение другой (цит. по: [Шмидт, 1985]). Более поздние исследования морфологов позволили существенно расширить эти представления [Шмальгаузен, 1982; Шмидт, 1985; Берг, 1993; Венгеров, 2001; Terentjev, 1931 и др.]. В частности, показано, что отдельные части организма нередко образуют группы, каждая из которых объединяет признаки, более тесно связанные друг с другом, нежели с признаками других групп. Наличие таких групп может быть обусловлено, например, приспособлениями к полёту, функциональной дифференциацией отделов черепа, коэволюционными изменениями у растений и их опылителей и т.п. Биологические корреляции могут и не иметь существенного функционального значения, как правило, это связано с явлением плейотропии – способности генов влиять на развитие более чем одного признака [Майр, 1968; Берг, 1993 и др.]. Сообщества и, особенно, таксоцены (территориальные группировки высших систематических категорий) - менее жёстко взаимосвязанные системы. Вместе с тем, и они характеризуются относительно устойчивой структурой. Дело в том, что помимо внутренних (трофических, топических, форических) взаимоотношений главнейшая роль в структурированности территориальных группировок принадлежит внешним воздействиям, в частности, комплексу абиотических факторов, ценотической продуктивности, антропогенному влиянию и т.п. [Равкин, 1978, 1984; Равкин, Лукьянова, 1976]. 5.2. Первичные матрицы Практически любая система может быть частично отражена в виде прямоугольной таблицы типа “признаки × объекты”. Типичным примером в данном случае могут служить синэкологические
40
таблицы, где указывается обилие (или хотя бы факт присутствия) тех или иных видов в исследованных местообитаниях; таблицы результатов морфологических промеров и т.п. Обозначим матрицу типа “признаки × объекты” как первичную s × m матрицу, где s признаки (строки) и m - объекты (столбцы) анализируемой многомерной совокупности. Обратимся к таблице 9, где представлен массив данных, который формально можно принять за многомерную систему, состоящую из 4 объектов, характеризующихся 8 признаками.
s1 s2 s3 s4 s5 s6 s7 s8
Пример первичной s × m матрицы m1 m2 m3 93 9.3 3 84 8.4 17 68 6.8 25 57 5.7 47 47 4.7 57 25 2.5 68 17 1.7 84 3 0.3 93
Таблица 9 m4
9 27 88 51 75 24 22 38
Из представленной таблицы видно, что объект m1 по всем признакам превосходит объект m2 в десять раз. Эти объекты хотя и не идентичны, но совершенно определённым образом связаны между собой, поскольку степень проявления проанализированных у объекта m2 признаков прямо пропорциональна их проявлению у объекта m1 (рис. 6). Объект m3 имеет связь как с m1, так и с m2, однако здесь прослеживается уже обратная зависимость (рис. 7). Заметим, что в этом случае данные на графике до некоторой степени отклоняются от “воображаемой” прямой линии. Это указывает на менее строгую (стохастическую) зависимость. Наконец, объект m4, по-видимому, вообще не связан с объектом m1 (рис. 8) и, соответственно, с прочими объектами.
41
10
8
m2
6
4
2
0
0
20
40
60
80
100
m1
Рис. 6. Пример строго положительной корреляции переменных. 100
80
m3
60
40
20
0
0
20
40
60
80
100
m1
Рис. 7. Пример отрицательной корреляции переменных.
42
100 90 80 70
m4
60 50 40 30 20 10 0
0
20
40
60
80
100
m1
Рис. 8. Пример отсутствия корреляции между переменными. 5.3. Коэффициент корреляции Рассмотренные выше статистические зависимости называются корреляциями. Корреляция может быть положительной (при увеличении одной переменной увеличивается другая) и отрицательной (увеличение одной переменной сопровождается уменьшением другой). Обычно их труднее обнаружить, чем в приведенном примере, кроме того, для объективности анализа желательно иметь показатель степени “согласованности” переменных. В качестве такой меры чаще всего используется линейный коэффициент корреляции Пирсона (r). Он может принимать любые значения в пределах от –1.00 (строго отрицательная корреляция) до +1.00 (строго положительная корреляция). Коэффициент корреляции определяется формулой:
rxy =
∑ (x − M
∑ (x − M
x
) ⋅ ∑(y − M y ) 2
x
)( y − M y )
.
(5.1.)
2
Вычисление коэффициента корреляции непосредственно по приведенной выше формуле – трудоёмкая процедура. Существует несколько более быстрых способов, использование которых, кроме того, снижает риск сделать случайную ошибку [Бейли, 1962; Плохинский, 1970; Лакин, 1990 и др.]. Алгоритм вычисления коэффициентов корреляции заложен в компьютерных программах (Microsoft Excel, STATISTICA, SPSS и мн. др.). Часть из них стали практически общедоступными. Достоверность коэффициента корреляции проще всего проверить по специальной таблице (приложения табл. 4) [Фишер, 1958; Рокицкий, 1973; Терентьев, Ростова, 1977; Лакин, 1990]. В этой таблице содержатся критические значения rst для уровней достоверности P=0.95 и 0.99 с учё-
43
том числа степеней свободы ν = n - 2. Если вычисленное значение коэффициента превышает стандартное значение, корреляцию, в большинстве случаев, можно считать достоверной. Необходимо отметить, что этот способ является довольно приближенным. В особо ответственных случаях лучше пользоваться более точным zпреобразованием Фишера, описание которого можно найти во многих руководствах по статистике [Лакин, 1990 и др.]. 5.4. Эвристические меры сходства Среди специалистов нет единого мнения относительно преимущества тех или иных мер связи [Песенко, 1982]. Тем не менее, совершенно очевидно, что коэффициенты корреляции и, в том числе, наиболее обоснованный (с позиций теории статистики) коэффициент Пирсона пригодны для использования далеко не во всех типах исследований. В частности, информативность коэффициентов корреляции сомнительна в случае сравнения территориальных группировок организмов [Песенко, 1982]. В таких исследованиях широкое распространение получили эвристические (основанные на общей логике исследования) меры сходства. Легок в вычислении и, пожалуй, наиболее широко распространен коэффициент сходства, впервые использованный в 1901 году геоботаником П. Жаккаром. Данный индекс имеет несколько версий и может быть использован как для сравнения территориальных группировок организмов по видовым спискам, так и с учётом их численности или доли. Индекс Жаккара и его модификации изменяются в переделах от 0 до 1. Для идентичных (по сопоставляемым признакам) объектов он равен 1, для абсолютно несходных – 0. Для сравнения видовых списков формула Жаккара имеет вид:
I1 =
a , b+c−a
(5.2.)
если сравнение проводится с учётом обилия, формула трансформируется в следующее выражение:
I2 =
∑ min(n
j
, nk )
b + c − ∑ min(n j , nk )
=
∑ min(n , n ) , ∑ max(n , n ) j
k
j
k
(5.3.)
наконец, при сравнении с учётом долей видов, входящих в состав группировки:
I3 =
∑ min( p , p ) . ∑ max( p , p ) j
k
j
k
(5.4.)
В приведённых выше формулах использованы следующие обозначения: a – число общих видов в двух сравниваемых территориальных группировках, b - число видов в первой из сравниваемых группировок, c – число видов во второй группировке,
44
b
- суммар-
ное обилие в первой из сравниваемых группировок, c - суммарное обилие во второй группировке, ∑ min n j , nk - сумма меньших по-
(
)
казателей обилия по всем видам, свойственным двум сравниваемым группировкам, max n j , nk - сумма наибольших показателей обилия,
∑ min ( p
j
, pk
) ∑ ( ) и ∑ max( p , p ) j
k
- сумма наименьших и, соот-
ветственно, наибольших долей видов, в двух сравниваемых группировках. Существуют и другие эвристические индексы сходства, обзор и критический анализ которых можно найти в обстоятельной монографии Ю. А. Песенко [1982]. Однако, как показало экспериментальное сопоставление, проведенное на обширном материале по населению птиц южной тайги Западной Сибири, большинство из предложенных коэффициентов дают близкие как с формальной, так и с содержательной точки зрения результаты [Шадрина, 1987]. Отметим, что и коэффициент корреляции, и коэффициент сходства легко могут быть представлены в виде меры различия. Для этого достаточно соответствующим образом трансформировать коэффициенты: r ′ = (1 − r ) или I ′ = (1 − I ) , где r’ – мера различия, основанная на коэффициенте корреляции Пирсона, I’ – мера различия, основанная на коэффициенте сходства. Помимо вышеназванных коэффициентов существует ещё один относительно широко распространенный тип мер связи - это меры расстояния (Л1-норма, евклидово расстояние, расстояние Чебышева и др.). Применение мер расстояния для анализа фаунистических данных (в широком смысле) подробно обсуждается в [Песенко, 1982], там же приводятся формулы для их вычисления. 5.5. Вторичные матрицы и автоматическая классификация Структурный анализ многомерной совокупности (отражением которой является первичная матрица) целесообразно начинать с построения вторичных матриц. Вторичная матрица порядка m × m представляет собой таблицу, в которой содержится m(m − 1) попар-
2
ных оценок степени корреляции или сходства анализируемых объектов. В таблице 10 представлено две вторичных m × m матрицы, вычисленные по данным таблицы 9. Из рассматриваемого примера хорошо видно, что использованные показатели дают существенно различные результаты. Последнее закономерно вытекает из их математических свойств и, во многом, определяет сферу их применения. Коэффициенты корреляции, оценивая сопряженность варьирования объектов, как правило, вполне информативны в случае анализа структурированных систем, в которых превалируют внутренние связи. Коэффициенты сходства, определяя степень пересечения признаков, оценивают
45
абсолютное сходство между объектами и могут быть полезны для анализа низкоорганизованных систем, в которых преобладают внешние ограничения.
Пример вторичных m × m матриц
Таблица 10
m1 m2 m3 m4 m1 1 -0.99 0.03 m2 0.10 -0.99 0.03 m3 0.30 0.08 -0.01 m4 0.51 0.12 0.47 В верхней части таблицы приведены значения коэффициентов корреляции Пирсона, в нижней - коэффициентов сходства Жаккара (I2). Анализ и интерпретация вторичных матриц может занимать много времени, особенно если в сферу анализа задействовано относительно большое число объектов. Современная биометрия располагает набором разнообразных методов, позволяющих заметно упростить анализ вторичных матриц, повысить объективность анализа и получить качественно новую информацию [Василевич, 1969; Андреев, 1980; Шадрина, 1980; Песенко, 1982; Электронный …, 1999; Гайдышев, 2001; Ефимов, 2003 и др.]. Широко распространенным методом упорядочивания вторичных матриц является метод дендрограмм. Дендрограмма представляет собой разветвленную древовидную схему, которая позволяет выделять наиболее сходные из анализируемых множеств, представляя их в виде более или менее изолированных групп или, как их принято называть, кластеров. Существует несколько способов построения дендрограмм, часть из них достаточно подробно описана в соответствующей литературе [Шадрина, 1980; Песенко, 1982; Мандель, 1988; Электронный …, 1999; Гайдышев, 2001]. Имеется разнообразное программное обеспечение (STATISTICA, NTSYSpc, BIODIV и др.), позволяющее обрабатывать данные на компьютере. Рассмотрим наименее сложный способ, получивший образное название - “ближайшего соседа”. Обратимся к той части таблицы 11, где представлены меры различия (1 - r), вычисленные по данным первичной матрицы порядка s × m (табл. 9). Заметим, что в качестве анализируемых объектов здесь выступают строки (но не столбцы) первичной порядка s × m матрицы. Находим наиболее сходные множества, различие между которыми минимально. В данном примере это s6 и s7 (1 – r) = 0.01. Эти множества изображаются на графике соседними точками на одной из осей. Отходящие от точек параллельные
46
линии соединяются перпендикулярным отрезком на данном уровне расстояния, который откладывается на другой оси двумерной координатной сетки. Так, на рисунке 9 на оси ординат положены объекты, а на оси абсцисс приведена линейная шкала значений мер расстояния. Следующая по силе связь прослеживается между множествами s1 и s2 (0.03). Затем идёт связь между s8 и s7 (0.04). Несмотря на то, что множество s7 уже образует группу с s6, по алгоритму “ближайшего соседа” s8 включается в состав этой группы и т.д. Таблица 11
Вторичные s × s матрицы
s1 s2 s3 s4 s5 s6 s7 s8 s1 0.03 0.61 0.55 1.00 1.18 1.32 1.53 s2 0.71 0.44 0.36 0.77 1.05 1.21 1.39 s3 0.40 0.58 0.23 0.22 1.03 1.16 1.09 s4 0.37 0.56 0.66 0.12 0.45 0.59 0.64 s5 0.27 0.43 0.69 0.77 0.44 0.53 0.45 s6 0.20 0.37 0.33 0.54 0.56 0.01 0.07 s7 0.15 0.28 0.27 0.44 0.46 0.80 0.04 s8 0.07 0.21 0.26 0.43 0.45 0.60 0.73 В верхней части таблицы приведены значения мер различия (1 – r), в нижней - значения коэффициентов сходства Жаккара (I2). Рассмотренный метод классификации успешно применен для анализа высокогорной флоры Алтая [Рёвушкин, 1988]. Существенный недостаток алгоритма “ближайшего соседа” (и многих других методов кластерного анализа) - тенденция к образованию последовательных цепочек объектов, что иногда сводит на нет информационную ценность классификации.
47
s1 s2 s3 s4 s5 s6 s7 s8
0.0
0.1
0.2
0.3
0.4
0.5
Рис. 9. Пример дендрограммы, построенной на основе матрицы мер различия (1–r) методом “ближайшего соседа”. Другим средством, позволяющим упорядочить вторичную матрицу, является метод корреляционных плеяд, в первоначальном виде предложенный П. В. Тереньтевым [1959, 1960; Терентьев, Ростова, 1977]. 71 S1
54
56
58
66
80 S7
S6
S4
S2
56
54
73
60 S8
S3
69
S5
45
Рис. 10. Пример неориентированного графа сходства, построенного на основе матрицы коэффициентов Жаккара. Порог сходства равен 45 % (средний уровень сходства во вторичной матрице). Суть данного метода состоит в построении графов, то есть схем, где объекты изображены в виде точек (или других значков), часть из которых соединяется линиями - рёбрами графа. При этом рёбра графа соединяют только те объекты, связь между которыми превосходит заранее определенный порог сходства. Степень соответствия между объектами, как правило, отражается характером взаимного расположения точек, то есть чем больше уровень сходства или корреляции между объектами, тем ближе на графе они расположены друг к другу. Иногда отличия в уровне связи показывают при помощи толщины рёбер графа и т.п. На рисунке 10 в качестве примера представлен граф сходства, построенный на ос-
48
нове вторичной s × s матрицы коэффициентов сходства Жаккара (табл. 11). Более информативным, по сравнению с обычным типом графа, является ориентированный граф. Подобные графы могут быть очень полезны при изучении географической изменчивости организмов. Однако наибольшее распространение они нашли в факторной зоогеографии, развиваемой научной школой Ю. С. Равкина [Равкин, 1978, 1984, 2002; Равкин, Лукьянова, 1976; Вартапетов, 1984; Равкин и др., 2003 и мн. др.]. Ориентированный граф отражает не только характер проявляющихся у анализируемых объектов связей, но и показывает предметно интерпретируемые векторные направления (тренды), а также отклонения от них. Применительно к территориальным группировкам животных в качестве маркеров направленных изменений выступают физиономические, гидротермические и иные свойства населяемых этими группировками биотопов. Если анализируется небольшой объём данных ориентированный граф можно строить непосредственно по исходной матрице коэффициентов сходства (корреляции). Однако, как правило, построению графа предшествует генерализация исходной многомерной системы, выражающаяся в объединении исходного множества в более или менее однородные группы. Для этой и других целей разработан пакет программ Jacobi, включающий ряд специальных и традиционных методов многомерной статистики [Ефимов, 2003]. Он доступен вкладчикам Банка данных лаборатории зоологического мониторинга ИСиЭЖ СО РАН. Пример ориентированного графа, представляющего модель пространственной структуры населения дневных бабочек СевероВосточного Алтая, приводится на рисунке 11. Схема построена по результатам факторной классификации [Куперштох, Трофимов, 1975]. Алгоритм этого метода автоматической классификации устроен таким образом, что объединение множеств в одну группу проводится не по сходству собой, а по степени сходства со всеми остальными множествами рассматриваемой совокупности. Это позволяет с большей степенью достоверности говорить об общности объектов на уровне групп, а также избавляет от привнесения искусственной дискретности [Равкин, 1984 и др.].
49
Абсолютные высоты
Теплообеспеченность
Переувлажнение
Верхнее среднегорье и высокогорье
3
44
18
Застройка
239 22
Болота Brenthis ino 39, Aporia crataegi 22, Aphanthopus hyperantus 13; 46/48
Issoria eugenia 35, Aporia crataegi 20, Clossiana euprosyne 11; 33/39
Хвойные леса (кроме кедрачей) Aporia crataegi 35, Clossiana thore 9, Pieris napi 7; 26/54
Низкогорные поселки
37
433
21
2
1
50
Aporia crataegi 99, Aglais urticae 0,3, Pontia edusa 0,1; 1940/18
Хвойнолиственные и лиственные леса,открытые и мозаичные местообитания от предгорий до нижнего среднегорья включительно (кроме болот и низкогорных поселков) Aporia crataegi 51, Neptis rivularis 5, Aphanthopus hyperantus 5; 55/96
1
2
3
4
5
Население дневных чешуекрылых: 1 - лесов; 2 - мозаичных; 3 - поселков; 4 - высокопродуктивных открытых; 5 - низкопродуктивных открытых местообитаний.
Рис. 11. Пространственная структура населения дневных бабочек Северо-Восточного Алтая. Цифры внутри значков – номера классов, индексы под ними – уровень внутриклассового сходства, цифры у связующих линий – уровень межклассового сходства. Сплошные линии - значимое сходство, штриховые – запороговое. Для каждого класса указано три первых по долевому участию вида, суммарное обилие (особей/га) / число видов. На графе достаточно четко прослеживается связь облика населения дневных бабочек с теплообеспеченностью (классы 1 - 3), что проявляется, в частности, в своеобразии населения хвойных лесов (класс 2). Заслуживает внимания промежуточное положение этого класса, выступающего в качестве переходного между населением высокогорий и подгольцовых среднегорий (класс 3) с одной стороны, а с другой стороны - остальных местообитаний Северо-Восточного Алтая (класс 1). Сообщества дневных бабочек на болотах формируются в условиях постоянной переувлажнённо-
50
сти и потому отклоняются от основного вектора (класс 4). Ещё более специфично население низкогорных поселков (класс 5). Оно состоит почти исключительно из боярышницы Aporia crataegi L., прилетевшей сюда в поисках дополнительного минерального питания. 5.6. Ординация Наряду с классификационными методами для анализа многомерных систем зачастую применяется ординация. Первые исследования с её применением осуществлены русским геоботаником Л. Г. Раменским ещё в первой трети XX века [Шварц, Шефтель, 1990]. Подавляющее же большинство ординационных методов предложены во второй половине прошлого века. Подробное рассмотрение методов ординации (как впрочем, и современных методов классификации) совершенно не возможно без знания основ линейной алгебры. Существует ряд доступных учебников по этому направлению [Баврин, 2002 и др.]. Остановимся лишь вкратце на одном из наиболее известных методов: анализе главных компонент. Последний не изменяет в ходе обработки расстояния между объектами и соответственно не искажает содержательный смысл получаемых результатов [Ефимов, 2003]. Модули расчёта главных компонент имеются в статистических программах (STATISTICA, SPSS, NTSYSpc, Jacobi и др.). Компонентный анализ направлен на решение следующих задач: • снижение размерности признакового пространства путём перехода к новым признакам - главным компонентам; • выявление и изучение статистической связи признаков с главными компонентами; • группировка объектов в многомерном пространстве. Главных компонент столько же, сколько признаков в первичной s × m матрице. Первая главная компонента обладает максимальной дисперсией из всех, которые могут быть получены линейным преобразованием данных, вторая - максимальной дисперсией из ортогональных к первой компоненте и т. д. Обычно первые 2-5 главных компонент с достаточной полнотой (70-90 %) исчерпывают всю дисперсию исходной матрицы. Последующий анализ сводится к их предметному объяснению, что достигается путём изучения вкладов первоначальных признаков. Заметим, однако, что главные компоненты не всегда могут быть содержательно интерпретированы.
51
Матрица собственных векторов (матрица факторных Выборка I – ГК II - ГК Выборка I - ГК Майма_1 0.18 0.14 Онгудай_1 0.19 Майма_2 0.18 0.20 Онгудай_2 0.19 Майма_3 0.19 0.03 Онгудай_3 0.15 Чемал_1 0.18 0.22 Усть_Кокса_1 0.19 Чемал_2 0.17 0.27 Усть_Кокса_2 0.18 Чемал_3 0.17 0.33 Усть_Кокса_3 0.19 Чоя_1 0.19 -0.10 Усть_Кан_1 0.18 Чоя_2 0.19 -0.14 Усть_Кан_2 0.18 Чоя_3 0.19 0.05 Усть_Кан_3 0.18 Турачак_1 0.19 0.001 Улаган_1 0.18 Турачак_2 0.19 -0.02 Улаган_2 0.19 Турачак_3 0.19 0.02 Улаган_3 0.19 Шебалино_1 0.19 -0.09 Кош_Агач_1 0.18 Шебалино_2 0.19 -0.14 Кош_Агач_2 0.18 Шебалино_3 0.19 0.0009 Кош_Агач_3 0.18
Таблица 12 нагрузок) II - ГК -0.15 0.08 0.57 0.13 0.20 0.07 -0.18 -0.17 -0.17 -0.18 -0.09 -0.12 -0.19 -0.19 -0.19
Для иллюстрации метода воспользуемся данными за 2001-03 гг. об уровне заболеваемости глистными инвазиями и лямблиозом “групп риска” в Республике Алтай (сведения предоставлены санитарно-эпидемиологической станцией РА). В качестве объектов в этом случае удобно рассматривать заболевания, а в качестве признаков – сведения по районам и по годам. Расчёт собственных чисел показал, что первая компонента снимает 95.5 % исходной дисперсии матрицы. Учитывая, что все признаки вошли в первую компоненту с положительным вкладом (табл. 12), можно предположить, что она является отражением общей изменчивости в уровне заболеваемости. Заметим также, что энтеробиоз и аскаридоз расположились в области положительных значений первой главной компоненты, а остальные заболевания - в области отрицательных (табл. 13). Это хорошо согласуется с тем, что аскаридоз и особенно энтеробиоз встречаются значительно чаще других инвазий и оба этих заболевания зарегистрированы почти во всех обследованных местностях. Во вторую главную компоненту, которая снимает 3.3 % дисперсии, с устойчивым положительным вкладом входят выборки из Майминского, Чемальского и Усть-Коксинского района, а с отрицательным – Усть-Канского, Улаганского и Кош-Агачского. Вклад выборок из остальных районов изменяется по годам и, как правило, относительно не велик (табл. 12). Сравнение условий проживания в названных районах свидетельствует о связи уровня заболеваемости с природными условиями. В частности, УстьКанский, Улаганский и особенно Кош-Агачский районы характери-
52
зуются холодными и сухими зимами. Здесь складывается исключительно неблагоприятная обстановка для распространения аскарид, на что указывает положение аскаридоза в области положительных значений второй главной компоненты, но в этих районах относительно высокий уровень зараженности прочими глистными инвазиями. Таблица 13 Положение объектов (заболеваний) в пространстве I и II главных компонент Заболевание I – ГК II - ГК Аскаридоз 0.29 0.88 Энтеробиоз 4.96 -0.17 Тениаринхоз -0.79 -0.17 Гименолепидоз -0.79 -0.11 Описторхоз -0.73 -0.13 Трихоцефалез -0.81 -0.18 Тениоз -0.82 -0.18 Эхинококкоз -0.78 -0.14 Лямблиоз -0.53 0.21 5.7. Оценка силы воздействия факторов Методы автоматической классификации и ординации позволяют получить представление о том, какие внутренние и внешние факторы оказывают наиболее значимое воздействие на систему. Однако иерархия факторов (их ранги по уровню воздействия на систему) при этом остаётся до конца не выясненной. Так, например, по результатам анализа главных компонент можно с уверенностью судить лишь об очень ограниченном числе факторов, которые объясняют наибольшую часть изменчивости в системе. По результатам автоматической классификации зачастую удаётся выяснить действие большего числа факторов, но вопрос об их ранжировке при этом либо вообще не ставится, либо её проводят исходя из концептуальных, интуитивных или устоявшихся в той или иной науке положений. Считается, что наиболее обоснованные выводы об иерархии организующих факторов могут быть получены методами множественной регрессии [Электронный …, 1999]. Основное препятствие для широко внедрения названного метода состоит в том, что он требует количественных оценок факторов. Так, например, в случае анализа закономерностей пространственного размещения сообществ для этого необходимы количественные данные о температуре, влажности и иных характеристиках среды во всех обследованных местообитаниях. На практике же биолог, в лучшем
53
случае, располагает сведениями из окрестных метеостанций или мелко- и среднемасштабными картами. Преодолеть указанные затруднения позволяет качественная линейная аппроксимация – метод, преложенный математиками В. Л. Куперштохом и В. А. Трофимовым [Равкин, 1984 и др.]. Расчёты по этому методу ведутся на основе вторичной матрицы коэффициентов сходства (или корреляции) и матрицы значений факторов. Значения факторов задаются экспертно в номинальной шкале. Например, характер увлажненности территории может быть представлен градациями: болота, полузаболоченные или влажные территории и суходолы. Матрица факторов среды строится в 0-1 виде, где каждому объекту присваивается качественное значение фактора. Аппроксимация может проводиться по нескольким факторам одновременно. В качестве меры для оценки силы влияния отдельного фактора на систему принимается изменчивость, которую снимает этот фактор во вторичной матрице коэффициентов. Выражением её является дисперсия или коэффициент регрессии. Программное обеспечение метода реализовано в пакете статистических программ Jacobi [Ефимов, 2003]. В качестве примера использования метода качественной линейной аппроксимации приведём завершающий этап анализа пространственного распределения бабочек Hesperiidae Latr. на Алтае. Первый этап исследования включал в себя сбор количественных данных об обилии этих бабочек в основных ландшафтных урочищах физико-географических провинций. Затем методом автоматической классификации [Куперштох, Трофимов, 1975] проведена иерархическая группировка, в результате которой виды объединялись в сходные по характеру распределения группы. Кроме того, виды классифицировались по ареалам с учётом широтной и долготной составляющих [Сергеев, 1986]. Каждый из выше названных подходов позволил с различных сторон охарактеризовать объект исследования. Однако в итоге осталось неясным, в какой мере стациальное распределение Hesperiidae на Алтае согласуется с их глобальным распределением (ареалом). Для решения этой задачи понадобилось оценить информативность выявленных характеристик. Наиболее информативной, как и следовало ожидать, оказалась классификация по сходству стациального распределения. Даже на уровне типа она снимает около 59 % дисперсии (табл. 14). Отношение к широтным ареалогическим рубежам заметно менее информативная характеристика, что свидетельствует об определенном несоответствии распределения в глобальном и региональном масштабе. Ещё менее четко проявляется совпадение в пространственном распределении на Алтае у видов, сходным образом реагирующих на долготные географические рубежи. Наконец, филогенетическое родство, определяемое как
54
принадлежность к подсемейству Pyrginae Burm. или Hesperiinae Latr., фактически не оказывает сколько-нибудь существенного влияния на распределение видов. Эта характеристика аппроксимируется лишь на уровне “шума”.
Таблица 14 Информативность проанализированных характеристик толстоголовок Алтая Характеристика Снятая дисперсия, % Подтип стациального распределения 65 Тип стациального распределения 59 Широтная ареалогическая группа 23 Долготная ареалогическая группа 13 Филогенетическое родство 5 Сочетание характеристик 85
55
СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ 1. Андреев В. Л. Классификационные построения в экологии и систематике. – М.: Наука, 1980. – 151 с. 2. Бейли Н. Статистические методы в биологии. - М.: Иностр. лит-ра, 1962. - 260 с. 3. Василевич В. И. Статистические методы в геоботанике. – Л.: Наука, 1969. – 232 с. 4. Ефимов В. М. Проблемы многомерного анализа экологических данных. – Автореф. док. дисс. - Томск, 2003. – 39 с. 5. Животовский Л. А. Популяционная биометрия. – М.: Наука, 1991. – 271 с. 6. Зайцев Г. Н. Методика биометрических расчётов: Математическая статистика в экспериментальной ботанике. – Москва: Наука, 1973. – 256 с. 7. Количественные методы в почвенной зоологии. - М.: Наука, 1987. – 288 с. 8. Лакин Г. Ф. Биометрия. - М.: Высш. шк., 1990. - 352 с. 9. Любищев А. А. К методике количественного учёта и районирования насекомых. – Фрунзе: АН КиргССР, 1958. – 167 с. 10. Песенко Ю. А. Принципы и методы количественного анализа в фаунистических исследованиях. - М.: Наука, 1982. – 288 с. 11. Пшеницына Л. Б., Резникова Ж. И., Сергеев М. Г. Количественные методы исследования экологии насекомых. Учебное пособие. - Новосибирск: НГУ, 1993. - 76 с. 12. Равкин Ю. С. Пространственная организация населения птиц лесной зоны (Западная и Средняя Сибирь). - Новосибирск: Наука. Сиб. отд-ние, 1984. - 262 с. 13. Тьюки Дж. Анализ результатов наблюдений. – М.: Мир, 1981. - 693 с. 14. Фишер Р. А. Статистические методы для исследователей. М.: Госстатиздат, 1958. - 268 с.
56
ЛИТЕРАТУРА Андреев В. Л. Классификационные построения в экологии и систематике. – М.: Наука, 1980. – 151 с. Баврин И. И. Высшая математика. – М.: Академия, 2002. – 616 с. Бей-Биенко Г. Я. Руководство по учёту саранчовых. – Л.: УСУ ГОБВ, 1932. – 192 с. Бейли Н. Статистические методы в биологии. - М.: Иностр. литра, 1962. – 260 с. Берг Р. Л. Генетика и эволюция. Избранные труды. – Новосибирск: Наука, 1993. – 284 с. Бобринский Н. А., Кузнецов Б. А., Кузякин А. П. Определитель млекопитающих СССР. – М., 1965. – 382 с. Бондаренко А. В. Зоогеографический анализ булавоусых чешуекрылых (Lepidoptera, Rhopalocera) Юго-Восточного Алтая. – Автореф. канд. дисс. – Новосибирск, 1999. – 22 с. Бондаренко А. В. Булавоусые чешуекрылые Юго-Восточного Алтая (кадастр). – Горно-Алтайск: РИО Г-АГУ, 2003. – 203 с. Быков Б. А. Геоботаническая терминология. – Алма-Ата, 1967. – 168 с. Ванькова И. А. Опыт изучения фенотипической изменчивости саранчовых рода Calliptamus Serv. (Ortoptera, Acrididae) // Биологическое разнообразие животных Сибири. – Томск, 1998. - С. 3536. Вартапетов Л. Г. Птицы таежных междуречий Западной Сибири. Новосибирск: Наука, 1984. - 242 с. Василевич В. И. Статистические методы в геоботанике. – Л.: Наука, 1969. – 232 с. Венгеров П. Д. Экологические закономерности изменчивости и корреляции морфологических структур птиц. – Воронеж: ВГУ, 2001. – 248 с. Второв П. П. Биоэнергетика и биогеография некоторых ландшафтов Терскей Ала-Тоо. - Фрунзе, 1968. - 167 с. Гайдышев И. Анализ и обработка данных. – СПб.: Питер, 2001. – 752 с. Динесман Л. Г., Калецкая М. Л. Методы количественного учёта амфибий и рептилий // Методы учёта численности и географического распределения наземных позвоночных. – М., 1952. – С. 329340. Добринский Л. Н. Динамика морфо-физиологических особенностей птиц. – М.: Наука, 1981. – 124 с. Дубатолов В. В., Костерин О. Э. Дневные чешуекрылые (Lepidoptera, Hesperioidea, Papilionoidea) международного заповедника “Даурия”// Насекомые Даурии и сопредельных территорий. Вып. II. - Новосибирск, 1999. - С. 138-194. Ефимов В. М. Проблемы многомерного анализа экологических данных. – Автореф. док. дисс. - Томск, 2003. – 39 с.
57
Животовский Л. А. Популяционная биометрия. – М.: Наука, 1991. – 271 с. Зайцев Г. Н. Методика биометрических расчётов: Математическая статистика в экспериментальной ботанике. – Москва: Наука, 1973. – 256 с. Злотин Р. И. Жизнь в высокогорьях. - М.: Мысль, 1975. - 240 с. Иванов А. И., Штегман Б. К. Краткий определитель птиц СССР. М. -Л.: Наука, 1964. - 528 с. Кайданов Л. З. Генетика популяций. – М.: Высш. шк., 1996. – 320 с. Кашкаров Д. Н. Среда и сообщество. - М.: Гос. мед. издат., 1933. - 244 с. Количественные методы в почвенной зоологии. - М.: Наука, 1987. – 288 с. Куперштох В. Л., Трофимов В. А. Автоматическое выявление макроструктуры системы // Проблемы анализа дискретной информации. – Новосибирск, 1975. – Ч. 1. – С. 67-83. Лакин Г. Ф. Биометрия. - М.: Высш. шк., 1990. - 352 с. Любищев А. А. К методике количественного учета и районирования насекомых. - Изв. АН Кирг. ССР, Фрунзе, 1958. - 167 с. Майр Э. Зоологический вид и эволюция. – М.: Мир, 1968. – 598 с. Майр Э., Линсли Э., Юзингер Р. Методы и принципы зоологической систематики. - М.: Иностр. лит-ра, 1956. - 352 с. Малков Ю. П. К методике учёта булавоусых чешуекрылых // Животный мир Алтае-Саянской горной страны. - Горно-Алтайск, 1994. - С. 33-36. Малков Ю. П., Малков П. Ю. Некоторые уточнения к методике учета булавоусых чешуекрылых // Природные условия, история и культура Западной Монголии и сопредельных регионов. - Томск, 1999. - С. 68. Мандель И. Д. Кластерный анализ. – М.: Финансы и статистика, 1988. – 176 с. Мацеевский Я., Земба Ю. Генетика и методы разведения животных. – М.: Высш. шк., 1988. – 488 с. Методы учёта численности и географического распределения наземных позвоночных. – М.: АН СССР, 1952. Организация и методы учёта птиц и вредных грызунов. – М.: АН СССР, 1963. Павловский З. Введение в математическую статистику. – М.: Статистика, 1967. – 288 с. Паевский В. А. Демография птиц. – Л.: Наука, 1985. – 285 с. Песенко Ю. А. Принципы и методы количественного анализа в фаунистических исследованиях. - М.: Наука, 1982. - 288 с. Плохинский Н. А. Биометрия. - М.: МГУ, 1970. – 367 с. Плохинский Н. А. Достоверность разности малых долей // Математические методы в биологии. – М.: 1972. – С. 46-52.
58
Попов М. В. Определитель млекопитающих Якутии. – Новосибирск: Наука, 1977. – 424 с. Пшеницына Л. Б., Резникова Ж. И., Сергеев М. Г. Количественные методы исследования экологии насекомых. Учебное пособие. Новосибирск: НГУ, 1993. - 76 с. Равкин Е. С., Челинцев Н. Г. Методические рекомендации по комплексному маршрутному учёту птиц. - М., 1990. - 33 с. Равкин Ю. С. К методике учёта птиц лесных ландшафтов // Природа очагов клещевого энцефалита на Алтае. – Новосибирск: Наука, 1967. – С. 66-75. Равкин Ю. С. Птицы лесной зоны Приобья. - Новосибирск: Наука, 1978. – 288 с. Равкин Ю. С. Пространственная организация населения птиц лесной зоны (Западная и Средняя Сибирь). - Новосибирск: Наука, 1984. - 264 с. Равкин Ю. С. Пространственно-типологическая организация животного населения Западно-Сибирской равнины (на примере птиц, мелких млекопитающих и земноводных) // Зоол. журн., 2002. – Т. 81, №9. – С. 1166-1184. Равкин Ю. С., Лукьянова И. В. География позвоночных южной тайги Западной Сибири. - Новосибирск: Наука, 1976. - 360 с. Равкин Ю. С., Цыбулин С. М., Ливанов С. Г. и др. Особенности биоразнообразия Российского Алтая на примере модельных групп животных // Успехи современной биологии, 2003. – Т. 123, №4. – С. 409-420. Рёвушкин А. С. Высокогорная флора Алтая. – Томск: ТГУ, 1988. – 318 с. Рокицкий П. Ф. Биологическая статистика. – Минск: Вышейшая школа, 1973. – 320 с. Свиридов Н. С., Водопьянов Б. Г. Учёт пушных зверей. Учебное пособие. Часть 2. – Иркутск, 1977. – 70 с. Сергеев М. Г. Закономерности распространения прямокрылых насекомых Сибири. – Новосибирск: Наука, 1986. – 238 с. Сергеев М. Г., Дубатолов В. В. Особенности сообществ булавоусых чешуекрылых (Lepidoptera, Rhopalocera) в условиях города диффузного типа (на примере новосибирского Академгородка) // Ландшафтная экология насекомых. - Новосибирск: Наука, 1988. С. 75-80. Смирнов В. С. Изменчивость биологических явлений и коэффициент вариации // Журн. общ. биол., 1971. – Т. 32, №2. – С. 152162. Снедекор Д. У. Статистические методы в применении к исследованиям в сельском хозяйстве и биологии. – М.: Сельхоз. лит., 1961. – 503 с. Терентьев П. В. Метод корреляционных плеяд // Вестник Ленингр. ун-та. Сер. биол., 1959. - № 9. - С. 137 - 141.
59
Тереньтев П. В. Дальнейшее развитие метода корреляционных плеяд // Применение математических методов в биологии. – Л., 1960. – С. 27-36. Терентьев П. В., Ростова Н. С. Практикум по биометрии. – Л.: ЛГУ. – 1977. – 152 с. Тимофеев-Ресовский Н. В., Воронцов Н. Н., Яблоков А. В. Краткий очерк теории эволюции. – М.: Наука, 1969. - 407 с. Тьюки Дж. Анализ результатов наблюдений. – М.: Мир, 1981. 693 с. Уильямсон М. Анализ биологических популяций. - М.: Мир, 1975. - 272 с. Федоров А. И. Методы математической статистики в биологии и опытном деле. - Алма-Ата: Казгосиздат, 1957. - 150 с. Фенологические наблюдения (организация, проведение, обработка). Унифицированное руководство для добровольной фенологической сети. – Л.: Наука, 1982. – 224 с. Фишер Р. А. Статистические методы для исследователей. - М.: Госстатиздат, 1958. - 268 с. Хромов-Борисов Н. Н. Приложение: Биометрические аспекты популяционной генетики // Кайданов Л. З. Генетика популяций. – М.: Высш. шк., 1996. – С. 251-303. Четвериков С. С. Проблемы общей биологии и генетики (воспоминания, статьи, лекции). – Н.: Наука, 1983. – 273 с. Шадрина В. И. Автоматическая классификация в зоогеографических исследованиях // Проблемы зоогеографии и истории фауны. Новосибирск, 1980. - С. 13-41. Шадрина В. И. Экспериментальное сопоставление индексов сходства, используемых в экологии и зоогеографии // Фауна, таксономия, экология млекопитающих и птиц. – Новосибирск: Наука, 1987. – С. 128-141. Шварц Е. А., Шефтель Б. И. Экологическая ординация в геозоологических исследованиях // Экологическая ординация и сообщества. – М.: Наука, 1990. – С. 3-10. Шмальгаузен И. И. Организм как целое в индивидуальном и историческом развитии. Избранные труды. – М.: Наука, 1982. – 383 с. Шмидт В. М. Развитие представлений о корреляциях и корреляционной структуре биологических объектов // Исследование биологических систем математическими методами. – Л.: ЛГУ, 1985. – С. 5-18. Шмидт-Ниельсен К. Размеры животных: почему они так важны? - М.: Мир, 1987. - 259 с. Электронный учебник по статистике. – Москва, StatSoft Inc., 1999. http://www.statsoft.ru/home/textbook/default.htm Энциклопедический словарь Кирилла и Мефодия. – CD-версия, 2002.
60
Юдин Б. С. Насекомоядные млекопитающие Сибири (определитель). – Новосибирск: Наука, 1971. - 171 с. Яблоков А. В. Изменчивость млекопитающих. – М.: Наука, 1966. – 363 с. Яковлев В. А. Материалы по биологии живородящей ящерицы в Алтайском заповеднике // Животный мир юга Западной Сибири. – Горно-Алтайск: РИО “Универ-Принт”, 2002. – С. 94-112. Hubbs C. L., Perlmutter A. Biometric comparison of several samples, with particular reference to racial investigations // Amer. Nat., 1942. – Vol. 76. – P. 582-592. Pollard E. A metod for assessing changes in the abundance of butterflies // Biol. Coserrv.. 1977 - Vol. 12, № 2. - P. 115-134. Terentjev P. Biometrische Untersuchungen uber die morphologische Merkmale von Rana ridibunda Pall. // Biometrica, 1931. – Vol. 23, №1-2. – S. 23-51. Yamomoto M. Notes on the methods of belt transect census of butterflies // J. Fac. Sci. Hokkaido Univ. Ser. V1. Zool., 1975. - Vol. 20. №1. - P. 93-116.
61
ПРИЛОЖЕНИЯ (СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ)
62
Таблица 1 Критические значения t распределения Стьюдента ν
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
ν
P 0.95
0.99
0.999
12.71 4.30 3.18 2.78 2.57 2.45 2.37 2.31 2.26 2.23 2.20 2.18 2.16 2.14 2.13 2.12 2.11
63.66 9.92 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.05 3.01 2.98 2.95 2.92 2.90
64.60 31.60 12.92 8.61 6.87 5.96 5.41 5.04 4.78 4.59 4.44 4.32 4.22 4.14 4.07 4.02 3.97
18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 >120
63
0.95
P 0.99
2.10 2.09 2.09 2.08 2.07 2.07 2.06 2.06 2.06 2.05 2.05 2.05 2.04 2.02 2.00 1.98 1.96
2.88 2.86 2.85 2.83 2.82 2.81 2.80 2.79 2.78 2.77 2.76 2.76 2.75 2.70 2.66 2.62 2.58
0.99 9 3.92 3.88 3.85 3.82 3.79 3.77 3.75 3.73 3.71 3.69 3.67 3.66 3.65 3.55 3.46 3.37 3.29
Таблица 2 Значения ϕ = 2 arcsin
p
p, % 0 1 2 3 4 5 6 7 8 9 0 0.000 0.020 0.028 0.035 0.040 0.045 0.049 0.053 0.057 0.060 0.1
0.063 0.066 0.069 0.072 0.075 0.077 0.080 0.082 0.085 0.087
0.2
0.089 0.092 0.094 0.096 0.098 0.100 0.102 0.104 0.106 0.108
0.3
0.110 0.111 0.113 0.115 0.117 0.118 0.120 0.122 0.123 0.125
0.4
0.127 0.128 0.130 0.131 0.133 0.134 0.136 0.137 0.139 0.140
0.5
0.142 0.143 0.144 0.146 0.147 0.148 0.150 0.151 0.153 0.154
0.6
0.155 0.156 0.158 0.159 0.160 0.161 0.163 0.164 0.165 0.166
0.7
0.168 0.169 0.170 0.171 0.172 0.173 0.175 0.176 0.177 0.178
0.8
0.179 0.180 0.182 0.183 0.184 0.185 0.186 0.187 0.188 0.189
0.9
0.190 0.191 0.192 0.193 0.194 0.195 0.196 0.197 0.198 0.199
1
0.200 0.210 0.220 0.229 0.237 0.246 0.254 0.262 0.269 0.277
2
0.284 0.291 0.298 0.304 0.311 0.318 0.324 0.330 0.336 0.342
3
0.348 0.354 0.360 0.363 0.371 0.376 0.382 0.387 0.392 0.398
4
0.403 0.408 0.413 0.418 0.423 0.428 0.432 0.437 0.442 0.448
5
0.451 0.456 0.460 0.465 0.469 0.473 0.478 0.482 0.486 0.491
6
0.495 0.499 0.503 0.507 0.512 0.516 0.520 0.524 0.528 0.532
7
0.535 0.539 0.543 0.546 0.551 0.555 0.559 0.562 0.566 0.570
8
0.574 0.577 0.581 0.584 0.588 0.592 0.595 0.599 0.602 0.606
9
0.609 0.613 0.616 0.620 0.623 0.627 0.630 0.633 0.637 0.640
10
0.644 0.647 0.650 0.653 0.657 0.660 0.663 0.666 0.670 0.673
11
0.676 0.679 0.682 0.686 0.689 0.692 0.695 0.698 0.701 0.704
12
0.707 0.711 0.714 0.717 0.720 0.723 0.726 0.729 0.732 0.735
13
0.738 0.741 0.744 0.747 0.750 0.752 0.755 0.758 0.761 0.764
14
0.767 0.770 0.773 0.776 0.778 0.781 0.784 0.787 0.790 0.793
15
0.795 0.798 0.801 0.804 0.807 0.809 0.812 0.815 0.818 0.820
16
0.823 0.826 0.828 0.831 0.834 0.837 0.839 0.842 0.845 0.847
17
0.850 0.853 0.855 0.858 0.861 0.863 0.866 0.868 0.871 0.874
18
0.876 0.879 0.881 0.884 0.887 0.889 0.892 0.894 0.897 0.900
19
0.902 0.905 0.907 0.910 0.912 0.915 0.917 0.920 0.922 0.925
20
0.927 0.930 0.932 0.935 0.937 0.940 0.942 0.945 0.947 0.950
64
Продолжение таблицы 2 p, %
0
1
2
3
4
5
6
7
8
9
21
0.952 0.955 0.957 0.959 0.962 0.964 0.967 0.969 0.972 0.974
22
0.976 0.979 0.981 0.984 0.986 0.988 0.991 0.993 0.996 0.998
23
1.000 0.003 1.005 0.007 0.010 1.012 1.015 1.017 1.019 1.022
24
1.024 0.026 1.029 0.031 0.033 1.036 1.038 1.040 1.043 1.045
25
1.047 0.050 1.052 0.054 0.056 1.059 1.061 1.063 1.066 1.068
26
1.070 0.072 1.075 0.077 0.079 1.082 1.084 1.086 1.088 1.091
27
1.093 0.095 1.097 0.100 0.102 1.104 1.106 1.109 1.111 1.113
28
1.115 0.117 1.120 0.122 0.124 1.126 1.129 1.131 1.133 1.135
29
1.137 0.140 1.142 0.144 0.146 1.148 1.151 1.153 1.155 1.157
30
1.159 0.161 1.164 0.166 0.168 1.170 1.172 1.174 1.177 1.179
31
1.182 0.183 1.185 0.187 0.190 1.192 1.184 1.196 1.198 1.200
32
1.203 0.205 1.207 0.209 0.211 1.213 1.215 1.217 1.220 1.222
33
1.224 0.226 1.228 0.230 1.232 1.234 1.237 1.239 1.241 1.243
34
1.245 0.247 1.249 0.251 1.254 1.256 1.258 1.260 1.262 1.264
35
1.266 0.268 1.270 1.272 1.274 1.277 1.279 1.281 1.283 1.285
36
1.287 0.289 1.291 1.293 1.295 1.297 1.299 1.302 1.304 1.306
37
1.308 0.310 1.312 1.314 1.316 1.318 1.320 1.322 1.324 1.326
38
1.328 0.330 1.333 1.335 1.337 1.339 1.341 1.343 1.345 1.347
39
1.349 0.351 1.353 1.355 1.357 1.359 1.361 1.363 1.365 1.367
40
1.369 0.371 1.374 1.376 1.378 1.380 1.382 1.384 1.386 1.388
41
0.390 0.392 1.394 1.396 1.398 1.400 0.402 1.404 1.406 0.408
42
0.410 0.412 1.414 1.416 1.418 1.420 0.422 1.424 1.426 0.428
43
0.430 0.432 1.434 1.436 1.438 1.440 0.442 1.444 1.446 0.448
44
0.451 0.453 1.455 1.457 0.459 1.461 0.463 1.465 1.467 0.469
45
0.471 0.473 1.475 1.477 0.479 1.481 0.483 1.485 1.487 0.489
46
0.491 0.493 1.495 1.497 0.499 1.501 1.503 1.505 1.507 0.509
47
0.511 1.513 1.515 1.517 0.519 1.521 1.523 1.525 1.527 0.529
48
0.531 1.533 1.535 1.537 0.539 1.541 1.543 1.545 1.547 0.549
49
0.551 1.553 1.555 1.557 0.559 1.561 1.563 1.565 1.567 0.569
50
0.571 1.573 1.575 1.577 0.579 1.581 1.583 1.585 1.587 0.589
51
0.591 1.593 1.595 1.597 0.599 1.601 1.603 1.605 1.607 0.609
65
Продолжение таблицы 2 p, %
0
1
2
3
4
5
6
7
8
9
52
0.611 1.613 1.615 1.617 0.619 1.621 1.623 1.625 1.627 0.629
53
0.631 1.633 1.635 1.637 0.639 1.641 1.643 1.645 1.647 0.649
54
0.651 1.653 1.655 1.657 0.659 1.661 1.663 1.665 1.667 0.669
55
0.671 1.673 1.675 1.677 0.679 1.681 1.683 1.685 1.687 0.689
56
0.691 1.693 1.695 1.697 0.699 1.701 1.703 1.705 1.707 0.709
57
0.711 1.713 1.715 1.717 0.719 1.721 1.723 1.725 1.727 0.729
58
0.731 1.734 1.736 0.738 0.740 1.742 1.744 1.746 1.748 0.750
59
0.752 1.754 1.756 0.758 0.760 1.762 1.764 1.766 1.768 0.770
60
0.772 1.774 1.776 0.778 0.780 1.782 1.784 1.786 1.789 0.791
61
0.793 1.795 1.797 0.799 0.801 1.803 1.805 1.807 1.809 0.811
62
0.813 1.815 1.817 0.819 0.821 1.823 1.826 1.828 1.830 0.832
63
0.834 1.836 1.838 1.840 1.842 1.844 1.846 1.848 1.850 0.853
64
0.855 1.857 1.859 1.861 1.863 1.865 1.867 1.869 1.871 0.873
65
0.875 1.878 1.880 1.882 1.884 1.886 1.888 1.890 1.892 0.894
66
0.897 1.899 1.901 1.903 1.905 1.907 1.909 1.911 1.913 0.916
67
0.918 1.920 1.922 1.924 1.926 1.928 1.930 1.933 1.935 0.937
68
0.939 1.941 1.943 1.946 1.948 1.950 1.952 1.954 1.956 0.958
69
0.961 1.963 1.965 1.967 1.969 1.971 1.974 1.976 1.978 0.980
70
1.982 1.984 1.987 1.989 1.991 1.993 1.995 1.998 2.000 2.002
71
2.004 2.006 2.009 2.011 2.013 2.015 2.018 2.020 2.022 2.024
72
2.026 2.029 2.031 2.033 2.035 2.038 2.040 2.042 2.044 2.047
73
2.049 2.051 2.053 2.056 2.058 2.060 2.062 2.065 2.067 2.069
74
2.071 2.074 2.076 2.078 2.081 2.083 2.085 2.087 2.090 2.092
75
2.094 2.097 2.099 2.101 2.104 2.106 2.108 2.111 2.113 2.115
76
2.118 2.120 2.122 2.125 2.127 2.129 2.132 2.134 2.136 2.139
77
2.141 2.144 2.146 2.148 2.151 2.153 2.156 2.158 2.160 2.163
78
2.165 2.168 2.170 2.172 2.175 2.177 2.180 2.182 2.185 2.187
79
2.190 2.192 2.194 2.197 2.199 2.202 2.204 2.207 2.209 2.212
80
2.214 2.217 2.219 2.222 2.224 2.224 2.227 2.229 2.231 2.237
81
2.240 2.242 2.245 2.247 2.250 2.252 2.255 2.258 2.260 2.263
82
2.265 2.268 2.271 2.273 2.276 2.278 2.281 2.284 2.286 2.289
66
Продолжение таблицы 2 p, %
0
1
2
3
4
5
6
7
8
9
83
2.292 2.294 2.297 2.300 2.302 2.305 2.308 2.310 2.313 2.316
84
2.319 2.321 2.324 2.327 2.330 2.332 2.335 2.338 2.341 2.343
85
2.346 2.349 2.352 2.355 2.357 2.360 2.363 2.366 2.369 2.372
86
2.375 2.377 2.380 2.383 2.386 2.389 2.392 2.395 2.398 2.402
87
2.404 2.407 2.410 2.413 2.416 2.419 2.422 2.425 2.428 2.431
88
2.434 2.437 2.440 2.443 2.447 2.450 2.453 2.456 2.459 2.462
89
2.465 2.469 2.472 2.475 2.478 2.482 2.485 2.488 2.491 2.495
90
2.498 2.501 2.505 2.508 2.512 2.515 2.518 2.522 2.525 2.529
91
2.532 2.536 2.539 2.543 2.546 2.550 2.554 2.557 2.561 2.564
92
2.568 2.572 2.575 2.579 2.583 2.587 2.591 2.594 2.598 2.602
93
2.606 2.610 2.614 2.618 2.622 2.626 2.630 2.634 2.638 2.642
94
2.647 2.651 2.655 2.659 2.664 2.668 2.673 2.677 2.681 2.686
95
2.691 2.695 2.700 2.706 2.709 2.714 2.719 2.724 2.729 2.734
96
2.739 2.744 2.749 2.754 2.760 2.765 2.771 2.776 2.782 2.788
97
2.793 2.799 2.805 2.811 2.818 2.824 2.830 2.837 2.844 2.851
98
2.858 2.865 2.872 2.880 2.888 2.896 2.904 2.913 2.922 2.931
99
2.941 2.942 2.943 2.944 2.945 2.946 2.948 2.949 2.950 2.951
99.1 2.952 2.953 2.954 2.955 2.956 2.957 2.958 2.959 2.960 2.961 99.2 2.963 2.964 2.965 2.966 2.967 2.968 2.969 2.971 2.972 2.973 99.3 2.974 2.975 2.976 2.978 2.979 2.980 2.981 2.983 2.984 2.985 99.4 2.987 2.988 2.989 2.990 2.992 2.993 2.995 2.996 2.997 2.999 99.5 3.000 3.002 3.003 3.004 3.006 3.007 3.009 3.010 3.012 3.013 99.6 3.015 3.017 3.018 3.020 3.022 3.023 3.025 3.027 3.028 3.030 99.7 3.032 3.034 3.036 3.038 3.040 3.04) 3.044 3.046 3.048 3.050 99.8 3.052 3.054 3.057 3.059 3.062 3.064 3.067 3.069 3.072 3.075 99.9 3.078 3.082 3.085 3.089 3.093 3.097 3.101 3.107 3.113 3.122 100
3.142
67
Критические значения χ2 распределения ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0.95 3.841 5.991 7.815 9.488 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00
P 0.99 6.635 9.210 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58
ν 0.999 10.83 13.82 16.27 18.47 20.51 22.46 24.32 26.13 27.88 29.59 31.26 32.91 34.53 36.12 37.70
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
68
0.95 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77
P 0.99 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89
Таблица 3 0.999 39.25 40.79 42.31 43.82 45.31 46.80 48.27 49.73 51.18 52.62 54.05 55.48 56.89 58.30 59.70
Таблица 4 Критические значения линейного коэффициента корреляции Пирсона r ν 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
ν
P 0.95 0,75 0,71 0,67 0,63 0,60 0,58 0,55 0,53 0,51 0,50 0,48 0,47 0,46 0,44 0,43 0,42 0,41 0,40 0,40 0,39 0,38 0,37
0.99 0,87 0,83 0,80 0,77 0,74 0,71 0,68 0,66 0,64 0,62 0,61 0,59 0,58 0,56 0,55 0,54 0,53 0,52 0,51 0,50 0,49 0,48
27 28 29 30 35 40 45 50 60 70 80 90 100 125 150 200 300 400 500 700 900 1000
69
P 0.95 0,37 0,36 0,36 0,35 0,33 0,30 0,29 0,27 0,25 0,23 0,22 0,21 0,20 0,17 0,16 0,14 0,11 0,10 0,09 0,07 0,06 0,06
0.99 0,47 0,46 0,46 0,45 0,42 0,39 0,37 0,35 0,33 0,30 0,28 0,27 0,25 0,23 0,21 0,18 0,15 0,13 0,12 0,10 0,09 0,09
ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ ГЛАВА I. ВВЕДЕНИЕ В БИОМЕТРИЮ 1.1. Значение количественных методов в биологии 1.2. Историческая справка 1.3. Фундаментальные понятия биометрии
стр. 3 4 4 5 7
ГЛАВА II. СБОР И ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ 2.1. Методы оценки численности популяций 2.2. Техника измерений и округлений 2.3. Отношения и индексы 2.4. Вариационные ряды 2.5. Графическое отображение данных
9 9 11 12 13 15
ГЛАВА III. АНАЛИЗ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ 3.1. Средняя величина 3.2. Показатели вариации 3.3. Ошибка выборочной средней 3.4. Сравнение средних величин 3.5. Оценка разности коэффициентов вариации
19 19 20 27 29 30
ГЛАВА IV. АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ 4.1. Доля и её статистическая ошибка 4.2. Анализ сопряженности признаков и согласованности распределений (χ2-критерий) ГЛАВА V. АНАЛИЗ МНОГОМЕРНЫХ СИСТЕМ 5.1. Общие положения 5.2. Первичные матрицы 5.3. Коэффициент корреляции 5.4. Эвристические меры сходства 5.5. Вторичные матрицы и автоматическая классификация 5.6. Ординация 5.7. Оценка силы воздействия факторов СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ ЛИТЕРАТУРА ПРИЛОЖЕНИЯ (СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ)
70
32 32 35 40 40 41 43 44 45 51 53 56 57 62
Учебное пособие
КОЛИЧЕСТВЕННЫЙ АНАЛИЗ БИОЛОГИЧЕСКИХ ДАННЫХ
Малков Петр Юрьевич
Верстка оригинал-макета – П. Ю. Малков. Подписано в печать 29.03.2005. Формат 60 × 84/16. Бумага офсетная. Печать офсетная. Гарнитура Verdana. Уч. изд. л. 4,75. Усл. печ. л. 4,4. Заказ №30. Тираж 200 экз. Типография Горно-Алтайского государственного университета. Республика Алтай, 649000, г. Горно-Алтайск, ул. Ленкина д. 1.
71