Эксперт по сдаче вступительных испытаний в ВУЗах
Лабораторная работа № 4. Выявление корреляционных связей
Назначение.
Параметрический коэффициент корреляции Пирсона является индикатором
линейной связи между
парными переменными, подчиняющимися
нормальному закону распределения. В случае подозрения влияния третьей переменной на две исследуемые, можно вычислить коэффициент частной корреляции. Если парные переменные содержат малое число измерений, или не подчиняются закону нормального распределения, или представляют собой ранговые переменные, то наличие связи между ними может быть установлено по непараметрическим коэффициентам корреляции Спирмена и Кендалла. Связь номинальных переменных оценивается по методу кросстабуляции.
Пример 1. Нами были зарегистрированы кривые диссоциации нативного оксигемоглобина и рассчитаны некоторые параметры, характеризующие кислородсвязывающую функцию гемопротеида (табл. 23):
1) содержание оксигемоглобина в образце при парциальном давлении кислорода 40 мм рт. ст. (
Y40);
2) содержание оксигемоглобина в образце при парциальном давлении кислорода 100 мм рт. ст. (
Y100);
3) артериально-венозная разность (АВР) содержания HbO
2 в образце (разности между значениями
Y100 и
Y40);
4) величина давления полунасыщения белка лигандом – р50 (парциальное давление кислорода, при котором половина всех гемов в тетрамере связана с кислородом);
5) константа Хилла (a) — показатель, характеризующий степень кооперативности взаимодействия между отдельными субъединицами в тетрамерной молекуле гемоглобина.
Таблица 23
Параметры кислородсвязывающей функции оксигемоглобина человека
| Параметры
№ п/п |
Y40, % |
Y100, % |
АВР, % |
р50,
мм рт. ст. |
a |
| 1 |
80,14 |
97,37 |
17,23 |
20,61 |
2,85 |
| 2 |
77,15 |
95,67 |
18,52 |
16,23 |
2,28 |
| 3 |
90,05 |
97,41 |
7,36 |
18,42 |
2,69 |
| 4 |
89,89 |
97,38 |
8,49 |
20,61 |
2,49 |
| 5 |
89,98 |
99,44 |
9,46 |
21,05 |
3,21 |
| 6 |
87,16 |
98,54 |
11,38 |
22,81 |
2,59 |
| 7 |
88,08 |
98,65 |
10,57 |
23,24 |
2,59 |
| 8 |
78,23 |
97,72 |
19,49 |
20,42 |
2,63 |
Чтобы предварительно выявить признаки, между которыми могут существовать корреляционные связи, построим для них диаграммы рассеяния (рис. 11).
Рис. 11. Диаграммы рассеяния
Анализ диаграмм позволяет предположить существование отрицательной корреляции между показателями Y
40 и АВР и положительной корреляции между Y
100 и р50. В характере рассеивания на остальных диаграммах на первый взгляд не выявляется никакой закономерности. Проверим наши предположения.
Чтобы выбрать адекватный метод анализа (параметрическая или непараметрическая корреляция), проверим распределение исследуемых признаков на нормальность. Поскольку читателю уже хорошо знакомы этот метод, не будем приводить результаты проверки полностью; отметим, что распределение показателей Y
40 и АВР отличается от нормального по критерию
χ2 (табл. 24, 25, рис. 12).
Таблица 24
Y
40: гистограмма и тест нормальности
| Х-лев |
Х-станд |
Частота |
% |
Накопл. |
% |
| 77,15 |
-1,417 |
3 |
37,5 |
3 |
37,5 |
| 80,38 |
-0,8413 |
0 |
0 |
3 |
37,5 |
| 83,6 |
-0,2653 |
0 |
0 |
3 |
37,5 |
| 86,82 |
0,3108 |
5 |
62,5 |
8 |
100 |
Колмогоров=0,2695, Значимость=0,1914, степ.своб = 8
Гипотеза 0: Распределение не отличается от нормального
Омега-квадрат=0,1137, Значимость=0,05898, степ.своб = 8
Гипотеза 0: Распределение не отличается от нормального
Хи-квадрат=15,34, Значимость=9,329х10
-5, степ.своб = 1
Гипотеза 1: Распределение отличается от нормального
Таблица 25
АВР : гистограмма и тест нормальности
| Х-лев |
Х-станд |
Частота |
% |
Накопл. |
% |
| 7,36 |
-1,129 |
3 |
37,5 |
3 |
37,5 |
| 10,39 |
-0,5009 |
2 |
25 |
5 |
62,5 |
| 13,43 |
0,1268 |
0 |
0 |
5 |
62,5 |
| 16,46 |
0,7544 |
3 |
37,5 |
8 |
100 |
Колмогоров=0,2416, Значимость=0,3593, степ.своб = 8
Гипотеза 0: Распределение не отличается от нормального
Омега-квадрат=0,07743, Значимость=0,1963, степ.своб = 8
Гипотеза 0: Распределение не отличается от нормального
Хи-квадрат=6,995, Значимость=0,008178, степ.своб = 1
Гипотеза 1: Распределение отличается от нормального
Таким образом, большинства показателей распределяется по нормальному закону, следовательно, для их анализа можно использовать параметрический коэффициент корреляции Пирсона. Однако нелинейный характер связи между показателями дает основания обратиться к непараметрическим методам анализа корреляций. Для показателей Y
40 и АВР следует применять непараметрические показатели связи.
Рис. 12. Гистограммы распределения частот встречаемости для некоторых параметров кислородсвязывающей функции оксигемоглобина человека
Воспользуемся обоими тестами, чтобы сравнить полученные результаты (табл. 26 — 28).
Таблица 26
Параметрическая корреляция
| Переменные |
Результат |
Вывод |
| Y40 и Y100 |
Коэфф.корреляции=0,6237
T=1,955,
Значимость=0,09673,
степ.своб=6 |
Гипотеза 0: Коэффициент корреляции не отличен от нуля |
| Y40 и АВР |
Коэфф.корреляции=-0,9868
T=-14,94,
Значимость=8,382х10-5,
степ.своб = 6 |
Гипотеза 1: Коэффициент корреляции отличен от нуля |
| Y40 и р50 |
Коэфф.корреляции=0,4496
T=1,233,
Значимость=0,2634,
степ.своб = 6 |
Гипотеза 0: Коэффициент корреляции не отличен от нуля |
| Y40 и a |
Коэфф.корреляции=0,3688
T=0,9718,
Значимость=0,6291,
степ.своб = 6 |
Гипотеза 0: Коэффициент корреляции не отличен от нуля |
| Y100 и АВР |
Коэфф.корреляции=-0,4981
T=-1,407,
Значимость=0,2078,
степ.своб = 6 |
Гипотеза 0: Коэффициент корреляции не отличен от нуля |
| Y100 и р50 |
Коэфф.корреляции=0,8221
T=3,537,
Значимость=0,01237,
степ.своб = 6 |
Гипотеза 1: Коэффициент корреляции отличен от нуля |
| Y100 и a |
Коэфф.корреляции=0,7286
T=2,605,
Значимость=0,03942,
степ.своб = 6 |
Гипотеза 1: Коэффициент корреляции отличен от нуля |
| АВР и р50 |
Коэфф.корреляции=-0,3254
T=-0,843,
Значимость=0,5644,
степ.своб = 6 |
Гипотеза 0: Коэффициент корреляции не отличен от нуля |
| АВР и a |
Коэфф.корреляции=-0,2753
T=-0,7014,
Значимость=0,514,
степ.своб = 6 |
Гипотеза 0: Коэффициент корреляции не отличен от нуля |
| р50 и a |
Коэфф.корреляции=0,3512
T=0,9188,
Значимость=0,6033,
степ.своб = 6 |
Гипотеза 0: Коэффициент корреляции не отличен от нуля |
Расчет коэффициентов парной параметрической корреляции Пирсона выявил наличие обратной связи между показателями Y
40 и АВР (
r=-0,98), прямой — между Y
100 и р50 (
r=0,82), Y
100 и a (
r=0,72). Для остальных характеристик статистически достоверных корреляций не выявлено. Однако поскольку метод парных корреляций не принимает во внимание влияния третьего фактора, он может выявлять связи, которые в действительности опосредованы действием неучтенного стороннего воздействия.
Проанализируем частные корреляции (табл. 27).
Таблица 27
Матрица частных корреляций
| |
Y40 |
Y100 |
АВР |
р50 |
| Y100 |
0,6237 |
— |
— |
— |
| АВР |
-0,9868 |
-0,4981 |
— |
— |
| р50 |
0,4496 |
0,8221 |
-0,3254 |
— |
| a |
0,3688 |
0,7286 |
-0,2753 |
0,3512 |
Критическое значение = 0,7042
Число значимых коэффициентов = 3 (30 %)
Таблица 28
Непараметрическая корреляция
| Переменные |
Результат |
Вывод |
| Y40 и Y100 |
Кендалл=0,4286, Z=1,485,
Значимость=0,06882,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Спирмeн=0,4762, Z=1,209,
Значимость=0,1132,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Y40 и АВР |
Кендалл=-0,8571, Z=-2,969,
Значимость=0,001498,
степ.своб = 8 |
Гипотеза 1: Есть корреляция между выборками |
| Спирмeн=-0,9524, Z=-3,023,
Значимость=0,001257,
степ.своб = 8 |
Гипотеза 1: Есть корреляция между выборками |
| Y40 и р50 |
Кендалл=0,25, Z=0,866,
Значимость=0,1932,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Спирмeн=0,2798, Z=0,6928,
Значимость=0,2442,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Y40 и a |
Кендалл=0,25, Z=0,866,
Значимость=0,1932,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Спирмeн=0,4226, Z=1,064,
Значимость=0,1436,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Y100 и АВР |
Кендалл=-0,2857, Z=-0,9897,
Значимость=0,1611,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Спирмeн=-0,2619, Z=-0,6476,
Значимость=0,2586,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Y100 и р50 |
Кендалл=0,5357, Z=1,856,
Значимость=0,03175,
степ.своб = 8 |
Гипотеза 1: Есть корреляция между выборками |
| Спирмeн=0,7321, Z=1,989,
Значимость=0,02339,
степ.своб = 8 |
Гипотеза 1: Есть корреляция между выборками |
| Y100 и a |
Кендалл=0,25, Z=0,866,
Значимость=0,1932,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Спирмeн=0,4226, Z=1,064,
Значимость=0,1436,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| АВР и р50 |
Кендалл=-0,1071, Z=-0,3712,
Значимость=0,3553,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Спирмeн=-0,1845, Z=-0,4538,
Значимость=0,325,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| АВР и a |
Кендалл=-0,1071, Z=-0,3712,
Значимость=0,3553,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Спирмeн=-0,1726, Z=-0,4242,
Значимость=0,3357,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| р50 и a |
Кендалл=0,1429, Z=0,4949,
Значимость=0,3104,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
| Спирмeн=0,1786, Z=0,439,
Значимость=0,3303,
степ.своб = 8 |
Гипотеза 0: Нет корреляции между выборками |
Вычисление непараметрических коэффициентов парной корреляции выявило наличие обратной связи между показателями Y
40 и АВР (
t=-0,85;
rs=-0,95), прямой — между Y
100 и р50 (
t=0,53;
rs=0,73).
Для устранения влияния неучтенных факторов на результаты анализа проанализируем частные корреляции (табл. 29).
Таблица 29
Матрица частных непараметрических корреляций
| |
Y40 |
Y100 |
АВР |
р50 |
| Y100 |
0,4762 |
— |
— |
— |
| АВР |
-0,9524 |
-0,2619 |
— |
— |
| р50 |
0,2798 |
0,7321 |
-0,1845 |
— |
| a |
0,4226 |
0,4226 |
-0,1726 |
0,1786 |
Вывод: Менее строгие и чувствительные непараметрические критерии Спирмена и Кендалла позволили выявить корреляционные связи между показателями Y
40 и АВР и Y
100 и р50. Более мощный параметрический коэффициент корреляции Пирсона, помимо указанных связей, позволяет обнаружить корреляцию между величинами Y
100 и a.
Пример 2. Анализ таблиц сопряженности (кросстабуляция)
Статистические процедуры, описанные в предыдущем примере, предназначены для анализа
количественных признаков. Для
ранговых или
номинальных признаков разработан метод анализа двумерных таблиц сопряженности, или кросстабуляции двух переменных с проверкой гипотезы об их независимости.
Рассмотрим следующий пример (С. Гланц Медико-биологическая статистика, 1998). Гемодиализ позволяет сохранить жизнь людям, страдающим хронической почечной недостаточностью. Так как гемодиализ проводится регулярно, больному устанавливают артериовенозный шунт. Завихрения тока крови в местах соединения трубок и сосудов приводят к тому, что шунт часто тромбируется. Тромбы приходится регулярно удалять, а в тяжелых случаях даже менять шунт. Руководствуясь тем, что аспирин препятствует образованию тромбов, Г. Хартер и соавт. (Н.R. Harter, et al., 1979) решили проверить, нельзя ли снизить риск тромбоза назначением небольших доз аспирина (160 мг/сут). Было проведено контролируемое испытание. Все больные, согласившиеся на участие в испытании и не имевшие противопоказаний к аспирину, были случайным образом разделены на две группы: 1-я получала плацебо, 2-я — аспирин. Ни врач, дававший больному препарат, ни больной не знали, был это аспирин или плацебо. Такой способ проведения испытания (он называется
двойным слепым) исключает «подсуживание» со стороны врача или больного и, хотя технически сложен, дает наиболее надежные результаты. Исследование проводилось до тех пор, пока общее число больных с тромбозом шунта не достигло 24. Группы практически не различались по возрасту, полу и продолжительности лечения гемодиализом. B 1-й группе тромбоз шунта произошел у 18 из 25 больных, во 2-й — у 6 из 19. Можно ли говорить о статистически значимом различии доли больных с тромбозом, а тем самым об эффективности аспирина?
Занесем результаты испытания в таблицу (табл. 30). Для каждой из групп укажем число больных с тромбозом и без тромбоза. Есть два признака: препарат (аспирин — плацебо) и тромбоз (есть — нет); в таблице указаны все их возможные сочетания, поэтому такая таблица называется таблицей сопряженности. В данном случае размер таблицы 2х2.
Таблица 30
Число случаев наличия и отсутствия тромбоза сосудов при приеме аспирина и плацебо
| Группа эксперимента |
Тромбоз есть |
Тромбоза нет |
| Контроль (плацебо) |
18 |
7 |
| Аспирин |
6 |
13 |
Посмотрим на клетки, расположенные на диагонали, идущей из верхнего левого в нижний правый угол. Числа в них заметно больше чисел в других клетках таблицы. Это наводит на мысль о связи между приемом аспирина и риском тромбоза.
Результаты представляются в виде 6 таблиц (табл. 31 — 36).
Столбцы: Тромбоз / Нет
Строки: Контроль / Аспирин
Таблица 31
Наблюденные частоты признаков
Таблица 32
Процентная встречаемость признаков по рядам
Таблица 33
Процентная встречаемость признаков по столбцам
Таблица 34
Общая процентная встречаемость признаков
| 40,9 |
15,9 |
56,8 % |
| 13,6 |
29,5 |
43,2 % |
| 54,5 % |
45,5 % |
|
Таблица 35
Ожидаемые частоты признаков
Это таблица (табл. 35)
ожидаемых чисел, которые мы получили бы, если бы аспирин не влиял на риск тромбоза. Как же рассчитать ожидаемые числа? Плацебо получали 25 человек, аспирин — 19. Тромбоз шунта произошел у 24 из 44 обследованных, то есть в 54,5 % случаев; не произошел — у 20 из 44, то есть в 45,45 % случаев (табл. 34). Примем нулевую гипотезу о том, что аспирин
не влияет на риск тромбоза. Тогда тромбоз должен с равной частотой 54,5 % наблюдаться в группах плацебо и аспирина. Рассчитав, сколько составляет 54,5 % от 25 и 19, получим соответственно 13,6 и 10,4. Это и есть ожидаемые числа больных с тромбозом в группах плацебо и аспирина. Таким же образом можно получить ожидаемые числа больных без тромбоза в группе плацебо — 45,5 % от 25, то есть 11,4 в группе аспирина — 45,5 % от 19, то есть 8,6.
Таблица 36
Остаточные частоты признаков (набл — ожид)
В табл. 31 приведены наблюдаемые числа, а в табл. 35 — ожидаемые. Как видно, между данными этих таблиц имеются весьма существенные различия. Теперь осталось выбрать критерий, который бы характеризовал эти различия одним числом, и затем найти его значение. Критерий
χ2 не требует никаких предположений относительно параметров совокупности, из которой извлечены выборки. Применим критерий
χ2 к данным по тромбозам шунта.
Хи-квадрат =7,187, Значимость=0,007345, степ.своб = 1
Гипотеза 1: <Есть связь между признаками>
V-коэфф. Краммера =0,4042
Ламбда Гудмана и Крускала: симметр, ряд, столб =0,3333, 0,3158, 0,35
Тау-b Кендалла =0,4021
Тау-с Кендалла =0,3967
Гамма Гудмана и Кендалла =0,6957
d(x,y)Соммера=0,4042, 0,4
Вывод: Вычисленный уровень значимости критерия χ
2 позволяет принять гипотезу о зависимости тромбоза от приема аспирина (Р=0,007 < 0,05). Значения последующих коэффициентов раскрывают различные аспекты выявленной взаимосвязи этих признаков согласно их свойствам.
Рис. 13. Столбиковая диаграмма кросстабуляции «тромбоз — аспирин»
Диаграмма (рис. 13) показывает значительную симметричную связь между признаками: большим случаям тромбоза при контроле соответствуют меньше случаев тромбоза при приеме аспирина.
Эту симметрию отражают большие значения ряда коэффициентов (лямбда, тау-с, гамма и d(x,y)).
Задание.
- Повторите теоретический материал раздела «Корреляционный анализ».
- Определенный интерес представляет выявление связей между посещаемостью студентами лекционных занятий и успеваемостью по курсу. Ниже представлены сведения о посещаемости студентами биолого-почвенного факультета Воронежского госуниверситета курса «Психогенетика», прочитанного в первом семестре 2012 года, и результаты промежуточной аттестации по нему. Выявите корреляционные связи данных показателей.
Результаты промежуточной аттестации по курсу «Психогенетика» и число посещенных лекций
| № п/п |
Баллы |
Число посещений |
№ п/п |
Баллы |
Число посещений |
| 1 |
27 |
8 |
41 |
19 |
6 |
| 2 |
28 |
8 |
42 |
21 |
6 |
| 3 |
28 |
8 |
43 |
19 |
6 |
| 4 |
31 |
8 |
44 |
13 |
6 |
| 5 |
38 |
8 |
45 |
31 |
6 |
| 6 |
19 |
8 |
46 |
26 |
6 |
| 7 |
34 |
8 |
47 |
34 |
6 |
| 8 |
38 |
8 |
48 |
20 |
6 |
| 9 |
25 |
8 |
49 |
33 |
6 |
| 10 |
30 |
8 |
50 |
17 |
5 |
| 11 |
37 |
8 |
51 |
31 |
5 |
| 12 |
43 |
8 |
52 |
21 |
5 |
| 13 |
38 |
8 |
53 |
27 |
5 |
| 14 |
29 |
8 |
54 |
17 |
5 |
| 15 |
16 |
8 |
55 |
34 |
5 |
| 16 |
29 |
8 |
56 |
26 |
5 |
| 17 |
37 |
7 |
57 |
21 |
5 |
| 18 |
36 |
7 |
58 |
32 |
5 |
| 19 |
15 |
7 |
59 |
24 |
5 |
| 20 |
26 |
7 |
60 |
23 |
5 |
| 21 |
23 |
7 |
61 |
26 |
4 |
| 22 |
15 |
7 |
62 |
28 |
4 |
| 23 |
32 |
7 |
63 |
15 |
4 |
| 24 |
16 |
7 |
64 |
20 |
4 |
| 25 |
12 |
7 |
65 |
34 |
3 |
| 26 |
32 |
7 |
66 |
23 |
3 |
| 27 |
26 |
7 |
67 |
28 |
3 |
| 28 |
25 |
7 |
68 |
17 |
2 |
| 29 |
22 |
7 |
69 |
21 |
2 |
| 30 |
38 |
7 |
70 |
25 |
2 |
| 31 |
31 |
7 |
71 |
23 |
2 |
| 32 |
30 |
7 |
72 |
29 |
2 |
| 33 |
29 |
7 |
73 |
32 |
1 |
| 34 |
37 |
7 |
74 |
20 |
1 |
| 35 |
36 |
7 |
75 |
27 |
1 |
| 36 |
37 |
7 |
76 |
14 |
1 |
| 37 |
34 |
7 |
77 |
26 |
1 |
| 38 |
30 |
6 |
78 |
11 |
0 |
| 39 |
27 |
6 |
79 |
17 |
0 |
| 40 |
21 |
6 |
80 |
19 |
0 |
- Оформите работу в тетради. Сделайте выводы о целесообразности посещения лекционных занятий.
- Если у вас есть собственные экспериментальные данные, возможно, представляющие собой сопряженные характеристики, попытайтесь с помощью методов корреляционного анализа установить наличие или отсутствие связей между исследованными показателями.
Ссылка на первоисточник:
http://vuit.ru/