Эксперт по сдаче вступительных испытаний в ВУЗах
Лабораторная работа № 3. Сравнение двух выборок
Назначение. Процедура сравнения позволяет ответить на вопрос: больше/меньше анализируемый параметр в одной группе по сравнению с таковым в другой, или они статистически достоверно не отличаются друг от друга? Сравнение не позволяет установить связей или зависимостей между исследуемыми признаками!
Для двух выборок с
нормальным распределением с помощью раздела «Критерии Стьюдента и Фишера» можно проверить нулевые гипотезы об отсутствии различий (о равенстве) значений выборочных средних (критерий Стьюдента) и дисперсий (критерий Фишера).
Если имеется несколько выборок, то можно сравнивать их попарно.
Если производятся множественные сравнения (количество сравниваемых выборок больше двух), следует пользоваться поправкой Бонферрони. (Однако следует принимать во внимание, что поправка Бонферрони хорошо работает при числе сравниваемых выборок меньше 6, иначе она чрезмерно жестко ограничивает вероятность принятия альтернативных гипотез).
Если выборки содержат малое число измерений, или не подчиняются нормальному закону распределения, или представляют ранговые данные, то аналогом критериев Стьюдента и Фишера являются непараметрические критерии различий сдвига и масштаба.
Для выполнения процедуры сравнения в электронную таблицу должны быть внесены данные не менее чем по двум группам. Сравнению подлежат только
однотипные показатели (рост сравнивают с ростом, вес — с весом, возраст — с возрастом и т.д.).
Пример 1. Было исследовано влияние УФ-облучения на функциональную активность оксигемоглобина (HbO
2) человека. Одним из показателей, отражающих кислородсвязывающую способность HbO
2, является величина Р
50 — давление полунасыщения гемоглобина кислородом (парциальное давления кислорода, при котором гемоглобин насыщен О
2 на 50 %). Результаты экспериментов представлены в табл. 11.
Таблица 11
Давление полунасыщения кислородом гемоглобина человека в нативных и УФ-облученных в дозе 151 Дж/м
2 растворах
| Доза облучения, Дж/м2 |
0 Дж/м2 (контроль) |
151 Дж/м2 |
| Р50, мм рт. ст. |
20,61 |
10,96 |
| 16,23 |
10,96 |
| 18,42 |
11,84 |
| 20,61 |
14,04 |
| 21,05 |
14,47 |
| 22,81 |
17,54 |
| 23,24 |
17,98 |
Чтобы определиться с выбором критериев для сравнения (параметрические или непараметрические), проверим распределение на нормальность. Результаты анализа представлены в табл. 12 — 13 и на рис. 7 — 8).
Таблица 12
Гистограмма и тест нормальности
| Х-лев |
Х-станд |
Частота |
% |
Накопл. |
% |
| Р50 (контроль) |
| 16,23 |
-1,72 |
1 |
14,29 |
1 |
14,29 |
| 17,98 |
-1,001 |
1 |
14,29 |
2 |
28,57 |
| 19,74 |
-0,2826 |
3 |
42,86 |
5 |
71,43 |
| 21,49 |
0,4359 |
2 |
28,57 |
7 |
100 |
Колмогоров=0,2446, Значимость=0,4677, степ.своб = 7
Гипотеза 0: Распределение не отличается от нормального
Омега-квадрат=0,03886, Значимость=0,4043, степ.своб = 7
Гипотеза 0: Распределение не отличается от нормального
Хи-квадрат=1,105, Значимость=0,2931, степ.своб = 1
Гипотеза 0: Распределение не отличается от нормального
Рис. 7. Гистограмма распределения частот встречаемости величин Р
50 нативного HbO
2 человека
Таблица 13
Гистограмма и тест нормальности
| Х-лев |
Х-станд |
Частота |
% |
Накопл. |
% |
| Р50 (151 Дж/м2) |
| 10,96 |
-1,025 |
3 |
42,86 |
3 |
42,86 |
| 12,72 |
-0,4274 |
2 |
28,57 |
5 |
71,43 |
| 14,47 |
0,1703 |
0 |
0 |
5 |
71,43 |
| 16,23 |
0,7679 |
2 |
28,57 |
7 |
100 |
Колмогоров=0,1945, Значимость=0,07123, степ.своб = 7
Гипотеза 0: Распределение не отличается от нормального
Омега-квадрат=0,04195, Значимость=0,1311, степ.своб = 7
Гипотеза 0: Распределение не отличается от нормального
Хи-квадрат=5,418, Значимость=0,01993, степ.своб = 1
Гипотеза 1: Распределение отличается от нормального
Рис. 8. Гистограмма распределения частот встречаемости величин Р
50 HbO
2 человека, облученного в дозе 151 Дж/м
2
Рассчитаем показатели, характеризующие средние значения и параметры вариации для каждой группы (табл. 14 — 16).
Таблица 14
Описательная статистика
| Переменная |
Размер |
Диапазон |
Среднее |
Ошибка |
Дисп. |
Ст. откл. |
Сумма |
| Р50 (контроль) |
7 |
16,23 — 23,24 |
20,42 |
0,9218 |
5,948 |
2,439 |
143 |
| Р50 (151 Дж/м2) |
7 |
10,96 — 17,98 |
13,97 |
1,11 |
8,623 |
2,936 |
97,79 |
Таблица 15
Дополнительная статистика
| Переменная |
Медиана |
Квартили |
Дов. инт. ср. |
Дов. инт. дисп |
Ош. ст. откл |
| Р50 (контроль) |
20,61 |
18,42; 22,81 |
2,24 |
2,47 — 28,84 |
1,297 |
| Р50 (151 Дж/м2) |
14,04 |
10,96; 17,54 |
2,697 |
3,581 — 41,81 |
1,562 |
Таблица 16
Асимметрия и эксцесс
| Переменная |
Асимметр. |
Значим. |
Эксцесс |
Значим. |
| Р50 (контроль) |
-0,5668 |
0,1773 |
2,314 |
0,4616 |
| Р50 (151 Дж/м2) |
0,3263 |
0,2971 |
1,584 |
0,1571 |
Распределение контрольной выборки не отличается от нормального. Распределение второй совокупности (облученный HbO
2) отлично от нормального по критерию
χ2. Однако, поскольку объем выборки невелик, уровень значимости критерия находится в области 0,01 — 0,05; по показателям асимметрии и эксцесса распределение подчиняется нормальному закону (Р>0,05), среднее арифметическое и медиана близки по величинам, то мы можем принять гипотезу о нормальном распределении данной выборки и использовать для сравнения параметрические критерии.
КРИТЕРИЙ ФИШЕРА И СТЬЮДЕНТА
Статистика Фишера=0,6898, Значимость=0,331, степ.своб=6,6
Гипотеза 0: Нет различий между выборочными дисперсиями.
Поскольку обе совокупности подчиняются нормальному закону распределения, и их дисперсии статистически достоверно не отличаются, то применимость критерия Стьюдента не вызывает сомнений.
Статистика Стьюдента=4,474, Значимость=0,001026, степ.своб=12
Гипотеза 1: Есть различия между выборочными средними
Разность средних=6,454, доверит.интервал=0,001481
Отметим также, что в данном случае выборки можно рассматривать как парные переменные, поскольку были исследованы образцы от каждого донора до и после УФ-модификации.
Стьюдент для парных данных=10,99, Значимость=0,0001818, степ.своб = 6
Гипотеза 1: Есть различия между выборочными средними.
Вывод: Результаты анализа показывают наличие различий величин давления полунасыщения гемоглобина кислородом нативных и УФ-облученных образцов оксигемоглобина человека на высоком уровне значимости (Р<0,01).
Пример 2. Сравним частоту встречаемости цитогенетических аномалий в двух группах больных шизофренией (табл. 17)
Таблица 17
Частота встречаемости микроядер в двух группах больных шизофренией
| Группа № 1 |
Группа № 2 |
| 3,925 |
1,897 |
| 0,962 |
3,802 |
| 0,998 |
1,925 |
| 3,984 |
3,992 |
| 1,004 |
3,003 |
| 0,896 |
1,940 |
| 2,865 |
2,918 |
| 1,970 |
1,972 |
| 0,871 |
1,980 |
| 1,604 |
2,924 |
| 1,820 |
1,921 |
| 0,990 |
1,955 |
| 2,865 |
3,925 |
| 1,990 |
0,962 |
| 0,954 |
1,984 |
| 2,944 |
3,992 |
| 1,000 |
2,973 |
| 0,981 |
1,974 |
| 1,595 |
1,903 |
| 1,820 |
3,902 |
| 0,990 |
1,925 |
| 3,984 |
5,000 |
| 0,985 |
2,976 |
| 0,896 |
1,984 |
Чтобы определиться с выбором критериев для сравнения (параметрические или непараметрические), проверим распределение на нормальность (табл. 18 – 19, рис. 9 — 10).
Таблица 18
Группа 1: гистограмма и тест нормальности
| Х-лев |
Х-станд |
Частота |
% |
Накопл. |
% |
| группа 1 |
| 0,871 |
-0,8575 |
12 |
50 |
12 |
50 |
| 1,39 |
-0,3719 |
4 |
16,67 |
16 |
66,67 |
| 1,909 |
0,1137 |
2 |
8,333 |
18 |
75 |
| 2,428 |
0,5993 |
3 |
12,5 |
21 |
87,5 |
| 2,946 |
1,085 |
0 |
0 |
21 |
87,5 |
| 3,465 |
1,571 |
3 |
12,5 |
24 |
100 |
Колмогоров=0,2682, Значимость=0,0003498, степ.своб = 24
Гипотеза 1: Распределение отличается от нормального
Омега-квадрат=0,327, Значимость=7,7х10
-5, степ.своб = 24
Гипотеза 1: Распределение отличается от нормального
Хи-квадрат=28,84, Значимость=7,454х10
-6, степ.своб = 3
Гипотеза 1: Распределение отличается от нормального
Рис. 9. Гистограмма распределения частот встречаемости клеток с микроядрами в группе № 1 больных шизофренией
Таблица 19
Группа 2: гистограмма и тест нормальности
| Х-лев |
Х-станд |
Частота |
% |
Накопл. |
% |
| группа 2 |
| 0,962 |
-1,696 |
1 |
4,167 |
1 |
4,167 |
| 1,635 |
-1,022 |
12 |
50 |
13 |
54,17 |
| 2,308 |
-0,348 |
4 |
16,67 |
17 |
70,83 |
| 2,981 |
0,3262 |
1 |
4,167 |
18 |
75 |
| 3,654 |
1 |
5 |
20,83 |
23 |
95,83 |
| 4,327 |
1,674 |
1 |
4,167 |
24 |
100 |
Колмогоров=0,291, Значимость=6,495х10
-5, степ.своб = 24
Гипотеза 1: Распределение отличается от нормального
Омега-квадрат=0,286, Значимость=0,0002842, степ.своб = 24
Гипотеза 1: Распределение отличается от нормального
Хи-квадрат=16,73, Значимость=0,000807, степ.своб = 3
Гипотеза 1: Распределение отличается от нормального
Рис. 10. Гистограмма распределения частот встречаемости клеток с микроядрами в группе № 2 больных шизофренией
Рассчитаем показатели, характеризующие средние значения и параметры вариации для каждой группы (табл. 20 — 22):
Таблица 20
Описательная статистика
| Переменная |
Размер |
Диапазон |
Среднее |
Ошибка |
Дисп. |
Ст. откл. |
Сумма |
| группа 1 |
24 |
0,871 — 3,984 |
1,787 |
0,2181 |
1,141 |
1,068 |
42,89 |
| группа 2 |
24 |
0,962 — 5 |
2,655 |
0,2038 |
0,9966 |
0,9983 |
63,73 |
Таблица 21
Дополнительная статистика
| Переменная |
Медиана |
Квартили |
Дов. инт. ср. |
Дов. инт. дисп. |
Ош. ст. откл. |
| группа 1 |
1,3 |
0,982; 2,646 |
0,4457 |
0,6895 — 2,246 |
0,4091 |
| группа 2 |
1,984 |
1,929; 3,602 |
0,4164 |
0,602 — 1,961 |
0,3823 |
Таблица 22
Асимметрия и эксцесс
| Переменная |
Асимметр. |
Значим. |
Эксцесс |
Значим. |
| группа 1 |
1,027 |
0,01015 |
2,704 |
0,4698 |
| группа 2 |
0,6316 |
0,0766 |
2,497 |
0,3608 |
Поскольку распределение в обеих выборках отличается от нормального, то использование параметрических критериев некорректно. Следовательно, будем анализировать данные выборки с помощью непараметрических критериев (Вилкоксона, Ван дер Вардена, Z-критерия знаков):
КРИТЕРИИ СДВИГА (ПОЛОЖЕНИЯ).
Вилкоксон=436, Z=3,135, Значимость=0,000863, степ.своб = 24,24
Гипотеза 1: Есть различия между медианами выборок
Ван дер Варден=-10,08, Z=-3,095, Значимость=0,0009896, степ.своб = 24,24
Гипотеза 1: Есть различия между медианами выборок
Для парных данных:
Вилкоксон=33, Z=-3,343, Значимость=0,0004169, степ.своб = 2,24
Гипотеза 1: Есть различия между медианами выборок
Знаков=2, Z=-3,878, Значимость=5,307х10
-5, степ.своб = 2,24
Гипотеза 1: Есть различия между медианами выборок.
Вывод: Применение критериев различия сдвига Вилкоксона и Ван дер Вардена позволяет принять гипотезу о различиях частоты встречаемости микроядер в буккальном эпителии больных шизофренией в двух сравниваемых группах на высоком уровне значимости (
P<0,001).
Сравнение долей производится по другому алгоритму, нежели сравнение признаков, характеризующих объект в целом; параметрические (
t-критерий Стьюдента,
F-критерий Фишера) или непараметрические (
V-критерий Ван дер Вардена,
W-критерий Вилкоксона и др.) критерии здесь не применяются.
Пример 3. Была изучена встречаемость различных типов клеточных нарушений в апикальной корневой меристеме проростков семян деревьев сосны обыкновенной, произрастающих в районе 9 км Задонского шоссе, подвергшегося в 1986 г. радиоактивному загрязнению в результате аварии на Чернобыльской АЭС (опытная территория), и в экологически безопасном районе биостанции ВГУ «Веневитиново» (контрольная территория). Всего у проростков семян деревьев, произрастающих на опытной территории, было обнаружено 57 клеток с патологиями, из них 38 (66,7 %) — с мостами, (следствие образования дицентрических хромосом), 12 (21,1 %) — с отставанием хромосом в метакинезе (повреждение веретена деления), 7 (12,2 %) — с агглютинациями (склеивание хромосом). В контрольной выборке выявлено 34 клетки с патологиями (15 (44,1 %) — с мостами, 15 (44,1 %) — с отставаниями хромосом в метакинезе, 4 (11,8 %) — с агглютинациями). Требовалось сравнить частоту встречаемости отдельных нарушений на экологически безопасной территории и на территории, подвергшейся антропогенному загрязнению.
Проверка распределения на нормальность в данном случае не производится.
Для сравнения долей патологии митоза типа «мост» в контроле и опыте выберем в меню «Статистика» раздел «Согласие частот», в нем — «Тип нулевой гипотезы», пункт «Согласие частот». В строке «Событие 1» вводим число 38 (число клеток с патологией «мост» в опыте), в строке «Наблюдения 1» — 57 (общее количество клеток с патологиями митоза в корнях проростков на опытной территории). Затем в строку «Событие 2» вводим число 15 (число клеток с патологией «мост» в контроле), в строке «Наблюдения 1» — 34 (общее количество клеток с патологиями в корнях проростков на контрольной территории).
Выберем пункт «1=равенство частот». Получим следующую выдачу результатов:
СОГЛАСИЕ ЧАСТОТ.
Z=-2,33, Значимость=0,01984
Гипотеза 1: <Частоты событий не совпадают>
Разность частот = 0,2255, доверительный интервал = 0,1758.
Вывод: таким образом, на загрязненных территориях в спектре нарушений митоза преобладают мосты, частота их встречаемости статистически достоверно (P<0,05) превышает таковую в контроле.
Аналогичным образом сравним доли отставаний хромосом в метакинезе.
СОГЛАСИЕ ЧАСТОТ.
Z=2,567, Значимость=0,01027
Гипотеза 1: <Частоты событий не совпадают>
Разность частот = 0,2307, доверительный интервал = 0,1628.
Вывод: на экологически безопасной территории в спектре нарушений преобладают отставания хромосом в метакинезе, частота их встречаемости статистически достоверно (P<0,05) превышает таковую в опыте.
Задание.
- Повторите теоретический материал раздела «Статистические гипотезы и их проверка».
- Действуя по алгоритму, описанному в приведенных выше примерах, проведите сравнительный анализ роста, веса, возраста, количества опозданий на занятия за неделю или каких-либо других характеристик студентов вашей и других групп. Данные по другим группам вам предоставит преподаватель.
- Сравните частоту встречаемости митозов с агглютинацией хромосом в клетках апикальной меристемы корней проростков семян сосны обыкновенной на загрязненной и экологически «чистой» территориях.
- Оформите работу в тетради. Сделайте вывод.
- Если у вас есть собственные экспериментальные данные, представляющие собой две и более выборки, подходящих для сравнения признаков, проверьте их распределение на нормальность и проведите адекватный характеру распределения сравнительный анализ.
Ссылка на первоисточник:
http://www.ieay.ru