|
Порівняння номінальних даних
Номінальні дані організовані найбільш просто - вони являють собою певні категорії,
до яких належить певна кількість об'єктів. З метою порівняння, ця кількість переводиться у частоти - відсоткову форму.
Здавалося б, найлегше, що ми можемо зробити для порівняння таких даних - прямо порівняти відповідні відсотки.
Проте, в багатьох випадках, особливо, при малих обсягах вибірок, таке порівняння може ввести нас в оману
У популярному науковому блозі детально розібрано,
які помилки, в тому числі і статистичні, зроблені авторами
однієї з статей, в якій "доводиться" шкода ГМО (обговорювана стаття була відізвана редакцією журналу саме через
недостовірність зроблених висновків). Зокрема автори статті наводять дані, що у контрольній групі щурів
смертність становила 30% і 20% серед самців і самок відповідно, натомість, у тварин, що вживали їжу з ГМО,
цей показник становив 50% та 70%. На перший погляд цифри вражають, але прочитавши методику дослідження стає зрозумілим,
що аналізувалися групи по 10 тварин, отже кожен піддослідний щур становив аж 10% від вибірки.
Застосувавши статистичний метод порівняння, ми виявимо, що навіть різниця між групами самок (20% і 70%) не є статично значущою.
Отже, навіть для таких простих даних як відсотки також потрібно застосовувати статистичні методи.
Інколи ми очікуємо, що у відповідності з теорією об'єкти повинні бути розподіленими по категоріях певним чином.
Наприклад, знаючи хромосомну теорію визначення статі у людини, ми можемо очікувати, що кількість народжуваних хлопчиків
і дівчаток повинна співвідноситися як 1:1. Державне статистичне спостереження зазначає, що у 2013 році в Україні народилося
503700 немовлят, тобто у відповідності з нашим припущенням кількість дітей кожної статі має становити 251850.
Натомість, реальні дані свідчать про переважання хлопчиків: в той рік їх народилося 259909, на відміну від дівчаток, яких було 243791.
Постає питання, чи відхилення в бік народження хлопчиків є випадковим або ж обумовлене якимись чинниками.
Зауважимо, що наведені числа відносяться до номінальних, а не кількісних, через те, що результатом одиничного спостереження є
факт народження хлопчика або дівчинки, а не якесь число. Наведені ж числа є частотами двох альтернативних подій.
Згрупуємо дані у таблицю:
| спостерігаємо | теорія | різниця |
хлопчики | 259909 | 251850 | 8059 |
дівчатка | 243791 | 251850 | 8059 |
Така таблиця (без стовпчика "різниця") називається таблицею спряженості категорій.
В даному випадку категорій дві, але таблиці спряженості можуть бути і більшими.
Отже, чи є різниця в 3% між реальним життям і теорією випадковою? Для відповіді на це питання існують критерії узгодженості,
найбільш поширеним з яких є критерій узгодженості χ2 Пірсона (читається "хі-квадрат").
Статистика цього критерію обчислюється за формулою:
де χ2 - статистика тесту, Оi - число спостережень типу і або емпіричні, експериментальні дані
(О від observations), Ei - очікуване у відповідності до теорії число спостережень типу і (Е - expectations),
n - число комірок таблиці.
При нульовій гіпотезі ()про узгодженість між експериментальними даними і теорією) значення очікуваних та
спостережених частот є однаковими, а χ2=0.
Чим значення статистики критерію є більшим, тим меншою є ймовірність, що різниця випадкова. За χ2
обчислюється величина р, на основі якої ми приймаємо рішення, відкидати чи приймати нульову гіпотезу.
Для наших даних χ2 = 257.9, а р = 0 (насправді, не точно 0, а 3*10-114).
Таким чином, ми повинні відкинути нульову гіпотезу і визнати, що хлопчиків народжується з певних причин більше, ніж 50%.
Дійсно, біологічні особливості процесів запліднення та внутрішньоутробного розвитку людини такі, що на 106 хлопчиків
народжується 100 дівчаток.
Тест χ2 часто використовується в генетиці, коли нам потрібно оцінити,
чи узгоджується спостережене розщеплення при схрещуванні різних організмів із теорією, визначеною законами Менделя
(або іншими закономірностями успадкування).
Приміром, у відповідності до третього закону Менделя при схрещуванні гетерозиготних за двома ознаками організмів
(нехай це буде класичний горох із жовтим гладеньким насінням) ми повинні спостерігати розщеплення 9:3:3:1
(жовті гладенькі - жовті зморшкуваті - зелені гладенькі - зелені зморшкуваті відповідно). Провівши таке схрещування
і порахувавши кількість рослин з різними комбінаціями ознак у наступному поколінні, ми отримали такі результати:
| жов/гл | жов/зм | зел/гл | зел/зм |
спостерігаємо | 675 | 208 | 245 | 88 |
теорія | 684 | 228 | 228 | 76 |
В нижньому рядку наведено очікуваний розподіл, який був розрахований як пропорції 9/16, 3/16 та 1/16 (16=9+3+3+1)
від суми усіх емпіричних даних. Обчислене значення χ2 становить 1.26, а визначене р = 0.18.
Отже, ми не можемо відкинути нульову гіпотезу і визнаємо емпіричний розподіл еквівалентним теоретичному 9:3:3:1.
Іншими словами, ми визнаємо, що відхилення між спостереженням та теорією є випадковим.
Зауважимо, що для таблиць 2х2 як у прикладі з народжуваністю, статистику χ2 потрібно обчислювати
за дещо відмінним алгоритмом - з поправкою Йейтса на неперевність даних.
Більшість статистичних програм мають можливість обрати між двома варіантами - χ2 та χ2 з поправкою
(Yates correction, correction for continuity).
У випадку, якщо кількість спостережень однієї з категорій (або ж теоретичне значення частоти) є меншою за 10,
χ2 навіть з поправкою погано вирішує поставлену задачу. В такому випадку слід використовувати тест Фішера
(точний тест Фішера, Fisher's exact test, не плутати з F-тестом для порівняння дисперсій, який також є тестом Фішера).
В LibreOffice обчислення χ2 здійснюється функцією CHISQ.TEST або CHITEST, аргументами якої
є два ряди даних з частотами розподілів, а результатом - обчислене р.
Слід звернути увагу, що ця процедура не враховує поправку Йейтса для таблиць 2х2.
В пакеті PSPP є опція "Аналіз" - "Непараметричні критерії" - "χ квадрат".
На відміну від LibreOffice та розглянутих вище приладів вона працює не з частотами категорій,
а з сирими даними - змінними, які містять інформацію про окремі виміри.
В якості теоретичних частот можна зазначити дефолтний варіант "частоти усіх категорій рівні" або ввести свої розрахунки.
Обчислити χ2 можна і онлайн, наприклад, за посиланням
http://www.quantpsy.org/chisq/chisq.htm
Алгоритм цього сайту враховує і поправку Йейтса.
Також, існують онлайн версії і тесту Фішера:
http://www.langsrud.com/stat/fisher.htm
Зважаючи, що невеликі таблиці 2х2 складаються всього з чотирьох значень, в даному випадку використання онлайн ресурсів є досить зручним.
|
|