::BlackNick Place::

Порівняння непараметричних даних

У випадку, якщо ваші дані є порядковими, або кількісними, розподіленими не за нормальним законом, використовувати параметричні критерії не можна. Для вирішення задачі порівняння в такому випадку існують методи, що називаються непараметричними. Як і для нормально розподілених даних, порівняння може бути одновибірковим та двовибірковими парним і незалежним.

Найбільш простим є критерій знаків. Він застосовується для парних порівнянь. При цьому для кожної пари даних визначається знак їх різниці, пари рівних значень ігноруються. У випадку справедливості нульової гіпотези про рівність вибірок, кількості позитивних та негативних знаків повинні бути однаковими. Якщо "плюси" або "мінуси" переважають, критерій знаків дає нам вже знайоме р, на основі якого ми відкидаємо нульову гіпотезу, або приймаємо її. Як бачимо, на результат оцінки за цим критерієм ніяк не впливає ступінь збільшення або зменшення аналізованих параметрів.

Більш складним критерієм, який приймає до уваги ступінь змін наших даних, є критерій знакових рангових сум Вілкоксона (або просто критерій Вілкоксона, Wilcoxon signed-rank test). Для того, щоб обчислити його, спочатку потрібно, як і у випадку критерія знаків, знайти різниці кожної пари даних. Після цього, з абсолютними значеннями таких різниць проводиться процедура ранжування - визначення рангів. Ранг - це номер позиції певного елемента у ряді, вишикуваному в порядку зростання. Іншими словами, найменшому елементу ряду даних присвоюється ранг 1, другому за величиною - 2, і т.д. Якщо в ряді даних є повторювані елементи, їх ранг обчислюється як середнє значення тих рангів, які б вони мали, якби були різними. Приклад даних та їх рангів наведено у таблиці:

Дані	15,5	17,9	13,8	16,8	15,6	20,3	13,8	13,9	16,8	14,2	16,3
Ранги	5	10	1	8,5	6	11	2	3	8,5	4	7

Зверніть увагу на два значення рангів 8.5 - їх мають повторювані значення 16.8. Якби ці значення були б різними, вони мали б ранги 8 і 9. Тому, ці елементи даних отримують усереднені ранги 8.5.

Після цього підраховують суми рангів позитивних і негативних різниць, середні значення позитивних і негативних рангів, на основі чого обчислюється статистика критерію (W), за якою визначається рівень значущості.

Для незалежних порівнянь використовується критерій Манна-Вітні (Mann-Witney). Для його обчислення елементи двох вибірок об'єднуються в одну спільну, ранжуються, після чого підраховується середній ранг елементів одної і другої вибірки. На їх основі обчислюється статистика критерію (U), за якою визначається рівень значущості.

Нажаль, у LibreOffice непараметричні функції не реалізовані. В пакеті PSPP в розділі "Аналіз" - "Непараметричні критерії" доступні критерії знаків та Вілкоксона для парних порівнянь. Результат виглядає таким чином:

Верхня таблиця містить статистику рангів, можна бачити, що переважають додатні ранги, тобто значення першої змінної (VAR001) є більшими за другу (VAR002). У другій таблиці наведено статистику критерія (позначена Z) та обчислений рівень значущості - 0.026, що дозволяє нам відкинути нульову гіпотезу і визнати вибірки відмінними.

Третя таблиця містить статистику знаків, зрозуміло, що також більше додатних різниць, а найнижча таблиця містить обчислений рівень значущості - при двосторонніх альтернативах він становить 0.012, що також дозволяє нам відкинути нульову гіпотезу.

Нормалізація даних

У випадку, коли аналізовані дані розподілені ненормально, але з певних причин ми не хочемо використовувати непараметричні критерії, можна застосувати процедури нормалізації даних. Вони полягають у математичному перетворенні даних для того, щоб розподіл модифікованих даних став нормальним. На практиці досить часто зустрічається ситуація, коли можливі значення вимірюваної величини обмежені з нижнього боку (наприклад, вага або лінійні розміри, які природно не можуть бути негативними) та можуть у невеликому числі випадків приймати досить великі значення. За таких умов розподіл даних буде асиметричним із більшим правим "хвостом". Застосування логарифмічної функції при цьому може скоригувати форму розподілу. Приклад розподілу "сирих" та нормалізованих логарифмом даних наведено на наступному рисунку:

Можна бачити, що після логарифмування розподіл даних більш узгоджується із кривою нормального розподілу. Коефіцієнти асиметрії та ексцесу для "сирих" даних становили 3.9 та 2.4 відповідно, що свідчило про ненормальність розподілу. Після нормалізації вони становили -0.8 та -0.9 відповідно (нагадаємо, що межі "нормальності" зазначених показників ±2). Залежно від форми розподілу ваших даних можна підібрати і інші математичні перетворення, які можуть нормалізувати його. Проте, під час аналізу слід пам'ятати, що ми працюємо з модифікованими даними.