Аналіз узгодженості двох рядів даних

В багатьох дослідженнях ми реєструємо одночасно кілька параметрів (наприклад, показники функціонального стану пацієнтів при лікуванні), і нас цікавить, наскільки різні параметри є пов'язаними між собою. Вирішити таку задачу нам допоможе кореляційний аналіз. Під кореляцією двох величин ми розуміємо таку ситуацію, коли зміна однієї з них в певному напрямку (зростання/зменшення) супроводжується систематичною зміною іншою величини. Позитивна кореляція характеризує такий зв'язок між величинами, коли зростання однієї з них супроводжується зростанням іншої (наприклад, більш високі люди як правило мають більшу вагу). Негативна кореляція спостерігається, коли зростання однієї величини супроводжується зменшенням іншої (наприклад, середні розміри тіла лисиць різних видів негативно корелюють з температурою оточуючого середовища - екологічне правило Алена). Графічно зв'язок двох параметрів зображають у вигляді скатерограми - графіка, абсциси і ординати точок котрого відповідають значенням кожного з параметрів. Зрозуміло, що таблиці для кореляційного аналізу повинні бути побудовані таким чином, що рядки відповідають дослідженим об'єктам, а стовпці - виміряним параметрам. Як і у випадку парних порівнянь кожна пара вимірів повинна бути здійснена на одному об'єкті.

Приклади скатерограм наведені на наступному рисунку:

Можна бачити, що на графіку А зв'язку між двома величинами практично немає - більшим значенням абсциси можуть відповідати як більші, так і менші значення ординати. Натомість, на графіку Б більшим значенням абсциси відповідають переважно більші значення ординати, тобто спостерігаємо позитивну кореляцію між аналізованими величинами. На графіку В усі точки скатерограми розташовані на одній лінії таким чином, що найменшим значенням абсциси відповідають найбільші значення ординати і навпаки. В такому випадку ми говоримо про найвищу ступінь кореляції - функціональний зв'язок між досліджуваними величинами, в даному випадку негативний.

Числовою мірою кореляції є коефіцієнт кореляції, який найчастіше позначається r або ρ. Він може набувати значень у діапазоні [-1; 1]. Чим більшим є абсолютне значення коефіцієнта кореляції, тим сильніше, істотніше зв'язок між двома величинами. Значенням r, близьких до -1 або r = 1 відповідають функціональні зв'язки. При r = 0 зв'язок між величинами повністю відсутній. Трьом зображеним вище скатерограмам відповідають такі значення коефіцієнтів кореляції А = 0.25, Б = 0.8, В = -1.

На практиці коефіцієнти кореляції найчастіше інтерпретуються таким чином:

r = 0 зв'язок відсутній абсолютно
0 ≤ |r| < 0.3 зв'язок дуже слабкий, не розглядається
0.3 ≤ |r| < 0.5 зв'язок слабкий
0.5 ≤ |r| < 0.7 зв'язок середній
0.7 ≤ |r| < 0.9 зв'язок сильний
0.9 ≤ |r| ≤ 1 зв'язок дуже сильний, до функціонального

Як і у випадку з іншими статистичними критеріями, високі коефіцієнти кореляції можуть бути наслідком випадкових поєднань в дійсності незалежних величин, тому окрім власне значення r в кореляційному аналізі обчислюється і відповідний рівень значущості, який повинен бути рівним або менше стандартного порогу в 0.05. Якщо коефіцієнт кореляції є незначущим, ми не можемо говорити про наявність зв'язку, навіть при високих значеннях r (як правило, це спостерігається при малих обсягах вибірок).

Існує кілька алгоритмів розрахунку кореляційного зв'язку. Для нормально розподілених кількісних даних обчислюють нормальну або параметричну кореляцію (коефіцієнт кореляції Пірсона). Для порядкових або ненормально розподілених даних застосовують рангові коефіцієнти кореляції Спірмена або Кенделла (останній може позначатися в статистичних програмах не як ρ, а як τ). Рангові коефіцієнти кореляції менш чутливі до наявності в даних викидів та наявності нелінійних зв'язків між даними. Наприклад, на рисунку нижче показано взаємозв'язок між величинами X та Y (джерело).

Можна бачити, що коефіцієнт Спірмена відображає його більш адекватно, ніж коефіцієнт Пірсона.

В цілому, коефіцієнт кореляції Пірсона добре відображає лінійний зв'язок між аналізованими параметрами, тобто такий, що графічно зображається точками скатерограми, які формують більш чи менш витягнуту "хмарку" навколо прямої, наприклад рис. Б. За таких умов параметричний і рангові коефіцієнти кореляції будуть давати подібні результати. В деяких випадках лінійне зростання однієї з досліджуваних величин може супроводжуватися логарифмічним або експоненційним зростанням другої величини (математична функція тут може бути будь-якою). Тоді слід використовувати рангові коефіцієнти, або ж проводити модифікацію даних для приведення їх у лінійний вид (використавши функцію, обернену до тієї, яка гіпотетично характеризує наші дані; наприклад, логарифм, експонента, корінь, піднесення до ступеня, і т.д.).

В LibreOffice реалізований розрахунок коефіцієнту кореляції Пірсона, для обчислення якого слід скористатися функцією CORREL(). На жаль, програма не дає можливості обчислити рівень значущості отриманого коефіцієнта. В програмі PSPP також реалізований алгоритм Пірсона (меню "Аналіз" - "Двовимірна кореляція").

Для практичного прикладу ми скористаємося результатами виконання учнями України завдань олімпіади з біології (2014-2015 н.р., 3 етап, дані доступні на Українському біологічному сайті). Ми обрали дані учнів 10 класу: тести А, B, C (завдання різної форми та складності), експериментальні задачі №1 і №2, сума балів за тести ABC - TEST, сума балів за задачі - EXP, та сума балів за всю олімпіаду - TOTAL. Результати наведено у наступній таблиці.

Таблиця такої форми, в якій відображено коефіцієнти кореляції між усіма можливими парами змінних, називається кореляційною матрицею. Її головна діагональ містить коефіцієнти кореляції між однаковими змінними, які завжди рівні 1. Частини кореляційної матриці над головною діагоналлю та під нею є симетричними. Кожна комірка таблиці містить саме значення r, його рівень значущості та число аналізованих пар даних. Можна бачити, що результати виконання учнями тестів A, B, C є пов'язаними. Закономірно, порівняно високий кореляційний зв'язок зареєстровано між результатами виконання окремих частин олімпіадного завдання та сумарною оцінкою (TEST, EXP, TOTAL). Звернемо увагу на виділені кольором комірки. Між параметрами TEST та EXP спостерігається дуже слабкий кореляційний зв'язок, що говорить про фактичну незалежність результатів за ці дві форми роботи. Коефіцієнт кореляції між результатами виконання двох експериментальних задач (E1-E2) також є дуже низьким і навіть негативним, що говорить про те, що ці два завдання вимагали від учнів демонстрації різних знань, умінь і навичок. В даному випадку відсутність кореляції є свідченням різноманітності пропонованих завдань і є непоганим критерієм якості олімпіадного тесту.

У випадку, коли ми одночасно аналізуємо велику кількість параметрів, представлення результатів кореляційного аналізу у вигляді кореляційної матриці є незручним для сприйняття. В такому випадку краще побудувати кругову матричну діаграму (circos diagram), по периметру якої розташовані мітки аналізованих величин, які об'єднані лініями, товщина і колір яких пропорційні величині коефіцієнтів кореляції. Нижче наведено приклад такої діаграми.

Вона відображає зв'язок між різними параметрами стану здоров'я та певними молекулярно-біологічними особливостями людини (джерело). Як варіант, корельовані показники можна об'єднати в групи та розташувати у два стовпчики або вздовж сторін трикутника (особливо такий підхід є влучним, якщо логічно можна виділити дві або три групи аналізованих параметрів).