Опис параметрів вибірок

Перш, ніж порівнювати різні вибірки між собою або здійснювати будь-які інші аналітичні дії, слід зрозуміти структуру ваших даних та описати їх. Методи, які описують структуру даних, називаються дескриптивною статистикою (від англ. description). Дані, виміряні у різних шкалах, можуть і повинні бути описані різними способами. Крім числової форми, яка є обов'язковою для аналізу (і представлення у наукових публікаціях), для більшої наочності дані можуть бути представленими у графічній формі.

Номінальна шкала

Дані, виміряні у цій шкалі, найпростіше згрупувати по категоріям та порахувати частоти - загальну кількість елементів кожної з них. Наприклад, якщо ми хочемо схарактеризувати гендерну структуру певної групи людей, нам потрібно порахувати, скільки у цій групі чоловіків та жінок (дві категорії). З метою наступного порівняння з іншими аналогічними вибірками дані потрібно нормувати - перевести у відсоткове представлення. Після цього значення частки різних категорій не будуть залежати від обсягу вибірки.

Приклад обчислень частот представників різних статей в групі студентів з 30 осіб та відповідна колова (секторна) діаграма. Ціле коло приймається за 100%, площа кожного сектора пропорційна відсотковій частці відповідної категорії.

За допомогою обчислення частот категорій можна аналізувати також порядкові і кількісні дані. Для цього потрібно перетворити їх у номінальну форму. Приміром, ми аналізуємо IQ двох груп людей. За методикою однієї з поширених версій цього тесту - тесту Айзенка - максимальний бал становить 180, мінімальний - 0. Проте, така порядкова шкала може бути трансформованою у номінальну: IQ від 0 до 90 - низький, 90-110 - середній, 110-180 - високий. Залежно від суті аналізованої величини, вона може бути приведена до різної кількості номінальних категорій. Проте, аналіз числових даних дає нам більше можливостей, ніж аналіз категорій. Незважаючи, що порядкові дані не є кількісними, за умови достатньої кількості спостережень (тобто обсягу вибірки) та порівняно великої кількості можливих значень, які можуть бути отриманими в результаті спостереження або експерименту, вони можуть аналізуватися кількісними методами. Однозначного правила, яке б встановлювало, яка деталізація шкали вимірювання дозволяє використовувати кількісні методи, не існує, таке рішення повинен приймати дослідник на основі розуміння суті даних, їх структури, задач дослідження та традицій дослідження у певній галузі. Наведемо приклад: навчальні оцінки в традиційній університетській шкалі ("5", "4", "3", "2" або "відмінно", "добре", задовільно", "незадовільно") категорично не можуть вважатися кількісними даними; натомість, оцінка в сучасній шкільній системі (від 1 до 12) за певних умов може вважатися кількісною (хоч і з багатьма умовами та ризиками отримати недостовірні результати); тести ЗНО з більшості предметів дозволяють отримати "сирі" оцінки від 48 (математика) до 104 (укр. мова та література) балів, що дозволяє більш впевнено використовувати кількісні методи.

Числові дані

Числові дані (виміряні у кількісній шкалі або прирівняні до неї порядкові дані) можна описати рядом статистичних параметрів, перелік яких ми наведемо нижче. З описових статистик можна виділити ті, що характеризують центральну тенденцію даних (найбільш типове, найбільш часто спостережене значення), та ті, що характеризують розкид даних (тобто, те, наскільки весь масив даних скупчений навколо центральної міри або віддалений від неї). Ми не наводимо формули для обчислення статистик, оскільки їх можна знайти у доступних джерелах (наприклад, Вікіпедії), а на практиці ці показники обчислюються спеціалізованими програмами.

назва	позначення	обчислення	значення
середнє арифметичне (або просто середнє значення)	M, μ	сума усіх значень, поділена на кількість елементів у вибірці	характеризує центральну тенденцію ряду даних за умови нормальності розподілу вибірки
медіана	Me	значення, яке ділить вибірку на дві рівні частини; половина елементів вибірки має значення, менше за медіану, інша половина - більше	характеризує центральну тенденцію ряду даних, в тому числі і не нормально розподілених
мода	Mo	елемент вибірки, який зустрічається найчастіше	характеризує центральну тенденцію ряду даних, в якому певні значення зустрічаються з великою кількістю повторів
середньо-квадратичне відхилення	σ	корінь з суми квадратів різниці значень кожного елементу вибірки та середнього арифметичного, поділеної на число елементів у вибірці	характеризує розкид даних відносно середнього арифметичного; застосовується для опису нормально розподілених виборок; має таку ж розмірність, що і аналізована величина (наприклад, см)
дисперсія	σ^{2^{або D}}	квадрат середньоквадратичного відхилення	характеризує розкид даних відносно середнього арифметичного; застосовується в статистичних тестах для порівняння розкидів різних наборів нормально розподілених даних; має квадратичну розмірність аналізованої величини (наприклад, см²)
коефіцієнт варіації	CV	σ, поділене на середнє арифметичне	те ж, що і σ, але нормоване, тобто не залежить від розмірності аналізованої величини; дозволяє порівнювати розкиди різних параметрів (наприклад, зросту і ваги групи людей); застосовується для нормально розподілених даних
похибка середнього або стандартна похибка	m	σ, поділене на корінь з числа елементів вибірки	характеризує межі, в яких відносно середнього вибіркового може міститися середнє генеральне; застосовується для нормально розподілених даних
мінімум; максимум	min; max	мінімальне і максимальне значення елементів вибірки	певною мірою характеризує розкид даних не залежно від характеру розподілу; дуже чутливі до "викидів" показники
квартилі: нижній і верхній	LQ, HQ	значення, що відсікають нижні (LQ) та верхні (HQ) 25% частини вибірки	характеризують розкид даних, не залежно від характеру розподілу даних, є більш коректними показниками в порівнянні з мінімумом та максимумом
коефіцієнт асиметрії		є мірою симетричності розподілу експериментальних даних відносно центрального значення (M); застосовується разом з ексцесом для оцінки нормальності розподілу вибірки
ексцес		є мірою крутизни графіку розподілу експериментальних даних; застосовується разом з асиметрією для оцінки нормальності розподілу вибірки

В пакеті LibreOffice описові статистики обчислюються або відповідними функціями, які можна знайти в розділі "Статистичні", або ж за допомогою пункту меню "Дані" - "Статистика" - "Описова статистика". В PSPP відповідний пункт меню називається "Аналіз" - "Описова статистика" - "Описова статистика".