Головна
cv/contacts
@facebook

Енциклопедія мозку
Публікації

Дані і вибірки

Для того, щоб спланувати, якими статистичними методами ми будемо аналізувати отримані дані, необхідно розібратися, якими вони можуть бути.

Типи даних

За структурою і властивостями усі дані, які можна отримати у експерименті, можна поділити на три типи:

  • номінальні;
  • порядкові;
  • кількісні.

Основна різниця між даними різних типів полягає у можливості здійснювати той чи інший тип порівняння.

Номінальна шкала

Дані, виміряні в цій шкалі, представляють з себе дискретні найменування, стосовно яких можна провести тільки порівняння типу «співпадає чи не співпадає». Порівняння типу «більше/менше» є неможливим. До них належать, приміром, дані стосовно статі («чоловіки», «жінки»), кольору волосся («руде», «світле», «чорне» та ін.). Так, ми можемо порівняти двох людей і зазначити, одної вони статі чи різних, проте, принципово не можемо говорити про те, що жіноча стать є «більшою» за чоловічу (або ж навпаки). Зауважимо, що навіть якщо категорії, до яких відносяться досліджувані об'єкти, виражені числами (приміром, стать людини в таблицях часто позначають як 0 або 1), до них не можна застосовувати будь-які математичні операції.

Порядкові дані

Як правило, вони є чисельними. Ми можемо порівняти їх, чи вони співпадають, порівняти яке значення є більшим чи меншим, але не можемо сказати, наскільки певне значення є більшим. До таких даних відносяться різноманітні тестові бали, числові експертні оцінки, навчальні оцінки, тощо. Приміром, якщо два учні отримали за одну і ту ж контрольну 6 балів і 12 балів, то ми можемо зробити такі висновки:

  • рівень знань цих учнів є неоднаковим;
  • другий учень продемонстрував кращий рівень знань.

Проте, ми не можемо сказати, що другий учень знає предмет в два рази краще чи більше, ніж перший.

Кількісні дані

Кількісні дані доступні як для операцій порівняння, так і для визначення, наскільки одне значення перевищує інше. Розрізняють кількісні шкали інтервалів і пропорцій. В шкалі інтервалів рівні інтервали між вимірами дорівнюють однаковій мірі розміру вимірюваної шкали. Наприклад, при вимірюванні зросту людини різниця в 1 см між 150 і 151 см абсолютно така ж, як і різниця між 185 і 186 см (натомість, ми не можемо сказати те саме стосовно пар шкільних оцінок 3 і 4 та 11 і 12). Стосовно даних у шкалі інтервалів ми можемо відповісти на питання "на скільки одне значення більше/менше другого?" Проте, не завжди можемо відповісти на питання "у скільки разів одне значення більше/менше за інше?" Приміром, якщо ми візьмемо шкалу температур у градусах Цельсія, ми можемо сказати, що предмет, нагрітий до 50°С, має температуру на 10°С більше, ніж предмет, нагрітий до 40°С. Проте вираз "перший предмет має на 25% більшу температуру, ніж другий" не має фізичного змісту, адже точка відліку (0°С) обрана у шкалі Цельсія довільно. Натомість, у шкалі пропорцій ми можемо дати відповідь на обидва запитання - на скільки і у скільки разів. При цьому, точкою відліку (нульовим значенням) повинно бути значення, що характеризує повну відсутність вимірюваної величини (маси, розміру, швидкості, площі, тощо).

Зауважимо, що дані, отримані у кількісних шкалах, можуть бути конвертованими у порядкові і номінальні, порядкові дані також можуть бути конвертованими у номінальні, але не навпаки.

Вибірка

При плануванні експерименту досліднику майже завжди необхідно чітко визначити об’єкт дослідження, тобто, що власне він планує вивчати. У певних випадках об’єктом може бути досить обширна категорія, наприклад "людина", "щури чоловічої статі", "голонасінні рослини певної території". Зрозуміло, що жоден дослідник фізично не може обстежити абсолютно усі організми певної категорії. Проте за умов достатньо великої чисельності повної групи об’єктів це і не потрібно. Ми можемо дослідити лише частину усієї сукупності об’єктів і, застосувавши математичні методи, які ми розглянемо пізніше, зробити достовірні висновки стосовно усієї сукупності. Метод аналізу повної сукупності за її частинами називається вибірковим методом. При цьому ми розрізняємо генеральну сукупність – усі об’єкти, які нас цікавлять, і вибірку – доступну для аналізу частину генеральної сукупності.

Як правило, дослідження науковця зводиться до отримання певного набору даних (тобто формування вибірок), їх опису, порівняння, тощо.

Якою повинна бути чисельність вибірки для достовірного перенесення вибіркових даних на генеральну сукупність?

На це питання немає однозначної відповіді, вона залежить від тих статистичних методів, які ви плануєте застосувати. В деяких випадках можна обчислити мінімальний обсяг вибірки, за якою можна достовірно характеризувати генеральну сукупність, коли точно відомий обсяг останньої (наприклад, якщо це конкретне стадо корів, надої яких нас цікавлять). Проте, якщо генеральна сукупність надто велика (усі люди, усі чоловіки, усі студенти Києва), такі методи застосовувати некоректно.

В загальному випадку чим більшим є обсяг вибірки, тим більш достовірні результати ми отримуємо. Проте, збільшення тривалості спостережень чи кількості експериментів має наслідком збільшенням тривалості виконання дослідницького проекту, матеріальних витрат (реактиви та обладнання, лабораторні тварини, тощо). У зв'язку з цим кожен науковець планує свій експеримент, виходячи з конкретних ресурсів, що є необхідними для якісного дослідження.

Як правило, статистичні методи дають можливість визначити межі, в яких з певною ймовірністю знаходяться показники генеральної сукупності. Цей діапазон називається довірчим інтервалом. У більшості випадків обчислюється і представляється в публікаціях 95% довірчий інтервал, тобто межі, за які параметри генеральної сукупності можуть вийти лише у 5% випадків.

З досвіду автора мінімальним обсягом вибірки даних об’єктивного характеру (фізіологічні, анатомічні показники і т.п.) можна вважати 10, а оптимальним – 20-30. У випадку, якщо дані містять суб’єктивні оцінки і характеристики (психологічні тести, соціологічне опитування, тощо), мінімальним обсягом вибірки можна вважати 30-50, а оптимальним – від 100. Для формування репрезентативних (тобто таких, які з достатньою точністю описують особливості певної групи людей) вибірок у соціології існують спеціальні методи. В разі проведення популяційних досліджень (приміром, для вивчення факторів, які впливають на захворюваність певною патологією) обсяги вибірок можуть сягати тисяч і десятків тисяч, а дослідження може тривати десятиліттями. В деяких випадках (наприклад, робота з рідкісними або дуже дорогими матеріалами чи об'єктами) обсяг вибірки може бути порівняно малим (наприклад, менше 10). В таких умовах дослідник змушений використовувати більш жорсткі статистичні методи, щоб бути певним, що реєстрований ефект не є випадковим.


Український біологічний сайт Українське товариство нейронаук