Шпаргалка по статистическому анализу
В этом посте я собрал самую нужную информацию, касающуюся базовых вещей, которые можно проанлизировать в наборе данных. Это касается сравнения средних, дисперсия, как между двумя группами, так и для большего числа.
Помимо этого стоит оценить удобную шпаргалку по анализу данных.
Статистические критерии для численных переменных
Если данные сгруппированны (например, уровень сахара в крови до приёма таблеток у одних и тех же людей, и после), то можно применять следущие критерии однородности средних:
Если данные никак не сгруппированы и между ними нет связи, но сравнить мат ожидания очень хочется, то можно это сделать следующим образом:
ANOVAТеперь рассмотрим случай, когда выборок больше, чем 2.
Не отходя от кассы проверяем эквивалентность Т-критерия и ANOVA:
Множественное сравнениеНулевая гипотеза ANOVA предполагает, что мат. ожидания совпадают.
Однако сама по себе эта информация бесполезна. Поэтому нужно знать, для каких пар объектов гипотеза откланяется. При этом нужно провести серию сравнению по одному для каждой пары. Обычно для этого используется Т-критерий Стьюдента.
В итоге, приходится разбираться с проблемой множественных испытаний: необходимо компенсировать риск получения значимого результата, даже когда на самом деле нулевая гипотеза верна. Для этого необходимо корректировать вероятность p при помощи одного из следующих методов:
- Tukey HSD
- Бонферрони
- Холмса
Этот критерий используется, если мы сравниванием между собой больше чем 3 группы, законы распределения которых отличаются от нормального. Синтаксис:
Статистические критерии для порядковых переменных
С этой шкалой переменных всё очень просто. Напомню, что порядковыми называются те переменные, для которых задано отношение порядка, но их нельзя сравнивать между собой количественно. Например, “Хорошо” и “Отлично”. Ясно, что “Отлично” по шкале будет стоять выше, чем “Хорошо”, но вот насколько: в 2 или в 3 раза сказать нельзя.
Для анализа двух ранжированных групп чаще всего используется критерий Манна-Уитни.
Для анализа трёх и более групп используется критерий Крускала-Уаллеса.
С помощью этого кода можно, например определить, вероятность того, что не меньше чем 60% клиентов останутся довольны сервисом, а также можно посчитать вероятность того, что сервис их просто удолетворяет.
Статистические критерии для категориальных переменых
Наиболее часто используются критерии типа хи-квадрат, которые применяются для проверки принадлежности к одному распределению и критерий Фишера, который определяет тоже самое, но является более частоупотребимым, особенно на маленьких выборках
Проверка корреляции
А проверить корреляцию можно при помощи критерией Пирсона, Спирмана и Кендала, которые также реализованы в SciPy:
Переменная отклика
Хи-квадратКритерий Хи-квадрат используется тогда, когда анализируются категориальные переменные (ответы “да”/”скорее всего нет” и подобные). Этот критерий можо применять какждый раз, когда используется кросс-таб, для того, чтобы узнать статистическую занчимость связи между категориальным откликом (например, человек является покупателем марки) и характеристикой (например, человек является женщиной).
ANOVA (Analysis of Variance)ANOVA используется для анализа влияния факторных переменных на количественную зависимую. По сути дела, позволяет сравнить между собой мат. ожидание для различных групп данных, которые как раз и задаются факторной переменной. Также можно использовать для подтверждения гипотезы о том, что отклонение от среднего значения не отличается внутри групп от среднего по выборке.
Односторонняя ANOVA. Позволяет проанализировать отклонение численной зависимой переменной, основываясь на одной факторной независимой. Используется для проверки гипотезы о том, что несколько мат. ожиданий равны и является продолжением двух-выборочного Т-критерия.
Двухсторонняя ANOVA (Analysis of Covariance с применением функции GLM). Факторная переменная делит выборку на некоторые группы. Используя Обшую Линейную Модель, можно проверить нулевую гипотезу о том, что другие переменные не влияют на мат. ожидание зависимой переменной. Также при помощи этого инструмента можно исследовать влияние факторов на зависимую переменную и понять, насколько они влияют на неё.
Линейная регрессияЛинейная регрессия используется для того, чтобы попытаться понять зависимость между переменными и откликом и получить в результате набор кэффициентов, который позволяют вычислить значение отклика по новым данным.
Коэффициент корреляции ПирсонаЭта статистика используется для того, чтобы установить наличие или отсутствие линейной зависимости между входной и выходной переменных. При этом в случае наличия нелинейной зависимости, результат всё равно будет отрицательным. Поэтому необходимо также анализировать и графики, чтобы понять наличие связи между откликом и незаисимыми переменными.
Т-критерий СтьюдентаТ-критерий Стьюдента использоуется для сравнение мат ожиданий между двумя выборками. Нулевая гипотеза предполагает отсутствие различий. При этом необходимо понимать, что результатом является p-value, которое определяет вероятность достоверности результат, т.е. вероятность верности нулевой гипотезы.
Помимо этого, приведём таблицу наиболее часто применяемых критериев, которые ещё зависят от количества сравниваемых выборок:
Сравниваемые группы Независимые выборки Зависимые выборки Выборки номинальных (категориальных) переменных 2 и более Критерий Фишера или критерий Хи-квадрат Критерий МакНемара Выборки ординальных (упорядоченных) переменных 2 Критерий Манна-Уитни Критерий Уилкоксона 3 и более Критерий Крускала-Валлиса Критерий Фридмана Выборки численных переменных 2 Критерий Стьюдента и Манна-Уитни Групповой критерий Стьюдента или Уилкоксона 3 и более ANOVA или критерий Крускала-Валлиса Критерий Фридмана или ANOVA для повторяющихся измерений
Список статистических критериев, разбитый по целям применения
Критерии однородностиЭти критерии используются для проверки гипотезы на принадлежность одному и тому же распределению (значит что происходящие процессы имеют схожую природу)
- Критерий Смирнова
- Критерий однородности Лемана-Розенблатта. Этот критерий мощнее, кроме тех случаев, когда законы близки.
Эти критерии не способны различать близкие конкурирующие гипотезы при малых объёмах выборок.
Критерии согласия- Хи квадрат Пирсона
- Критерий отношения правдоподобия (для простых и сложных гипотез)
- Критерий Колмагорова
- Критерий Смирнова
- Критерий w^2
Нельзя сравнивтаь близкие законы при малых объёмах выборок.
Мощность критериев при
- Простой гипотезе: Хи-квадрат > Андерсона Дарлинга > w^2 Мизеса > Колмогорова
- Сложной гипотезе: Андерсона Дарлинга > w^2 Мизеса > Хи-квадрат Пирсона > Колмогорова
- При близких гипотезах: Андерсона Дарлигна > w^2 Мизеса
- Критерий проверки на симметричность
- Критерий проверки на эксцсс
- Критерий Шапиро-Уилка
- Критерий Эпса-Палли
- Критерий Гири
- Критерий Шпигельхальтера
- Критерий D’Агостиньо
Эти критерии справляются лучше с проверкой на нормальность, чем критерии согласия при малых объёмах выборок.
Самый лучший из них: критерий D’Агостиньо.
Критерии проверки однородности средних- Критерий Стьюдента (Т-тест) используется при неизвестных, но равных дисперсиях и при соблюдения нормального распределения.
- F-критерий, используется при неизвестных и различных дисперсиях, при соблюдении гипотезы о нормальности распределения.
- Критерий Манна-Уитни, Уилкоксона, Краскера-Уолласа.
Фишера, Бартлета, Кокрена, Хартли.
Основной плюс непараметрических критериев: можно нарушать предположение о нормальности, но при этом должны быть равны средние и выборки должныть быть одинаково распределены.
Критерии проверки гипотез независимости и отсутствия тренда- Критерий Аббе. Проверяет выборки с равными мат. ожиданиями на отсутствие систематических изменений.
- Критерий автокорреляции. Если выборка не случайна, то значение каждого элемента не должно зависеть от соседних величин.
- Ранговый критерий обнаружения сдвига дисперсии в неизвестной точке.
Мощность критериев: Аббе > Кокса-Стюарта > Бартлета > автокорреляции > Фостера-Стбюарта