Сходство или различие двух наборов данных можно определить с помощью разных методов. Хотя, пожалуй, самым точным является использование статистических методов.
В научной статистике сегодня принято использовать множество критериев сравнения:
- различные виды средних значений;
- процентили и моды;
- различного рода отклонения, асимметрии;
- простые и доверительные интервалы;
- корреляции распределений;
- квантили и квартили;
- эксцесс значений и т. д.
Все это – огромная область науки о данных, и каждый из этих параметров рассчитывается по собственным формулам (которые зачастую очень сложно понять).
К счастью, в современных программах для анализа данных нам не приходится рассчитывать их вручную. И одним из самых мощных и верных помощников data scientist в этом вопросе является Excel.
По ссылке ниже вы можете увидеть исследование и сравнение двух наборов данных (веса мужчин и женщин) с помощью статистических инструментов Excel. В этом файле были проанализированы десятки статистических параметров. Кроме того, было построено несколько графиков распределения и сравнения таблиц. Такой глубокий анализ позволяет нам достоверно понять точность наших статистических гипотез.