Как извлечь максимум из грязных данных?

Как извлечь максимум из грязных данных?

Аналитикам и дата-саентистам часто приходится работать с сырыми, грязными данными. Наборы данных могут не иметь названий столбцов, их порядок может быть нарушен, а сами строки могут содержать десятки процентов пропущенных значений.

На все эти проблемы, конечно, можно “забить”, однако грязные данные сильно усложняют работу, приводят к неверным интерпретациям, а приведение данных к нормальной форме занимает дополнительное время.

У меня была возможность проанализировать данные о здоровье лошадей, страдающих кишечными коликами. Набор данных с этими данными был плохо составлен, без названий столбцов, с беспорядочным порядком столбцов. Ситуация осложнялась тем, что столбцов было много – 28. Кроме того, в датасете было более 30% пропущенных значений, вместо значений NaN в строках стояли “?”, а числа были представлены в строковом формате.

Конечно, никакие инструменты анализа Python или Pandas не могли правильно проанализировать такие данные. Поэтому первое, с чего я начал, – это привел набор данных в нормальную форму. После этого я начал заполнять пустые строки. Но я решил сделать это не просто с помощью средних значений, а с учетом корреляции.

В итоге, после нескольких часов работы, я получил совершенно новый набор данных, в котором вообще не было пропущенных данных. Но что еще интереснее: все статистические параметры данных не изменились. То есть мне удалось обогатить набор данных на 30%, не нарушив его общих характеристик.

Ссылки

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *