Limpeza e tratamento de dados

Após a coleta, é necessário fazer uma limpeza dos dados para remover informações redundantes, incompletas ou inconsistentes.

Essa etapa é importante para garantir a qualidade dos dados que serão utilizados pelo sistema.

Repositorio:

Comandos básicos

Com relação ao arquivo Chrum - O que fazer:

Verifica os valores faltantes
Colocar a mediana nos valores faltantes da coluna salário
Verificar a padronização dos dados da coluna Gênero
- Verifica os dados unicos que estão presentes na coluna Gênero
- Fazer uma sistese dos dados da coluna Gênero
- Substituir os dados "na" e "M" por "Masculino"
- Substituir os dados "F" e "Fem" por "Feminino"
- Fazer uma sintese dos nosvos dados da coluna Gênero
- Remover os fatores não mais existentes
Na coluna Idade trocar as idades fora do domínio (menor que zero e maior que 110) e "na" pela mediana dos mesmos.
Verificar e remover registros duplicados.
Fazer uma síntese da coluna Estado
Substituir estados errados ou com pouca representatividade
Remover os fatores não mais existentes
Na coluna Salario remover os dados que são Outliers

Serão definido os outliers, valores que não estão a dois desvios padrão da média.

Comandos básicos

Verificaçãode tipos - class(dado)
dataFrame[!complete.cases(dataFrame),]
Calculo da mediana:
- median(dataFrame$Coluna,na.rm = T)
- na.rm = T - Este comando exclui da mediana os valores "na"
Atribuição de dados em linhas "na" ou com dados quaiquer de uma coluna de um determinado data frame:
- dataFrame[is.na(dataFrame$Coluna),]$Coluna = Um dados qualquer
- dataFrame[is.na(dataFrame$Coluna) | dataFrame$Coluna == "M" ,]$Coluna = Um dado Qualquer
- dataFrame[dataFrame$Coluna == "F" | dataFrame$Coluna == "Fem", ]$Coluna = Um dado Qualquer
Retorna um vetor com os dados únicos
- unique(dataFrame$Coluna)
Refazendo fatores:
dataFrame$Coluna = factor(dadaFrame$Coluna)
Verificando dados duplicados: resultado = dadaFrame[duplicated(dadaFrame$Coluna),]
Remover registros duplicados: dataFrame = dataFrame[-c(Número da linha),]
Colocar um novo valor em uma coluna de um data frame que não pertence a um conjunto de especifico

dataFrame[!dataFrame$Coluna %in% c("dado1","dado2","dado3"),]$Coluna = "Novo dado"

Fazendo a leitura dos dados:

read.csv(file.choose(),header = TRUE, sep = ",")
read.csv("Credit.csv",header = TRUE, sep = ",")
read.csv(file.choose(),header = TRUE, sep = ";",stringsAsFactors = TRUE,na.strings="")
install.packages("openxlsx")
library(openxlsx)
read.xlsx("Credit.xlsx",sheet= 1)

Código fonte:

Trabalho: Faça a Limpeza e Tratamento de Dados de todas as colunas e linhas do arquivo Temp.csv