Limpeza e tratamento de dados
Após a coleta, é necessário fazer uma limpeza dos dados para remover informações redundantes, incompletas ou inconsistentes.
Essa etapa é importante para garantir a qualidade dos dados que serão utilizados pelo sistema.
Repositorio:
Comandos básicos
- Retrona o diretorio de trabalho atual: getwd()
- Novo diretorio de trabalho: setwd("Novo diretorio")
- Salvar objeto no disco: save(oQueSeraSalvo,file="nomeDoArquivo")
- Ler objeto do disco: load(file="nomeDoArquivo")
- Apagar objetos da memoria rm(ObjetoQUeSeraApagadoDaMemoria)
- Plotagem Simples - Sendo x e y vetores do mesmo tamanho - plot(x,y)
Com relação ao arquivo Chrum - O que fazer:
- Ler o arquivo de dados e atribuir o mesmo a uma vaariável.
- Fazer a leitura dos dados iniciais para conferência dos mesmos.
- Fazer uma sintese dos dados para conferência.
- Colocar os nomes nas colunas:
- Id
- Score
- Estado
- Genero
- Idade
- Patrimonio
- Saldo
- Produtos
- TemCartCredito
- Ativo
- Salario
- DeixouDeSerCliente
- Explorar dados:
- Colunas Categóricas : (Estado e Gênero)
- Tabular dados categoricos
- Plotar um grafico de barras
- Colunas numéricas: (Idade,Saldo,Salario)
- Fazer uma síntese
- construir um gráfico do tipo boxplot
- construir um grafico do tipo histograma
- Verifica os valores faltantes
- Colocar a mediana nos valores faltantes da coluna salário
- Verificar a padronização dos dados da coluna Gênero
- Verifica os dados unicos que estão presentes na coluna Gênero
- Fazer uma sistese dos dados da coluna Gênero
- Substituir os dados "na" e "M" por "Masculino"
- Substituir os dados "F" e "Fem" por "Feminino"
- Fazer uma sintese dos nosvos dados da coluna Gênero
- Remover os fatores não mais existentes
- Na coluna Idade trocar as idades fora do domínio (menor que zero e maior que 110) e "na" pela mediana dos mesmos.
- Verificar e remover registros duplicados.
- Fazer uma síntese da coluna Estado
- Substituir estados errados ou com pouca representatividade
- Remover os fatores não mais existentes
- Na coluna Salario remover os dados que são Outliers
- Serão definido os outliers, valores que não estão a dois desvios padrão da média.
Comandos básicos
- Retorna um vetor com a quantidade de elementos de cada tipo.
- table(coluna de um data Frame)
- Constroi um gráfico de barras
- barplot(vetor de dados, main="Nome do gráfico", xlab="nome dos dados do vetor")
- Verificaçãode tipos - class(dado)
- dataFrame[!complete.cases(dataFrame),]
- Calculo da mediana:
- median(dataFrame$Coluna,na.rm = T)
- na.rm = T - Este comando exclui da mediana os valores "na"
- Atribuição de dados em linhas "na" ou com dados quaiquer de uma coluna de um determinado data frame:
- dataFrame[is.na(dataFrame$Coluna),]$Coluna = Um dados qualquer
- dataFrame[is.na(dataFrame$Coluna) | dataFrame$Coluna == "M" ,]$Coluna = Um dado Qualquer
- dataFrame[dataFrame$Coluna == "F" | dataFrame$Coluna == "Fem", ]$Coluna = Um dado Qualquer
- Retorna um vetor com os dados únicos
- Refazendo fatores:
- dataFrame$Coluna = factor(dadaFrame$Coluna)
- Verificando dados duplicados: resultado = dadaFrame[duplicated(dadaFrame$Coluna),]
- Remover registros duplicados: dataFrame = dataFrame[-c(Número da linha),]
- Colocar um novo valor em uma coluna de um data frame que não pertence a um conjunto de especifico
- dataFrame[!dataFrame$Coluna %in% c("dado1","dado2","dado3"),]$Coluna = "Novo dado"
- Calculo do desvio padrão: desv = sd(dataFrame$Coluna, na.rm = T)
- Verificando dados que estão a mais de 2 desvios padrão.
- dadaFrame[dataFrame$Coluna >= 2 *desv , ]$Coluna
- Colocando a mediana nos dados que estão a mais de 2 desvios padrão
- dadaFrame[dataFrame$Coluna >= 2 *desv , ]$Coluna = median(dataFrame$coluna)
Fazendo a leitura dos dados:
- read.csv(file.choose(),header = TRUE, sep = ",")
- read.csv("Credit.csv",header = TRUE, sep = ",")
- read.csv(file.choose(),header = TRUE, sep = ";",stringsAsFactors = TRUE,na.strings="")
- install.packages("openxlsx")
- library(openxlsx)
- read.xlsx("Credit.xlsx",sheet= 1)
Código fonte:
Trabalho: Faça a Limpeza e Tratamento de Dados de todas as colunas e linhas do arquivo Temp.csv