Limpeza e tratamento de dados

Após a coleta, é necessário fazer uma limpeza dos dados para remover informações redundantes, incompletas ou inconsistentes.

Essa etapa é importante para garantir a qualidade dos dados que serão utilizados pelo sistema.

Repositorio:

Comandos básicos

  • Retrona o diretorio de trabalho atual: getwd()
  • Novo diretorio de trabalho: setwd("Novo diretorio")
  • Salvar objeto no disco: save(oQueSeraSalvo,file="nomeDoArquivo")
  • Ler objeto do disco: load(file="nomeDoArquivo")
  • Apagar objetos da memoria rm(ObjetoQUeSeraApagadoDaMemoria)
  • Plotagem Simples - Sendo x e y vetores do mesmo tamanho - plot(x,y)

Com relação ao arquivo Chrum - O que fazer:

  • Ler o arquivo de dados e atribuir o mesmo a uma vaariável.
  • Fazer a leitura dos dados iniciais para conferência dos mesmos.
  • Fazer uma sintese dos dados para conferência.
  • Colocar os nomes nas colunas:
    • Id
    • Score
    • Estado
    • Genero
    • Idade
    • Patrimonio
    • Saldo
    • Produtos
    • TemCartCredito
    • Ativo
    • Salario
    • DeixouDeSerCliente
  • Explorar dados:
    • Colunas Categóricas : (Estado e Gênero)
      • Tabular dados categoricos
      • Plotar um grafico de barras
    • Colunas numéricas: (Idade,Saldo,Salario)
      • Fazer uma síntese
      • construir um gráfico do tipo boxplot
      • construir um grafico do tipo histograma
  • Verifica os valores faltantes
  • Colocar a mediana nos valores faltantes da coluna salário
  • Verificar a padronização dos dados da coluna Gênero
    • Verifica os dados unicos que estão presentes na coluna Gênero
    • Fazer uma sistese dos dados da coluna Gênero
    • Substituir os dados "na" e "M" por "Masculino"
    • Substituir os dados "F" e "Fem" por "Feminino"
    • Fazer uma sintese dos nosvos dados da coluna Gênero
    • Remover os fatores não mais existentes
  • Na coluna Idade trocar as idades fora do domínio (menor que zero e maior que 110) e "na" pela mediana dos mesmos.
  • Verificar e remover registros duplicados.
  • Fazer uma síntese da coluna Estado
  • Substituir estados errados ou com pouca representatividade
  • Remover os fatores não mais existentes
  • Na coluna Salario remover os dados que são Outliers
    • Serão definido os outliers, valores que não estão a dois desvios padrão da média.

Comandos básicos

  • Retorna um vetor com a quantidade de elementos de cada tipo.
    • table(coluna de um data Frame)
  • Constroi um gráfico de barras
    • barplot(vetor de dados, main="Nome do gráfico", xlab="nome dos dados do vetor")
  • Verificaçãode tipos - class(dado)
  • dataFrame[!complete.cases(dataFrame),]
  • Calculo da mediana:
    • median(dataFrame$Coluna,na.rm = T)
    • na.rm = T - Este comando exclui da mediana os valores "na"
  • Atribuição de dados em linhas "na" ou com dados quaiquer de uma coluna de um determinado data frame:
    • dataFrame[is.na(dataFrame$Coluna),]$Coluna = Um dados qualquer
    • dataFrame[is.na(dataFrame$Coluna) | dataFrame$Coluna == "M" ,]$Coluna = Um dado Qualquer
    • dataFrame[dataFrame$Coluna == "F" | dataFrame$Coluna == "Fem", ]$Coluna = Um dado Qualquer
  • Retorna um vetor com os dados únicos
    • unique(dataFrame$Coluna)
  • Refazendo fatores:
  • dataFrame$Coluna = factor(dadaFrame$Coluna)
  • Verificando dados duplicados: resultado = dadaFrame[duplicated(dadaFrame$Coluna),]
  • Remover registros duplicados: dataFrame = dataFrame[-c(Número da linha),]
  • Colocar um novo valor em uma coluna de um data frame que não pertence a um conjunto de especifico
    • dataFrame[!dataFrame$Coluna %in% c("dado1","dado2","dado3"),]$Coluna = "Novo dado"
  • Calculo do desvio padrão: desv = sd(dataFrame$Coluna, na.rm = T)
  • Verificando dados que estão a mais de 2 desvios padrão.
    • dadaFrame[dataFrame$Coluna >= 2 *desv , ]$Coluna
  • Colocando a mediana nos dados que estão a mais de 2 desvios padrão
    • dadaFrame[dataFrame$Coluna >= 2 *desv , ]$Coluna = median(dataFrame$coluna)
  • Fazendo a leitura dos dados:
    • read.csv(file.choose(),header = TRUE, sep = ",")
    • read.csv("Credit.csv",header = TRUE, sep = ",")
    • read.csv(file.choose(),header = TRUE, sep = ";",stringsAsFactors = TRUE,na.strings="")
    • install.packages("openxlsx")
    • library(openxlsx)
    • read.xlsx("Credit.xlsx",sheet= 1)
  • Código fonte:

    Trabalho: Faça a Limpeza e Tratamento de Dados de todas as colunas e linhas do arquivo Temp.csv

    Alternar Menu