Diferença entre Média, Mediana e Moda

Em estatística, média, mediana e moda são medidas de tendência central, utilizadas para resumir um conjunto de dados de maneiras diferentes. Veja abaixo as principais diferenças entre elas:

Média

A média, ou média aritmética, é calculada somando todos os valores de um conjunto de dados e dividindo o resultado pelo número total de elementos.

Fórmula:

Média = (Σ X_i) / n

Onde X_i representa os valores dos dados e n é o número total de observações. A média é sensível a valores extremos, conhecidos como outliers.

Mediana

A mediana é o valor central de um conjunto de dados quando esses dados estão organizados em ordem crescente ou decrescente.

  • Se o número de elementos for ímpar, a mediana é o valor do meio.
  • Se o número de elementos for par, a mediana é a média dos dois valores centrais.

A mediana não é afetada por valores extremos, sendo uma medida mais robusta em conjuntos de dados com outliers.

Moda

A moda é o valor que aparece com maior frequência em um conjunto de dados.

  • Um conjunto de dados pode não ter moda (se nenhum valor se repetir).
  • Pode ser unimodal (com uma única moda).
  • Pode ser bimodal (com duas modas) ou multimodal (com mais de duas modas).

A moda é especialmente útil para dados categóricos, onde a média e a mediana não são aplicáveis.

Essas três medidas fornecem diferentes perspectivas sobre a distribuição dos dados e são frequentemente usadas em conjunto para melhor compreensão dos dados.

Medidas de Dispersão em Estatística

Em estatística, as medidas de dispersão são usadas para descrever a variabilidade ou a extensão de um conjunto de dados. As principais medidas de dispersão incluem variância, desvio padrão, amplitude e as medidas não centrais, como os quartis. Vamos explorar cada uma delas:

Variância

A variância mede o quanto os valores de um conjunto de dados se afastam da média. Ela é calculada como a média dos quadrados das diferenças entre cada valor e a média do conjunto.

Fórmula da variância:

Variância = Σ (X_i - μ)² / n

Onde X_i são os valores individuais, μ é a média dos valores e n é o número total de observações. A variância é expressa em unidades ao quadrado, o que pode tornar sua interpretação mais difícil.

Desvio Padrão

O desvio padrão é a raiz quadrada da variância e tem a mesma unidade dos dados originais, tornando sua interpretação mais intuitiva. Ele indica, em média, quanto os valores de um conjunto de dados desviam da média.

Fórmula do desvio padrão:

Desvio Padrão = √(Σ (X_i - μ)² / n)

O desvio padrão é amplamente utilizado para medir a dispersão em conjuntos de dados e é sensível a outliers.

Amplitude

A amplitude é a diferença entre o maior e o menor valor em um conjunto de dados. É uma medida simples de dispersão, que reflete a extensão total do conjunto.

Fórmula da amplitude:

Amplitude = X_max - X_min

A amplitude, embora fácil de calcular, pode ser influenciada por valores extremos, não refletindo a dispersão dos dados de forma tão precisa quanto outras medidas, como a variância ou o desvio padrão.

Medidas Não Centrais: Quartis

Os quartis são medidas que dividem um conjunto de dados ordenados em quatro partes iguais. Eles são usados para descrever a distribuição dos dados em termos de percentis:

  • Primeiro quartil (Q1): 25% dos dados estão abaixo desse valor.
  • Mediana (Q2): 50% dos dados estão abaixo desse valor (é o segundo quartil).
  • Terceiro quartil (Q3): 75% dos dados estão abaixo desse valor.

A diferença entre o terceiro e o primeiro quartil é chamada de amplitude interquartil (AIQ) e é uma medida da dispersão dos dados em torno da mediana. É útil para entender a variabilidade sem a influência de valores extremos.

Fórmula da AIQ:

AIQ = Q3 - Q1

As medidas não centrais, como os quartis, são úteis para identificar a posição relativa dos dados em uma distribuição, sendo particularmente eficazes em dados assimétricos.

Distribuição Normal

A distribuição normal, também conhecida como distribuição de Gauss ou curva gaussiana, é uma das distribuições mais importantes em estatística. Ela descreve como os valores de uma variável estão distribuídos em torno da média, assumindo uma forma simétrica e em formato de sino.

Características da Distribuição Normal

  • A distribuição é simétrica em torno da média, o que significa que a metade dos valores está acima da média e a outra metade está abaixo.
  • A média, mediana e moda da distribuição normal são iguais e estão localizadas no centro da distribuição.
  • A forma da distribuição é caracterizada por sua curva em formato de sino, com a maior concentração de dados em torno da média e caudas que se estendem indefinidamente nos extremos.
  • A dispersão dos dados é determinada pelo desvio padrão, que controla a largura da curva. Quanto maior o desvio padrão, mais espalhados estão os dados.

Fórmula da Função de Densidade da Distribuição Normal

A função de densidade de probabilidade de uma distribuição normal é dada pela seguinte fórmula:

f(x) = (1 / √(2πσ²)) * exp(-((x - μ)²) / (2σ²))

Onde:

  • μ é a média da distribuição.
  • σ é o desvio padrão.
  • x é o valor da variável.
  • π é a constante pi (~3,14159).
  • exp representa a função exponencial.

Propriedades da Distribuição Normal

A distribuição normal tem algumas propriedades importantes que facilitam o uso em estatísticas inferenciais:

  • 68% dos dados estão dentro de 1 desvio padrão da média.
  • 95% dos dados estão dentro de 2 desvios padrões da média.
  • 99,7% dos dados estão dentro de 3 desvios padrões da média.

A Importância da Distribuição Normal

A distribuição normal é amplamente utilizada em várias áreas da estatística devido a algumas de suas propriedades matemáticas elegantes e porque muitos fenômenos naturais e sociais seguem esse padrão. Além disso, pelo teorema central do limite, somas de muitas variáveis aleatórias independentes tendem a formar uma distribuição normal, independentemente da distribuição original dessas variáveis.

Exemplo de Aplicação

Um exemplo clássico de distribuição normal é a altura de indivíduos de uma população. Embora haja variações de altura, a maioria das pessoas tem uma altura próxima da média, e apenas um pequeno número de pessoas é muito mais alta ou muito mais baixa que a média.

A distribuição normal é usada em muitas áreas como economia, engenharia e ciências naturais para modelar incertezas e realizar testes de hipóteses.

Teste de Shapiro–Wilk em Estatística com R

O Teste de Shapiro–Wilk é um teste estatístico amplamente utilizado para verificar a normalidade de uma amostra de dados. Ele é particularmente eficaz para amostras pequenas a moderadas e é considerado um dos testes mais poderosos para detectar desvios da normalidade.

Objetivo do Teste de Shapiro–Wilk

O objetivo principal do teste é determinar se uma amostra de dados foi retirada de uma população que segue uma distribuição normal. Isso é fundamental porque muitas técnicas estatísticas assumem a normalidade dos dados para fornecer resultados válidos.

Hipóteses do Teste

  • Hipótese Nula (H0): Os dados seguem uma distribuição normal.
  • Hipótese Alternativa (H1): Os dados não seguem uma distribuição normal.

Com base no valor-p obtido, decidimos se rejeitamos ou não a hipótese nula:

  • Se p-value < α (nível de significância, geralmente 0,05), rejeitamos H0.
  • Se p-value ≥ α, não rejeitamos H0.

Como Realizar o Teste de Shapiro–Wilk no R

O R oferece uma função integrada chamada shapiro.test() para realizar o Teste de Shapiro–Wilk. A seguir, apresentamos um exemplo passo a passo de como utilizar essa função.

Passo 1: Preparar os Dados

Primeiro, precisamos de um conjunto de dados para realizar o teste. Vamos utilizar um conjunto de dados simulado.

Passo 2: Executar o Teste

Utilizamos a função shapiro.test() passando o vetor de dados como argumento.

Passo 3: Interpretar os Resultados

Após a execução, a função retorna o valor do teste W e o valor-p. Com base no valor-p, decidimos se rejeitamos ou não a hipótese nula.

Exemplo Completo em R

                        # Gerar uma amostra de dados normalmente distribuídos
                        set.seed(123) # Para reprodutibilidade
                        dados <- rnorm(30, mean = 50, sd = 10)
                        
                        # Visualizar os dados
                        print(dados)
                        
                        # Executar o Teste de Shapiro–Wilk
                        resultado <- shapiro.test(dados)
                        
                        # Exibir os resultados
                        print(resultado)
                                

Explicação do Código

  • set.seed(123): Define a semente para geração de números aleatórios, garantindo que os resultados sejam reprodutíveis.
  • rnorm(30, mean = 50, sd = 10): Gera uma amostra de 30 observações seguindo uma distribuição normal com média 50 e desvio padrão 10.
  • print(dados): Exibe os valores da amostra.
  • shapiro.test(dados): Executa o Teste de Shapiro–Wilk na amostra de dados.
  • print(resultado): Mostra os resultados do teste, incluindo o valor W e o valor-p.

Interpretação dos Resultados

Suponha que a saída do teste seja a seguinte:

                        Shapiro-Wilk normality test
                        
                        data:  dados
                        W = 0.9765, p-value = 0.8803
                            

Interpretamos os resultados da seguinte forma:

  • Valor de W: 0.9765. Valores próximos de 1 indicam que os dados seguem uma distribuição normal.
  • Valor-p: 0.8803. Como 0.8803 > 0.05, não rejeitamos a hipótese nula.

Conclusão: Não há evidências suficientes para afirmar que os dados não seguem uma distribuição normal.

Teste t Pareado com Verificação de Normalidade pelo Teste de Shapiro–Wilk

O teste t pareado é um teste estatístico utilizado para comparar a média de dois conjuntos de dados dependentes. Esses conjuntos de dados geralmente são obtidos em medições realizadas antes e depois de um determinado tratamento ou experimento. O teste avalia se a diferença média entre as duas medições é significativamente diferente de zero.

Para realizar o teste t pareado, uma das suposições fundamentais é que os dados das diferenças entre os pares devem seguir uma distribuição normal. Para verificar essa suposição, podemos aplicar o Teste de Shapiro–Wilk à diferença entre as duas amostras. Caso a normalidade seja verificada, podemos proceder com o teste t pareado.

Passos para Realizar o Teste t Pareado no R com Verificação de Normalidade

Os passos gerais para realizar o teste t pareado são:

  1. Calcular as diferenças entre as duas amostras.
  2. Verificar a normalidade das diferenças usando o Teste de Shapiro–Wilk.
  3. Realizar o teste t pareado se a suposição de normalidade for atendida.

Exemplo de Teste t Pareado em R

O teste t pareado é usado quando se deseja comparar as médias de dois conjuntos de dados dependentes, ou seja, pares de observações relacionadas, como medições antes e depois de um tratamento.

Este teste é apropriado quando as diferenças entre os pares de dados são normalmente distribuídas. Se essa condição for atendida, podemos prosseguir com o teste t pareado.

Exemplo de Utilização do Teste t Pareado no R

Abaixo está um exemplo de como realizar o teste t pareado em R, com dados de um experimento que mede o desempenho de indivíduos antes e depois de um treinamento:


# Gerar dados de exemplo: Desempenho antes e depois de um treinamento
antes <- c(78, 85, 82, 90, 86, 83, 87, 88, 85, 92)
depois <- c(84, 87, 89, 93, 91, 89, 90, 92, 88, 95)

# Visualizar os dados
print("Desempenho antes:")
print(antes)
print("Desempenho depois:")
print(depois)

# Aplicar o Teste de Shapiro-Wilk para verificar a normalidade das diferenças
diferencas <- antes - depois
shapiro_test <- shapiro.test(diferencas)

print("Resultado do Teste de Normalidade Shapiro-Wilk:")
print(shapiro_test)

# Se os dados forem normalmente distribuídos (valor-p > 0,05), realizar o teste t pareado
if (shapiro_test$p.value > 0.05) {
    # Aplicar o teste t pareado
    teste_t <- t.test(antes, depois, paired = TRUE)
    print("Resultado do Teste t Pareado:")
    print(teste_t)
} else {
    print("Os dados não seguem uma distribuição normal. Considerar um teste não paramétrico.")
}

    

Explicação do Código

  • antes e depois: Vetores que contêm as medições do desempenho dos indivíduos antes e depois do treinamento.
  • shapiro.test(diferencas): Aplica o Teste de Shapiro-Wilk para verificar se as diferenças seguem uma distribuição normal.
  • t.test(antes, depois, paired = TRUE): Realiza o teste t pareado, comparando as médias dos dados "antes" e "depois".

Interpretação dos Resultados

Se o valor-p do teste t pareado for menor que 0,05, isso indica que há uma diferença significativa entre as médias de "antes" e "depois" do tratamento. Caso contrário, não há evidências estatísticas para afirmar que as médias são diferentes.

Exemplo de Saída no R

Ao executar o código acima, você pode obter um resultado semelhante ao seguinte:

Resultado do Teste de Normalidade Shapiro-Wilk:
Shapiro-Wilk normality test

data:  diferencas
W = 0.95342, p-value = 0.6603

Resultado do Teste t Pareado:
Paired t-test

data:  antes e depois
t = -4.1231, df = 9, p-value = 0.0028
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -6.440853 -1.759147
sample estimates:
mean of the differences 
              -4.1
    

Neste exemplo, o valor-p é 0,0028, que é menor que 0,05. Portanto, podemos concluir que há uma diferença significativa entre o desempenho antes e depois do treinamento.


Exemplo de Teste de Wilcoxon em R

O Teste de Wilcoxon para Amostras Pareadas é um teste não paramétrico utilizado para comparar duas amostras dependentes quando a suposição de normalidade dos dados não é atendida. Ele é uma alternativa ao teste t pareado e é útil quando os dados não seguem uma distribuição normal.

Esse teste avalia se as medianas das duas amostras são diferentes, em vez de comparar as médias, como faz o teste t.

Quando Usar o Teste de Wilcoxon?

Você deve usar o Teste de Wilcoxon quando os dados forem dependentes (pareados) e não seguirem uma distribuição normal. Isso pode ser verificado utilizando o Teste de Shapiro-Wilk para testar a normalidade dos dados.

Exemplo de Utilização do Teste de Wilcoxon no R

Abaixo está um exemplo de código em R que aplica o Teste de Wilcoxon a um conjunto de dados não normalmente distribuídos:


# Gerar dados de exemplo: Desempenho antes e depois de um tratamento
antes <- c(78, 85, 82, 90, 86, 83, 87, 88, 85, 92)
depois <- c(84, 87, 89, 93, 91, 89, 90, 92, 88, 95)

# Verificar a normalidade das diferenças usando o Teste de Shapiro-Wilk
diferencas <- antes - depois
shapiro_test <- shapiro.test(diferencas)

print("Resultado do Teste de Shapiro-Wilk:")
print(shapiro_test)

# Se os dados não forem normalmente distribuídos (valor-p < 0,05), realizar o Teste de Wilcoxon
if (shapiro_test$p.value < 0.05) {
    # Aplicar o Teste de Wilcoxon para amostras pareadas
    resultado_wilcoxon <- wilcox.test(antes, depois, paired = TRUE)
    print("Resultado do Teste de Wilcoxon:")
    print(resultado_wilcoxon)
} else {
    print("Os dados seguem uma distribuição normal. Considere usar o teste t pareado.")
}

    

Explicação do Código

  • antes e depois: Vetores contendo as medições de desempenho dos indivíduos antes e depois de um tratamento.
  • shapiro.test(diferencas): Aplica o Teste de Shapiro-Wilk para verificar se as diferenças seguem uma distribuição normal.
  • wilcox.test(antes, depois, paired = TRUE): Realiza o Teste de Wilcoxon para amostras pareadas caso os dados não sejam normalmente distribuídos.
  • if-else: Verifica o valor-p do Teste de Shapiro-Wilk e decide qual teste utilizar com base na normalidade dos dados.

Interpretação dos Resultados

Se o valor-p do Teste de Wilcoxon for menor que 0,05, isso indica que há uma diferença significativa entre as medianas das amostras "antes" e "depois". Se o valor-p for maior que 0,05, não há evidências suficientes para concluir que as medianas são diferentes.

Exemplo de Saída no R

A seguir, apresentamos um exemplo de saída gerada ao executar o código no R:

Resultado do Teste de Shapiro-Wilk:
Shapiro-Wilk normality test

data:  diferencas
W = 0.83327, p-value = 0.01563

Resultado do Teste de Wilcoxon:
Wilcoxon signed rank test

data:  antes e depois
V = 10, p-value = 0.015
alternative hypothesis: true location shift is not equal to 0
    

No exemplo acima, o valor-p do Teste de Shapiro-Wilk é 0,01563, indicando que as diferenças entre as amostras não seguem uma distribuição normal. Portanto, aplicamos o Teste de Wilcoxon. O valor-p do Teste de Wilcoxon é 0,015, o que significa que há uma diferença significativa entre as duas amostras.

Alternar Menu