Em estatística, média, mediana e moda são medidas de tendência central, utilizadas para resumir um conjunto de dados de maneiras diferentes. Veja abaixo as principais diferenças entre elas:
A média, ou média aritmética, é calculada somando todos os valores de um conjunto de dados e dividindo o resultado pelo número total de elementos.
Fórmula:
Média = (Σ X_i) / n
Onde X_i representa os valores dos dados e n é o número total de observações. A média é sensível a valores extremos, conhecidos como outliers.
A mediana é o valor central de um conjunto de dados quando esses dados estão organizados em ordem crescente ou decrescente.
A mediana não é afetada por valores extremos, sendo uma medida mais robusta em conjuntos de dados com outliers.
A moda é o valor que aparece com maior frequência em um conjunto de dados.
A moda é especialmente útil para dados categóricos, onde a média e a mediana não são aplicáveis.
Essas três medidas fornecem diferentes perspectivas sobre a distribuição dos dados e são frequentemente usadas em conjunto para melhor compreensão dos dados.
Em estatística, as medidas de dispersão são usadas para descrever a variabilidade ou a extensão de um conjunto de dados. As principais medidas de dispersão incluem variância, desvio padrão, amplitude e as medidas não centrais, como os quartis. Vamos explorar cada uma delas:
A variância mede o quanto os valores de um conjunto de dados se afastam da média. Ela é calculada como a média dos quadrados das diferenças entre cada valor e a média do conjunto.
Fórmula da variância:
Variância = Σ (X_i - μ)² / n
Onde X_i são os valores individuais, μ é a média dos valores e n é o número total de observações. A variância é expressa em unidades ao quadrado, o que pode tornar sua interpretação mais difícil.
O desvio padrão é a raiz quadrada da variância e tem a mesma unidade dos dados originais, tornando sua interpretação mais intuitiva. Ele indica, em média, quanto os valores de um conjunto de dados desviam da média.
Fórmula do desvio padrão:
Desvio Padrão = √(Σ (X_i - μ)² / n)
O desvio padrão é amplamente utilizado para medir a dispersão em conjuntos de dados e é sensível a outliers.
A amplitude é a diferença entre o maior e o menor valor em um conjunto de dados. É uma medida simples de dispersão, que reflete a extensão total do conjunto.
Fórmula da amplitude:
Amplitude = X_max - X_min
A amplitude, embora fácil de calcular, pode ser influenciada por valores extremos, não refletindo a dispersão dos dados de forma tão precisa quanto outras medidas, como a variância ou o desvio padrão.
Os quartis são medidas que dividem um conjunto de dados ordenados em quatro partes iguais. Eles são usados para descrever a distribuição dos dados em termos de percentis:
A diferença entre o terceiro e o primeiro quartil é chamada de amplitude interquartil (AIQ) e é uma medida da dispersão dos dados em torno da mediana. É útil para entender a variabilidade sem a influência de valores extremos.
Fórmula da AIQ:
AIQ = Q3 - Q1
As medidas não centrais, como os quartis, são úteis para identificar a posição relativa dos dados em uma distribuição, sendo particularmente eficazes em dados assimétricos.
A distribuição normal, também conhecida como distribuição de Gauss ou curva gaussiana, é uma das distribuições mais importantes em estatística. Ela descreve como os valores de uma variável estão distribuídos em torno da média, assumindo uma forma simétrica e em formato de sino.
A função de densidade de probabilidade de uma distribuição normal é dada pela seguinte fórmula:
f(x) = (1 / √(2πσ²)) * exp(-((x - μ)²) / (2σ²))
Onde:
A distribuição normal tem algumas propriedades importantes que facilitam o uso em estatísticas inferenciais:
A distribuição normal é amplamente utilizada em várias áreas da estatística devido a algumas de suas propriedades matemáticas elegantes e porque muitos fenômenos naturais e sociais seguem esse padrão. Além disso, pelo teorema central do limite, somas de muitas variáveis aleatórias independentes tendem a formar uma distribuição normal, independentemente da distribuição original dessas variáveis.
Um exemplo clássico de distribuição normal é a altura de indivíduos de uma população. Embora haja variações de altura, a maioria das pessoas tem uma altura próxima da média, e apenas um pequeno número de pessoas é muito mais alta ou muito mais baixa que a média.
A distribuição normal é usada em muitas áreas como economia, engenharia e ciências naturais para modelar incertezas e realizar testes de hipóteses.
O Teste de Shapiro–Wilk é um teste estatístico amplamente utilizado para verificar a normalidade de uma amostra de dados. Ele é particularmente eficaz para amostras pequenas a moderadas e é considerado um dos testes mais poderosos para detectar desvios da normalidade.
O objetivo principal do teste é determinar se uma amostra de dados foi retirada de uma população que segue uma distribuição normal. Isso é fundamental porque muitas técnicas estatísticas assumem a normalidade dos dados para fornecer resultados válidos.
Com base no valor-p obtido, decidimos se rejeitamos ou não a hipótese nula:
p-value < α (nível de significância, geralmente 0,05), rejeitamos H0.p-value ≥ α, não rejeitamos H0.O R oferece uma função integrada chamada shapiro.test() para realizar o Teste de Shapiro–Wilk. A seguir, apresentamos um exemplo passo a passo de como utilizar essa função.
Primeiro, precisamos de um conjunto de dados para realizar o teste. Vamos utilizar um conjunto de dados simulado.
Utilizamos a função shapiro.test() passando o vetor de dados como argumento.
Após a execução, a função retorna o valor do teste W e o valor-p. Com base no valor-p, decidimos se rejeitamos ou não a hipótese nula.
# Gerar uma amostra de dados normalmente distribuídos
set.seed(123) # Para reprodutibilidade
dados <- rnorm(30, mean = 50, sd = 10)
# Visualizar os dados
print(dados)
# Executar o Teste de Shapiro–Wilk
resultado <- shapiro.test(dados)
# Exibir os resultados
print(resultado)
set.seed(123): Define a semente para geração de números aleatórios, garantindo que os resultados sejam reprodutíveis.rnorm(30, mean = 50, sd = 10): Gera uma amostra de 30 observações seguindo uma distribuição normal com média 50 e desvio padrão 10.print(dados): Exibe os valores da amostra.shapiro.test(dados): Executa o Teste de Shapiro–Wilk na amostra de dados.print(resultado): Mostra os resultados do teste, incluindo o valor W e o valor-p.Suponha que a saída do teste seja a seguinte:
Shapiro-Wilk normality test
data: dados
W = 0.9765, p-value = 0.8803
Interpretamos os resultados da seguinte forma:
Conclusão: Não há evidências suficientes para afirmar que os dados não seguem uma distribuição normal.
O teste t pareado é um teste estatístico utilizado para comparar a média de dois conjuntos de dados dependentes. Esses conjuntos de dados geralmente são obtidos em medições realizadas antes e depois de um determinado tratamento ou experimento. O teste avalia se a diferença média entre as duas medições é significativamente diferente de zero.
Para realizar o teste t pareado, uma das suposições fundamentais é que os dados das diferenças entre os pares devem seguir uma distribuição normal. Para verificar essa suposição, podemos aplicar o Teste de Shapiro–Wilk à diferença entre as duas amostras. Caso a normalidade seja verificada, podemos proceder com o teste t pareado.
Os passos gerais para realizar o teste t pareado são:
O teste t pareado é usado quando se deseja comparar as médias de dois conjuntos de dados dependentes, ou seja, pares de observações relacionadas, como medições antes e depois de um tratamento.
Este teste é apropriado quando as diferenças entre os pares de dados são normalmente distribuídas. Se essa condição for atendida, podemos prosseguir com o teste t pareado.
Abaixo está um exemplo de como realizar o teste t pareado em R, com dados de um experimento que mede o desempenho de indivíduos antes e depois de um treinamento:
# Gerar dados de exemplo: Desempenho antes e depois de um treinamento
antes <- c(78, 85, 82, 90, 86, 83, 87, 88, 85, 92)
depois <- c(84, 87, 89, 93, 91, 89, 90, 92, 88, 95)
# Visualizar os dados
print("Desempenho antes:")
print(antes)
print("Desempenho depois:")
print(depois)
# Aplicar o Teste de Shapiro-Wilk para verificar a normalidade das diferenças
diferencas <- antes - depois
shapiro_test <- shapiro.test(diferencas)
print("Resultado do Teste de Normalidade Shapiro-Wilk:")
print(shapiro_test)
# Se os dados forem normalmente distribuídos (valor-p > 0,05), realizar o teste t pareado
if (shapiro_test$p.value > 0.05) {
# Aplicar o teste t pareado
teste_t <- t.test(antes, depois, paired = TRUE)
print("Resultado do Teste t Pareado:")
print(teste_t)
} else {
print("Os dados não seguem uma distribuição normal. Considerar um teste não paramétrico.")
}
Se o valor-p do teste t pareado for menor que 0,05, isso indica que há uma diferença significativa entre as médias de "antes" e "depois" do tratamento. Caso contrário, não há evidências estatísticas para afirmar que as médias são diferentes.
Ao executar o código acima, você pode obter um resultado semelhante ao seguinte:
Resultado do Teste de Normalidade Shapiro-Wilk:
Shapiro-Wilk normality test
data: diferencas
W = 0.95342, p-value = 0.6603
Resultado do Teste t Pareado:
Paired t-test
data: antes e depois
t = -4.1231, df = 9, p-value = 0.0028
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-6.440853 -1.759147
sample estimates:
mean of the differences
-4.1
Neste exemplo, o valor-p é 0,0028, que é menor que 0,05. Portanto, podemos concluir que há uma diferença significativa entre o desempenho antes e depois do treinamento.
O Teste de Wilcoxon para Amostras Pareadas é um teste não paramétrico utilizado para comparar duas amostras dependentes quando a suposição de normalidade dos dados não é atendida. Ele é uma alternativa ao teste t pareado e é útil quando os dados não seguem uma distribuição normal.
Esse teste avalia se as medianas das duas amostras são diferentes, em vez de comparar as médias, como faz o teste t.
Você deve usar o Teste de Wilcoxon quando os dados forem dependentes (pareados) e não seguirem uma distribuição normal. Isso pode ser verificado utilizando o Teste de Shapiro-Wilk para testar a normalidade dos dados.
Abaixo está um exemplo de código em R que aplica o Teste de Wilcoxon a um conjunto de dados não normalmente distribuídos:
# Gerar dados de exemplo: Desempenho antes e depois de um tratamento
antes <- c(78, 85, 82, 90, 86, 83, 87, 88, 85, 92)
depois <- c(84, 87, 89, 93, 91, 89, 90, 92, 88, 95)
# Verificar a normalidade das diferenças usando o Teste de Shapiro-Wilk
diferencas <- antes - depois
shapiro_test <- shapiro.test(diferencas)
print("Resultado do Teste de Shapiro-Wilk:")
print(shapiro_test)
# Se os dados não forem normalmente distribuídos (valor-p < 0,05), realizar o Teste de Wilcoxon
if (shapiro_test$p.value < 0.05) {
# Aplicar o Teste de Wilcoxon para amostras pareadas
resultado_wilcoxon <- wilcox.test(antes, depois, paired = TRUE)
print("Resultado do Teste de Wilcoxon:")
print(resultado_wilcoxon)
} else {
print("Os dados seguem uma distribuição normal. Considere usar o teste t pareado.")
}
Se o valor-p do Teste de Wilcoxon for menor que 0,05, isso indica que há uma diferença significativa entre as medianas das amostras "antes" e "depois". Se o valor-p for maior que 0,05, não há evidências suficientes para concluir que as medianas são diferentes.
A seguir, apresentamos um exemplo de saída gerada ao executar o código no R:
Resultado do Teste de Shapiro-Wilk:
Shapiro-Wilk normality test
data: diferencas
W = 0.83327, p-value = 0.01563
Resultado do Teste de Wilcoxon:
Wilcoxon signed rank test
data: antes e depois
V = 10, p-value = 0.015
alternative hypothesis: true location shift is not equal to 0
No exemplo acima, o valor-p do Teste de Shapiro-Wilk é 0,01563, indicando que as diferenças entre as amostras não seguem uma distribuição normal. Portanto, aplicamos o Teste de Wilcoxon. O valor-p do Teste de Wilcoxon é 0,015, o que significa que há uma diferença significativa entre as duas amostras.
Alternar Menu