1.1.3 Aplicação - Testes de Hipótese
1. Testes de Hipóteses com Estatística t¶
A baixo segue as principais etapas para se conduzir um teste de hipóteses com a Estatística-t
1. Estabeleça as hipóteses:
- Hipótese nula (H0): Sugere que não existe uma diferença significativa entre as médias populacionais ou que a média da amostra é a mesma do valor proposto.
- Hipótese alternativa (H1): Propõe que pode existir uma diferença significativa entre as médias.
2. Seleção do teste t correto:
- Escolha o tipo de teste t que se alinha com o design da sua pesquisa, seja ele para uma única amostra, amostras independentes ou amostras pareadas.
3. Confirmação das premissas:
- Assegure-se de que os dados atendam às premissas necessárias, como independência das observações, normalidade e, quando aplicável, homogeneidade das variâncias.
4. Computação da estatística-t:
- Utilizando os dados da amostra, calcule a estatística-t conforme a formulação específica do teste t selecionado.
5. Determinação dos graus de liberdade (df):
- Baseie-se no tamanho da amostra ou amostras para calcular os graus de liberdade.
6. Obtenção do p-valor:
- Utilize a estatística-t e os graus de liberdade para identificar o p-valor correspondente na distribuição t.
7. Comparação com o nível de significância (α):
- Se o p-valor for menor que o nível de significância definido (comumente 0,05), rejeite a hipótese nula.
1.1. Ilustração Prática:¶
Imagine que deseja avaliar se um novo método de ensino eleva as notas dos alunos.
Coleta-se uma amostra de 25 alunos submetidos ao novo método e compara-se a média das suas notas à média populacional reconhecida de 80.
Para esta situação, utiliza-se o teste t para uma amostra.
- H0: μ = 80; H1: μ ≠ 80.
- Selecionado o teste t para uma única amostra.
- Verificadas e validadas as premissas.
- Resultado da estatística-t é de 2,5.
- Graus de liberdade determinados como: df = 24.
- Com base na estatística-t e df, o
p-valor
é de0,019
.- Dado que
0,019
é menor que 0,05,rejeitamos H0
.- Conclusão: As evidências apontam para uma melhoria significativa nas notas dos alunos devido ao novo método de ensino. Referência:
2. Teste T Pareado: Cálculo Manual¶
Este documento explica como realizar um teste t pareado manualmente para determinar se há uma diferença significativa entre as médias de duas amostras emparelhadas. Neste exemplo, utilizamos duas colunas de dados representando métricas de KS scores.
2.1. Dados¶
Vamos utilizar os seguintes dados:
ks.scores1
: [0.583983, 0.576596, 0.556730, 0.595138, 0.584564]ks.scores2
: [0.490242, 0.551584, 0.514383, 0.535587, 0.546064]
2.2. Passo a Passo para o Teste T Pareado Manualmente¶
2.2.1. Calcular as Diferenças¶
Primeiro, calculamos a diferença entre as duas colunas para cada par de valores:
$$ \text{Diferença} = \text{ks.scores1} - \text{ks.scores2} $$
$$ \begin{align*} 0.583983 - 0.490242 &= 0.093741\\\\ 0.576596 - 0.551584 &= 0.025012\\\\ 0.556730 - 0.514383 &= 0.042347\\\\ 0.595138 - 0.535587 &= 0.059551\\\\ 0.584564 - 0.546064 &= 0.038500\\\\ \end{align*} $$
Então, as diferenças são:
$$ \text{Diferenças} = [0.093741, 0.025012, 0.042347, 0.059551, 0.038500] 3. $$¶
2.2.2. Calcular a Média das Diferenças¶
Agora, calculamos a média das diferenças ($\bar{d}$):
$$ \bar{d} = \frac{1}{n} \sum_{i=1}^{n} d_i = \frac{0.093741 + 0.025012 + 0.042347 + 0.059551 + 0.038500}{5} $$
$$ \bar{d} = \frac{0.259151}{5} = 0.0518302 $$
2.2.3. Calcular o Desvio Padrão das Diferenças¶
Para calcular o desvio padrão ($s_d$), usamos a fórmula do desvio padrão de uma amostra:
$$ s_d = \sqrt{\frac{\sum_{i=1}^{n} (d_i - \bar{d})^2}{n-1}} $$
$$ \begin{align*} (d_1 - \bar{d})^2 &= (0.093741 - 0.0518302)^2 = 0.001749 \\\\ (d_2 - \bar{d})^2 &= (0.025012 - 0.0518302)^2 = 0.000712 \\\\ (d_3 - \bar{d})^2 &= (0.042347 - 0.0518302)^2 = 0.000090 \\\\ (d_4 - \bar{d})^2 &= (0.059551 - 0.0518302)^2 = 0.000059 \\\\ (d_5 - \bar{d})^2 &= (0.038500 - 0.0518302)^2 = 0.000177 \\\\ \end{align*} $$
Agora, somamos essas diferenças quadradas e dividimos pelo número de pares menos um:
$$ \sum (d_i - \bar{d})^2 = 0.001749 + 0.000712 + 0.000090 + 0.000059 + 0.000177 = 0.002787 $$
$$ s_d = \sqrt{\frac{0.002787}{5-1}} = \sqrt{\frac{0.002787}{4}} = \sqrt{0.00069675} = 0.026396 4. $$¶
2.2.4. Calcular a Estatística t¶
A estatística t é calculada usando a média das diferenças, o desvio padrão das diferenças e o número de pares:
$$ t = \frac{\bar{d}}{s_d / \sqrt{n}} $$
Onde:
- ($\bar{d}$) é a média das diferenças.
- ($s_d$) é o desvio padrão das diferenças.
- ($n$) é o número de pares.
Substituindo os valores:
$$ t = \frac{0.0518302}{0.026396 / \sqrt{5}} = \frac{0.0518302}{0.011804} = 4.389 5. $$¶
2.2.5. Determinar o Valor p¶
Para determinar o valor p, utilizamos a tabela de distribuição t de Student. Com $n - 1 = 4$ graus de liberdade e uma estatística $t$ de $4.389$, vamos buscar o valor p correspondente.
- Para $t = 4.389$ e $df = 4$, o valor p é geralmente menor que $0.05$, indicando que existe uma diferença significativa.
2.2.6. Determinar a Região Crítica¶
Para um teste t, a região crítica depende do nível de significância ($𝛼$) e do tipo de teste (unilateral ou bilateral). Para um teste t bilateral, a região crítica está nas duas extremidades da distribuição t.
2.2.7. Exemplo Prático¶
Localize a estatística t calculada: 4.389
Localize a coluna com o nível de significância desejado (por exemplo, $𝛼=0.05$ para um teste de duas caudas).
Compare o valor da estatística t com os valores críticos da tabela:
Para $𝛼=0.05$ em um teste de duas caudas e 4 graus de liberdade, o valor crítico geralmente é cerca de 2.776. Como $t=4.389$ é maior que o valor crítico de 2.776, isso indica que a estatística t está na região crítica e o valor p é menor que 0.05.
Se a sua estatística t calculada (t = 4.389) exceder o valor crítico da tabela t para o nível de significância escolhido,
você rejeita a hipótese nula
. Para testes de duas caudas, você precisa comparar a estatística t com o valor crítico para a região crítica em ambas as extremidades da distribuição.
2.2.8. Conclusão¶
- Valor de t calculado: 4.389
- Graus de liberdade (df): 4
- Valor p: Aproximadamente $0.0053$ (menor que $0.05$)
Com base nos cálculos, podemos rejeitar a hipótese nula
e concluir que existe uma diferença significativa entre as médias das métricas ks.scores1
e ks.scores2
.
2.2.9. Resumo do Teste T Pareado:¶
- Hipótese Nula (H0): A diferença entre as médias das métricas é zero.
- Hipótese Alternativa (H1): A diferença entre as médias das métricas não é zero.
- Resultado:
Rejeitamos a hipótese nula
. Existe uma diferença significativa entre as médias das métricas.
2.3. Teste T Pareado usando Python¶
Para testar se existe uma diferença significativa entre as médias das métricas das duas colunas
ks.scores1
e ks.scores2
, podemos usar um teste t pareado
.
Este teste é adequado para comparar as médias de duas amostras emparelhadas,
assumindo que as diferenças entre as amostras seguem uma distribuição normal.
2.3.1. Passos para realizar o Teste T Pareado:¶
1. Formulação das Hipóteses:
H0 (Hipótese Nula):
A diferença entre as médias das métricas é zero ($𝜇_1 −𝜇_2 = 0$).H1 (Hipótese Alternativa):
A diferença entre as médias das métricas não é zero ($𝜇_1 −𝜇_2$ != $0$).
2. Cálculo da Diferença das Métricas:
- Para cada par de valores das duas colunas, calcule a diferença.
3. Aplicação do Teste T Pareado:
- Utilize a diferença calculada para aplicar o
teste t pareado
. - Calcule o
valor p
para determinar se as diferenças são estatisticamente significativas.
2.4. Implementação em Python:¶
Vou demonstrar como você pode implementar isso usando a biblioteca scipy.stats
para calcular o teste t pareado.
import pandas as pd
from scipy import stats
# Dados fornecidos: ks.scores
data = {
"ks.scores1": [0.583983, 0.576596, 0.556730, 0.595138, 0.584564],
"ks.scores2": [0.490242, 0.551584, 0.514383, 0.535587, 0.546064]
}
# Criar o DataFrame
df = pd.DataFrame(data)
# Calcular o teste T pareado
t_statistic, p_value = stats.ttest_rel(df['ks.scores1'], df['ks.scores2'])
# Exibir resultados
print("Estatística t:", t_statistic)
print("Valor p:", p_value)
# Avaliação do resultado
if p_value < 0.05:
print("Rejeitamos a hipótese nula: Há diferença significativa entre as médias.")
else:
print("Não rejeitamos a hipótese nula: Não há diferença significativa entre as médias.")
Estatística t: 4.378132332736648 Valor p: 0.011892242763488443 Rejeitamos a hipótese nula: Há diferença significativa entre as médias.