Iniciação à Pesquisa Científica em Saúde /REPOSITÓRIO DE EXERCÍCIOS RESOLVIDOS/ Exercício 20: Internet I
Questão 20: Internet I
[editar | editar código-fonte]Quase metade dos brasileiros usa a internet regularmente. É o que mostra a Pesquisa Brasileira de Mídia 2015 (PBM 2015), divulgada pela Secretaria de Comunicação Social da Presidência da República[1]. As pessoas ficam conectadas, em média, 4h59 por dia durante a semana e 4h24 nos finais de semana, superior ao tempo médio que os brasileiros ficam expostos ao televisor, respectivamente 4h31 e 4h14. Em uma pesquisa por amostragem, o número de horas diárias conectadas à internet, por estudantes de medicina foi (horas): 9, 10, 18, 5, 21, 11, 15, 8, 3, 5, 9, 10, 11, 13, 19, 14, 17, 9, 8, 6, 3, 9, 10, 1, 0, 15, 16, 14 ,18, 19.
a) Calcule: a média, mediana, desvio padrão e amplitude.
b) Determine o percentil 25, 50 e 75. Construa um gráfico de caixas com estes valores
c) Construa um histograma de frequência para os dados
d) Proponha um teste de hipóteses para avaliar se o valor médio de acesso dos estudantes é diferente da média do país.
c) Utilize um software estatístico e resolva o teste de hipótese. Explique os resultados.
Sugestão de apoio:
Resposta da questão:
[editar | editar código-fonte]a)Conceitos utilizados para o cálculo da questão:
Média e mediana são exemplos de medidas de tendência central, pois se referem ao valor de centro da distribuição de dados.
· Média: é o resultado da divisão da soma de todos os valores da amostra pela quantidade total de valores
Calculando a média (este cálculo foi feito pelo programa Excel 2013, mas também pode ser calculado à mão)
1- Basta somar os valores e dividir pelo “n” (número de elementos da amostra): Soma total: 326.
2- Dividindo-se a soma total por n: 326 ÷ 30 = 10.8.
Resposta: 10.8
· Mediana: é o valor central da amostra. O valor que divide o conjunto de dados em duas partes tais que abaixo e acima da mediana encontram-se 50% das observações.
Calculando a mediana (este cálculo foi feito pelo programa Excel 2013, mas também pode ser calculado à mão).
1- Colocando em ordem crescente:
0 1 3 3 5 5 6 8 8 9 9 9 9 10 10 10 11 11 13 14 14 15 15 16 17 18 18 19 19 21
2- Dividindo-se os dois valores centrais (10+10) por 2, obtemos mediana 10.
Resposta: 10.
Para calcular a mediana é preciso organizar os números em ordem crescente de forma a facilitar a observação do valor central. Quando o “n” (quantidade de números da amostra) for ímpar a mediana é o valor central. Quando “n” for par a mediana é a soma dos dois valores centrais divididos por 2.
Por exemplo: na sequência 1 2 3 4 5. Como n é ímpar ( 5 ) a mediana é o valor de posição central , no caso : 3.
Já na sequência 1 2 3 4 5 6, como n é par (6) a mediana é a divisão dos dois valores de posição central (3 + 4 =7), divididos por 2. Assim 7 dividido por 2 me dá o valor da mediana de 2,5.
Desvio padrão e amplitude são medidas de variabilidade, pois caracterizam a dispersão dos dados de distribuição.
O desvio padrão é a medida mais comum da dispersão estatística. Ele mostra o quanto de variação ou "dispersão" existe em relação à média . Um baixo desvio padrão indica que os dados tendem a estar próximos da média; um desvio padrão alto indica que os dados estão espalhados por uma gama de valores.
Cálculo do desvio padrão de acordo com programa Excel 2013: 5,6.
Lembrando que o desvio padrão é a raiz da variância, e a variância consiste da soma das diferenças de cada elemento subtraídos da média e elevados ao quadrado divido pelo número de elementos. Variância = 31,8, calculada pelo programa Excel 2013.
Já a amplitude é definida como sendo a diferença entre o maior e o menor valor do conjunto de dados.
Cálculo da amplitude: 21(maior valor) – 0(menor valor): 21
Respostas: Média: 10,8
Mediana:10
Devio Padrão:5,6
Amplitude: 21
b)Cálculo do percentil com base no programa SPSS.
Gráfico de caixas :
Explicação do gráfico de caixas:
Explicação do gráfico: O gráfico de caixas está dividido em 4 quartis,ou seja, quatro quartos da amostra. A linha mais inferior da projeção que sai da caixa representa o percentil zero. O limite inferior da caixa (retângulo bege) corresponde ao percentil 25 (que indica que 25% da amostra apresenta o valor,no caso 7,5, ou menos). O traço em negrito representa a mediana ou percentil 50(ou seja,50% da amostra apresenta esse valor ou menos e 50% apresenta esse valor ou mais). O limite superior da caixa corresponde ao percentil 75, ou seja, 75% da amostra apresenta o valor, no caso, de 15,25, ou menos). A linha mais superior da projeção de cima representa o percentil 100, o que implica dizer que 100% da amostra apresenta este valor ou menos. O espaço entre o limite inferior da projeção de baixo e o limite inferior da caixa corresponde ao primeiro quartil (25% da amostra cujo valor está entre o percentil 0 e 25). A parte da caixa abaixo da mediana representa o segundo quartil (25% da amostra cujo valor está entre o percentil 25 e 50). A parte da caixa acima da linha mediana representa o terceiro quartil (25% da amostra cujo valor está entre o percentil 50 e 75). O espaço entre o limite superior da caixa e a linha superior da projeção de cima representa o quarto quartil (25% da amostra cujo valor está entre o percentil 75 e 100).
c) Histograma de frequência:
d)Fazemos um teste estatístico de hipóteses para escolher uma das opções: ou o valor médio de acesso dos estudantes é igual ou é diferente da média do país. Assim, formulamos uma hipótese nula e uma hipótese alternativa.
Hipótese nula: o valor médio de acesso dos estudantes é igual à média do país.
Hipótese alternativa: o valor médio de acesso dos estudantes é diferente da média do país.
Isso quer dizer que um teste bicaudal foi utilizado, pois consideramos como hipótese alternativa o valor como diferente e não como exclusivamente maior ou exclusivamente menor (se assim o fosse, o teste seria unicaudal). Dentre os métodos básicos da estatística inferencial usados também em epidemiologia há o teste-t de médias para amostras independentes. Esse teste t usa uma estatística que, sobre a hipótese nula, testa se as duas médias diferem significativamente. Neste caso, usamos o teste t para uma amostra, pois estamos comparando apenas uma amostra de estudantes de medicina (n de 30 estudantes) com a média da população brasileira já informada no estudo.
Teste T de médias, passo a passo:
Verificar se os pressupostos para o teste escolhido foram atendidos: para se utilizar o teste-t de médias para amostras independentes é preciso que as variáveis sejam numéricas e que apresentem distribuição normal (ou que tende para normal) nos subgrupos independentes analisados (estudantes de medicina e população geral). O verdadeiro valor do desvio-padrão populacional é desconhecido (sigma).
-Formular Ho e Ha
-Escolher o nível de significância adequado
Todo teste de hipóteses possuí erros associados a ele.Um dos mais importantes é chamado “ erro do tipo I” que corresponde à rejeição da hipótese nula quando esta for verdadeira. A probabilidade do erro tipo I chama-se nível de significância e é representada pela letra grega alfa (α ). O nível de significância geralmente adotado é de 5%.
-Calcular a estatística do teste
O programa estatístico realiza estes cálculos.
-Comparar o valor do teste com o da região crítica
O programa estatístico realiza essa comparação e nos fornece o valor de p.
-Interpretar o valor p do teste estatístico
O nível descritivo p é definido como o “menor nível de significância α que pode ser assumido para se rejeitar a Ho. Ou seja, considerando α 0,05, se p for menor que 0,05 rejeita-se a Ho e se p for maior que 0,05 aceita-se a Ho. Lembrando que , no nosso exemplo, aceitar a Ho implica dizer que as médias entre a amostra de estudantes de medicina e a população brasileira são iguais, o que iria contra a nossa hipótese alternativa testada no teste.
-Rejeitar ou aceitar a Ho
e) O programa utilizado foi o medcalc para teste de média de uma amostra. O mais comum é o teste bicaudal, portanto está implícito que o programa utilizou este teste (caso o teste unicaudal fosse utilizado haveria referências que evidenciaram isso). De acordo com as cálculos prévios, a média (mean) foi de 10,8. O desvio padrão foi de 5,6 (standard desviation). A amostra foi de 30 estudantes (sample size). A média de teste utilizada para comparação foi a média de 4h59 por dia durante a semana pela população brasileira (como estamos utilizando fração obtemos 4,9).
Como resultado, obtemos o nível descritivo p menor que 0,05, o que implica a rejeição da hipótese nula e a confirmação de que o valor médio de acesso dos estudantes é diferente da média do país, com 95% de confiança. Além disso, o intervalo entre 8,7089 e 12,8911 não incluí o valor de 4,9, o que implica dizer que a média da população não se encontra no intervalo que corresponderia aos valores nos quais ela equivaleria à média da amostra
Referências bibliográficas
-Informações disponibilizadas nos links do wikilivros
- BONITA, R; BEAGLEHOLE, R; KJELLSTRÖM, T. Epidemiologia básica. - 2.ed. - São Paulo, Santos. 2010
PAES, A. Itens essenciais em bioestatística. Arq. Bras. Cardiol. volume 71, (nº 4), 1998
-Programas estatísticos:
Med calc : https://www.medcalc.org/calc/test_one_mean.php
SPSS
Indexadores do tema deste exercício
[editar | editar código-fonte]Síntese numérica de um conjunto de dados sobre saúde
Distribuição de frequência de dados em saúde