Buscar

Trabalho Prático 2 - Análises de Dados - LOBO

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Acadêmica: Natalí Rempel Drews Matrícula: 56489 Data: 21/04/2021
Análise de Dados em Pesquisa Biológica
Trabalho Prático - março de 2021
1. Duas novas variedades de milho estão sendo cultivadas na tentativa de selecionar a melhor para o consumo da população. Desta forma, um grupo de pesquisadores, após um detalhado exame, determinou como critério de seleção o maior comprimento da espiga. Por esse motivo, realizaram medições aleatórias do comprimento de espigas das duas variedades, utilizando, em ambas, um tamanho de amostra n = 15. Os resultados apresentam-se na tabela abaixo:
Utilizando medidas de localização e dispersão (média aritmética, desvio-padrão e coeficiente de variação, 1 casa decimal), determinar qual é a variedade que será destinada ao consumo da população. Justifique a sua resposta.
	
	A variedade que será destinada ao consumo é a 2. A média é praticamente igual em ambas as variedades. A variedade 1 é modal, por tanto uma amostra mais homogênea, e a Variedade 2 é multimodal, com uma amostra mais heterogênea. E o desvio padrão é menor no 2, por tanto, quanto menor o desvio padrão, mais precisa é a amostra.
Após ordenar as 15 observações obtive os seguintes resultados:
 Variedade 1							Variedade 2						
Média: 26,5					 Média: 26,4
Mediana: 25						 Mediana: 27
Moda: 25 = Unimodal				 Moda: 26,27 e 28 = Multimodal
CV = 16% 						 CV: 13%
S= 4,2 NMP 100cm -1					 S= 3,5 NMP 100cm -1
Fórmula usada para calcular a Mediana (já que o número de observações era ímpar) foi à seguinte:
M= n (nº de observações) +1= 15+1= 16 = 8 
			2		 2	 2
2. Desvio-padrão e Erro-padrão (ou Standard) são duas medidas de dispersão freqüentemente utilizadas para representar uma amostra. Discutir as principais diferenças entre estas medidas.
	Apesar de ambos tratarem sobre a variação da média, são conceitos bem diferentes entre si. O desvio padrão, como vimos, trata de um índice de dispersão da amostra em relação à média.
	A dispersão das observações que constituem uma amostra pode ser caracterizada pelos desvios de cada observação em relação à média, podendo tomar valores positivos ou negativos, e o somatório dos desvios de cada observação em relação à média amostral é zero. Contudo, os desvios ao quadrado, tomam sempre um valor positivo, e a respectiva média é a variância da amostra. Se existir uma grande dispersão das observações a variância é grande. Se os valores de cada uma das observações forem próximos da média a variância é pequena.
	Uma vez que a variância é obtida a partir dos quadrados dos desvios, esta se exprime na unidade da variável ao quadrado. O desvio padrão é a raiz quadrada da variância, pelo que as suas unidades são as mesmas da média da variável. 
	A magnitude do desvio padrão depende da dispersão das observações relativamente à média, não variando com o aumento do tamanho das amostras.
	Quando a variável segue uma distribuição normal, o desvio padrão fornece uma informação adicional acerca da forma como as observações se distribuem em torno da média, cerca de 68,2 % das observações estão contidas no intervalo definido por média ± 1 desvio padrão, 95,4 % no intervalo média ± 2 desvios padrão e 99,7 % no intervalo média ± 3 desvios padrão.
	O desvio padrão, para além de sumariar a informação relativamente à dispersão das observações relativamente à média amostral, é uma estimativa da dispersão na população de que a amostra é proveniente. Contudo, esta estimativa é sistematicamente inferior ao valor real do desvio padrão da população, principalmente nas amostras pequenas, pelo que é habitualmente calculado o desvio padrão corrigido, que não apresenta o referido erro sistemático.
Enquanto o erro-padrão é uma medida que ajuda e avalia a confiabilidade da média calculada.
Quando extraímos uma amostra aleatória da população e calculamos o valor médio de uma determinada variável, o objetivo último é inferir sobre a média da população de onde a amostra é originária, ou seja, a média na amostra avaliada é uma estimativa da média na população, cuja precisão depende da dispersão da populaçõe do tamanho da amostra.
Se várias amostras aleatórias forem obtidas de uma dada população, elas vão diferir relativamente ao valor médio da população em cada uma e, à semelhança do que acontece com as observações de cada amostra individualmente, a distribuição das médias amostrais tem também um desvio padrão. O erro padrão da média de uma amostra é uma estimativa do desvio padrão da distribuição das médias de amostras com o mesmo tamanho obtidas da mesma população, e dessa forma uma medida de incerteza associada à estimativa da média na população.
No caso do erro padrão da medi, este é obtido dividindo o desvio padrão da amostra pela raiz quadrada do número de observações na amostra.
O erro padrão da estimativa diminui com o aumento do tamanho da amostra, refletindo o aumento de precisão da estimativa com o tamanho da amostra.
3. Falando em termos de medidas de tendência central, comparativamente à média aritmética, qual é uma das grandes vantagens do uso da mediana?
	A mediana é uma medida comum das propriedades de conjuntos de dados de dados em estatística e em teoria das probabilidades, com importância central na estatística robusta. A estatística robusta é mais resistente, com ponto de ruptura de 50%. A mediana não fornece resultados arbitrariamente grandes desde que mais da metade dos dados não esteja contaminada.
	A vantagem da mediana em relação é que a mediana pode dar uma idéia melhor de um valor típico porque não é tão distorcida por valores extremamente altos ou baixos. Em estudos estatísticos sobre renda familiar ou outros ativos voláteis, a média pode ser distorcida por um pequeno número de valores extremamente altos ou baixos, ou seja, a mediana é uma das alternativas para resumir os valores típicos associados aos elementos da população estatística. Logo, a mediana é um possível parâmetro de localização. A mediana é o 2º quartil, 5º decil e 50º percentil. Ela pode ser calculada para dados ordenados, mas não para dados categóricos.
	Embora não sejam geralmente ótimas, as propriedades da mediana são razoavelmente boas quando determinada distribuição de população é conhecida.
	Especificando, a mediana tem 64% de eficiência em comparação com a variação mínima da média para amostras normais grandes, o que significa que a variância da mediana é aproximadamente 50% maior que a variância da média. 
	 
4. Falando em termos de medidas de dispersão, qual é a importância do Coeficiente de Variação (CV)?
	 A importância é que o coeficiente de variação é usado para analisar a dispersão em termos relativos a seu valor médio quando duas ou mais séries de valores apresentam unidades de medidas diferentes. Dessa forma, podemos dizer que o coeficiente de variação é uma forma de expressar a variabilidade dos dados excluindo a influência da ordem de grandeza da variável.
	Como o coeficiente de variação analisa a dispersão em termos relativos, ele será dado em %. Quanto menor for o valor do coeficiente de variação, mais homogêneos serão os dados, ou seja, menor será a dispersão em torno da média. De uma forma geral, se o CV:
- for menor ou igual a 15% = baixa dispersão: dados homogêneos 
- for entre 15 e 30%= média dispersão
- for maior que 30%= alta dispersão: dados heterogêneos 
5. Na interpretação do desvio-padrão temos o intervalo (Média ± 1 Desvio-padrão) e o intervalo (Média ± 2 Desvio-padrão). A pergunta é: Vamos usar o intervalo com 1 desvio-padrão ou com 2 desvios-padrão? Justifique sua resposta.
	Vamos usar o intervalo com 1 desvio padrão. Um baixo desvio padrão indica que os pontos dos dados tendem a estar próximos da média ou do valor esperado e um alto desvio padrão indica que os pontos dos dados estão espalhados por uma ampla gama de valores.

Continue navegando