Buscar

Apostila Estat. Aplic. à  Agron. abril 2016

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 67 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 67 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 67 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE FEDERAL DO PIAUÍ
CENTRO DE CIÊNCIAS AGRÁRIAS
DEPART. DE PLANEJ. E POL. AGRÍCOLA
Disc. ESTAT. APLICADA À AGRONOMIA
PROF.: Dr. ALGACI LOPES
Monitor (2014.2): Est. de Eng. Agr. Rafael Pontes
Revisão: monitoras Ingrid e Ananda (2015.1)
APOSTILA A SER UTILIZADA NA CONDUÇÃO DO CONTEÚDO PROGRAMÁTICO DA DISCIPLINA DE 
ESTATÍSTICA APLICADA À AGRONOMIA 
DO CURSO DE ENGENHARIA AGRONÔMICA DO CCA/UFPI
Professor: José Algaci Lopes da Silva
(DS - FITOTECNIA)
TERESINA - PIAUÍ - BRASIL
MARÇO / 2015
APRESENTAÇÃO
	A presente apostila constitui o material básico utilizado na disciplina Estatística Aplicada à Agronomia do curso de Engenharia Agronômica do CCA/UFPI. 	Em todo o seu desenvolvimento procurou-se apresentar de uma forma didática o conteúdo desta disciplina.
	Os capítulos seguem o Conteúdo Programático disponível aos alunos no início do curso. Inclui ainda um grande número de exercícios resolvidos e propostos ao final de cada capítulo.
	O capítulo I trata da Distribuição de Freqüência, quando apresentamos um pouco da Estatística Descritiva, onde vemos vários tipos de gráficos, tabelas, histogramas, etc. No capítulo II são apresentadas as Medidas de Posição ou de Tendência Central e as Medidas de Dispersão, quando aproveitamos para dar noções de somatório, suas propriedades e aplicações. O capítulo III é o das Probabilidades (conceitos, alguns teoremas, eventos dependentes e independentes) e das Distribuições de Probabilidades (variáveis aleatórias contínuas e discretas). As Distribuições Amostrais são apresentadas no capítulo IV, enquanto que os tópicos referentes aos Testes de Hipóteses (conceitos, formulação de hipóteses, testes unilaterais e bilaterais, testes Z, F e teste “t”) são mostrados no capítulo V. 
Finalmente, no capítulo VI, é apresentada a parte relativa à Correlação Simples de Pearson e Regressão Linear Simples.
	Estes capítulos eram notas de aulas manuscritas que foram digitadas objetivando dar aos estudantes um material que servisse de consulta prévia às aulas do professor, bem como orientá-los com os tópicos discutidos na busca por materiais mais completos contidos na Biblioteca Central.
O autor
conteúdo programático
	Pag.
	1 - CONCEITOS PROBABILÍSTICOS BÁSICOS -------------------------------------
- Introdução ----------------------------------------------------------------------------------
- Estatística descritiva x Estatística inferencial -----------------------------------------
–População e Amostra --------------------------------------------------------------------	
2 – ESTATÍSTICA DESCRITIVA --------------------------------------------------------
2.1 - Representação gráfica -------------------------------------------------------------------
- Tipos de gráficos -------------------------------------------------------------------------
– Distribuição de frequência --------------------------------------------------------------
 - Histograma de frequência ---------------------------------------------------------------
- Polígono de frequência -------------------------------------------------------------------
- MEDIDAS DE POSIÇÃO E DE DISPERSÃO -----------------------------------
– Medidas de Posição: Média aritmética (simples e ponderada), mediana; --------
- Medidas de dispersão: Variância, desvio-padrão, coeficiente de variação. -------
4 – MODELOS CONTÍNUOS DE PROPABILIDADE -------------------------------
- Variável aleatória contínua; ------------------------------------------------------------
 - Propriedades dos modelos contínuos. ------------------------------------------------
5- DISTRIBUIÇÕES AMOSTRAIS ------------------------------------------------------
5.1 – Estimação de parâmetros ---------------------------------------------------------------
5.2 – Estimação por intervalo -----------------------------------------------------------------
– Intervalo de confiança -------------------------------------------------------------------------
 - Distribuição “t” de Student -------------------------------------------------------------------
- Distribuição normal; ------------------------------------------------------------------------------
6 - TESTES DE HIPÓTESES --------------------------------------------------------------
- Teste “Z” para uma média ---------------------------------------------------------------
- Teste “t” para uma média -------------------------------------------------------------
- Teste “t” para duas médias: amostras independentes-------------------------------
- Teste “t” para dados pareados ou emparelhados ------------------------------------
7 - REGRESSÃO E CORRELAÇÃO ----------------------------------------------------
Correlação simples de Pearson ---------------------------------------------------------
Teste de significância do coeficiente de correlação ---------------------------------
Regressão linear simples ----------------------------------------------------------------
Coeficiente de determinação ------------------------------------------------------------
	03
03
04
06
07
07
07
09
11
12
13
13
16
19
19
19
20
20
20
21
25
28
46
46
51
57
59
62
62
63
65
1 – Conceitos probabilísticos básicos 
1.1 Introdução 
Geralmente, as pessoas imaginam que Estatística é uma simples coleção de números, ou tem a ver com gráficos e Censo Demográfico. Pretendemos mostrar que é muito mais do que isso, e o seu uso surge com bastante frequência em nossas vidas. Estatística é um conjunto de técnicas de análise de dados, cientificamente formuladas, aplicáveis a quase todas as áreas do conhecimento que nos auxiliam no processo de tomada de decisão. É a Ciência que estuda os processos de coleta, organização, análise e interpretação de dados relevantes e referentes a uma área particular de investigação.
Alguns exemplos de aplicação de técnicas estatísticas são: pesquisa eleitoral, pesquisa de mercado, controle de qualidade, índices econômicos, desenvolvimento de novos medicamentos, novas técnicas cirúrgicas e de tratamento médico, sementes mais eficientes, previsões meteorológicas, previsões de comportamento do mercado de ações etc., ou seja, tudo que se diz “comprovado cientificamente”, em algum momento, passa por procedimentos estatísticos.
	
Amostragem
Cálculo de
Probabilidades
Estatística
Descritiva
Estatística
Indutiva
Figura 1. Esquema Geral
	Estatística é a parte da matemática aplicada que se ocupa em obter conclusões a partir de dados e que se torna, a cada dia, uma importante ferramenta de apoio à decisão. 
1.2 Estatística descritiva x Estatística inferencial
A Estatística é conhecida, por muitas pessoas, como uma ferramenta meramente descritiva, ou seja, descreve dados por meio de percentagens, gráficos e tabelas. Apesar de a estatística cumprir, também, o papel de resumir as informações, seu potencial de uso é muito mais amplo.
A tomada de decisão se apóia no uso da Estatística Inferencial. A seguir são delineadas as funções destas abordagens:
1.2.1 Estatística Descritiva (Dedutiva)
O objetivo da Estatística Descritiva é resumir as principais características de um conjunto de dados por meio de tabelas, gráficos e resumos numéricos. Descrever os dados pode ser comparado ao ato de tirar uma fotografia da realidade. Caso a câmera fotográfica não seja adequada ou esteja sem foco, o resultado pode sair distorcido. Portanto, a análise estatística deve ser extremamente cuidadosa ao escolher a forma adequada de resumir os dados. Apresentamos na Tabela 1.1 um resumo dos procedimentos da Estatística Descritiva.
Tabela 1.1: Resumo de técnicas de estatística descritiva
	Tabelas de frequência
	Ao dispor de uma lista volumosa de dados, as tabelas de frequência servem para agrupar informações de modo que estas possam ser analisadas. As tabelas podem ser de frequência simples ou de frequência em faixa de valores.
	GráficosO objetivo da representação gráfica é dirigir a atenção do analista para alguns aspectos de um conjunto de dados.
“Um gráfico vale mais que mil palavras”.
Alguns exemplos de gráficos são: diagrama de barras, diagrama em setores, histograma, boxplot, ramo-e-folhas, diagrama de dispersão, gráfico sequencial.
	Resumos numéricos
	Por meio de medidas ou resumos numéricos podemos levantar importantes informações sobre o conjunto de dados tais como: a tendência central, variabilidade, simetria, valores extremos, valores discrepantes, etc.
1.2.2 Estatística inferencial (Indutiva)
Utiliza informações incompletas para tomar decisões e tirar conclusões satisfatórias. O alicerce das técnicas de estatística inferencial está no cálculo de probabilidades. Duas técnicas de estatística inferencial são as mais conhecidas: a estimação e o teste de hipóteses, as quais são descritas na Tabela 1.2.
Tabela 1.2: Resumo de técnicas de estatística inferencial
	Estimação
	A técnica de estimação consiste em utilizar um conjunto de dados incompletos, ao qual iremos chamar de amostra, e nele calcular estimativas de quantidades de interesse. Estas estimativas podem ser pontuais (representadas por um único valor) ou intervalares.
	Teste de Hipóteses
	O fundamento do teste estatístico de hipóteses é levantar suposições acerca de uma quantidade não conhecida e utilizar, também, dados incompletos para criar uma regra de escolha.
1.3 População e amostra
O uso da Estatística Inferencial oferece suporte à tomada de decisão com base em apenas uma parte das informações relevantes no problema estudado. A partir de agora, vamos utilizar os conceitos de população e amostra para representar, respectivamente, o conjunto total e o conjunto parcial destas informações.
	População é um conjunto de elementos com pelo menos uma característica comum, para o qual desejamos que as nossas conclusões sejam válidas – o universo de nosso estudo. Uma parte desses elementos é chamada de amostra.
População: é o conjunto de todas as unidades sobre as quais há o interesse de investigar uma ou mais características. O conceito de população em Estatística é bem mais amplo do que o uso comum desta palavra. A população pode ser formada por pessoas, domicílios, peças de produção, cobaias, ou qualquer outro elemento a ser investigado.
Amostra: é um subconjunto das unidades que constituem a população.
A caracterização da população é feita em função de um problema a ser estudado. Se um vendedor deseja fazer um levantamento dos potenciais clientes para o seu produto, a população será formada por todos os indivíduos com possibilidade de consumir aquele produto. Se este produto for, por exemplo, um iate, a população deve ser constituída apenas por indivíduos com renda suficiente para comprá-lo. Se o objetivo for avaliar a eficácia de tratamento contra um tipo de câncer, somente indivíduos com este problema devem compor a população.
- ESTATÍSTICA DESCRITIVA
2.1 – Representação Gráfica
O principal resultante desta representação é o gráfico, que tem por objetivo representar os resultados obtidos, permitindo chegar-se a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série em estudo. 
2.2 – Tipos de Gráficos:
A escolha do gráfico mais apropriado fica a critério do analista, contudo, devem-se observar os seguintes elementos:
=>> Simplicidade
=>> Clareza e
=>> Veracidade
a) Gráfico em Colunas
Ex.: População brasileira (de 1940 a 1970).
	Ano
	População
	1940
	41.236.315
	1950
	51.944.397
	1960
	70.119.071
	1970
	93.139.037
Fonte: Anuário Estatístico – 1974.
	
b) Gráfico em Barras
Semelhante ao anterior, porém os retângulos são dispostos horizontalmente.
c) Gráfico em Setores ou Tipo Torta
Representação em um círculo, por setores. É usado quando se pretende comparar cada valor de uma série com o total.
Para construí-lo, divide-se o círculo em setores, cujas áreas serão proporcionais aos valores da série. Pode ser obtido por regra de três simples.
Total ---------------------- 360o
Parte ---------------------- Xo
Ex.: Receita bruta de um município qualquer, de 1975 a 1977.
	Ano
	Receita (em R$ 1.000.000,00)
	1975
	110
	1976
	130
	1977
	160
	Total
	400
Fonte: Secretaria Municipal
p/ 1975=>> 400 ------------ 360o
		110 ------------ X =>>> X = 99o
p/ 1976=>> 400 ------------ 360o
		130 ------------ X =>>> X = 117o
p/ 1977=>> 400 ------------ 360o
		160 ------------ X =>>> X = 144o
Assim, transferindo os dados acima para um círculo, tem-se:
2.3 – Distribuição de Frequência
Para análise de grandes conjuntos de dados usa-se a estatística distribuição de frequência, para o agrupamento de dados em classes ou intervalos, de tal forma que se possa determinar o número ou percentagem (frequência) de cada classe. Isto proporciona um conjunto de números individuais, e pode ser útil quando se trata de uma grande quantidade de dados. O número ou % numa classe chama-se frequência de classe.
Os principais estágios na construção de uma tabela de distribuição de frequência para dados agrupados são:
Estabelecer as classes ou intervalos de agrupamentos de dados;
Enquadrar os dados nas classes mediante contagem;
Apresentar os resultados numa tabela ou em um gráfico.
Em geral escolhe-se o número de classes entre 5 e 15. Menos de 5 pode ocultar detalhes importantes dos dados e acima de 15 perde-se a finalidade por tornar a apresentação com muitos detalhes. Se imprescindível um número de classe maior que 15, nunca ultrapassarmos 30. Uma regra geral é tomar a raiz quadrada de n e ajustar o valor para o intervalo acima.
Regra geral: 
Onde NC é o número de classes e aproxima-se para o número inteiro mais próximo. 
Exemplo: vamos analisar a sequência de dados em ordem crescente.
	150
	160
	164
	166
	169
	171
	172
	175
	177
	180
	151
	160
	164
	167
	169
	171
	172
	175
	177
	180
	153
	160
	164
	167
	169
	171
	173
	175
	178
	183
	154
	161
	165
	167
	169
	171
	173
	175
	178
	183
	155
	162
	165
	168
	170
	171
	174
	175
	178
	183
	155
	162
	165
	168
	170
	171
	174
	177
	178
	185
	155
	162
	165
	168
	170
	171
	174
	177
	178
	185
	156
	162
	166
	168
	170
	172
	174
	177
	178
	186
	158
	162
	166
	168
	170
	172
	174
	177
	179
	188
	158
	162
	166
	169
	170
	172
	174
	177
	179
	192
Esses dados amostrais (amostra de tamanho n=100) podem ser melhor apresentados em uma tabela ou gráfico de distribuição de frequência.
Seguindo as etapas anteriormente mencionadas, teremos:
Número de classes (NC) = (raiz quadrada de 100 é 10, porém queremos uma distribuição mais detalhada, por exemplo, 15) = assim, ajustamos para 15.
Limite inferior (LI) = 150
Limite superior (LS) = 192
Intervalo dos dados ou Amplitude total (AT) = LS – LI = 192 – 150 = 42
Amplitude de classe ou intervalo de classe (IC) = ou aproximadamente 3.
Vamos colocar o menor valor como centro da primeira classe. Assim, a primeira classe seria constituída dos dados 150 1,5. Faz-se a contagem das ocorrências dentro das classes. Em geral considera-se inclusive o limite inferior e exclusive o superior.
	Limites ou Intervalos de classes
	Centros de classes
	Frequência absoluta (f)
	Frequência relativa (fr)
	De 148,5
	até 151,5
	150
	2
	0,02
	151,5
	154,5
	153
	2
	0,02
	154,5
	157,5
	156
	4
	0,04
	157,5
	160,5
	159
	5
	0,05
	160,5
	163,5
	162
	7
	0,07
	163,5
	166,5
	165
	11
	0,11
	166,5
	169,5
	168
	13
	0,13
	169,5
	172,5
	171
	18
	0,18
	172,5
	175,5
	174
	13
	0,13
	175,5
	178,5
	177
	13
	0,13
	178,5
	181,5
	180
	4
	0,04
	181,5
	184,5
	183
	3
	0,03
	184,5
	187,5
	186
	3
	0,03
	187,5
	190,5
	189
	1
	0,01
	190,5
	193,5
	192
	1
	0,01
	
	
	Total =>>
	100
	1
Moda = 8ovalor, ou seja, 171 (valor amostral de maior freqüência)
Mediana = (dados ordenados).
3 - MEDIDAS DE POSIÇÃO E DE DISPERSÃO
 
	3.1 – Medidas de Posição ou de Tendência Central
Ao examinarmos dados, por exemplo, referentes a alturas de plantas de milho, podemos observar que são mais numerosos os valores em torno de um valor central; sendo gradativamente mais raros quando nos afastamos para quaisquer dos lados. Isto pode ser observado na tabela de frequência e melhor ainda no histograma.
Assim, surgiu a idéia de se calcular uma medida de posição ou de tendência central, que representasse esse valor central, em torno do qual se acumulam os dados observados.
 As medidas mais usuais são:
Média Aritmética (simples e ponderada);
Médias Geométricas e Harmônicas;
Mediana e Moda.
	3.1.1 – Média Aritmética Simples 
A média aritmética simples é a medida de posição mais utilizada em nosso meio. É a medida comumente requerida nos cálculos da estimativa da média. Quando nos referimos a esta medida chamamos de média aritmética simples ou simplesmente média.
A média de uma população qualquer com N-dados: X1, X2, X3,..., XN (N é o tamanho da população) é o valor dado pela fórmula:
 = = 		 = letra grega mi
Com i = 1, 2, 3, ..., até N e (letra grega sigma) é o símbolo de somatório, ou seja a soma dos valores observados; representa a média populacional.
Se ao invés de uma população estivermos trabalhando com uma amostra de n valores desta, teremos então a média amostral, representada por .
Numa amostra de n dados x1, x2, x3, ..., xn, é igual à soma dos valores da mostra (xi) dividida pelo número de valores amostrados (n), ou seja:
 = 
Ex.: dados os valores referentes às nossas alturas (m) 1,56; 1,58; 1,63; 1,66
 = = m. 
	3.1.2 – Média Aritmética Ponderada 
Ponderar significa pesar ou dar peso. Isto quer dizer que se devem pesar os dados para se obter a média, que será a razão entre o somatório dos produtos de cada valor pelo seu peso respectivo (px) e o somatório dos pesos (p).
Assim, temos:	p = 
Ex.: Considere uma lavoura de milho formada por quatro talhões ou blocos de um hectare cada, com números diferentes de plantas por ha, e em cada um dos quais se efetuou a colheita, cujos resultados foram: área A (com 35000 plantas) = 1,90 toneladas; área B (com 56000 plantas) = 2,40 tons.; área C (com 60000 plantas) = 2,5 tons. e área D (com 67000 plantas) = 2,2 tons. 
A média aritmética ponderada da produtividade da lavoura, em toneladas / ha, teria que levar em consideração o stand final, ou seja, o número de plantas de cada talhão.
Assim, temos:
p = = =
p = = 
p = 2,28 toneladas / ha.
Outro exemplo de média ponderada é o cálculo das notas finais para efeito de aprovação na UFPB, que obedece ao seguinte:
NF = =, onde 6 é o peso da média parcial das provas iniciais e 4 é o peso da prova final; no denominador está a soma dos pesos. Será aprovado, segundo a UFPB, o aluno que obtiver NF maior ou igual a 5.
	3.1.3 – Media Geométrica
G = 
Ex.: dados os valores referentes às nossas alturas (m) 1,56; 1,58; 1,63; 1,66
G = = = 1,61
	3.1.4 – Media Harmônica 
 
H = 
Ex.: dados os valores referentes às nossas alturas (m) 1,56; 1,58; 1,63; 1,66
H = = 1,61
	3.1.5 – Mediana 
A mediana de um conjunto de dados ordenados é o valor que ocupa exatamente o centro da série ou a média simples dos dois valores centrais (em caso de número par de elementos da amostra). Esta medida de tendência central serve para representar e analisar uma série de dados grupados ou não, dividindo a série em duas partes iguais, isto é, forma uma dicotomia de área.
Ex.: Considerando os dados abaixo, encontre a mediana.
Dados: 9, 2, 4, 3, 5, 8, 7, 6 e 1.
Dados ordenados: 1, 2, 3, 4, 5, 6, 7, 8 e 9.
Observe que o valor central ou mediano é o 5, ou seja, uma vez ordenados os valores da série, este é o valor que está seguido e precedido de metade dos dados, quatro valores à esquerda e quatro à direita, ou seja, Me = 5.
No caso do número de dados ser par, então extraímos a média simples dos dois valores centrais.
Ex.: Dados: 9, 2, 4, 3, 5, 8, 7, 6, 1 e 10.
 Dados ordenados: 1, 2, 3, 4, 5, 6, 7, 8, 9 e 10.
Observe que os valores centrais ou medianos são 5 e 6, ou seja, uma vez ordenados os valores da série, estes são os que estão seguido e precedido de metade dos dados, quatro à esquerda e quatro à direita. No entanto é preciso definir um só valor para mediana, e este é encontrado através da média entre os medianos, ou seja,
Me = (5 + 6) / 2 = 5,5 Me = 5,5
3.1.6 – Moda 
A moda de um conjunto de dados é tão somente aquele ou aqueles valores que mais se repetem.
Ex.: Dados: 9, 2, 4, 3, 5, 8, 7, 6, 1 e 10.
Neste exemplo não há moda, chamamos amodal.
Ex.: Dados: 9, 2, 4, 3, 5, 2, 7, 3, 1 e 2.
Neste, existem duas modas: o 2 e o 3.
3.2.	Medidas de Dispersão
Na seção anterior vimos a média, que é considerada mais importante medida de tendência central. Contudo, ela não nos diz como os dados de uma amostra ou população se distribuem em torno dela. Por exemplo:
(1) 10, 10, 10, 10, 10	 = 10;
(2) 8, 10, 12, 9, 11	 = 10;
(3) 10, 3, 9, 17, 11	 = 10;
(4) 17, 15, 7, 3, 8	 = 10;
Vimos que as amostras (1), (2), (3) e (4) têm a mesma média, mas observamos que na amostra (1) todos os valores são iguais a 10, ou seja, igual à média aritmética, logo, todos os valores estão concentrados na média, não existindo dessa forma qualquer diferença entre cada valor e esta, consequentemente não existe variabilidade nos dados. Ao passo que, nas outras amostras existem diferenças em relação à média, sendo a amostra (4) a mais variável ou de maior variância.
Portanto, além da média, necessitamos de uma medida estatística complementar para melhor caracterizar cada amostra apresentada. As mais usuais medidas responsáveis por esta caracterização são:
3.2.1.	Variância (2 = populacional e S2 = amostral)
Define-se variância de um conjunto N ou n observações, como sendo a relação entre a SQDx (soma de quadrados dos desvios de x) e os graus de liberdade da população (variância popul.) ou da amostra (var. amostral).
Assim:
2 = 	ou S2 = ; onde,
 SQDx = (Xi – )2 ou SQDx = (xi – )2; população e amostra, respectivamente.
Trabalhando esta expressão, chega-se à seguinte fórmula de variância:
2 = ou S2 = 
A estatística variância apresenta a desvantagem de modificar (ao elevar ao quadrado) a unidade original dos dados.
3.2.2.	Desvio Padrão ( = populacional e s = amostral)
O desvio padrão, amostral ou populacional, é encontrado extraindo-se a raiz quadrada da variância, ou seja:
 = 	e	s = 
Ao contrário da variância, esta estatística apresenta os valores nas suas unidades originais, uma vez que extrai a raiz quadrada da variância, trazendo para a real unidade..
3.2.3.	Coeficiente de Variação (C.V.):
Expresso em porcentagem (%), tem a finalidade de medir o grau de precisão de um experimento, sendo eficiente ainda na comparação de grupos com unidades diferentes. É encontrado através da seguinte fórmula:
C.V. = , onde s é o desvio padrão e a média geral () do experimento.
Obs: multiplica-se por 100 para obter um resulto em porcentagem (%). 
Segundo PIMENTEL GOMES (2000), o grau de precisão de um experimento pode, na maioria dos casos, obedecer à seguinte tabela:
	Intervalo do C.V.(%)
	Qualidade do Experimento
	0 C.V. 10
	Ótimo
	11 C.V. 20
	Bom
	21 C.V. < 30
	Regular
	C.V. 30
	Ruim
Ex: Um CV de 2,31% possui ótima precisão experimental. 
- Modelos Contínuos de Probabilidade
4.1 - Variável Aleatória Contínua: 
Assume valores num intervalo de números reais. Não é possível listar, individualmente, todos os possíveis valores de uma v.a. contínua. Associamos probabilidades a intervalos de valores da variável.
4.2 - Propriedades dos Modelos Contínuos
Uma v.a. X contínua é caracterizada por sua função densidade de probabilidade f(x) comas propriedades:
(i) A área sob a curva de densidade é 1;
(ii) P(aXb) = área sob a curva da densidade f(x) e acima do eixo x, entre os pontos a e b;
(iii) f(x) 0, para todo x;
(iv) P(X = x0) = 0, para x0 fixo. 
Assim, P(a<X<b) = P(aX<b) 
 = P(a<Xb) = P(aXb).
–DISTRIBUIÇÕES AMOSTRAIS
- Estimação de parâmetros
A estimação de parâmetros pode ser obtida basicamente de duas formas:
 Estimação pontual ou por ponto: obtendo-se um único valor amostral (estimativa) para estimar o parâmetro populacional;
Estimação por intervalo: é construído um intervalo de valores com uma probabilidade pré-fixada de conter o parâmetro populacional.
Na impossibilidade de medir todos os elementos da população, optamos por trabalhar com dados amostrais. 
Com base nas amostrais, almejamos produzir afirmações válidas acerca dos parâmetros da população em estudo – Objetivo da Inferência.
Além disso, outra questão importante é a determinação do tamanho adequado da amostra a ser retirada da população. Veremos que:
 O dimensionamento da amostra é realizado em função da margem de erro, associado ao nível de confiança pré-fixado pelo pesquisador.
–Estimação por intervalo
A estimação pontual falha por não fornecer idéia sobre a margem de erro.
Deve ser levado em conta um erro de estimação ou erro de amostragem, pois, a estimativa obtida dificilmente será igual ao valor do parâmetro. 
Por esta razão, torna-se importante a estimação por intervalo. Este incorpora informações acerca da variabilidade do estimador. 
Neste caso, faremos a estimação de que o parâmetro esteja contido em um intervalo.
O nível de confiança corresponde a (1- α)%, em que α% é o nível de significância. O nível α% é especificado pelo pesquisador, em geral, são utilizados 10, 5 e 1%.
Margem de erro é a diferença máxima provável (com probabilidade de (1- α%) – entre a estimativa obtida e o verdadeiro parâmetro.
Interpretação de intervalo de confiança: 
Suponha um intervalo de confiança de 95% para o parâmetro μ. Notação: IC (μ; 95%). Isto significa que, se construirmos uma quantidade grande de intervalos, em 95% destes estará contido o verdadeiro valor do parâmetro μ, os outros 5% não conterão o parâmetro μ.
5.3 – Intervalo de confiança 
5.3.1 - Intervalo de confiança para uma média populacional (μ)
Intervalo de confiança da média populacional (μ) quando a variância populacional (σ2) é conhecida.
A média amostral X, pelo teorema central do limite, segue distribuição aproximadamente normal com média e variância = .
Logo, temos que:
O intervalo de confiança (1-α)% para μ pode ser obtido a partir dos valores críticos tabelados da distribuição normal padronizada:
Z = - Zé o valor crítico da tabela da distribuição normal padronizada para o qual a P(Z > Z) = α /2 (Tabela 1).
TABELA 1. Valores críticos de Z para os níveis de confiança de 90%, 95% e 99%.
OBS. Na expressão do intervalo de confiança, o valor resultante de corresponde à MARGEM DE ERRO (E). A margem de erro diz respeito à diferença máxima provável (com probabilidade (1- α)%) entre a estimativa pontual, no caso X e o verdadeiro valor do parâmetro (μ).
Exemplo: O peso de bezerros machos Gir ao nascer tem desvio padrão populacional igual a 3 kg. Numa amostra de 40 bezerros, a média foi igual a 25 kg.
Determine os intervalos de confiança para a média populacional (μ) com os níveis de 90%, 95% e 99%.
IC [μ; 90%]
IC [μ; (1- α) %]: []
IC [μ; 90%]: []
IC [μ; 90%]: []
IC [μ; 90%]: [24,22; 25,78]
IC [μ; 95%]
IC [μ; (1- α) %]: []
IC [μ; 95%]: []
IC [μ; 95%]: []
IC [μ; 95%]: [24,07; 25,93]
IC [μ; 99%]
IC [μ; (1- α) %]: []
IC [μ; 99%]: []
IC [μ; 99%]: []
IC [μ; 99%]: [23,78; 26,22]
Interpretação: IC(μ ,95%): [24,07; 25,93]. Este resultado indica que temos uma confiança de 95% de que o verdadeiro peso médio de bezerros machos Gir ao nascerem estejam entre os limites de 24,07 kg e 25,93kg.
Obs. Relação entre nível de confiança e amplitude de intervalo – Mantido o tamanho da amostra, quanto maior o nível de confiança utilizado, maior será a amplitude de intervalo.
Determine o intervalo de confiança de 95% para a média populacional (μ), considerando que o tamanho da amostra aumentou para 100.
IC [μ; 95%]
IC [μ; (1- α) %]: []
IC [μ; 95%]: []
IC [μ; 95%]: []
IC [μ; 95%]: [24,41; 25,59]
Obs. Relação entre tamanho da amostra e amplitude de intervalo – Mantido o nível de confiança, quanto maior o tamanho da amostra utilizado menor será a amplitude de intervalo.
5.3.2- Dimensionamento da amostra para estimação da média populacional (μ) quando a variância populacional (σ2) é conhecida.
O intervalo de confiança (1-α)% para μ é dado por:
IC [μ; (1- α) %]: []
Em que corresponde à margem de erro (E). 
						 
2
Populações INFINITAS
Para o caso de populações finitas de tamanho N, em amostragem sem reposição, a fórmula do tamanho amostral (n) é modificada por um fator de correção para população finita na variância da média amostral:
PARA Populações FINITAS:
Populações FINITAS
Exemplo: Considerando o exemplo do peso de bezerros machos ao nascer cujo desvio padrão populacional foi igual a 3 kg, determine:
i) A quantidade de bezerros para compor uma amostra, para que se estime a média populacional com uma margem de erro (E) de 0,8 kg e um nível de confiança de 95%.
ii) Qual seria este tamanho considerando que a população seja de tamanho 1200.
- Intervalo de confiança da média populacional (μ) quando a variância populacional (σ2) é DESCONHECIDA.
Considerando amostras pequenas (n < 30), 
Retiradas de uma população com distribuição normal, no caso em que a variância populacional (σ2) é desconhecida.
O intervalo de confiança para μ pode ser determinado usando a variância amostral (s2) a partir da distribuição t de Student, desenvolvida por Willian Gosset. Assim, temos que:
5.4 - A distribuição t de Student tem as seguintes propriedades importantes:
A distribuição varia com o tamanho da amostra;
A distribuição é simétrica;
Tem a forma de sino, como a distribuição normal, porém reflete a maior variabilidade (com distribuições mais amplas) que é esperado em pequenas amostras;
A distribuição t de Student tem média 0 e o desvio padrão varia com o tamanho da amostra, sendo superior a 1,0;
À medida que o tamanho da amostra aumenta a distribuição t de Student se aproxima mais e mais da distribuição normal padronizada.
Considerando uma amostra de tamanho n e a partir dos valores críticos tabelados da distribuição t-Student, temos que o intervalo de confiança (1-α)% para μ é dado por:
tα /2 = - t α /2 é o valor crítico bilateral da tabela da distribuição t-student com (n-1) graus de liberdade para o qual a P(t > t α /2) = α /2.
Exemplo: A partir de uma amostra de 10 indivíduos foram mensurados os teores de colesterol. A partir dos dados amostrais dispostos a seguir, determine o intervalo de confiança de 95% para a média populacional (μ).
	255
	290
	254
	170
	150
	280
	386
	308
	237
	147
Determinar a média e variância amostrais: 
Construir o intervalo de confiança:
t5%(10-1) = t5%(9) = 2,262
Interpretação: IC (μ; 95%): [193,58; 301,82]. Este resultado indica que temos uma confiança de 95% de que os limites de 193,58 e 301,82 contêm o verdadeiro teor médio de colesterol.
5.4.1- Dimensionamento da amostra para estimação da média populacional (μ) quando a variância populacional (σ2) é desconhecida.
O intervalo de confiança (1-α)% para μ é dado por:
Em que corresponde à margem de erro (E). INFINITAS
²
Populações INFINITAS
Analogamente, para o caso de populações finitas de tamanho N e amostragem sem reposição, a fórmula do tamanho amostral (n) é alterada para FINITAS: 
Populações FINITAS
 Observa-se que para se determinar o tamanho da amostrapara estimação da média populacional (Fórmulas anteriores), é necessário ter informações acerca da variabilidade da característica em estudo. Na prática, esta estimativa da variância (s2) é normalmente conseguida por meio de uma amostra piloto (amostra pequena).
 Assim, a partir do tamanho da amostra piloto ou de um valor arbitrário (n0), determina-se um valor de n (n1). Repete-se o processo e determina-se novamente o valor de n a partir do valor n1 e, assim por diante, até alcançar a estabilização num valor de tamanho amostral (n), quando ni-1 = ni = n
Exemplo: Considerando o exemplo anterior do teor de colesterol de indivíduos, determine qual deve ser o tamanho mínimo da amostra para que, com 95% de confiança, a média populacional seja estimada com uma margem de erro de 30. Para isso, utilize a informação proveniente da amostra de 10 indivíduos (amostra piloto) na qual a variância amostral (s2) foi de 5.725,12.
N0 = 10; α = 0,05; 
Cães.
Tamanho da amostra será de 33 cães.
N1 = 33; α = 0,05; 
Cães.
Tamanho da amostra será de 26 cães.
N2 = 26; α = 0,05; 
Cães.
Tamanho da amostra será de 27 cães.
N3 = 27; α = 0,05; 
Cães.
Tamanho da amostra será de 27 cães.
– Distribuição Normal 
A distribuição Normal é uma das mais importantes distribuições contínuas de probabilidade, pois:
Muitos fenômenos aleatórios comportam-se de forma próxima a essa distribuição. Exemplos: 
altura;
pressão sangüínea;
peso.
Pode ser utilizada para calcular, de forma aproximada, probabilidades para outras distribuições, como por exemplo, para a distribuição Binomial.
Nem todos os fenômenos se ajustam à distribuição Normal.
Exemplo:
Y: Duração, em horas, de uma lâmpada de certa marca.
A experiência sugere que esta distribuição deve ser assimétrica - grande proporção de valores entre 0 e 500 horas e pequena proporção de valores acima de 1500 horas.
Exemplo: Observamos o peso, em kg, de 1500 pessoas adultas selecionadas ao acaso em uma população. 
O histograma por densidade é o seguinte:
A análise do histograma indica que:
- a distribuição dos valores é aproximadamente simétrica em torno de 70 kg;
- a maioria dos valores (88%) encontra-se no intervalo (55; 85);
- existe uma pequena proporção de valores abaixo de 48 kg (1,2%) e acima de 92 kg (1%).
Vamos definir a variável aleatória
X: peso, em kg, de uma pessoa adulta escolhida ao acaso da população.
Como se distribuem os valores da variável aleatória X, isto é, qual a distribuição de probabilidades de X?
A curva contínua da figura denomina-se curva Normal.
A DISTRIBUIÇÃO NORMAL
A v.a. X tem distribuição Normal com parâmetros e 2 e sua função densidade de probabilidade é dada por:
, onde – < x <.
Pode ser mostrado que:
É o valor esperado (média) de X( -<<);
2 é a variância de X (2> 0).
Notação: X~N(; 2)
Propriedades de X~N(m; s2)
E(X) = (média ou valor esperado);
Var(X) = 2(e, portanto, Desv. Padr. (X) = );
f(x) 0 quando x ;
x = m é ponto de máximo de f (x); 
m - se m + são pontos de inflexão de f (x);
A curva Normal é simétrica em torno da média m.
A distribuição Normal depende dos parâmetros e 2.
Curvas Normais com mesma variância s2, porém apresentam médias diferentes (m2> m1).
Influência de s2 na curva Normal 
Curvas Normais com mesma média m, porém com variâncias diferentes (s22>s12).
Cálculo de probabilidades P(a<X<b)
Área sob a curva e acima do eixo horizontal (x) entre a e b.
Se X~N(; 2), definimos: 
A v.a. Z~N(0;1) denomina-se normal padrão ou reduzida.
Portanto, 
Dada a v.a. Z~N(0;1) podemos obter a v.a. X~N(; 2) através da transformação inversa que:
X = m + Z s.
USO DA TABELA NORMAL PADRÃO
Denotamos: 
A(z) = P(Zz), para z 0.
VER TABELA Z
Exemplo: Seja Z~N (0; 1), calcular:
P(Z 0,32) = A (0, 32) = 0,6255. VER TABELA Z minimizada abaixo.
Encontrando o valor na Tabela N(0;1): 
	z
	0
	1
	2
	0,0
	0,5000
	0,5039
	0,5079
	0,1
	0,5398
	0,5437
	0,5477
	0,2
	0,5792
	0,5831
	0,5870
	0,3
	0,6179
	0,6217
	0,6255
	
	
	
	
b) P(0 <Z 1,71)
P(0 <Z 1,71) 
= P(Z 1,71) – P(Z 0)
= A (1,71) – A (0)
= 0,9564 - 0,5 = 0,4564.
Obs.: P(Z< 0) = P(Z> 0) = 0,5.
c) P(1,32 <Z 1,79)
P(1,32 <Z 1,79) 
= P(Z 1,79) – P(Z 1,32)
 = A(1,79) - A(1,32)
= 0,9633 - 0,9066 = 0,0567.
P(Z 1,5)
 P(Z> 1,5) 
= 1 – P(Z 1,5)
 = 1 – A (1,5)
= 1 – 0,9332 = 0,0668.
f) P(-1,5 Z 1,5)
P(–1,5 Z 1,5) 
= P(Z 1,5) – P(Z –1,5) 
= P(Z 1,5) – P(Z 1,5)
= P(Z 1,5) – [1 – P(Z 1,5)]
= 2 P(Z 1,5) – 1 
= 2 A(1,5) – 1 
= 2 0,9332 – 1 = 0,8664.
g) P(–1,32 <Z< 0)
P (–1,32 <Z< 0) 
= P (0 <Z< 1,32)
= P (Z 1,32) – P(Z 0) 
 =A (1,32) – 0,5 
= 0,9066 – 0,5 = 0,4066. 
h) P(-2,3 <Z -1,49) 
P( -2,3 <Z -1,49)
 = P(1,49 Z< 2,3) = A(2,3) - A(1,49)
= 0,9893 - 0,9319 
= 0,0574.
P(-1 Z 2)
P(–1 Z 2) = P(Z 2) – P(Z –1) 
= A(2) – P(Z 1) 
= A(2) – [1 – P(Z 1)] 
= A(2) – (1 – A(1) ) 
= 0,9773 – ( 1 – 0,8413) 
= 0,9773 – 0,1587 
= 0,8186.
Como encontrar o valor z da distribuição N(0;1) tal que:
(i) P(Zz) = 0,975
z é tal que A(z) = 0,975.
Pela tabela, z = 1,96.
(ii) P(0 <Zz) = 0,4975
z é tal que A(z) = 0,5 + 0,4975 = 0,9975. 
Pela tabela z = 2,81. 
(iii) P(Zz) = 0,3
z é tal que A(z) = 0,7.
Pela tabela, z = 0,53.
(iv) P(Zz) = 0,975
a é tal que A(a) = 0,975 e z = – a. 
Pela tabela a = 1,96. Então, z= – 1,96.
(v) P(Z z) = 0,10
a é tal que A(a) = 0,90 e z = – a.
Pela tabela, a = 1,28 e, assim, 
 z = – 1,28.
(vi) P(– zZz) = 0,80 
z é tal que P(Z< –z) = P(Z>z) = 0,1.
Isto é, P(Z<z) = A(z) = 0,90 e assim, pela tabela, z = ±1,28.
Exemplo: Seja X ~ N(10 ; 64) ( m = 10, s2 = 64 e s = 8 )
Calcular:
 a) P(6 X 12)
= A(0,25) - (1 - A(0,5) )
= 0,5987- ( 1- 0,6915 ) 
= 0,5987- 0,3085 = 0,2902
(b) P( X 8 ou X > 14)
= 1 - A(0,25) + 1 - A(0,5)
= 1 - 0,5987 + 1 - 0,6915 = 0,7098
c) k tal que P( Xk) = 0,05 
K = µ + zσ; Logo k = 10 + 1,64 8 = 23,12.
d) k tal que P( Xk) = 0,025
Logo k = 10 – 1,96 8 = – 5,68.
Observação: Se X~N( ; 2), então
isto é, P( - X + ) = 0,683. 
(ii) P(– 2 X + 2 ) = P(– 2 Z 2 ) = 0,955.
(iii) P(– 3 X +3 ) = P( –3 Z 3 ) = 0,997.
Exemplo: O tempo gasto no exame vestibular de uma universidade tem distribuição Normal, com média 120 min e desvio padrão 15 min. 
a) Sorteando um aluno ao acaso, qual é a probabilidade que ele termine o exame antes de 100 minutos?
X: tempo gasto no exame vestibular X ~ N(120; 152)
=1 – A (1,33)
=1 – 0,9082 
=0,0918 
b) Qual deve ser o tempo de prova de modo a permitir que 95% dos vestibulandos terminem no prazo estipulado?
X: tempo gasto no exame vestibular X ~ N(120; 152)
z = ? tal que A(z) = 0,95.
Pela z = 1,64. 
Então, .
x = 120 +1,64 15
x = 144,6 min.
c) Qual é o intervalo central de tempo, tal que 80% dos estudantes gastam para completar o exame?
X: tempo gasto no exame vestibular X~N(120, 152)
z = ?, tal que A(z) = 0,90.
Pela tabela, z = 1,28.
Então, e 
x1= 120 - 1, 28 15 x1 = 100,8 min.
x2 = 120 +1,28 15 x2 = 139,2 min.
6 - TESTE DE HIPÓTESES
6.1 - TESTE “t” de Student
É adotado sempre que desconhecemos a variância populacional (σ2) e, consequentemente, o desvio padrão populacional (σ).
1 – Teste “t” para uma média amostral, com σ2 desconhecido.
Hipótese:
Ho: μ = x (Se aceita, demonstra que a média informada é x a um α% de significância)
H1: uma das hipóteses a seguir, a depender do objetivo da pesquisa
H1: μ >x (Ao rejeitar Ho, a média informadaé maior que x a um α% de significância)
H1: μ <x (Ao rejeitar Ho, a média informada é menor que x a um α% de significância)
H1: μ ≠ x (Ao rejeitar Ho, a média informada difere de x (p/ > ou <) a um α% de significância)
Regra Decisória:
- Caso o │tc │≥ │tα│, rejeita-se Ho, ou seja, a hipótese de que a média informada é x foi rejeitada. Assim, esta foi maior, menor ou diferente de x (depende da H1 adotada), admitindo-se um erro α% de significância, pelo teste “t”. A partir dos valores das médias (informada e calculada) poderemos decidir e concluir a pesquisa. Uma projeção gráfica na Curva Normal ajudaria na interpretação, uma vez que esta mostra as áreas de Rejeição e de Aceitação de Ho bem definidas (regiões críticas RC), bem como os limites das mesmas, incluindo o ponto crítico (Pc). 
- Caso o │tc │< │tα│, aceita-se Ho, ou seja, a hipótese de que a média informada é x foi aceita. Portanto conclui-se que a média informada foi verdadeira e igual a x, admitindo erro de α% de significância, pelo teste “t”
“t” calculado tc:
Onde:
e s são a média aritmética simples e o desvio padrão amostrais, respectivamente;
μ é a media populacional informada;
E n o tamanho da amostra.
“t” tabelado tα:
tα (n – 1 gl), que lê-se e ne menos um grau de liberdade, o qual será obtido na Tabela “t”.
Exemplo 1: 
O gerente de um grande frigorífico afirma que o rendimento médio de carcaças, de um lote de animais bovinos que abatera no ultimo ciclo de trabalho, é de 53,8%. O dono dos mais de 3500 bois abatidos requereu uma amostra de 27 animais cujos valores (em %) estão abaixo:
	53,5
	51,2
	50,8
	50,7
	50,3
	50,4
	53,9
	54,2
	51,1
	51,2
	51,0
	51,6
	51,6
	51,8
	52,2
	51,9
	50,6
	50,7
	50,7
	50,3
	50,5
	50,2
	50,9
	50,1
	49,9
	49,3
	49,8
Teste Ho para α=1%, o Hoα=5%, α=10%, 
SOLUÇÃO:
Inicialmente devemos formular a hipótese. Como não há indicações de verificação para maior ou menor, então, trata-se de um teste “t” bilateral ou bicaudal, ou seja:
Ho: μ = 53,8% (Aceita, demonstra que a média informada é de 53,8% a um α% de significância)
H1: H1: μ ≠ 53,8% (Ao rejeitar Ho, a média difere de 53,8% (p/ > ou <) a um α% de significância)
Em seguida, decidimos o nível α a ser utilizado, e organizamos os dados necessários para a aplicação do teste. 
Para 5% de significância
Assim, poderemos calcular a estatística do teste tc. 
tc = - 10,87
tα (n – 1 gl) = t1% (27 – 1 gl), t1% (26), obtido na Tabela “t”.
Temos que t0,01 (26) = 2,77 ou t1% (26) = 2,77 
Temos que t0,05 (26) = 2,05 ou t5% (26) = 2,05 
Temos que t0,10 (26) = 1,70 ou t10% (26) = 1,70 
Assim:
Como o │tc │≥ tα ou │-10,87 │≥ │± 2,77│, rejeita-se Ho, ou seja, a hipótese de que a média de rendimento das carcaças informada é 53,8% foi rejeitada. Esta foi diferente de 53,8%, admitindo-se 1%, 5% e 10% de significância, pelo teste “t”. A partir dos valores das médias (informada 53,8% e calculada 51,3%) poderemos decidir e concluir a pesquisa. Considerando que a média amostral encontrada foi de 51,3%, portanto, inferior à informada de 53,8%, concluímos que a média de rendimento de carcaças dos animais abatidos foi inferior, estatisticamente, à informada pelo gerente do frigorífico, com 1% de probabilidade, pelo teste “t” de Student. 
Entende-se que, caso sejam realizadas 100 amostras do rebanho abatido, em pelo menos 99 destas o resultado seria pela rejeição de Ho. Ou seja, podemos afirmar, com 1% de significância pelo teste “t”, que a média de rendimento de carcaças do referido rebanho foi de 51,3%, portanto, menor que a informada.
Uma projeção gráfica na Curva Normal ajudaria na interpretação, uma vez que esta mostraria as áreas de Rejeição e de Aceitação de Ho (RA) bem definidas (regiões críticas RC), bem como os limites das mesmas, incluindo o ponto crítico (Pc). 
 RC1				 RC2	RC1 – área de rejeição para menoro Ho
RA				RC2 – área de rejeição para maior
- t1% + t1%
 RC1				 RC2	RC1 – área de rejeição para menoro Ho
RA				RC2 – área de rejeição para maior
53,254,4
 
 
Interpretamos os pontos críticos como aqueles que formam as regiões de rejeição, para mais e para menos. Assim, se a média amostral se encontrar entre PC1 e PC2 a hipótese Ho seria aceita. Se a média amostral se encontrar nos pontos críticos, ou acima ou abaixo, a hipótese Ho seria rejeitada. No exemplo acima, a média amostral foi de 51,3, ou seja, no gráfico esta se encontraria antes do PC1, pois, é menor que 53,2. 
Portanto, rejeita-se Ho e conclui-se que a média de rendimento de carcaças dos animais abatidos foi inferior, estatisticamente, àquela informada pelo gerente do frigorífico, com 1% de probabilidade, pelo teste “t” de Student.
Ressaltamos que os PC1 e PC2 se alteram conforme o nível de significância, como segue:
Para 5% de significância
 
 
Para 10% de significância
 
 
Exemplo proposto: 
O gerente de um grande frigorífico afirma que o rendimento médio de carcaças, de um lote de animais bovinos que abatera no ultimo ciclo de trabalho, é de 54,5%. O dono dos mais de 3500 bois abatidos requereu uma amostra de 18 animais cujos valores (em %) estão abaixo:
	56,6
	56,9
	57,5
	57,6
	56,2
	56,4
	57,5
	54,6
	56,9
	57,5
	57,4
	57,8
	56,3
	55,5
	55,1
	54,3
	56,6
	56,3
Teste Ho para α=1%, o Hoα=5%, α=10%, e encontre os respectivos PCs.
Teste F de FISCHER (F)
É adotado sempre que queremos comparar duas variâncias. È sempre unilateral à direita, portanto.
Hipótese:
Ho: σ12 = σ22 (Se aceita, demonstra que as variâncias foram homogêneas, a um α%.
H1: σ12> σ22 (Ao rejeitar Ho, as variâncias foram heterogêneas, a um α%.
Regra Decisória:
- Caso o Fc ≥ Fα, rejeita-se Ho, assim, uma variância supera a outra estatisticamente, sendo assim, heterogêneas.
- Caso o Fc< Fα, aceita-se Ho, ou seja, uma variância não supera a outra estatisticamente, sendo assim, homogêneas., admitindo-se um erro α% de significância, pelo teste “F”.
Onde:
Os S2são as variâncias amostrais. 
F tabelado Ftab é obtido em tabela própria, a Tabela F.
Fα (n1; n2), que lê-se ene um e ene dois, sendo que:
n1 será o grau de liberdade da amostra com maior variância (numerador);
n2 será o grau de liberdade da amostra com menor variância (denominador).
Exemplo:
Sejam as variâncias Sa² = 5,34 e Sb² = 53,56, obtidas a partir das amostras de tamanho na = 17 e nb = 16, aplicar o teste F a 5% de significância.
SOLUÇÃO:
Hipótese:
Ho: σ2a = σ2b (Se aceita, demonstra que as variâncias foram homogêneas, a um α%.
H1: σ2b > σ2a (Ao rejeitar Ho, as variâncias foram heterogêneas, a um α%.
Fα (n1; n2) = (nb – 1; na – 1) = (16-1; 17-1)
F5% (15; 16) = 2,35
Como o Fc foi maior que o Fα, rejeita-se Ho, ou seja, as variâncias foram consideradas heterogêneas, uma vez que foi superior a , estatisticamente, a 5% de significância, pelo teste F.
6.2 – Teste “t” para duas médias amostrais, com σ2 desconhecido.
Hipótese:
Ho: μa = μb(Se aceita, demonstra que os tratamentos são iguais entre si a um α%.
H1: uma das hipóteses a seguir, a depender do objetivo da pesquisa
H1: μa>μb(Ao rejeitar Ho, o Tratamento a foi maior que o Trat.b a um α%).
H1: μa<μb(Ao rejeitar Ho, o Tratamento a foi menor que o Trat.b a um α%).
H1:μa ≠ μb(Ao rejeitar Ho, o Tratamento a foi diferente do Trat.b a um α%). Neste caso, as respectivas médias dirão o tratamento superior estatisticamente.
Regra Decisória:
- Caso o │tc │≥ │tα│, rejeita-se Ho, ou seja, a hipótese de que os tratamentos foram estatisticamente iguais foi rejeitada. Assim, um tratamento foi maior, menor ou diferente da outro, admitindo-se um erro α% de significância, pelo teste “t”. A partir dos valores das médias, poderemos decidir e concluir a pesquisa. Aqui também,uma projeção gráfica na Curva Normal ajudaria na interpretação, bem como os limites das mesmas, incluindo o ponto crítico (Pc). 
- Caso o │tc │< │tα│, aceita-se Ho, ou seja, a hipótese de que os tratamentos foram iguais entre si, estatisticamente, foi aceita. Portanto conclui-se que os tratamentos testados atuaram com igual potencial, admitindo erro de α% de significância, pelo teste “t”.
Teste “t” de Student Para Duas Médias com σ2 Desconhecido
Antes de compararmos as médias dos tratamentos em competição, faz-se necessário observarmos como estão os dados de cada amostra n o que diz respeito às suas variâncias ou variabilidades. Caso estas sejam homogêneas, o procedimento será um, definido como CASO 1, caso sejam heterogêneas teremos o CASO 2. A definição de qual procedimento adotar é feita utilizando-se o Teste F a seguir mostrado.
Teste “t” de Student (CASO 1) – quando as variâncias amostrais (S12 S22) são homogêneas.
Segundo o autor do teste, neste caso devemos calcular o que ele chamou de Variância Comum (Sc2), uma espécie de média ponderada das variâncias, dada pela seguinte fórmula:
Porém, se n1 = n2,
Conhecendo-se a variância comum, calculamos o valor de tc da seguinte forma:
ttab = tα (n1 + n2 – 2 gl) = na tabela t própria.
Exemplo prático 1 (CASO 1):
Seja um experimento em que se desejou testar dois tipos de esterco (Esterco de Galinha Eg e de Caprino Ec). Foram utilizadas 13 amostras para Eg e 15 para Ec, as quais apresentaram os seguintes resultados experimentais na cultura da melancia (em t/ha):
	Esterco de Galinha – Eg
	Esterco de Caprino Ec
	
	
	SEg2 = 6,43
	SEc2 = 16,43
	nEg = 13
	nEc = 15
 Compare as médias pelo teste “t” a 5% de significância.
Como fora mencionado, antes teremos que aplicar o Teste F para verificar que procedimento adotar (Caso 1 ou Caso 2), assim:
Teste F de FISCHER (F), para 5% de significância
Hipótese:
Ho: σEc2 = σEg2(Ao aceitar, demonstra que as variâncias foram homogêneas, a um α%).
H1: σEc2> σEg2(Ao rejeitar Ho, as variâncias foram heterogêneas, a um α).
F5% (n1; n2) = (nEc – 1; nEg – 1) = (15-1; 13-1) 
F5% = (14; 12) = 2,62 
Observou-se que o Fc foi menor que o Ftab, ou seja, aceita-se Ho, as variâncias foram homogêneas. Neste caso aplicamos o teste t Caso 1, como segue:
Teste t Caso 1
Antes, porém, devemos calcular a Variância Comum (Sc2):
Sc2 = 9,34
tc = 2,11
tab = t5% (nEg + nEc – 2 gl) = t5% (13 + 15 – 2 gl) 
t5% (26) = 2,06
Observou-se que o tc (2,11) foi maior que o ttab (2,06), rejeita-se Ho, ou seja, houve diferença significativa entre os tratamentos Esterco de Galinha e Esterco de Caprino, a 5% de significância, pelo teste t. Observando-se as médias de produtividade da cultura da melancia, podemos concluir que o Esterco de Galinha foi mais eficiente (= 25,67 t/ha) que o Esterco de Caprino (= 23,18 t/ha), estatisticamente, a 5% de significância, pelo teste t.
Teste “t” de Student (CASO 2) – quando as variâncias amostrais (S12 S22) são heterogêneas.
Segundo o autor do teste, neste caso não podemos calcular o que ele chamou de Variância Comum (Sc2), uma vez que foram consideradas heterogêneas, mas calculamos as estatísticas do teste “t” da seguinte maneira:
e, ttab = tα (n* gl), onde n* é dado pela seguinte fórmula:
número inteiro.
ttab = tα (n* gl) na tabela t própria.
Exemplo prático 2 (CASO 2):
Seja um experimento em que se desejou testar dois tipos de esterco (Esterco de Galinha Eg e de Caprino Ec). Foram utilizadas 13 amostras para Eg e 15 para Ec, as quais apresentaram os seguintes resultados experimentais na cultura da melancia (em t/ha):
	Esterco de Galinha – Eg
	Esterco de Caprino Ec
	
	
	SEg2 = 6,43
	SEc2 = 26,43
	nEg = 13
	nEc = 15
 - Compare as médias pelo teste “t” a 5% de significância.
Como fora mencionado, antes teremos que aplicar o Teste F para verificar que procedimento adotar (Caso 1 ou Caso 2); assim:
Teste F de FISCHER (F), para 5% de significância
Hipótese:
Ho: σEc2 = σEg2(Ao aceitar Ho, demonstra que as variâncias foram homogêneas, a um α%).
H1: σEc2> σEg2(Ao rejeitar Ho, as variâncias foram heterogêneas, a um α%).
F5% (n1; n2) = (nEc – 1; nEg – 1) = (15-1; 13-1) = 
F5% = (14; 12) = 2,62 
Observou-se que o Fc foi maior que o Ftab, ou seja, rejeita-se Ho, as variâncias foram heterogêneas. Neste caso aplicamos o teste t Caso 2, como segue:
Teste t Caso 2
tc = 1,66 e,
tab = tα (n* gl), onde n* é dado pela seguinte fórmula:
Número inteiro
n* ≈ 21
tab = t5% (21 gl) = 2,08
Observou-se que o tc (1,66) foi menor que o ttab (2,08), aceita-se Ho, ou seja, não houve diferença significativa entre os tratamentos Esterco de Galinha e Esterco de Caprino, a 5% de significância, pelo teste t. Neste caso, podemos concluir que o Esterco de Galinha foi tão eficiente (= 25,67 t/ha) quanto o Esterco de Caprino (= 23,18 t/ha), estatisticamente, a 5% de significância, pelo este t. Nas condições desta pesquisa, o produtor teria a possibilidade de escolher ambos os estercos, sem prejuízo na produtividade.
6.3 - Teste “t” para Dados Pareados ou Emparelhados
Existem situações em que precisamos saber se alguma característica é realmente diferente entre dois grupos de indivíduos, como por exemplo a pressão osmótica dos solo, ou se essa diferença ocorre meramente ao acaso, nos informando que não há diferença. 
Para responder a esses tipos de questionamentos precisamos lançar mão do teste t-student, o qual tem a função de testar a hipótese nula de não-diferença entre dois grupos quanto a uma característica (variável) numérica e seus dados tem que ter distribuição normal. Todavia, existe um impasse! Há três tipos de test t: teste t de uma amostra, teste t de amostras independentes e teste t de amostras relacionadas (pareadas). Qual utilizar? 
Utilizamos o teste “t” para dados pareados ou emparelhados sempre que podemos observar uma na experimentação uma situação do tipo “Antes e Depois” ou “Com e Sem”. Ocorre que, nesses casos, uma mesma parcela é amostrada duas vezes, formando pares de dados, por isso dados pareados.
Ho: D = 0 (Se aceita, demonstra que o tratamento não surtiu efeito, a um α%.
H1: uma das hipóteses a seguir, a depender do objetivo da pesquisa
H1: D >0 (Ao rejeitar Ho, demonstra que o tratamento surtiu efeito, para mais, a um α%.)
H1: D <0 (Ao rejeitar Ho, demonstra que o tratamento surtiu efeito, p/ menos, a um α%.)
H1: D ≠ 0 (Ao rejeitar Ho, demonstra que o tratamento surtiu efeito, para mais ou para menos (ver resultado), a um α%.)
Regra Decisória:
- Caso o │tc │≥ │tα│, rejeita-se Ho, ou seja, ...,admitindo-se um erro α% de significância, pelo teste “t”. 
- Caso o │tc │< │tα│, aceita-se Ho, ou seja, ..., admitindo erro de α% de significância, pelo teste “t”
“t” calculado tc:
Onde:
 e sd são a média aritmética simples das diferenças di e o desvio padrão amostral destas, respectivamente; 
E n o tamanho da amostra.
“t” tabelado tα:
tα (n – 1 gl), que lê-se ene menos um grau de liberdade, o qual será obtido na Tabela “t”.
Exemplo 1: 
Um grupo de vacas leiteiras foi submetido a dois modelos de arraçoamento, com e sem um determinado modificador orgânico: dados em litros.
	Vacas
	V1
	V2
	V3
	V4
	V5
	V6
	V7
	V8
	V9
	Com
	19,3
	17,1
	20,6
	11,7
	16,3
	18,2
	10,5
	10,8
	16,0
	Sem
	16,1
	17,4
	19,1
	10,8
	14,7
	20,5
	13,2
	10,1
	15,7
	di
	3,2
	-0,3
	1,5
	0,9
	1,6
	-2,3
	-2,7
	0,7
	0,3
t5%(9 – 1 gl) = t5% (8) = 2,31
Como o tc foi menor que o ttab, aceita-se Ho, ou seja, os modelo de arraçoamento apresentaram o mesmo comportamento, a 5% de significância pelo teste t.
7 - Análise de Correlação e de Regressão Linear Simples
7.1 - Análise de Correlação
7.1.1 - Correlação Linear Simples de Pearson
Na análise de correlação,que veremos aqui, se procura determinar o grau de relacionamento entre duas variáveis aleatórias quantitativas contínuas.
Na análise de regressão é necessário distinguir a variável dependente e a variável independente; na análise de correlação, tal distinção não é necessária.
Três possibilidades de correlação simples serão apresentadas: na primeira figura temos um caso em que há correlação positiva entre as variáveis, na segunda negativa, e na terceira e última figura um caso de ausência de correlação.
Se X e Y estão positivamente correlacionados, isto é, X e Y tendem a variar no mesmo sentido, então a maioria dos pontos (Vi, Zi) estará no 1o e no 3o quadrantes, como ocorre na primeira figura. Uma vez que, para pontos localizados nesses quadrantes, o produto Vi.Zi é positivo, o valor de ViZi será, neste caso, positivo e relativamente alto. É quando dizemos que existe alta correlação.
Se X e Y estão negativamente correlacionados, isto é, tendem a variar em sentidos opostos, então a maioria dos pontos (Vi, Zi) estará no 2o e no 4o quadrantes, como ocorre na Segunda figura. Uma vez que, para pontos localizados nesses quadrantes, o produto Vi.Zi é negativo, o valor ViZi será, neste caso, negativo e de valor absoluto relativamente alto, configurando um outro caso em que existe alta correlação, desta vez negativa.
Se não existe correlação, os pontos (Vi, Zi) estarão distribuídos pelos quatro quadrantes, como ocorre na terceira figura. Então ViZi será igual a zero ou terá valor absoluto pequeno.
Portanto, o valor vizi pode ser utilizado como medida de correlação. Entretanto, em termos absolutos, esse valor tende a crescer com o número de observações.
Sendo: e 
Então, o coeficiente de correlação simples r será definido por:
r = 
-1 r1 ou -100% r100%
É importante assinalar que um coeficiente de correlação igual ou próximo de zero não implica necessariamente em ausência de relação entre as variáveis. Um coeficiente de correlação nulo implica somente ausência de relação linear entre as duas variáveis. Pode haver nesse caso uma relação parabólica entre as mesmas.
Relação parabólica entre X e Y, onde r = 0.
Exemplo prático:
Dados os pares de valores (X, Y) abaixo, encontrar o coefic. De correlação:
	X
	1
	2
	3
	4
	5
	Y
	1
	2
	4
	5
	8
O grau de correlação entre as variáveis X e Y é da ordem de 98,15%. Ressalta-se, entretanto, a necessidade de se testar esse coeficiente aplicando-se o teste “t”.
– Teste “t” para significância de r:
Podemos usar o teste “t” para testar a significância de r. Este caso, só é útil para testar a hipótese nula (Ho: = 0), na qual o coeficiente de correlação da população é zero ( = 0).
O valor da estatística do teste t é calculado pela seguinte expressão:
t = ; com grau de liberdade GL = n – 2 para o valor tabelado.
Assim, a hipótese estatística seria:
Ho: = 0, ou seja, não houve correlação significativa entre as variáveis.
H1: 0, ou seja, houve correlação significativa entre as variáveis.
Testando o r do exemplo anterior, temos:
t = = 8,88
Para t5%(3) = 3,18.
Portanto, tcal>ttab, rejeita-se Ho, o coeficiente de correlação r é significativamente diferente de zero. Assim, dizemos que, quanto maior o valor de X maior o de Y.
– ANÁLISE DE REGRESSÃO
7.3.1 –Introdução
Segundo HOFFMANN & VIEIRA (1987), em uma análise de regressão linear simples, se determina, através de estimativas dos parâmetros, como uma variável X exerce, ou parece exercer, efeito sobre outra variável Y.
O método da análise de regressão pode ser usado quando existe uma relação funcional entre duas variáveis (regressão linear simples) ou entre uma variável (chamada dependente) e duas ou mais variáveis independentes (regressão linear múltipla).
A posição dos pontos experimentais em um diagrama de dispersão pode sugerir a forma da relação funcional entre as variáveis, facilitando a escolha do modelo estatístico a ser usado. Ex:
Pode-se observar, neste caso, que X explica grande parte da variação em Y. A parte da variação de Y não explicada é atribuída ao acaso e constitui a variação residual.
7.3.2. 	Regressão Linear Simples
Diferentemente dos estudos que fizemos até o momento, que envolvia somente uma variável, partiremos agora para o estudo de duas variáveis. Esse estudo poderá ser feito através da regressão e correlação. A regressão consiste na estimação de uma variável dependente a partir de uma variável independente. Por outro lado, a correlação determina o grau de relação entre as variáveis, ou seja, procura determinar quão bem uma equação linear, ou de outra espécie, descreve ou explica a relação entre as variáveis (PAULO VANDERLEI, 1996).
O estudo de regressão exerce papel relevante dentro do campo da Estatística Experimental, devido a sua larga aplicação na interpretação de resultados experimentais, e tem por objetivo determinar a relação existente entre uma característica qualquer de interesse experimental, dependente, e uma outra característica independente, tomadas juntas, ambas quantitativas. A variável independente é escolhida pelo pesquisador. A relação funcional entre as variáveis é dada por uma função matemática (equação de regressão), onde se diz que a variável dependente (Y) é uma função da variável independente (X).
Seja o modelo de regressão linear simples Y = o + 1X + e; admitindo E(e)=0, o problema se resume no cálculo das estimativas dos parâmetros o e 1, estabelecendo assim, a equação de regressão:
Com as estimativas o+ 1 compõe-se a equação de regressão:
7.3.3	Estimação dos parâmetros da equação de regressão:
Sejam n pares de valores (Xi, Yi), i = 1, 2, ... n
	Xi
	X1
	X2
	X3 …
	Xn
	Yi
	Y1
	Y2
	Y3 …
	Yn
Seja Yi = o + 1Xi + ei
Fazendo i = 1, 2, ... n, temos:
Y1 = o + 1X1 + e1
Y2 = o + 1X2 + e
Yn = o + 1Xn + en
Isolando ei:
ei = Yi – (o + 1Xi)	ei = 0, então;
(ei)2 = (Yi-o - 1Xi)2
Aplicando e fazendo Z = (ei)2, temos:
Z = 
Os valores de que minimizam Z são os que satisfazem às seguintes derivadas parciais;
O sistema de equações acima é denominado sistema de equações normais. É um sistema de duas equações e duas incógnitas. A solução deste sistema fornece as estimativas de 0 e 1, obtendo-se assim a equação de regressão.
Seja o sistema de equações normais:
Isolando da equação 1 temos:
 equação.3
Substituindo 3 em 2:
Resumindo:
– Coeficiente de Determinação (r2)
O coeficiente de determinação r2 representa a percentagem da variação em Y (variável dependente) que está sendo explicada pela equação de regressão.
Obs.: No caso de regressão linear simples, o r2 poderá ser calculado através do quadrado do coeficiente de correlação simples de Pearson há.
r2 = (coef. Correl.)2 = (r)2	0 100%
Se r² for igual a 100%, isto significa que todos os pontos observados se situam “exatamente” sobre a reta de regressão. As variações da variável Y são 100% explicadas pelas variações da variável X, não ocorrendo desvios em torno da função estimada.
Exemplo: 
	X doses de calcário (t/ha)
	0
	1
	2
	3
	4
	Y produtividade milho (t/ha)
	0,81
	1,41
	2,91
	3,63
	4,71
	ŷ 
	0,69
	1,69
	2,69
	3,69
	4,69
 
Logo, Produtividade = 0,686 + 1,002 x Calcário. 
	Doses
	Produtividade
	ŷ 
	ŷ
	0
	0,81
	0,686+1,002x0
	0,69
	1
	1,41
	0,686+1,002x1
	1,69
	2
	2,91
	0,686+1,002x2
	2,69
	3
	3,63
	0,686+1,002x3
	3,69
	4
	4,71
	0,686+1,002x4
	4,69
 ou 98,54% da variação em Y está sendo explicada pela eq. de regressão.
Assim, se aumentou a dose de calcário observou-se uma variação significativa na produção de milho (t/ha). 
Produzindo o gráfico:
Z
V
Z
V
z

Continue navegando