TRABALHO ESTATISTICA

•

UEG

Mariana Cristian

27.04.2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

56.768 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

INTRODUÇÃO A INFERÊNCIA ESTATÍSTICA
Pode dizer-se que as probabilidades e a estatística têm objetivos diferentes: enquanto nas probabilidades se parte de um dado esquema ou modelo para calcular probabilidades de certos resultados ou acontecimentos, na estatística parte-se de dados ou observações e procura saber-se algo sobre o modelo (Tiago de Oliveira (1990) e Murteira (1990)).
E a inferência estatística que tem como objetivo a construção e desenvolvimento de métodos que permitem a extensão do particular para o geral (chamada inferência indutiva), i.e., a partir de um conjunto de dados e possíveis fazer ‘inferências’ ou generalizações acerca de uma população da qual os dados foram extraídos.
A inferência estatística e então um método científico de tirar conclusões sobre os parâmetros da população a partir da recolha, tratamento e análise dos dados de uma amostra, recolhida dessa população.
O conjunto completo de todas as observações possíveis constitui a população, enquanto o conjunto dos valores efetivamente observados constitui a amostra. Chama-se população de amostras ao conjunto de todas as amostras observáveis.
Atenda-se a que parâmetro de uma população e uma constante desconhecida, cujo verdadeiro valor só se conseguiria saber, nalguns casos, após estudos exaustivos e noutros nem sequer e possível saber.
Num problema de inferência estatística ou se admite que a distribuição da população tenha uma forma matemática conhecida, embora contendo um ou mais parâmetros desconhecidos, e o que se chama estatística paramétrica ou se pretende conhecer a forma da distribuição, e o domínio da estatística não paramétrica.
Os dois tipos mais importantes de inferência estatística são:
Estimação dos parâmetros
Testes de hipóteses estatísticas.
A estimação permite-nos “adivinhar”, ou melhor, estimar o verdadeiro valor desconhecido do(s) parâmetro(s) da população, estimação pontual, ou obter um intervalo de valores plausíveis para esse parâmetro, com a indicação da confiança no procedimento, estimação por intervalos.
A outra grande área da inferência estatística, a dos testes de hipóteses, tem como objetivo decidir se o valor do parâmetro pertence ou não a um domínio de valores especificado pelo investigador.
A extensão do particular ao geral que temos estado a referir chama-se inferência indutiva. E o caminho para a aquisição de novos conhecimentos. O grau de incerteza que acompanha as inferências indutivas pode ser medido rigorosamente em termos de probabilidade, se a experiência foi conduzida segundo determinados princípios (probabilísticos ou aleatórios).
Os procedimentos que levam a obtenção de amostras nestas condições são do domínio da teoria da amostragem. Vejamos alguns conceitos básicos, deixando como referencias para um aprofundamento do assunto Murteira (1990), Barnett (1982) e Cochran (1977).
A amostra, que irá ser utilizada para tirar conclusões sobre parâmetros desconhecidos da população, deverá ser representativa dessa população. Para isso deverá obedecer a princípios de aleatoriedade, i.e., a seleção dos indivíduos a incluir na amostra e deixada completamente ao acaso.
INTERVALOS DE CONFIANÇA
Um intervalo de confiança (IC) é um intervalo estimado de um parâmetro de interesse de uma população. Em vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis. O quanto estas estimativas são prováveis será determinado pelo coeficiente de confiança , para .
Intervalos de confiança são usados para indicar a confiabilidade de uma estimativa. Por exemplo, um IC pode ser usado para descrever o quanto os resultados de uma pesquisa são confiáveis. Sendo todas as estimativas iguais, uma pesquisa que resulte num IC pequeno é mais confiável do que uma que resulte num IC maior.
Se e são estatísticas (isto é, funções da amostra) cuja distribuição de probabilidade dependa do parâmetro , e:
Então o intervalo aleatório é um intervalo de confiança com nível para . Portanto, podemos interpretar o intervalo de confiança como um intervalo que contém os valores "plausíveis" que o parâmetro pode assumir. Assim, a amplitude do intervalo está associada à incerteza que temos a respeito do parâmetro.
Considere uma amostra aleatória retirada de uma população com distribuição que depende do parâmetro . Por exemplo, tomamos uma amostra aleatória com distribuição normal com media desconhecida e desvio padrão conhecido . Para propormos um intervalo de confiança para parâmetros , vamos introduzir o conceito de quantidade pivotal. Uma função da amostra e do parâmetro cuja distribuição de probabilidade não depende do parâmetro é denominada quantidade pivotal. Desta forma, dado o nível de confiança temamos:
Se a quantidade pivotal for inversível, podemos resolver a inequação acima em relação a e obter um intervalo de confiança.
Intervalo de Confiança por Média
Variância Conhecida
Consideremos uma amostra aleatória simples obtida de uma população com distribuição normal, com média e variância conhecida. Desta forma, a distribuição amostral da média também é Normal com média e variância , ou seja,
Assim, temos que
isto é, a variável tem distribuição normal padronizada.
Consideremos que a probabilidade da variável tomar valores entre e é . Os valores e são obtidos na tabela da distribuição normal conforme mostra a figura a seguir
Então, temos que

ou seja,
o que implica que
Com isso, o intervalo de confiança da média é dado por
Caso os dados não tenham distribuição normal, podemos aplicar o teorema central do limite e construir um intervalo de confiança aproximado.
Variância Desconhecida
Tendo os conceitos básicos sobre intervalos de confiança, vamos agora tratar uma situação mais realista: quando a variância da população é desconhecida.
Consideremos uma amostra aleatória simples , obtida de uma população com distribuição normal, com média e variância desconhecidas. Como neste caso a variância é desconhecida, utilizaremos a variância amostral no lugar de . Assim, temos que
ou seja, a variável tem distribuição t de Student com graus de liberdade.
Então, ao fixarmos o nível de significância , obtemos da Tabela da distribuição t de Student com graus de liberdade, o valor , que satisfaz
ou graficamente
Analogamente ao caso anterior, obtemos que
Ou seja,
Logo, o intervalo com de confiança para , com variância desconhecida, será dado por
Intervalo de Confiança para Proporção
Consideremos a variável aleatória que representa a presença (ou não) de determinada característica de uma população. Assim temos que tem distribuição de Bernoulli com parâmetro , no qual representa a probabilidade de um determinado elemento da amostra ter a característica de interesse. Retiramos uma amostra aleatória desta população. Cada tem distribuição de Bernoulli com parâmetro , isto é,

com média e variância .
Neste caso, o estimador de máxima verossimilhança para o parâmetro populacional é dado por

Utilizaremos três métodos diferentes para encontrar o intervalo de confiança para a proporção: Aproximação normal, aproximação normal com correção de continuidade e binomial exata.
Aproximação normal
Vejamos como construir intervalos de confiança para a proporção , utilizando a aproximação Normal. Consideremos a proporção amostral. Pelo Teorema Central do Limite temos que, para um tamanho de amostra grande, podemos considerar a proporção amostral como tendo aproximadamente distribuição normal com média p e variância p(1-p)/n. Desse modo segue que
Observemos que a variância de depende do parâmetro desconhecido . No entanto, pelo fato de ser grande, podemos substituir por . Com isso temos que
Considerando o mesmo procedimento de montagem do intervalo para a média, construímos o intervalo com de confiança para a proporção :
Aproximação normal com correção de continuidade
Uma outra maneira de obtermos um intervalo de confiança para proporçãoé através da aproximação normal com correção de continuidade. Considerando o processo anterior, a única diferença é que aqui não consideraremos simplesmente a proporção amostral , mas sim uma correção dela. Assim, para determinar o intervalo de confiança consideramos uma modificação da proporção , dada por:
Assim, o intervalo de confiança para proporção p com correção de continuidade, é dado por
O fator de continuidade é utilizado para melhorar a aproximação de uma variável aleatória discreta pela distribuição normal que é contínua.
Binomial exata
Consideremos uma amostra aleatória de uma população com distribuição de Bernoulli com parâmetro . Vamos ver como obter um intervalo de confiança para a proporção utilizando o método da Binomial Exata (sem utilizar o teorema central do limite).
Seja o nível de confiança. Considere . Seja o número de sucessos (ocorrências do evento de interesse) e considere o valor . Encontre na Tabela da distribuição binomial o valor de correspondente aos valores de e . O valor encontrado no topo da coluna que contém o valor é o limite inferior do intervalo de confiança. Para encontrar o limite superior considere , e entre na mesma tabela com os valores de e até encontrar o valor de . O valor correspondente de no topo da tabela é o limite superior do intervalo de confiança.
Intervalo de Confiança para taxa
Consideremos uma amostra aleatória de uma população com distribuição de Poisson com parâmetro , isto é,
Sabemos que é um estimador de máxima verossimilhança para . Utilizando o teorema central do limite, temos
o que implica que
Analogamente aos casos anteriores, obtemos um intervalo com de confiança para a taxa:

Intervalo de Confiança para Variância
Consideremos uma amostra aleatória de tamanho de uma população com distribuição normal com média e variância . Um estimador para é a variância amostral . Assim, sabemos que a quantidade pivotal
Seja a probabilidade da variável , com graus de liberdade, tomar valores entre e , valores obtidos na tabela da distribuição qui-quadrado tais que .
Observando a equação

vemos que podemos substituir pela expressão acima e então obtemos

Reescrevendo esta desigualdade, obtemos o intervalo de confiança para a variância,

Assim,

Logo, o intervalo com nível de confiança para será dado por

Intervalo de Confiança para Razão entre duas Variância
Vejamos como construir um intervalo de confiança para a razão entre duas variâncias de populações normais independentes. Para isso retiramos uma amostra aleatória da população 1, com distribuição , e uma amostra da população 2, com distribuição . Como

em que é a variância amostral da população 1 e a variância amostral da população 2. Neste caso, a expressão definida por
tem distribuição F de Snedecor com graus de liberdade no numerador e graus de liberdade no denominador e denotamos por .
Consideremos que a probabilidade da variável tomar valores entre e é . Esses valores são obtidos na Tabela da distribuição de Fisher-Snedecor referente ao valor de e aos graus de liberdade do numerador e do denominador, e , respectivamente. Veja a figura a seguir.
Observando a equação

vemos que podemos substituir pela expressão acima e assim temos

Reescrevendo esta equação obtemos:

Assim,

Observe que e .
Logo, o intervalo de confiança com nível para a razão entre duas variâncias será dado por

Intervalo de Confiança para a Diferença de Médias
Variâncias Conhecidas
Consideremos duas amostras aleatórias, de tamanho e de tamanho , ambas com distribuição normal, médias e e variâncias e , respectivamente. Assim,

Daí, temos que,

o que implica que

Consideremos que a probabilidade da variável tomar valores entre e é . Observando a equação

vemos que podemos substituir pela expressão acima e assim obtemos

Reescrevendo esta desigualdade, obtemos o intervalo de confiança para a diferença das médias ,

e podemos afirmar que se pudéssemos construir uma quantidade grande de intervalos , todos baseados em amostras de tamanho e , em torno de deles conteriam o valor verdadeiro da média populacional.
Variâncias Desconhecidas – porém iguais

Consideremos agora duas amostras aleatórias, de tamanho e de tamanho , com apenas uma diferença do caso anterior: as variâncias são desconhecidas, porém iguais, isto é, como
onde é a variância amostral da população e é a variância amostral da população , temos que
Onde
Dai, utilizando a tabela da distribuição t de Student com graus de liberdade, obtemos o valor de de forma que
Reescrevendo esta desigualdade, obtemos o intervalo de confiança para a diferença das médias quando as variâncias são desconhecidas, porém iguais,
Ou seja,

E podemos afirmar que se pudéssemos construir uma grande quantidade de intervalos , todos baseados em amostras de tamanho e , em torno de deles conteriam a verdadeira diferença das médias populacionais.
Variâncias Desconhecidas e Diferentes
Consideremos duas amostras aleatórias, de tamanho e de tamanho , com distribuições normais, mas agora com variâncias desconhecidas e diferentes, isto é, . Como as variâncias populacionais são desconhecidas, usaremos as variâncias amostrais e em seus lugares. Consideremos a variável tal que
ou seja, a variável dada pela equação acima tem distribuição t de Student com graus de liberdade, onde

Fazendo uma construção análoga a do caso anterior, obtemos o intervalo de confiança para a diferença de duas médias com variâncias desconhecidas e desiguais:
CONTROLE ESTATÍSTICO DE PROCESSO - (C.E.P)
O Controle estatístico do processo (CEP) é uma ferramenta que tem por finalidade desenvolver e aplicar métodos estatísticos como parte de nossa estratégia para prevenção de defeitos, melhoria da qualidade de produtos e serviços e redução de custos. A seguir apresentamos alguns conceitos e definições importantes para o melhor entendimento do conteúdo desse módulo.
PROCESSO: é a combinação de máquinas, métodos, material e mão-de-obra envolvidos na produção de um determinado produto ou serviço.
CONTROLE: é o conjunto de decisões que tem por objetivo a satisfação de determinados padrões ou especificações por parte dos produtos focados no cliente.
O C.E.P ESTABELECE:
Informação permanente sobre o comportamento do processo;
Utilização da informação para detectar e caracterizar as causas que geram instabilidade no processo;
Indicação de ações para corrigir e prevenir as causas de instabilidade;
Informações para melhoria contínua do processo.
SISTEMA DE CONTROLE DE PROCESSO: Quatro elementos destes sistemas são importantes para as discussões a seguir.
O Processo
Entendemos como processo a combinação de fornecedores, produtores, pessoas, equipamentos, materiais de entrada, métodos e meio ambiente que trabalham juntos para produzir o resultado (produto), e os clientes correspondem aos elementos que utilizam o resultado (ver Figura 1.1).
Figura 1.1: Sistema de controle do processo.
Informações sobre o Desempenho
Muita informação sobre o real desempenho do processo pode ser aprendida através de estudo do resultado (saída) do processo. A informação mais útil sobre o desempenho de um processo vem, entretanto, da compreensão do processo em si, e de sua variabilidade interna. Características do processo (como temperaturas, tempo de ciclos, taxas de alimentação, taxas de absenteísmo, rotatividade de pessoas, atrasos, ou número de interrupções) deveriam ser o alvo supremo de nossos reforços.
Ações sobre o Processo
Uma ação sobre o processo é geralmente mais econômica quando realizada para prevenir que as características importantes (do processoou do produto) variem muito em relação aos seus valores-alvo. Tal ação pode consistir em:
Mudanças nas operações
Treinamento para os operadores;
Mudanças nos materiais que entram;
Mudanças nos elementos mais básicos do processo
Equipamento;
A comunicação entre as pessoas;
O projeto do processo como um todo - que pode estar vulnerável à mudanças de temperatura ou umidade.
Os efeitos das ações deveriam ser monitorados para que uma análise e ação posterior pudesse ser tomada, se necessária.
Ações sobre o Resultado
Uma ação sobre o resultado é frequentemente menos econômica quando se restringe a detecção e correção do produto fora da especificação, não indicando o fato gerador do problema no processo. Infelizmente, se o resultado atual não atinge consistentemente os requisitos exigidos pelo cliente, pode ser necessário classificar todos os produtos e refugar ou retrabalhar quaisquer itens não-conformes. Esta atitude deve ser mantida até que a ação corretiva necessária sobre o processo tenha sido tomada e verificada, ou até que as especificações do produto tenham sido alteradas. Na sequência, apresentamos as definições básicas do controle estatístico do processo.
DEFINIÇÕES
Variabilidade: É o conjunto de diferenças nas variáveis (diâmetros, pesos, densidades, etc.) ou atributos (cor, defeitos, etc.) presentes universalmente nos produtos e serviços resultantes de qualquer atividade. Podemos classificá-las em comuns ou aleatórias e especiais ou assinaláveis.
Tabela 1.1: Definições de causas comuns e especiais.
Comuns
Especiais
Definição
Efeito acumulativo de causas não controláveis, com pouca influência individualmente.
Falhas ocasionais que ocorrem durante o processo, com grande influência individualmente
Exemplos
Vibrações,temperatura, umidade, falhas na sistemática do processo, dentre outras.
Variações na matéria-prima, erros de operação, imprecisão no ajuste da máquina, desgastes de ferramentas, dentre outras.
Variabilidade do processo: Um processo está sob controle estatístico (estável) quando não existem causas especiais. O fato de um processo estar sob controle estatístico não implica que o mesmo está produzindo dentro de um nível de qualidade aceitável. O nível de qualidade de um processo é estudado via uma técnica denominada análise de capacidade/performance.
O objetivo é desenvolver uma estratégia de controle para o processo que nos permite separar eventos relacionados a causas especiais de eventos relacionados a causas comuns (falhas na sistemática do processo). Desta forma, para um dado processo, um gráfico de controle pode indicar a ocorrência de causas especiais de variação.
Figura 1.2: Processo previsível.
Figura 1.3: Processo não previsível.
AÇÕES LOCAIS E AÇÕES GERENCIAS SOBRE O SISTEMA
Há uma importante relação entre os dois tipos de variação que acabamos de discutir e os tipos de ações necessárias para reduzi-las, sendo:
Causa especial: requer uma ação local.
Causa comum: geralmente requer um ação sobre o sistema ou ação gerencial.
Pode ser errado, por exemplo, tomar uma ação local (ex. ajuste de uma máquina) quando uma ação gerencial sobre o sistema é necessária (ex. seleção de fornecedores que entreguem materiais de entrada compatíveis ao sistema). Entretanto, o trabalho em conjunto entre gerência e aquelas pessoas ligadas diretamente à operação é essencial para uma redução significativa das causas comuns de variação do processo.
O CICLO DE MELHORIA EO CONTROLE DE PROCESSO
Figura 1.4: O ciclo de melhoria e o controle do processo.
TEORIA DA DECISÃO ESTATÍSTICA
Teste de Hipótese
É uma metodologia estatística que permite tomar decisão sobre uma ou mais populações baseando no conhecimento de informações da amostra.
Ao tentarmos a fixação de decisões, é conveniente a formulação de suposições ou de conjeturas acerca das populações de interesse, que, em geral, consistem em considerações sobre parâmetros das mesmas. Essas suposições, que podem ser ou não verdadeiras, são denominadas de Hipóteses Estatísticas, que podem ser:
• HIPÓTESE NULA - É aquela Hipótese Estatística, prefixada, formulada sobre o parâmetro populacional estudado, e é sempre uma afirmativa. É representada por H0.
• HIPÓTESE ALTERNATIVA - São quaisquer hipóteses que difiram da Hipótese Nula. Pode ser representada por H1 ou Há.
Os processos que habilitam a decidir se aceitam ou rejeitam as hipóteses formuladas, ou determinar se a amostra observada difere de modo significativo, dos resultados esperados, são denominados de Testes de Hipóteses ou Testes de Significância.
Tabela 1: Erros possíveis de se cometer no processo de tomada de decisão
Decisões possíveis Estados possíveis
Ho verdadeira Ho falsa
Aceitação de Ho Decisão correta Erro do tipo II
Rejeição de Ho Erro do tipo I Decisão correta
Ao testar uma hipótese estabelecida, a probabilidade máxima com a qual se sujeitaria a correr o risco de um erro do tipo I é denominada de Nível de Significância do Teste e é representada por α.
Estudaremos testes de hipóteses com uma hipótese nula (H0) e uma hipótese alternativa (Ha). A partir da formulação de (H0) e (Ha), podemos definir se teste de hipótese é unilateral ou bilateral.
Consideremos θ o parâmetro estudado e θ0 valor inicialmente suposto para. Podemos formular as seguintes hipóteses:
( H0 : θ = θ0
H1 : θ 6= θ0 Teste Bilateral
( H0 : θ = θ0
H1 : θ > θ0 Teste Unilateral
( H0 : θ = θ0
H1 : θ < θ0 Teste Unilateral
Teste para Médias, Variância Conhecida
Suponha que X é uma variável aleatória com média µ desconhecida e variância σ 2 conhecida. E queremos testar a hipótese de que a média é igual a um certo valor especificado µ0. O teste de hipótese pode ser 1 formulado como segue:
( H0 : µ = µ0
H1 : µ 6= µ0
Para testar a hipótese, toma-se uma amostra aleatória de n observações e se calcula a estatística
zc = x − µ0 σ √ n
Como se trata de um teste bilateral temos duas alternativas para verificar se a hipótese H0 é rejeitada
• se |zc| > z α 2 .
• se 2P h |zc z α 2 i ≤ α
Se a hipótese formulada fosse
( H0 : µ = µ0
H1 : µ > µ0
( H0 : µ = µ0
H1 : µ < µ0
Como se trata de testes unilaterais temos duas alternativas para verificar se a hipótese H0 é rejeitada
• se |zc| > zα.
• se P [|zc| > zα] ≤ α
Exemplo: Uma industria elétrica fabrica lâmpadas afirma que o tempo de vida médio é de 800horas. Tomaram-se o tempo de vida de 40 lâmpadas e obteve-se uma média X = 750 e sabe-se que a variância populacional é σ 2 = 1600cm2 . Pode-se afirmar que a indústria estava correta.
Utilizando um teste unilateral
( H0 : µ = 800
H1 : µ < 800
Calculando o valor de
zc zc = X − µ0 σ √
n = 750 − 800 √ 40 40 = −7, 90
Como não foi especificado o nível de significância, vamos assumir α = 0, 05. Nesse caso, trata-se de um teste unilateral, temos que observar o valor tabelado para zα = z0,05 = 1, 65.
Conclusão: Observando |zc| = 7, 90, temos que como 7, 90 > 1, 65, rejeita-se H0, a um nível de significância de 5%, ou seja, com 95% de probabilidade a empresa estava errada ao afirmar que o tempo de vida médio é de 800horas.
Teste para Médias, Variância Desconhecida
Suponha que X é uma variável aleatória Normal com média µ desconhecida e variância σ 2 desconhecida. E queremos testar a hipótese de que a média é igual a um certo valor especificado µ0. O teste de hipótese pode ser formulado como segue:
( H0 : µ = µ0
H1 : µ 6= µ0
( H0 : µ = µ0
H1 : µ < µ0
( H0 : µ = µ0
H1 : µ > µ0
Para testar a hipótese, toma-se uma amostra aleatória de n ≤ 30 observações com variância desconhecida se calcula a estatística
tc = x − µ0 S √ n
Rejeita-se H0
• teste bilateral:
– se |tc| > t α 2 .
– se 2P h |tc| > t α 2 i ≤ α
• teste unilateral:
– se |tc| > tα.
– se P [|tc| > tα] ≤ α
Para testar a hipótese, toma-se uma amostra aleatória de n > 30 observaçõescom variância desconhecida se calcula a estatística
zc = x − µ0 S √ n
Rejeita-se H0 3
• teste bilateral:
– se |zc| > z α 2 .
– se 2P h |zc| > z α 2 i ≤ α
• teste unilateral:
– se |zc| > zα.
– se P [|zc| > zα] ≤ α
Exemplo: Em uma determinada industria um determinado rolamento esféricos é dito de qualidade se o seu diâmetro médio for igual a 240cm. Para verificar se os diâmetros médios estão atendendo as especificações, foi tomado uma amostra ao acaso de 20 peças, fornecendo um diâmetro médio de 236cm com desvio padrão de 15cm.
Utilizando um teste bilateral
( H0 : µ = 240
H1 : µ 6= 240
Calculando o valor de tc
tc = x − µ0 S √ n = 236 − 240 √ 15 20 = −1, 193
Como não foi especificado o nível de significância, vamos assumir α = 0, 05. Nesse caso, trata-se de um teste unilateral, temos que observar o valor tabelado para t α 2 = t 0,05 2 = t0,025 = 2, 093.
Conclusão: Observando |tc| = 1, 193, temos que como 1, 193 < 2, 093 não existe razão para rejeitar H0, logo os diâmetros médios estão atendendo as especificações.
Exemplo: Uma amostra de 76 peixes pescados numa certa represa produziu um peso médio de 13,36g e desvio-padrão 4,79g. Suspeita-se que a média de peso da população desses peixes nessa região seja 12g. Teste essa hipótese com um nível de significância de 5%.
Utilizando um teste unilateral.
( H0 : µ = 12, 0
H1 : µ > 12, 0
Calculando o valor de
zc = x − µ0 S √
n = 13, 36 − 12, 0 4, 79 √ 76 = 2,475
Nesse caso, trata-se de um teste bilateral, temos que observar o valor tabelado para z α 2 = z 0,05 2 = z0,025 = 1, 960.
Conclusão: Observando |zc| = 2, 475, temos que como 2, 475 > 1, 65 rejeita-se H0 ao nível de 5% de significância. Portanto, a média de peso da população desses peixes é superior a 12g.
Teste de Hipóteses para Proporção
Assim como para a média, existem testes de hipóteses associados a proporções, estes testes são a respeito do parâmetro populacional p. Com os dados coletados de uma amostra de tamanho n, pode-se verificar o numero de sucessos X, e estimar a proporção pˆ.
Para testar as hipóteses sobre proporções pode-se utilizar a distribuição normal , nesse caso se calcula a estatística
zc = r pˆ− p0 p0q0 n
Rejeita-se H
• teste bilateral se |zc| > z α 2 .
• teste unilateral se |zc| > zα.
Para obter os valores de z tabelados, o mais prático é consultar a tabela de t, na última linha, quando os graus de liberdades são suficientemente grandes.
Exemplo: Um centro de pesquisas afirma que 30% das pessoas são usuários de internet sem fio em uma determinada região. Em uma amostra aleatória de 30 pessoas, em 12 dizem ter rede sem fio em casa. Teste a afirmação do centro de pesquisa utilizando a significância α = 0, 05.
Temos que p0 = 0, 30 ⇒ q0 = 1 − p0 = 1 − 0, 30 = 0, 70, número de sucessos X = 12, tamanho da amostra n = 30, assim temos:
ˆZ = X n = 12 30 = 0, 40
Utilizando um teste bilateral
( H0 : p = 0, 30
H1 : p 6= 0, 30
Calculando o valor de
zc = r pˆ− p0 p0q0
n = 0, 40 − 0, 30 r 0, 3 × 0, 7 30 = 1, 20
Nesse caso, trata-se de um teste bilateral, temos que observar o valor tabelado para z α 2 = z 0,05 2 = z0,025 = 1, 960.
Conclusão: Observando |zc| = 1, 20, temos que como 1, 20 < 1, 96 ⇒ |zc| < z α 2 não existe evidências para rejeitar H0 ao nível de 5% de significância, logo a proporção de pessoas que utilizam a internet sem fio em de 30%.
ANÁLISE DA VARIÂNCIA (ANOVA)
A Analise de Variância (ANOVA) e um procedimento utilizado para comparar três ou mais tratamentos. Existem muitas variações da ANOVA devido aos diferentes tipos de experimentos que podem ser realizados. Nesse curso será estudado apenas a análise de variância com um fator. Inicialmente, são apresentados alguns conceitos utilizados em planejamento de experimentos e na análise de variância.
CONCEITO BASICO SOBRE EXPERIMENTAÇÃO
Um tratamento e uma condição imposta ou objeto que se deseja medir ou avaliar em um experimento. Normalmente, em um experimento, e utilizado mais de um tratamento. Como exemplos de tratamentos, podem-se citar: equipamentos de diferentes marcas, diferentes tamanhos de peças, doses de um nutriente em um meio de cultura, quantidade de lubrificante em uma máquina, temperatura de armazenamento de um alimento.
Os tratamentos que podem ser dispostos em uma ordem, como por exemplo, doses de nutrientes, quantidade de lubrificante, níveis de temperatura, são ditos tratamentos quantitativos. Já os tratamentos que não podem ser dispostos numa ordem, são ditos tratamentos qualitativos, por exemplo, variedades de plantas, métodos de preparação de alimento, marcas de equipamentos e outros.
Cada tipo de tratamento também pode ser chamado de um fator. Nesse texto, serão estudados somente experimentos com um fator de interesse. O tipo de tratamento tem importância na forma como os dados serão analisados. Quando os tratamentos são quantitativos, pode-se usar, por exemplo, técnicas de análise de regressão.
Os tratamentos são chamados de variáveis independentes. Quando, em um experimento, estamos interessados em estudar apenas um tipo de variável independente, dizemos que possuímos apenas um fator. Em um experimento, um fator pode ter varias categoriais que são chamadas de níveis.
Exemplo: Um laboratório deseja estudar o efeito da composição de peças de metal sobre a dilatação.
Neste exemplo, a composição das peças e o fator ( variável independente) . Os diferentes tipos de composição são os níveis do fator. A dilatação das peças, medida em milímetros, por exemplo, ´e a variável resposta ( variável dependente) .
Em um experimento, pode existir mais de um fator e mais de uma variável resposta. Toda e qualquer variável que possa interferir na variável resposta ou dependente deve ser mantida constante. Quando isso não e possível, existem técnicas (estratégias) que podem ser utilizadas para reduzir ou eliminar essa interferência.
UNIDADE EXPERIMENTAL OU PARCELA
Unidade experimental ou parcela e onde e feita a aplicação do tratamento. E a unidade experimental que fornece os dados para serem avaliados. Como exemplos de unidades experimentais ou parcelas pode-se citar: um motor, uma peça do motor, uma placa de Petri com meio de cultura, uma porção de algum alimento.
As unidades experimentais podem ser formadas por grupos ou indivíduos. Por exemplo, quando trabalha-se com cobaias, pode-se ter apenas uma cobaia como unidade experimental, ou seja, apenas um animal fornecera´ a resposta do tratamento, ou ainda, pode-se ter um grupo de cobaias em uma gaiola fornecendo as informações. O uso de grupos ou indivíduos como unidades experimentais depende do fenômeno que se está estudando, da forma como o experimento e conduzido e dos recursos disponíveis. De modo geral, a escolha da unidade experimental deve ser feita de forma a minimizar o erro experimental.
REPETIÇÃO
Repetição e o numero de vezes que um tratamento aparece no experimento.
O numero de repetições, em um experimento, vai depender também dos recursos disponíveis, do tipo de experimento ( delineamento) e, também, da variabilidade do experimento ou da variável resposta. Existem várias metodologias para estimar o numero satisfatório de repetições em um experimento. Mas, em função das possíveis limitações acima, a definição do numero de repetições, muitas vezes, torna-se uma tarefa difícil. A experiência do pesquisador sobre o fenômeno em estudo deve ser levada em consideração. Além disso, as metodologias empregadas, para esse cálculo, pressupõem que uma estimativa do erro experimental e conhecida. Nem sempre essa informação está disponível antes da realização de um experimento e, como cada experimento e uma nova história, em função de características intrínsecas de cada fenômeno, esse cálculo pode ser em vão.
VARIAVEL RESPOSTA OU VARIAVEL DEPENDENTE
Uma variável e qualquer característica que apresenta variação, por exemplo, a altura de pessoas, o peso de animais, o comprimento de uma peça, o numero de microrganismos em um litro de leite etc.
Quando o valor de uma variávelnão pode ser determinado antes da realização de um experimento, tem-se então uma variável aleatória.
As variáveis que assumem valores enumeráveis são denominadas variáveis aleatórias discretas. Por exemplo, o numero de sementes germinadas, o numero de microrganismos em um litro de leite.
As variáveis que assumem valores em um intervalo são denominadas variáveis aleatórias contínuas. Por exemplo, o peso de animais, o teor de umidade em um alimento, o conteúdo de óleo em uma semente.
Em um experimento, podem ser medidas muitas variáveis, mas deve-se considerar somente aquelas que possam contribuir para a explicação da hipótese formulada.
E o pesquisador, em geral, quem sabe quais serão as variáveis que serão medidas em um experimento. Ele deve ser alertado, sempre, sobre as condições para a realização de tais medições, no sentido de evitar gastar recursos com variáveis que não fornecerão as informações para se testar a(s) hipótese(s). Quando o volume de dados de um experimento torna-se grande, aumentam os riscos de erros grosseiros, como de registro, de inversão de variáveis etc.
DELINEAMENTO EXPERIMENTAL (DESING)
Com a finalidade de reduzir o erro experimental, existem os chamados delineamentos experimentais. Um delineamento experimental e a forma como os tratamentos ou níveis de um fator são designados as unidades experimentais ou parcelas. A análise de variância ( que será vista mais adiante) ´e baseada no delineamento experimental utilizado.
Por isso, saber como o experimento foi instalado e conduzido, e de fundamental importância. Pequenas modificações podem acarretar em grandes mudanças na forma da analise estatística. Não raro, acontecem situações em que as hipóteses formuladas, a priori, não podem ser testadas, ou ainda, e impossível de se realizar uma análise estatística. Por isso, deve-se dar muita importância ao planejamento experimental.
Um delineamento experimental e planejado de tal forma que a variação ao acaso seja reduzida o máximo possível. Alguns dos principais delineamentos experimentais são: delineamento completamente casualizado (DCC) , delineamento em blocos casualizados (DBC) e quadrado latino.