Baixe o app para aproveitar ainda mais
Prévia do material em texto
Introdução a Estatística JOELMIR FELICIANO O que é Estatística ? ESTATÍSTICA: conjunto de técnicas que permite, de forma sistemática, coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. ? Algumas Atividades que Envolvem Estatística. • Área Social: O censo populacional. • Área Industrial: Confiabilidade de Sistemas, Controle Estatístico de Qualidade, etc. • Área Agropecuária: Identificação de melhores formas de manejo, etc. • Área Bancária: Concessão de Crédito, Atuária. • Marketing: Pesquisas de Mercado, Inferência, etc. Principais Áreas da Estatística • Estatística Descritiva: Utilizada na etapa inicial da análise, quando tomamos contato com os dados pela primeira vez. É o conjunto de técnicas destinadas a descrever e resumir os dados a fim de que possamos tirar conclusões a respeito da característica de interesse. • Probabilidade: Teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos de caráter aleatório. • Inferência Estatística: Estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores, usualmente de dimensão muito menor. Exemplos de Aplicação • Comparação entre tratamentos ou processos: Produção Produção Tratamento Tipo 1 x11 x12 x1n ... x21 x22 x2n ... Tratamento Tipo 2 Tipo 1 é mais produtivo do que o Tipo 2? Raciocínio Estatístico População Dados Amostragem Estatística Descritiva Inferência Estatística (Probabilidade) Com Suporte Computacional Técnicas de Amostragem JOELMIR FELICIANO Noções Básicas • Definição de População: Ao grande conjunto de elementos que contém determinada característica comum, que temos interesse recebe o nome de população. Ex1: Toda a população brasileira. População 1 População 2 Ex2: Toda a população de sapos brasileiros. Noções Básicas Quando observamos todos os dados, procedemos ao Censo. Exemplo: Examinar todos os brasileiros quanto a condição de nutrição. População = ? Qual é a proporção de brasileiros desnutridos? • Um parâmetro é uma medida numérica que descreve uma característica de uma população. Ex: 20% dos brasileiros estão desnutridos. Noções Básicas Quase não se trabalha com população. • Alto custo da pesquisa/experimento (material, pessoal, logística, etc); • Resultados demorados; • Razões Éticas (experimentos com animais); • Impossibilidade (Linha de produção, sangue, etc). Motivos Principais Noções Básicas: Amostra. População • Estatística: é uma medida numérica que descreve uma característica de uma amostra. Ex: média da altura da pop. Brasileira, proporção de desnutridos, etc. Amostra Definição: subconjunto da população, em geral com dimensão sensivelmente menor. x : Estatística. Noções Básicas: Amostra. Vantagens da Amostragem. •Baixo custo operacional. • Maior rapidez na execução da pesquisa ou estudo. • Maior segurança nos resultados Tipos de Amostragem Amostra casual simples: Existência de um “frame”. Todos os elementos da população devem ter chance igual de escolha. Procedimento baseado no sorteio aleatório.de escolha. Figura 1: Sorteio Aleatório Tipos de Amostragem Amostra Estratificada: Na amostra estratificada os elementos são provenientes de todos os estratos da população. Ex: Pesquisas em um cidade; pesquisas em florestas; etc. Em cada estrato é feito o sorteio aleatório. Tipos de Amostragem Amostra Sistemática: Na amostra sistemática os elementos são escolhidos não por acaso, mas por um sistema. No primeiro período o sorteio é aleatório. Exemplo: Linha de Produção; Pesquisas em formulários; etc. Tipos de Amostragem Amostra por conglomerado: Amostra feita em vários estágios. Maior economia. Ex: Em uma pesquisa feita no pais, primeiro sorteamos os estados, depois as cidades, depois os bairros, os setores censitários, os domicílios e os indivíduos. Tipos de Amostragem: Exercícios 1. Obtém-se uma amostra de um produto extraindo-se cada 100º unidade da linha de produção; 2. Um fabricante de automóveis faz um estudo de mercado compreendendo testes de direção feitos por uma amostra de 10 homens e 10 muheres em cada uma das quatro diferentes faixas etárias; 3. Geram-se números aleatórios em um computador para selecionar números de séries de carros a serem escolhidos para uma amostra teste. A- Identifique o tipo de amostra: 4. Em uma linha de produção são produzidos 1000 comprimidos por hora, sabendo que a linha funciona por 8 horas seguidas por dia e que deve ser extraída uma amostra de 400 comprimidos por dia, qual seria o processo de amostragem mais indicado e como seria a seleção dessa amostra? Análise Exploratória de Dados Estatística Descritiva 1 Organização dos dados em Tabelas? O que é uma variável ? • Variável é uma característica, propriedade ou atributo de uma unidade da população, cujo valor pode variar entre as unidades da população. • Variáveis Qualitativas ou Categóricas: Quando os possíveis valores assumem atributos ou qualidades. Ex: sexo, cor, escolaridade, doença, condição do ar, condição da água, etc. Tipos de Variáveis • Variáveis Quantitativas ou de Medidas: Quando seus valores são expressos em números. Ex: altura, peso, número de filhos, pH, concentração do reagente, etc . Especificando os tipos de variáveis As variáveis qualitativas podem ser classificadas ainda como: • Ordinais: quando o atributo tem uma ordenação natural, indicando intensidade crescente de realização. Ex: grau de escolaridade, classe social, condição do ar, condição da água, estado clínico, etc. • Nominais: quando o atributo não se estabelece ordem. Ex: sexo, cor, raça, doença, etc. Já as variáveis quantitativas podem ser: • Discretas: resultantes de contagens, assumindo assim, em geral valores inteiros. Ex: número de filhos, número de peças defeituosas, nº de pessoas doentes na região, etc. • Contínuas: assumem valores em intervalos de números reais e geralmente, são provenientes de uma mensuração. Ex: peso, altura, pH, concentração do reagente, etc.. Resumo geral: tipo de variável Variável Qualitativa Quantitativa ordinal nominal contínua discreta Exercícios Classifique cada uma das variáveis abaixo em qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua)? a) Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos, além de (“não sei”). b) Perda de peso de maratonistas na Corrida de São Silvestre, em quilos. c) Intensidade da perda de peso de maratonistas na Corrida de São Silvestre (leve, moderada, forte). d) Grau de satisfação da população brasileira com relação ao trabalho de seu presidente (valores de 0 a 5, com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito Apresentação dos dados em tabela Tabela 1.1: Número de Nascimentos segundo o sexo Fonte: E.W. Sexo Freqüência Masculino 10 Feminino 8 Total 18 Para efeito de comparação: Tabela de freqüência relativa Tabela 1.2: Número de Nascimentos segundo sexo. Fonte: E.W. Sexo Freqüência Freqüência relativa(%) Masculino 10 55,56% Feminino 8 44,44% Total 18 100,00% Tabelas de distribuição de freqüência. Quando os dados são quantitativos contínuos, não conseguimos resumir a informação da mesma forma anterior. Neste caso precisamos organizar os dados em uma tabela de distribuição de frequências. Veja os dados abaixo, 2,522 3,200 1,900 4,100 4,600 3,400 2,720 3,720 3,600 2,400 1,720 3,400 3,125 2,800 3,200 2,700 2,750 1,570 2,250 2,900 3,300 2,450 4,200 3,800 3,220 2,950 2,900 3,400 2,100 2,700 3,000 2,480 2,500 2,400 4,450 2,900 3,725 3,8003,600 3,120 2,900 3,700 2,890 2,500 2,500 3,400 2,920 2,120 3,110 3,550 2,300 3,200 2,720 3,150 3,520 3,000 2,950 2,700 2,900 2,400 3,100 4,100 3,000 3,150 2,000 3,450 3,200 3,200 3,750 2,800 2,720 3,120 2,780 3,450 3,150 2,700 2,480 2,120 3,155 3,100 3,200 3,300 3,900 2,450 2,150 3,150 2,500 3,200 2,500 2,700 3,300 2,800 2,900 3,200 2,480 3,250 2,900 3,200 2,800 2,450 Tabela 1.7: Peso ao nascer de nascidos vivos, em quilogramas Fonte: IBGE Exemplo de tabela de distribuição de freqüência. Classe Ponto médio Freqüência 1,5 |--- 2,0 1,750 3 2,0 |--- 2,5 2,250 16 2,5 |--- 3,0 2,750 31 3,0 |--- 3,5 3,250 34 3,5 |--- 4,0 3,750 11 4,0 |--- 4,5 4,250 4 4,5 |--- 5,0 4,75 1 Tabela 1.9: Peso de recém nascidos. Numa tabela de distribuição de frequência também podem ser apresentados os pontos médios de classe. O ponto médio é dado pela soma dos extremos de uma classe, dividida por 2. Para a classe 1,5 |--- 2,0, o ponto médio é: (1,5+2)/2=1,75. Cálculo da amplitude de classes • Ordenar os dados •Intervalo da amostra= Maior valor – menor valor • Número de classes = raiz de n = Tamanho da amostra • Amplitude = Intervalo da amostra Número de classes • Construir os intervalos = limite inferior + amplitude Análise Exploratória de Dados Estatística Descritiva 2 • Representação Gráfica de Dados Gráfico de Setores ou Pizza. Usado para representar variáveis qualitativas, quando os dados apresentam poucas características. Figura1.1: Fonte de Emissão de CO na RMSP-2003. 54% 15% 31% Gasolina Alcool Diesel Gráfico de Barras. Gráfico de barras bastante usado com variáveis qualitativas e quantitativas discretas. Ideal para quando temos várias classes de categorias. Figura 1.2: Distribuição das reclamações via 0800. 13 8 7 25 0 5 10 15 20 25 F re q ü ê n c ia Mau atendimento Troca de mercadoria Mercadoria com defeito Falta de variedade Reclamações Histograma O histograma é a representação gráfica para variáveis quantitativas contínuas. Este tipo de representação mostra a forma da distribuição da variável. É de fundamental importância na aplicação dos conceitos de inferência estatística Figura 1.3: Ponto médio Espalhamento dos dados Diagramas de Dispersão Quando temos dados emparelhados e desejamos verificar se existe uma associação entre esses dados, usamos como análise preliminar o diagrama de dispersão. Figura 1.4: Diagrama de dispersão: Temperatura X Rendimento de PQ. 0 10 20 30 40 50 60 70 80 90 100 0 20 40 60 80 100 120 Temperatura R en d im en to Exercícios 1. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e trem, o número de diferentes meios de transportes utilizados foi o seguinte: 2, 3, 2, 1, 2, 1, 2, 1, 2, 3, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2 e 3. a) Organize estes dados em uma tabela. b) Faça uma representação gráfica. c) Admitindo que esta amostra represente bem o comportamento do usuário paulistano, o que você escreveria sobre a percentagem de usuários que utilizam mais de um transporte. 2. A idade dos 20 ingressantes num certo curso de pós-graduação foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. a) Organize estes dados em uma tabela. b) Faça uma representação gráfica. Análise Exploratória de Dados Estatística Descritiva 3 Medidas de Centralidade. Medidas de Posição. Cálculo de Médias Brutos. Dados 11 21 1 n n i i xxx n x n x Tabelas. ... 1 . 1 2211 1 kni k i i nxnxnx n nx n x Tabelas. .... 2211 1 kni k i i fxfxfxfxx classes. de número =k amostra. da tamanho=n .frequência da elemento ésimo-i = n relativa. frequência da elemento ésimo-i = f contínua. variávelda médio ponto oou amostra da elemento ésimo-i = x :Onde i i i Medidas de Centralidade • Média Aritmética de um conjunto de valores é o valor obtido somando-se todos eles e dividindo-se o total pelo número de valores. Exemplo 1: Os valores em gramas referentes aos pesos de recém nascidos de uma pequena cidade em um dia específico foram: 2500, 2350, 3400, 3280, 2650, 4010 e 2910. Assim o peso médio é calculado como: 28,3014 7 21100 7 2910...23502500 x Tabela 2.0 – Número de Filhos Medidas de Centralidade Número de Filhos Frequência Frequência Relativa Frequência Absoluta Frequência Acumulada Proporção 𝑥𝑖 𝑛𝑖 𝑓𝑖 Fab. Fac. 𝑓𝑖 . 100% 0 2 0,2 2 0,2 20% 1 3 0,3 5 0,5 30% 2 3 0,3 8 0,8 30% 3 2 0,2 10 1,00 20% Total 10 1,00 ----- ----- 100% Medidas de Centralidade Se os dados apresentam observações extremas, a média pode não ser a medida mais indicada para centralidade, pois sobre influência direta de observações extremas. Por exemplo: Em uma pesquisa sobre salário de um Tecnólogo em Química Fármaco Industrial observamos os seguintes valores: $1000,00; $1200,00; $1800,00; $2500,00; $2700,00 ; $3200,00 e $15000,00 A média é: 3914,28. Essa medida é representativa para este conjunto de dados. Solução: O uso da mediana. Mediana (Me) é o valor que divide a amostra ou população em duas partes iguais. Para o exemplo, Me = $2500,00 Medidas de Centralidade 0 2000 4000 6000 8000 10000 12000 14000 16000 1 2 3 4 5 6 7 Dados Média Mediana Figura 2.1 : Salários dos Tecnólogos Medidas de Centralidade Como calcular a mediana? Se o número de observações na amostra ou população for ímpar, então a mediana será o elemento de ordem , ou seja : n 2 1n xMe 2 1n Se o número for de ordem par, então a mediana será a média entre os elementos centrais ou seja: 2 1 22 nn xx Me Exemplos para o cálculo da Mediana: Serie 1: 12, 124, 32, 10, 18, 29 e 100 n= 7; impar Ordenar : 10, 12, 18, 29, 32, 100 e 124. 29)4( 2 1 xxMe n Serie 2: 12, 124, 32, 10, 18 e 29 n= 6; par. Ordenar : 10, 12, 18, 29, 32, 124. 5.23 2 2918 22 )4()3( 1 22 xx xx Me nn Medidas de Posição Moda(mo): É o valor (ou atributo) que ocorre com maior frequência. Ex: 4,5,4,6,5,8,4,4 Mo = 4 Variável qualitativa Moda Medidas Separatrizes As medidas de posição possibilitam um melhor entendimento dos dados, focalizando sua posição relativa em relação ao conjunto como um todo. Mediana: divide os dados ordenados em duas partes iguais. Quartis: Dividem os dados ordenados em 4 partes iguais. Decis: Dividem os dados ordenados em 10 partes iguais. Percentis: Dividem os dados ordenados em 100 partes iguais. Medidas Separatrizes Calculando o percentil (medida geral) Ordenar a série de n observações em ordem crescente de valores, definimos como 0% à posição de ordem 1 e 100% a observação de ordem n. Portanto uma observação com ordem x terá uma posição p. Ordem Posição n 0% 1 x 100% P Medidas Separatrizes • Usando a semelhança de triângulos, vamos ter: 0 1 0100 1 P xn .observação dessa percentil o é : .observação adeterminad uma de ordem a é: série. na sobservaçõe de totalnúmero : P x n %100* 1 1 n x P 1 100 *)1( P nx Medidas Separatrizes: Exemplo1. Série de 27 32 64 65 58 62 59 54 29 30 26 48 47 Dados 46 43 38 29 32 35 37 31 43 45 42 37 36 Calcular o valor da observação para o percentil P = 32%. Série 26 27 29 29 30 31 32 32 35 36 37 37 38 Ordem 1 2 3 4 5 6 7 8 9 10 11 12 13 Série 42 43 43 45 46 47 48 54 58 59 62 64 65 Ordem 14 15 16 17 18 19 20 21 22 23 24 25 26 Primeiro Passo: Ordenar os dados. Medidas Separatrizes: Exemplo. Agora vamos encontrara ordem x correspondente: 91 100 32 *)126(1 100 *)1( P nx Portanto o valor na série de ordem x=9 é 35. Ou seja, o valor que separa a série de dados entre os 32% menores valores é 35. O BOXPLOT representa os dados através de um retângulo construído com os quartis e fornece informação sobre valores extremos. Usado para todas as variáveis. (veja o esquema embaixo) Boxplot d = Intervalo Interquartil = 𝑄3 − 𝑄1 𝑄1 = Primeiro Quartil = 25% do dados à esquerda e 75% à direita. 𝑄2 = Segundo Quartil = Md(X) = 50% dos dados à esquerda e 50% à direita 𝑄3 = Terceiro Quartil = 75% dos dados à esquerda e 25% à direita. Descritiva 4 Medidas de dispersão. Medidas de dispersão Problema: Uma empresa farmacêutica realiza um teste com dois medicamentos para a mesma finalidade em um grupo de 14 pessoas, sendo que 7 tomaram o medicamento A e as outras 7 o B.O tempo de reação foi anotado para cada individuo: Tabela 1: Tempo de reação dos medicamentos. Fonte: J. F. As médias para os dois grupos são iguais. Qual é o melhor medicamento? Média Med.A 15 61 48 16 72 17 16 35 Med.B 35 35 36 34 33 35 37 35 Tempo de Reação Medida de Dispersão Só utilizando a média como medida resumo para um conjunto de dados, não vamos ter uma boa representação. Necessitamos de outras medidas para avaliar o grau de variabilidade, ou dispersão dos valores em torno da média. As medidas de dispersão medem a representatividade da média. Tempo de Reação dos Medicamentos 0 10 20 30 40 50 60 70 80 1 2 3 4 5 6 7 Pacientes Te m po d e R e aç ão Med.A Med.B Média Medidas de Dispersão • Amplitude Total: Diferença entre o maior e menor valor da série de dados. No exemplo temos. 43337 :MedB 571572 :MedA Temos uma ideia da dispersão. Problema: Depende dos valores extremos. Não é avaliada a dispersão dos valores internos. Medidas de Dispersão Os desvios de uma série de dados com relação a média são dados por : .,...,2,1 onde , nixxi Portanto o desvio médio seria uma boa taxa de dispersão entre os dados. No entanto: n i i xx 1 0)( Medidas de Dispersão. Confirmando o resultado. Med.A Med.B ix )( xxi ix )( xxi 15 -20 35 0 61 26 35 0 48 13 36 1 16 -19 34 -1 72 37 33 -2 17 -18 35 0 16 -19 37 2 Soma 0 Soma 0 Tabelas. 1 1 1 1 )( Brutos. Dados 1 1 1 1 )( 22 11 2 1 2 22 1 2 1 2 xxnxxn n xxn n XS xxxx n xx n XS nk k i ii n n i i Medidas de Dispersão Variância Amostral: É dada quando trabalhamos com amostras. classes. de número =k amostra. da tamanho=n .frequência da elemento ésimo-i = n relativa. frequência da elemento ésimo-i = f contínua. variávelda médio ponto oou amostra da elemento ésimo-i = x :Onde i i i Medidas de Dispersão. Calculando a variância amostral para o MedA, temos: 610 6 3660 17 )3516(...)3561()3515( )( 222 2 XS Calcular a variância para o MedB. 666.1 6 10 17 )3537(...)3535()3535( )( 222 2 XS Medidas de Dispersão. O valor da variância é sempre positivo. Algumas conclusões relacionadas com a variância. Quando todos os elementos da série são iguais, a variância é igual a zero. O valor da variância é uma medida em escala diferente dos dados. Medidas de Dispersão. Para resolver o problema da diferença de escala entre variância e os dados, utilizamos o desvio padrão. O desvio padrão é a raiz quadrada da variância. )()( 2 XSXS Med A: S(X) = 24,698. Med B : S(X) = 1,29. Para o exemplo anterior. Variância Populacional classes. de número =k amostra. da tamanho=n .frequência da elemento ésimo-i = n relativa. frequência da elemento ésimo-i = f contínua. variávelda médio ponto oou amostra da elemento ésimo-i = x :Onde i i i Tabelas. )( Tabelas. 1 1 )( Brutos. Dados 11 )( 22 11 2 1 22 11 2 1 22 1 2 1 xxfxxfxxfXVar xxnxxn n xxn n XVar xxxx n xx n XVar nk k i ii nk k i ii n n i i Medidas de Dispersão. Coeficiente de variação: Mede a variabilidade em termos relativos, dividindo o desvio padrão pela média. %100 x S CVa Baixa: menor que 10% Médio: de 10% a 20% Alto: de 20% a 30% Muito Alto: acima de 30% Índices para avaliar a variação dos dados. )()()( XVarXDPX Desvio Padrão Populacional. %100 x CVa Tabela 2.0 – Número de Filhos Medidas de Centralidade Número de Filhos Frequência Frequência Relativa Frequência Absoluta Frequência Acumulada Proporção 𝑥𝑖 𝑛𝑖 𝑓𝑖 Fab. Fac. 𝑓𝑖 . 100% 0 2 0,2 2 0,2 20% 1 3 0,3 5 0,5 30% 2 3 0,3 8 0,8 30% 3 2 0,2 10 1,00 20% Total 10 1,00 ----- ----- 100% Exercícios 1. Responda certo ou errado, justificando. a) Suponha duas amostras colhidas de uma mesma população, sendo uma de tamanho 100 e outra de tamanho 200. Então, não há dúvida de que a amostra de tamanho maior é mais representativa da população, certo? Justifique. b) Duas variáveis diferentes podem apresentar histogramas idênticos? 2. Suponha que duas empresas desejam emprega-lo e após considerar às vantagens de cada uma você escolha aquela que lhe paga melhor. Após certa pesquisa, você consegue a distribuição de salário das empresas dadas segundo os gráficos abaixo. Com base nas informações de cada gráfico, qual seria a sua decisão? 3. Quais medidas de posição são mais adequadas nos seguintes casos? Justifique. • Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto. • O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação. • Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias. • Num voo internacional uma companhia serve dois tipos de pratos: peixe ou frango. Um banco de dados contém os pedidos feitos nos últimos 200 voos. Pretende-se planejar o número de cada tipo à ser colocado a disposição dos passageiros. Exercícios Exercícios 4. Vinte e cinco residências de um bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes: 2, 2, 2, 3, 1, 2, 1, 1, 1, 1, 0, 1, 2, 2, 2, 2, 3, 1, 1, 3, 1, 2, 1, 0 e 2. Organize os dados em uma tabela de frequência e determine as diversas medidas de posição. 5. Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em kg) foram os seguintes: 1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5 e 2,2 a) Utilizando os dados brutos acima, determine média, moda e mediana. b) Organize uma tabela de frequência com faixas de amplitude 0,2 a partir de 1,5. c) Calcule a partir da tabela de frequência e com o ponto médio representando cada faixa, a média, a moda e a mediana. Comente as diferenças em relação ao item a. d) Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente (a) ou (c)? 6. Você está indeciso em comprar uma televisão e decide avaliar algumas informações estatísticas, fornecidas pelo fabricante, sobre a duração(em horas) do tubo de imagem. Justifique. 7. A pulsação de 10 estudantes após exercícios físicos foram as seguintes (em batimentos por minuto): 80, 91, 84, 86, 93, 88, 80, 89, 85 e 86. Determine a média, a moda, a mediana e o desvio padrão. Marcade TV GA FB HW Média 8000 8200 8000 Mediana 8000 9000 7000 Desvio Padrão 600 1500 2500 Exercícios 8. Num estudo sobre consumo de combustível, 200 automóveis do mesmo ano e modelo tiveram seu consumo observado durante 1000 quilômetros. A informação obtida é apresentada na tabela abaixo em Km/litro. Determine o desvio padrão do consumo. 9. Num certo bairro da cidade de São Paulo, as companhias de seguro estabeleceram o seguinte modelo para o número de veículos roubados por semana. Calcule a média e a variância do número de furtos semanais. Exercícios Número de Filhos Frequência 𝑛𝑖 7├ 8 27 8├ 9 29 9├ 10 46 10├ 11 43 11├ 12 55 Furtos 0 1 2 3 4 𝑓𝑖 1/4 1/2 1/8 1/16 1/16 Exercícios 10. Num jogo de dados, um jogador paga R$ 5 para lançar um dado equilibrado e ganha R$ 10 se der face 6, ganha R$ 5 se der face 5 e não ganha nada com as outras faces. Defina a variável lucro por jogada como sendo o saldo do que o jogador ganhou menos o pagamento inicial. Determine média, moda, mediana e variância, desvio padrão dessa variável. 11. Um certo cruzamento tem alto índice de acidentes de trânsito, conforme pode ser constado em uma amostra dos últimos 12 meses: 5, 4, 7, 8, 5, 6, 4, 7, 9, 7, 6 e 8. Determine a média e o desvio padrão do número de acidentes mensais. 12. Estudando uma nova técnica de sutura, foram contados os dias necessários para a completa cicatrização de determinada cirurgia. Os resultados de 25 pacientes foram os seguintes: 6, 8, 9, 7, 8, 6, 6, 7, 8, 9, 10, 7, 8, 10, 9, 9, 9, 7, 6, 5, 7, 7, 8, 10 e 11. Organize os dados em uma tabela de frequência e calcule a média, mediana e a moda. Exercícios 13. Uma amostra de vinte empresas, de porte médio, foi escolhida para um estudo sobre o nível educacional dos funcionários do setor de vendas. Os dados coletados, quanto ao número de empregados com curso superior completo, são apresentados abaixo: a. Organize em uma tabela de frequência e calcule a média, mediana e a moda. b. Determine o desvio padrão. c. As empresas pretendem incentivar o estudo dos seus funcionários oferecendo um adicional de 2 salários mínimos para cada funcionários com curso superior. Qual será a despesa média adicional nessas empresas? Empresas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Média 1 0 0 3 0 1 1 2 2 2 0 2 0 2 0 1 1 2 3 2 14. As notas finais de um curso de Estatística foram as seguintes: 7, 5, 4, 5, 6, 1, 8, 4, 5, 4, 6, 4, 5, 6, 4, 6, 6, 4, 8, 4, 5, 4, 5, 5, 6. a. Determine a mediana e a média. b. Separe o conjunto de dados em dois grupos denominados „‟aprovados‟‟ com nota igual ou maior que 5, e „‟reprovados‟‟. Compare a variabilidade desses dois grupos através de seus coeficientes de variação. 15. Um hospital maternidade está planejando a ampliação dos leitos para recém- nascidos. Para tal, fez um levantamento dos últimos 50 nascimentos obtendo a informação sobre o número de dias que os bebês permanecem no hospital antes de terem alta. Os dados já ordenados foram: 1,1,1,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,5,5,5,5, 5,5,6,7,7,8,15. a. organize os dados em uma tabela de frequências. b. calcule a média, moda, mediana e quartis. c. determine a variância e o desvio padrão. d. você identifica alguma valor excepcional (outlier) entre os dados? Caso sim retire-o da série e refaça os cálculos dos itens a, b e c. Comente as diferenças encontradas Exercícios 16. O departamento de atendimento ao consumidor de uma concessionária de veículos recebe, via telefone, as reclamações dos clientes. O número de chamadas dos últimos 30 dias foram anotadas e os resultados foram: 3, 4, 5, 4, 4, 5, 6, 9, 4,4, 5, 6, 4, 3, 6, 7, 4,5, 4, 5, 7, 8, 8, 5, 7, 5, 4, 5, 7, e 6. a. Construa uma distribuição de frequência, b. Calcule a média e o desvio padrão. c. Admitindo que cada telefonema acarreta serviços sob a garantia avaliados em R$ 50,00 por chamada, calcule a média e o desvio padrão das despesas oriundas do atendimento ao consumidor. 17. Um hospital maternidade está planejando a ampliação dos leitos para recém-nascidos. Para tal, fez um levantamento dos últimos 50 nascimentos obtendo a informação sobre o número de dias que os bebês permanecem no hospital antes de terem alta. Os dados já ordenados foram: 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 7, 7, 8, 15. a. Organize os dados em uma tabela de frequências. b. Calcule a média, moda, mediana e quartis. Depois calcule e o desvio padrão. c. Você identifica alguma valor excepcional (outlier) entre os dados? Caso sim retire-o da série e refaça os cálculos dos itens a, b e c. Comente as diferenças encontradas. Exercícios 18. Foram anotados os níveis de colesterol (em mg/100ml) para uma amostra de trinta pacientes de uma clínica cardíaca. As medidas se referem a homens entre 40 e 65 anos, que foram à clínica fazer um chek-up. Exercícios Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Colesterol 160 160 161 163 167 170 172 172 173 177 178 181 181 182 185 Paciente 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Colesterol 186 194 197 199 203 203 205 206 206 208 209 211 214 218 225 a. Calcule a média, moda, mediana e variância a partir da tabela de dados brutos. b. Organize os dados em uma tabela de frequências com faixa de amplitude (tamanho) 10 a partir de 160. c. Refaça o item (a) através da tabela obtida no item (b). d. Comente as diferenças encontradas entre os valores obtidos no item (a) e (c). 19. O tempo, em horas, necessário para um certo medicamento fazer efeito ´e apresentado abaixo: a) Calcular a média e o desvio padrão para o conjunto de dados. b) Construir uma tabela de frequência para classes com amplitude de 0,5 hora, começando do zero. c) Suponha que o conjunto original de dados foi perdido e só se dispõe da tabela construída em (b). Construir o histograma a partir desta tabela e, utilizando alguma hipótese conveniente (e razoável), estimar a média e a variância. Comentar as possíveis diferenças encontradas 20. Estudando-se o número de acertos em 100 lances-livres de bola ao cesto, uma amostra com 20 jogadores forneceu os seguintes resultados: 68, 73, 61, 66, 96, 79, 65, 86, 84, 79, 65, 78, 78, 62, 80, 67, 75, 88, 75 e 82. Agrupar as observações em intervalos de comprimento 5 a partir de 60 e, usando alguma suposição adicional, estimar a média e a variância do número de acertos em 100 arremessos. Exercícios 0,21 2,71 2,12 2,81 3,30 0,15 0,54 3,12 0,80 1,76 1,14 0,16 0,31 0,91 0,18 0,04 1,16 2,16 1,48 0,63 Exercícios 21. O sindicato dos Engenheiros do Estado de São Paulo está estudando o impacto do estágio na obtenção de bons empregos. Dentre os engenheiros recém formados e com empregos considerados bons, foi sorteada uma amostra e observado o número de anos de estágio anteriores à formatura, o resultado da pesquisa foi Anos de Estágio Frequência 0 25 1 58 2 147 3 105 4 72 5 45 6 10 Total 462 a) Calcule a média e a variância. b) Para efeito de análise, decidiu-se desprezar os valores que se distanciassem de dois desvios-padrões, isto é, só serão considerados os valores no intervalo 𝑥 ± 2𝑠. Recalcule os resultados http://livred.info/agncia-de-empregos.html http://livred.info/agncia-de-empregos.html http://livred.info/agncia-de-empregos.html http://livred.info/agncia-de-empregos.html http://livred.info/agncia-de-empregos.html http://livred.info/agncia-de-empregos.html http://livred.info/agncia-de-empregos.html http://livred.info/danton-bastos.html http://livred.info/danton-bastos.html http://livred.info/danton-bastos.html http://livred.info/danton-bastos.html http://livred.info/danton-bastos.html http://livred.info/atividades-reviso-sobre-mdia-mediana-e-moda-questo-1.htmlhttp://livred.info/atividades-reviso-sobre-mdia-mediana-e-moda-questo-1.html http://livred.info/atividades-reviso-sobre-mdia-mediana-e-moda-questo-1.html http://livred.info/atividades-reviso-sobre-mdia-mediana-e-moda-questo-1.html http://livred.info/atividades-reviso-sobre-mdia-mediana-e-moda-questo-1.html http://livred.info/atividades-reviso-sobre-mdia-mediana-e-moda-questo-1.html http://livred.info/atividades-reviso-sobre-mdia-mediana-e-moda-questo-1.html http://livred.info/atividades-reviso-sobre-mdia-mediana-e-moda-questo-1.html http://livred.info/atividades-reviso-sobre-mdia-mediana-e-moda-questo-1.html Exercícios 22. Quer se estudar o número de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas, encontrando-se o número de erros por página da tabela abaixo. a. Qual o número médio de erros por página? (R: 0.66) b. E o número mediano? (R:0,5) c. Qual é o desvio padrão? (R: 0.8393) d. Se o livro tem 500 páginas, qual o número total de erros esperados no livro? (R: 330) Erros Frequência 0 25 1 20 2 3 3 1 4 1 Total 50 Exercícios 23. As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em porcentagens) 2,59; 2,64; 2,60; 2,62; 2,57; 2,55: 2,61; 2,50; 2,63; 2,64. Calcule a média, a mediana e o desvio padrão. 24. Para facilitar um projeto de ampliação da rede de esgoto de uma certa região de uma cidade, as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirões que compõem a região e foram encontrados os seguintes números de casas por quarteirão: a. Use cinco intervalos e construa um histograma. b. Calcule a média e o desvio padrão. 2 2 3 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25 25 26 27 29 29 30 32 36 42 44 45 45 46 48 52 58 59 61 61 61 65 66 66 68 75 78 80 89 90 92 97 Exercícios 25. Numa pesquisa realizada com 100 famílias, levantaram-se as seguintes informações: Número de Filhos 0 1 2 3 4 5 Mais que 5 Famílias 17 20 28 19 7 4 5 a) Qual a mediana do número de filhos? b) E a moda? c) Que problemas enfrentaríamos no cálculo da média de filhos? 26. O que acontece com a mediana, média e desvio padrão de uma série de dados quando: a. Cada observação é multiplicada por 2? b. Soma-se 10 a cada observação? c. Subtrai-se a média geral x de cada observação? d. De cada observação subtrai-se x e divide-se pelo desvio padrão dp(x)? http://www.portalaction.com.br/estatistica-basica/21-medidas-de-posicao http://www.portalaction.com.br/estatistica-basica/21-medidas-de-posicao http://www.portalaction.com.br/estatistica-basica/21-medidas-de-posicao Exercícios 27. Os dados abaixo representam as vendas semanais, em classe de salários mínimos, de vendas de gêneros alimentícios: a) Faça um histograma , calcule a média e o desvio padrão da amostra. b) Qual a porcentagem das observações compreendidas entre 𝑥 ± 2𝑠. c) Calcule a mediana. Vendas Semanais Número de Vendedores 30 ⊢ 35 2 35 ⊢ 40 10 40 ⊢ 45 18 45 ⊢ 50 50 50 ⊢ 55 70 55 ⊢ 60 30 60 ⊢ 65 18 65 ⊢ 70 2 Total 200 Exercícios 28. - O número de divórcios na cidade X, de acordo com a duração do casamento está representado na tabela abaixo. a. Qual a duração média dos casamentos? E a mediana? b. Encontre a variância e o desvio padrão dos casamentos. c. Construa o histograma da distribuição. d. Encontre o intervalo interquartil. Duração do Casamento Números de Divórcios 0 ⊢ 6 2800 6 ⊢ 12 1400 12 ⊢ 18 600 18 ⊢ 24 150 24 ⊢ 30 50 Total 5000 29. O Departamento Pessoal de uma certa firma fez um levantamento dos salários dos 120 funcionários do setor administrativo, obtendo os resultados (em salários mínimos) a. Esboce o histograma correspondente. b. Calcule a média, a variância e o desvio padrão. c. Calcule a mediana. d. Se for concedido um aumento de 100% para todos os 120 funcionários, haverá alteração na média? E na variância? Justifique sua resposta. e. Se for concedido um abono de dois salários mínimos para todos os 120 funcionários, haverá alteração na média? Exercícios Faixa salarial Frequência relativa 0 ⊢ 2 0,25 2 ⊢ 4 0,40 4 ⊢ 6 0,20 6 ⊢ 10 0,15 Total 1,00 30. Na companhia A, a média dos salários é 10.000 unidades e o 3º quartil é 5.000. a. Se você se apresentasse como candidato a essa firma e se o seu salário fosse escolhido ao acaso entre os possíveis salários, o que seria mais provável: ganhar mais ou menos que 5.000 unidades? Justifique. b. Suponha que na companhia B a média dos salários é 7.000 unidades e a variância é praticamente zero, e l á o seu salário também seria escolhido ao acaso. Em qual companhia você se apresentaria para procurar emprego? Justifique. Exercícios 31. Estamos interessados em estudar a idade dos 12.325 funcionários da Cia. Distribuidora de Leite Teco, e isso será feito por meio de uma amostra. Para determinar que tamanho deverá ter essa amostra, foi colhida uma amostra piloto. As idades observadas foram: 42, 35, 27, 21, 5, 18, 27, 30, 21 e 24. a. Determine as medidas descritivas dos dados que você conhece. b. Qual dessas medidas você acredita que será a mais importante para julgar o tamanho final da amostra? Porque? Introdução à Teoria das Probabilidades JOELMIR FELICIANO Conceitos Básicos Experimento Aleatório ou Fenômeno Aleatório Situações ou acontecimentos cujos resultados não podem ser previstos com certeza. Exemplos: • Condições climáticas do próximo domingo; • Taxa de inflação do próximo mês; • Resultado ao lançar um dado ou moeda; • Tempo de duração de uma lâmpada. Espaço Amostral ( ou S) Conjunto de todos os possíveis resultado de um experimento aleatório ou fenômeno aleatório. Exemplos: 1. Lançamento de um dado. ={1,2,3,4,5,6} 2. Tipo sanguíneo de um individuo. ={A, B, AB,0} 3. Opinião de um eleitor sobre um projeto. ={Favorável,Contrário} 4. Tempo de duração de uma lâmpada ={t; t>0) Evento subconjunto do espaço amostral Notação: A, B, C,... Exemplos: No exemplo 1, alguns eventos: A: sair face par: A={2,4,6} B: Sair face maior que 3 B={4,5,6} C: sair face 1 C={1} D: sair face 7 D={ } (evento impossível)= (conjunto vazio) Operação com eventos Sejam os eventos A e B definidos no mesmo espaço amostral •AB: União dos eventos A e B. Representa a ocorrência de pelo menos um dos eventos A ou B •AB: Intersecção dos eventos A e B. Representa a ocorrência simultânea dos eventos A e B. • A e B são disjuntos ou mutuamente exclusivos quando não têm elementos em comum, isto é, AB= • A e B são complementares se sua intersecção é vazia e sua união o espaço amostral, isto é. AB= e AB= . • O complementar de um evento A é representado por AouAC • A C = {2, 4, 6} {1} = {1, 2, 4, 6} • A C = {2, 4, 6} {1} = • A B: = {2, 4, 6} {4, 5, 6} = {4, 6} • A B = {2, 4, 6} {4, 5, 6} = {2, 4, 5, 6} = {1, 2, 3, 4, 5, 6} Eventos: A = {2, 4, 6}, B = {4, 5, 6} e C = {1} Exemplo: Lançamento de um dado • AC = {1, 3, 5} 1. Descrever o espaço amostral (S) a cada um dos experimentos a seguir: (1) Lançam-se dois dados honestos e observam-se os números nas faces voltadas para cima; (2) Cada uma das três pecas usinadas é classificada como acima da especificação (a) e abaixo da especificação (b) padrão para a peça; (3) Chamadas são repetidamente feitas em uma linha telefônica ocupada ate que uma conexão seja alcançada. 2. Descrever o espaço amostral (S) e eventos associados a cada um dos experimentos a seguir: E1: Lançar uma moeda três vezes, sucessivamente, e anotar a sequência de caras (c) e coroas (k). A1: Sair pelo menos duas caras. E2: Numa linha de produção conta-se o numero de pecas defeituosas numperíodo de 1 hora. A2: Obter menos de 3 defeituosas. E3: Mede-se a duração de lâmpadas, deixando-as acesas ate queimarem. A3: O tempo de vida da lâmpada e inferior a 30 horas. E4: Um fabricante produz um determinado artigo. Da linha de produção são retirados 3 artigos e cada um é classificado como bom (b) ou defeituoso (d). A4: Pelo menos dois artigos são bons. Exercícios 3. Quatro estudantes de Engenharia Civil da UFMS são selecionados aleatoriamente em uma aula de Probabilidade e Estatística. Liste os elementos do espaço amostral S1 usando a letra m para representar estudantes do sexo masculino e f para feminino. Defina um segundo espaço amostral S2, onde os elementos representam o numero de estudantes do sexo feminino selecionados. 4. Sejam A, B e C três eventos quaisquer. Estabeleça uma expressão para os eventos abaixo: (a) A e B ocorrem; (b) A ou B ocorrem; (c) B ocorre, mas A não ocorre; (d) A não ocorre; (e) não ocorre A e não ocorre B; (f) A e B ocorrem, mas C não corre; (g) somente A ocorre, mas B e C não ocorrem. Exercícios 5. Três componentes estão conectados para formar um sistema conforme exibido na figura a seguir. Como os componentes no subsistema 2-3 estão conectados em paralelo, esse subsistema funcionara se ao menos um dos dois componentes individuais funcionar. Para que todo o sistema funcione, o componente 1 deve funcionar, bem como o sistema 2-3. Figura 1: Sistema dos componentes. O experimento consiste em determinar a condição de cada componente (sucesso [S] para um componente que funciona bem e falha [F] para o componente que não funciona). (a) Que resultados estão contidos no evento A para que exatamente dois dos três componentes funcionem? (b) Que resultados estão contidos no evento B para que ao menos dois componentes funcionem? Exercícios Probabilidade Pergunta: Como atribuir probabilidade aos elementos do espaço amostral? Definições de probabilidades Definição Clássica ou a priori Se um experimento aleatório tiver n() resultados mutuamente exclusivos e igualmente prováveis e se um evento A tiver n(A) desses resultados. A probabilidade do evento A representado por P(A), é dado por: )( )( )( n An AP Exemplo: Considere o lançamento de 2 dados balanceados. Calcular a probabilidade de: a) Obter soma 7; b) Obter soma maior que 10; c) Que o resultado do primeiro dado seja superior ao resultado do segundo. 6,65,64,6 6,55,54,5 6,45,44,4 3,62,61,6 3,52,51,5 3,42,41,4 6,35,34,3 6,25,24,2 6,15,14,1 3,32,31,3 3,22,21,2 3,12,11,1 a) A={(1,6),(5,2),(4,3),(3,4),(2,5),(6,1)} P(A)=n(A)/n()=6/36=1/6 b) B={(5,6),(6,5),(6,6)} => P(B) = 3/36 = 1/12. c) P(C)= 15/36. Suponhamos que realizamos um experimento n vezes (n grande) e destas o evento A ocorre exatamente r<n vezes, então a frequência relativa de vezes que ocorreu o evento A, “r/n”, é a estimação da probabilidade que ocorra o evento A, ou seja, n r AP )( Essa estimação da probabilidade por frequência relativa de um evento A, é próxima da verdadeira probabilidade do evento A, quando n tende ao infinito. Definição frequentista ou a posteriori Exemplo: Considere o lançamento de uma moeda. Calcular a probabilidade de A={ resultado obtido é cara}. fr1 fr2 fr3 fr4 frA Cara 2/5 6/10 22/50 47/100 0,5 Coroa 3/5 4/10 28/50 53/100 0,5 n 5 10 50 100 Definição axiomática A probabilidade de um evento A define-se com o número P(A), tal que satisfaz os seguintes axiomas: Propriedades )( )()()()()()()( ,,,.5 )()()()(,,.4 )()(,.3 )(1)(ou )(1)(,.2 0)(.1 CBAP CAPCBPBAPCPBPAPCBAP entãoCBASe BAPBPAPBAPentãoBASe BPAPentãoBASe APAPAPAPentãoASe P cc Regra da adição de probabilidades n i i n AP AASeiii Pii AAPi 1 n 1i i 1 )(AP então ,exclusivos mutuamente eventos são ,,)( 1)()( ,1)(0)( Exemplo 1. Na tabela 1, apresenta-se a composição por raça e sexo de uma população de um país. Tabela 1: Distribuição da população por raça e sexo. Raça Sexo Total Masculino Feminino Branca 1726384 2110253 3836637 Outra 628309 753125 1381434 Total 2354693 2863378 5218071 Suponha que selecionamos um habitante desse país e consideremos os eventos: H: "o habitante selecionado é do sexo masculino" H c :"o habitante selecionado é do sexo feminino" B: "o habitante selecionado é da raça branca" B c : "o habitante selecionado é de outra raça" H B : "o habitante selecionado é de sexo masculino e da raça branca" H B : "o habitante selecionado é de sexo masculino ou da raça branca" H c B : "o habitante selecionado é de sexo feminino e da raça branca" H c B : "o habitante selecionado é de sexo feminino ou da raça branca" H c Bc :"o habitante selecionado é de sexo feminino e de outra raça " H c Bc "o habitante selecionado é de sexo feminino ou de outra raça" As probabilidades de cada um destes eventos são: .6693,01443,02648,05488,0 )()()()( 1443,0 5218071 753125 )( .8796,04044,07352,05488,0 )()()()( ;4044,0 5218071 2110253 )( ;8556,03308,07352,04512,0 )()()()( 3308,0 5218071 1726384 )( 2648,07352,01)(1)( 7352,0 5218071 3836637 )( ;5488,0451,01)(1)( ;4512,0 5218071 2354693 )( cccccc cc ccc c c c BHPBPHPBHP BHP BHPBPHPBHP BHP BHPBPHPBHP BHP BPBP BP HPHP HP Exercícios 3. Sejam A e B acontecimentos tais que P(A)+P(B) = x e P(A∩B) = y. Determine em função de x e de y a probabilidade de: (a) Não se realizar nenhum dos dois acontecimentos. (b) Que se realize um e só um dos dois acontecimentos. (c) Que se realize pelo menos um dos dois acontecimentos. (d) Que se realize no máximo um único acontecimento. . B) P(ABAP BPBAP BAPBAP BAPBAPBAP BAPBPAP cc cc cccc 3,0 :Resposta ).( Calcule .5,0)( e 4,0)/( que Suponha .5 0,25. e 0,375 0,875; 0,25; 0,75;:Respostas ).( e )( ),( ),( ),( Calcule . 8 1)( e 8 3)( , 2 1)( Dados .4 Exercícios 6. Uma associação de industrias transformadoras de resinas plásticas e composta de 20 empresas que produzem sacos plásticos (S), 10 que produzem garrafas (G), 8 que produzem utensílios domésticos (U) e 2 que se encarregam de brinquedos (B). Ao escolhermos uma empresa ao acaso, achar a probabilidade de que: (a) seja uma indústria que produza sacos plásticos ou utensílios domésticos; (b) seja uma indústria produtora de sacos plásticos ou brinquedos; (c) não seja uma indústria que produza garrafas. Respostas: (a) 28/40; (b) 22/40; (c) 30/40. 7. Uma sala de aula de Engenharia consiste em 25 estudantes de Engenharia de Produção, 10 de Computação, 10 de Elétrica e 8 de Engenharia Civil. Se uma pessoa e selecionada aleatoriamente pelo professor para responder a uma pergunta, determine a probabilidade de que o estudante escolhido seja: (a)um estudante de Engenharia de Produção; (b)um estudante de Engenharia Civil ou Elétrica. Respostas: (a) 25/53; (b) 18/53. Exercícios Probabilidade Condicional e Independência Definição:[Probabilidade condicional] Sejam A e B dois eventos em um mesmo espaço amostral, , a probabilidade condicional de A dado que ocorreu o evento B, é representado por P(A|B) é dado por: Exemplo 2. Selecionamos uma semente, ao acaso, uma a uma e sem reposição de uma sacola que contem 10 sementes de flores vermelhas e 5 de flores brancas. Qual é a probabilidade de que : (a) a primeira semente seja vermelha. ? (b) a segunda seja branca se a primeira foi vermelha.? (1) .0)(, )( )( )|( BP BP BAP BAP branca" é semente 2 :"V ; vermelha"é semente 2A " : branca" é semente 1A :"V ; vermelha"é semente 1A" : ac 2 a 2 ac a 1 1 A V V Sejam os eventos: (a) 3 2 15 10 )( 1 VP (b) 14 5 )|( 12 VVP c Essas probabilidades podem ser representados em um diagrama da árvore de probabilidades, a qual é mostrado na figura 1 Probabilidade Condicional e Independência Figura 1: Diagrama de árvore de probabilidade Da expressão (1), pode-se deduzir uma relação bastante útil, ),|()()( BAPBPBAP Que é conhecida como regra do produto de probabilidades ou probabilidade da interseção • 1 • Total • V1 c V2 c V1 c V2 • V1V2 c • V1V2 • Probabilidade • Resultados 2 1 2 1 4 4 1 5 5 Probabilidade Condicional e Independência Exemplo 3: No exemplo 2, suponha que temos interesse em determinar a probabilidade que as duas sementes selecionadas sejam brancas. 21 2 14 4 15 5 )|()()P( brancas" são semente2 e 1 a " : é evento O 12121 aa 21 ccccc cc VVPVPVV VV Teorema 1: Se B é um evento em , tal que P(B)>0, então: ).|()|()|()|( :,,,.3 )|P(A1)|()|(1)|P(A:então ,BA, Se .2 0)|(.1 cc BCAPBCPBAPBCAP entãoCBASe BBAPouBAPB BP Probabilidade Condicional e Independência Exemplo 3: Na Cidade de São Paulo, a probabilidade de chuva no primeiro dia de setembro é 0,50 e a probabilidade de chuva nos dois primeiros dias de setembro é 0,40. Se no primeiro de setembro choveu, qual é a probabilidade que no dia seguinte não chova ? Solução: Sejam os eventos: A:” chove no primeiro de setembro”, B:”chove no segundo dia de setembro”. Do enunciado do problema temos : P(A)=0,50 e P(AB)=0,40. A probabilidade pedida é: 20,0 50,0 40,0 1 )( )( 1)|(1)|( * AP BAP ABPABP c * Pelo teorema 1.2. Probabilidade Condicional e Independência Definição[Independência de eventos] Dois eventos A e B são independentes se a informação da ocorrência ou não de B não altera a probabilidade da ocorrência de A. Isto é, P(A|B)=P(A), P(B)>0 Consequentemente, temos que dois eventos A e B são independentes se somente se, P(AB)=P(A)P(B). Exemplo 4: Em uma escola 20% dos alunos tem problemas visuais, 8% problemas auditivos e 4% tem problemas visuais e auditivos. Selecionamos um aluno desta escola ao acaso: (a) os eventos de ter problemas visuais e auditivos são eventos independentes? (b) se aluno selecionado tem problemas visuais, qual é a probabilidade de que tenha problemas auditivos? (c)qual é a probabilidade de não ter problemas visuais ou ter problemas auditivos ? Probabilidade Condicional e Independência V:” o aluno tem problemas visuais” A:” o aluno tem problemas auditivos”. Do enunciado temos: P(V)=0,20, P(A)=0,08 e P(AV)=0,04. 84,0 08,0 04,0 108,008,02,01 )( )( 1)()()(1 )|(1)()()(1)|()()()(1 )()()()()( .20,0 20,0 04,0 )( )( )|()( .),()()( Como .04,0)( 016,008,02,0)()()( AP AVP APAPVP AVPAPAPVPAVPAPAPVP AVPAPVPAVPc VP AVP VAPb tesindependensãonãoVeAAPVPAVP AVP APVPa c ccc Solução: sejam os eventos: Probabilidade Condicional e Independência Teorema 2: Se A , B eventos em são eventos independentes, então: tesindependen são (iii) tesindependen são )( tes.independen são )( cc c c BeA BeAii BeAi Exemplo 5: Um atirador acerta 80% de seus disparos e outro (na mesmas condições de tiro), 70%. Qual é a probabilidade de acertar se ambos atiradores disparam simultaneamente no alvo.? Considere que o alvo foi acertado quando pelo menos, uma das duas balas tenha feito impacto no alvo. Probabilidade Condicional e Independência .94,0]7,01][8,01[1)P(B1)P(B11 )()(1)(1)( :forma segunda uma de resolvidoser pode exemplo, este amenteAlternativ 94,07,08,07,08,0 )(B)P(B)P(B)P(B )()P(B)P(B)( ,.7,0)( 8,0)P(B 1,2.i ,alvo" o acerta atirador o:"B :eventos os Sejam 21 212121 2121 212121 2 1 cccc i BPBPBBPBBP P BBPBBP LogoBP ei Probabilidade Condicional e Independência Teorema de Bayes Definição [Partição do espaço amostral]. Uma coleção de eventos kBB ,,1 formam uma partição do espaço amostral se eles não têm intersecção entre si e sua união é igual ao espaço amostral. k 1i e ji para iji BBB Teorema da probabilidade total. Se kBB ,,1 , formam uma partição do espaço amostral , então qualquer evento A em , satifaz: k i iikk BAPBPBAPBPBAPBPAP 1 11 )|()()|()()|()()( Teorema Bayes. Se kBB ,,1 , formam uma partição do espaço amostral , e A é qualquer evento em , então: k i ii ii i BAPBP BAPBP ABP 1 )|()( )|()( )|( Exemplo 6: Uma montadora trabalha com 2 fornecedores (A e B) de uma determinada peça. As chances de que uma peça proveniente dos fornecedores A e B esteja fora das especificações são 10% e 5% respectivamente. A montadora recebe 30% das peças do fornecedor A e 70% de B. Se uma peça do estoque inteiro é escolhido ao acaso: (a) Calcule a probabilidade de que ela esteja fora das especificações. (b) Se uma peça escolhida ao acaso está fora das especificações, qual é a probabilidade que venha do fornecedor A ? Teorema de Bayes Solução: Sejam os eventos: A: “ peça selecionada seja do fornecedor A” B:” peça selecionada seja do fornecedor B” E:” peça selecionada esteja fora das especificações” Do enunciado do problemas temos: (A)=0,30; P(B)=0,70; P(E|A)=0,10 e P(E|B)=0,05. Teorema de Bayes (a) P(E)=P(A)P(E|A)+P(B)P(E|B)=(0,30)(0,10)+(0,70)(0,05)=0,065 (b) P(A|E)=? Pelo teorema de Bayes temos: 0,46 065,0 03,0 05,070,010,030,0 10,030,0 )|()()|()( )|()( )|( BEPBPAEPAP AEPAP EAP A solução do exemplo anterior é facilitada pelo diagrama de árvore de probabilidades. Pelo teorema da probabilidade total temos: Teorema de Bayes 1. Um aluno vai se formar em Engenharia Civil no final do semestre. Depois de ser entrevistado por duas empresas de construção civil, ele avalia que a probabilidade de conseguir uma oferta da empresa A e de 0.8 e da empresa B e de 0.6. Se, por outro lado, ele crê que a probabilidade de conseguir uma oferta das duas empresas e de 0.5, qual e a probabilidade de que ele consiga uma oferta de pelo menos uma das empresas? Resposta: 0.9. 2. Certo tipo de motor elétrico falha se ocorrer uma das seguintes situações: emperramento dos mancais, queima dos enrolamentos, desgaste das escovas. Suponha que o emperramento seja duas vezes mais provável do que a queima, esta sendo quatro vezes mais provável do que o desgaste das escovas. Qual será a probabilidade de que a falta seja devida a cada uma dessas circunstâncias? Respostas: 8/13, 4/13 e 1/13. Exercícios 3. Certo motor de um Peneirador elétrico tem duas lâmpadas que podem estar acesas ou apagadas, tendo sido observadas as seguintes probabilidades apresentada no quadro adiante. O quadro mostra por exemplo, que ambas as lâmpadas estavam simultaneamente apagadas 30% do tempo. Pergunta-se: (a) O fato da lâmpada 1 acesa e independente da lâmpada 2 acesa? Justifique sua resposta. (b) O fato da lâmpada 2 apagada e independente da lâmpada 2 acesa? Justifique sua resposta. Respostas: (a)Sim; (b)Não. Exercícios Lâmpada 1 Lâmpada 2 Acesa Apagada Acesa 0,15 0,45 Apagada 0,10 0,30 4. Amostras de emissões de três fornecedores são classificados com relação a satisfazer as especificações de qualidade do ar. Os resultados de 100 amostras são resumidos a seguir: Seja A o evento em que uma amostra seja proveniente do fornecedor I e B o evento em que uma amostra atenda as especificações. Se uma amostra aleatória for selecionada ao acaso, determine as seguintes probabilidades: Exercícios Fornecedor Conforme Sim Não I 22 8 II 25 5 III 30 10 .92,0 e 85,0 ;22,0 ;7,0 ;770 ;3,0 :Respostas).( e )( ),( , ),( ),( , BAPBAPBAP)P(ABPAP cC 5. Discos de plástico de policarbonato, provenientes de um fornecedor, s~ao analisados com relação a resistência a arranhões e a choque. Os resultados de 100 discos estão resumidos a seguir: (a) Se um disco for selecionado ao acaso, qual será a probabilidade de sua resistência a arranhões ser alta e de sua resistência a choque ser alta? (b) Se um disco for selecionado ao acaso, qual sera a probabilidade de sua resistência a arranhões ser alta ou de sua resistência a choque ser alta? (c) Considere o evento em que um disco tenha alta resistência a arranhões e o evento em que um disco tenha alta resistência a choque. Esses dois eventos são mutuamente excludentes (exclusivos)? Respostas: (a) 0.70; (b) 0.95 e (c) Não. Exercícios Resistência a Arranhões Resistência a Choque Alta Baixa Alta 70 9 Baixa 16 5 6. Numa faculdade 30% dos homens e 20% das mulheres estudam Engenharia Civil. Além disso, 45% dos estudantes são mulheres. Se um estudante selecionado aleatoriamente esta estudando Engenharia Civil, qual a probabilidade de que este estudante seja mulher? Resposta: 0.3529. 7. A probabilidade e 1% de que um conector elétrico, que seja mantido seco, falhe durante o período de garantia de um Compactador. Se o conector for molhado, a probabilidade de falha durante o período de garantia será de 5%. Se 90% dos conectores forem mantidos secos e 10% forem mantidos molhados, qual será a proporção de conectores que falhara durante o período de garantia? Resposta: 0.014. Exercícios Sim. :Resposta tes?independen são e eventos Os .3,0 e 8,0)( ,3,0)/( Se .8 BAP(A)BPBAP 8. A aspereza nas bordas de produtos de papel cortado aumenta a medida que as laminas de uma faca vão sendo gastas. Somente 1% dos produtos cortados com novas laminas tem bordas ásperas, 3% dos produtos cortados com novas laminas mediante afiadas exibem rugosidade e 5% dos produtos cortados com novas laminas gastas exibem rugosidade. Se 25% das laminas na fabricação de papel forem novas, 60% forem mediante afiadas e 15% forem gastas, qual será a proporção dos produtos que exibem uma aspereza nas bordas? Resposta: 0.028. 9. Três alarmes est~ao dispostos de tal maneira que qualquer um deles funcionara independentemente, quando qualquer coisa indesejável ocorrer. Se cada alarme tem probabilidade 0.9 de trabalhar eficientemente, qual e a probabilidade de se ouvir o alarme quando necessário? Resposta: 0.999. Exercícios Variáveis Aleatórias Contínuas. Distribuições Amostrais. Capítulo 8 Estimativa do Intervalo de Confiança Objetivos: • Construir e interpretar estimativas de intervalos de confiança para a média aritmética e para a proporção • Determinar o tamanho da amostra necessário para desenvolver um intervalo de confiança para a média aritmética ou para a proporção • Utilizar estimativas de intervalos de confiança na análise de dados. Tópicos 1. Intervalos de confiança para a média populacional, μ – Quando o desvio-padrão da população σ é conhecido – Quando o desvio-padrão da população σ é desconhecido 2. Intervalos de confiança para a proporção populacional, p. 3. Determinação do tamanho da amostra necessário Estimativa Pontual • Uma estimativa pontual é um número único. Para a média populacional (e desvio- padrão populacional), a estimativa pontual é a média amostral (e o desvio-padrão amostral). • O intervalo de confiança traz informações adicionais sobre a variabilidade da estimativa. Estimativa Pontual Limite Inferior do Intervalo Limite Superior do Intervalo Largura (amplitude) do Intervalo de Confiança Estimativas do Intervalo de Confiança • Um intervalo de confiança dá um intervalo de valores possíveis: – Leva em consideração a variação na estatística amostral que ocorre de amostra para amostra – Dá informações sobre a proximidade do parâmetro populacional desconhecido – Estabelecido em termos do nível de confiança • Ex. 95% de confiança, 99% de confiança • Não pode ser nunca 100% de confiança Estimativas do Intervalo de Confiança • A fórmula geral de todos os intervalos de confiança é: Estimativa Pontual ± (Valor Crítico) (Desvio Padrão) Nível de Confiança • Nível de Confiança – Confiança de que o intervalo conterá o parâmetro populacional desconhecido • Um percentual (menor que 100%) Nível de Confiança • Suponha nível de confiança = 95% • Também escrito (1 - ) = .95 • Uma interpretação da frequência relativa: – No longo prazo, 95% de todos os intervalos de confiança que poderão ser construídos conterão o parâmetro desconhecido • Um intervalo específico pode conter ou não o parâmetro verdadeiro Intervalo de Confiança para μ (σ conhecido) Premissas – Desvio-Padrão da população σ é conhecido – População é normalmente distribuída – Se a população não é normal, use amostras grandes Estimativa do Intervalo de Confiança: (onde Z é o valor crítico em uma distribuição normal padronizada para uma probabilidade α/2 em cada cauda) n σ ZX Encontrando o Valor Crítico, Z Considere um intervalo de confiança de 95%: Z= -1.96 Z= 1.96 .951 .025 2 α .025 2 α Limite Inferior do Intervalo Limite Superior do Intervalo Z unidades: X unidades: Estimativa Pontual 0 Encontrando o Valor Crítico, Z Intervalos de Confiança mais comuns: 90%, 95%, e 99% Nível de Confiança Coeficiente de Confiança Valor Z 1.28 1.64 1.96 2.33 2.58 3.08 3.27 .80 .90 .95 .98 .99 .998 .999 80% 90% 95% 98% 99% 99.8% 99.9% Intervalos e Nível de Confiança μμ x Intervalos de Confiança Intervalos se extendem de: a (1-)x100% dos intervalos construídos contém μ; ()x100% não. Distribuição Amostral da Média n σ ZX n σ ZX x x1 x2 /2 /21 Intervalo de Confiança para μ (σ conhecido) Exemplo • Uma amostra de 11 circuitos extraída de uma população normal tem resistência média de 2.20 ohms. Sabemos de testes anteriores que a população tem desvio-padrão igual a .35 ohms. • Determine o intervalo de confiança a 95% para a verdadeira resistência média da população. Intervalo de Confiança para μ (σ conhecido) Exemplo 2.4068) , (1.9932 .2068 2.20 )11(.35/ 1.96 2.20 n σ ZX Nós estamos 95% confiantes de que o intervalo entre 1.9932 e 2.4068 ohms contém a verdadeira média da população. Apesar da verdadeira média poder ou não estar no intervalo, 95% dos intervalos formados desta maneira conterão a verdadeira média da população Intervalo de Confiança para μ (σ desconhecido) • Se o desvio-padrão da população σ é desconhecido, nós podemos adotar como aproximação o desvio-padrão da amostra, S • Isso introduz uma incerteza adicional, já que S varia de amostra para amostra • Então, se n < 30 usamos a distribuição t de Student ao invés da distribuição normal Intervalo de Confiança para μ (σ desconhecido) Premissas: – Desvio-padrão da população é desconhecido – População é normalmente distribuída – Se a população não for normal, use amostras grandes Se n < 30 Use Distribuição t de Student Estime o intervalo de confiança: (onde t é o valor crítico da distribuição t com n-1 g.l. e uma área de α/2 em cada cauda) n S tX 1-n Distribuição t de Student • O valor t depende dos graus de liberdade (g.l.) – Número de observações que estão livres para variar após a média da amostra ter sido calculada g.l. = n - 1 Graus de Liberdade Se a média dos valores é 8.0, então X3 deve ser 9 (i.e., X3 nãoé livre para variar) Aqui, n = 3, então os graus de liberdade são = n – 1 = 3 – 1 = 2 (2 valores podem ser qualquer número, mas o terceiro não é livre para variar uma vez que a média está dada) Ideia: Número de observações que estão livres para variar após a média da amostra ter sido calculada Exemplo: Suponha que a média de 3 números seja 8.0 • Seja X1 = 7 • Seja X2 = 8 • Qual o valor de X3? Distribuição t de Student t 0 t (gl = 5) t (gl = 13) Distribuições t são em forma de sino e simétricas, mas têm caudas mais “gordas” que a normal Normal Padrão (t com gl = ∞) Observe: t Z à medida que n aumenta Tabela da t de Student Áreas da Cauda Superior gl .25 .10 .05 1 1.000 3.078 6.314 2 0.817 1.886 2.920 3 0.765 1.638 2.353 t 0 2.920 O corpo da tabela contém os valores t, não as probabilidades Seja: n = 3 gl = n - 1 = 2 = .10 /2 =.05 /2 = .05 Tabela da t de Student Intervalo de Confiança para μ (σ desconhecido) Exemplo Uma amostra aleatória com n = 25 tem X = 50 e S = 8. Construa um intervalo de confiança a 95% para μ – g.l. = n – 1 = 24, então – O intervalo de confiança é: 25 8 (2,064)50 n S 1-n /2, tX (46,698 ; 53,302) Intervalos de Confiança para a Proporção Populacional, p • Uma estimativa intervalar para a proporção populacional ( p ) pode ser calculada acrescentando uma incerteza à proporção amostral ( ) p̂ Intervalos de Confiança para a Proporção Populacional, p Lembre-se que a distribuição da proporção amostral é aproximadamente normal se o tamanho da amostra é grande, com desvio-padrão Nós estimaremos este valor a partir dos dados amostrais: n qp ˆ.ˆ Intervalos de Confiança para a Proporção Populacional, p Os limites inferior e superior do intervalo de confiança da proporção populacional são calculados com a fórmula: Onde: – Z é o valor crítico na distribuição normal padronizada para o nível de confiança desejado – é proporção na amostra – n é o tamanho da amostra n qp Zp ˆ.ˆ .ˆ p̂ Intervalos de Confiança para a Proporção Populacional, Exemplo Em uma amostra aleatória de 100 pessoas, 25 são canhotas. Construa um intervalo de confiança para a verdadeira proporção de canhotos na população com 95% de confiança. 00.25(.75)/196,125/100 0,3349) ; (0,1651 (.0433) 1,96 .25 n qp Zp ˆ.ˆ .ˆ Intervalos de Confiança para a Proporção Populacional, Exemplo • Nós estamos 95% confiantes de que a proporção de canhotos da população esteja entre 16,51% e 33,49%. Apesar de o intervalo de .1651 a .3349 poder ou não conter a proporção populacional verdadeira, 95% dos intervalos construídos a partir de amostras de tamanho 100 conterão a verdadeira proporção de canhotos na população. Determinando o tamanho da amostra • O tamanho de amostra desejado pode ser definido de forma a obter uma determinada margem de erro (e) com um nível de confiança especificado (1 - ). • A margem de erro é também chamada de erro amostral. Determinando o tamanho da amostra σ conhecido • Para definir o tamanho da amostra para a estimativa da média, você precisa conhecer: – O nível de confiança desejado (1 - ), que determina o valor crítico Z – O erro amostral desejado (margem de erro), e – O desvio-padrão, σ n σ Ze 2 22 e σZ n Agora, resolva para n Determinando o tamanho da amostra σ conhecido Se = 45, que tamanho de amostra é necessário para estimar a média com uma margem de erro de ± 5 com 90% de confiança? 217,85 5 (45)(1,64)σ 2 22 2 22 e Z n Então, o tamanho de amostra necessário é n = 218 Determinando o tamanho da amostra para σ desconhecido • Se σ desconhecido, n< 30 e a distribuição é normal então usa-se a distribuição t-student. • Selecione uma amostra piloto e estime σ a partir do desvio-padrão da amostra, S. • Se σ desconhecido e n> 30, usa-se a distribuição Normal Determinando o tamanho da amostra σ desconhecido • Para definir o tamanho da amostra para a estimativa da média com σ desconhecido, você precisa conhecer: – O nível de confiança desejado (1 - ), que determina o valor crítico t. – O erro amostral desejado (margem de erro), e – O desvio-padrão amostral, s. n s te 2 22 s e t n Agora, resolva para n Determinando o tamanho da amostra para Proporção p Para determinar o tamanho da amostra necessário para a proporção, você precisa saber: – O nível desejado de confiança (1 - ), que determina o valor crítico Z – O erro amostral aceitável (margem de erro), e – A verdadeira proporção de “sucessos”, • pode ser estimado a partir de uma amostra piloto, se necessário (ou conservadoramente use p = .50) Resolvendo para n 2 2 ˆ.ˆ. e qpZ n n qp Ze ˆ.ˆ . p̂ p̂ Determinando o tamanho da amostra para Proporção p •Qual o tamanho da amostra necessário à estimativa da proporção de defeituosos em uma grande população, com uma margem de erro de ±3%, e 95% de confiança? • (Assuma que em uma amostra piloto foi obtida a proporção =0.12 de defeituosos) p̂ Determinando o tamanho da amostra para Proporção p Solução: Para 95% confiança, use Z = 1.96 e = 0.03 = .12, então use este para estimar o parâmetro p Então use n = 451 450,74 (0.03) .12)(.12)(1(1,96)ˆ.ˆ. 2 2 2 2 e qpZ n p̂ Determinando o IC e o tamanho da amostra usando o Fator de Correção Até o presente momento vimos a construção do intervalo de Confiança para a média considerando a obtenção de amostra com reposição. Contudo existem várias situações onde isso não é possível, logo estamos tratando de amostras sem reposição ou amostras destrutivas. Desta forma utilizaremos um fator de correção para que a probabilidade de amostra para amostra não se altere. Fator de Correção • Se o tamanho da amostra for menor que 5% do tamanho da população, a não reposição é desprezada. • Se o tamanho da amostra for maior ou igual que 5% devemos então corrigir o intervalo, para compensar os efeitos da não reposição. 1 N nN N é o tamanho da população n é o tamanho da amostra Intervalo de Confiança para μ (σ conhecido) • Determinando o tamanho da amostra σ conhecido 1n σ ZX N nN 222 22 σ)1( σ ZNe NZ n Intervalo de Confiança para a Proporção, p • Determinando o tamanho da amostra a proporção, p 1 ˆ.ˆ .ˆ N nN n qp Zp qpZNe NqpZ n ˆ.ˆ)1( ˆ.ˆ 22 2 Intervalo de Confiança para μ (σ desconhecido) • Determinando o tamanho da amostra σ desconhecido 1 1-n N nN n S tX 222 22 S)1( S tNe Nt n TESTE DE HIPÓTESES Testes de Hipóteses: Realizamos um teste de hipóteses somente quando estamos tomando uma decisão em relação a um parâmetro da população com base no valor de uma estatística da amostra. H0 - Hipótese Nula: Corresponde a uma afirmação (ou declaração) em relação a um determinado parâmetro da população, que é presumida como verdadeira, até que seja declarada falsa. H1 - Hipótese Alternativa: é uma afirmação em relação a um determinado parâmetro da população, que será verdadeira se a hipótese nula for falsa. Caudas de um teste Um teste bicaudal possui regiões de rejeição em ambas as caudas. Um teste com cauda à esquerda possui região de rejeição na cauda da esquerda. Um teste com cauda à direita possui região de rejeição na cauda da direita. Cauda à Direita: Ho: = 50 H1:: > 50 Cauda à Esquerda: Ho: : = 50 H1: : <50 Bicaudal: Ho: : = 50 H1:: 50 Tabela de sinais em H0 e H1 e suas respectivas caudas Teste Bicaudal Teste com cauda à Esquerda Teste com cauda à Direita Sinal na hipótese nula H0 ou ≥ ou ≤ Sinal nahipótese alternativa H1 ≠ Região de rejeição Em ambas as caudas Na cauda Esquerda Na cauda Direita Tabela de Erro H0 verdadeira H0 Falsa Aceita H0 Decisão Correta Erro do tipo II Rejeita H0 Erro do Tipo I Decisão Correta Erro do tipo I: Ocorre quando uma hipótese nula verdadeira é rejeitada. 𝛂 = P(erro tipo I) = P(rejeitar ∣ verdadeira ) Erro do tipo II: Ocorre quando uma hipótese nula falsa é aceita. 𝛃 = P(erro tipo II) = P(não rejeitar ∣ é falso ) Teste de Hipóteses Para μ (σ conhecido) Premissas: Desvio-Padrão da população σ é conhecido População é normalmente distribuída Se a população não é normal, use amostras grandes Estimativa do Intervalo de Confiança: (onde Z é o valor crítico em uma distribuição normal padronizada para uma probabilidade α/2 em cada cauda) n σ ZX Teste de hipóteses em relação a média da população: Amostra Grande x x Z x S x Z n x n S S x Para um desvio padrão populacional conhecido. Para um desvio padrão amostral. n>30. Etapas para realizar um teste de hipóteses 1 – Declare as hipóteses nulas e alternativas; 2 – Fixar o nível de significância (𝛂); 3 – Calcular o valor da estatística do teste, que depende do parâmetro que se deseja testar e compare com o valor da estatística tabelada. 4 – Tome uma decisão. Exemplo: Suspeita-se de que um medicamento vasodilatador (Nifedipina) para Hipertensão Arterial, amplamente receitado, esteja aumentando a freqüência cardíaca dos pacientes. Para verificar essa suspeita, colheu-se uma amostra aleatória de 50 pacientes que recebem Nifedipina, e mediu-se a freqüência cardíaca de cada um. É sabido que a freqüência cardíaca na população normal tem Distribuição Normal, com média 69,8 bat/min e desvio-padrão de 1,86 bat/min. A amostra com 50 pacientes forneceu uma média de 70,5 bat/min. Será que essa média amostral é diferente da esperada para a população normal, assumindo um nível de significância de 5%? XHXH : e : 10 Como são conhecidos os parâmetros da população, é possível aplicar uma estatística z. Deseja-se, apenas, testar a diferença. Logo, o teste deve ser bicaudal. Para o nível de significância de 5%, consideramos o valor crítico 0,025 1,96cz -1,96 0 Não-Rejeitar H0 Rejeitar H0 /2 Rejeitar H0 /2 +1,96 n X Zcalc Retomando o exemplo temos: Parâmetros da população com frequência cardíaca normal: 69,8 e 1,86 Resultados da amostra com n = 50 pacientes que tomam o remédio: 66,2 50 86,1 8,695,70 calccalc Z n X Z 0Rejeitar 96,166,2 HZZ tabcalc Logo Logo, temos fortes supeitas de que devemos rejeitar (Hipótese Nula), devido as evidências de que a freqüência cardíaca média no grupo de pacientes que tomam o remédio seja diferente da esperada para uma população normal, com um nível de significância de 5%, assim, aceitamos (Hipótese Alternativa). Ou seja, evidências indicam que a frequência cardíaca dos pacientes está aumentando devido ao uso da Nifedipina. Conclusão 0H 1H Teste de Hipóteses Para μ (σ desconhecido): Amostra Pequena x S x t n S S x Condições nas quais a distribuição t é utilizada para realizar testes de hipóteses em relação a média µ 1 – Se o tamanho da amostra for pequeno (n<30); 2 – A população a partir da qual a amostra foi extraída for distribuída de maneira (aproximadamente) normal; 3 – O desvio padrão da população é desconhecido. Etapas para desenvolver o teste de hipóteses 1 – Declare as hipóteses nulas e alternativas; 2 – Selecione a distribuição a utilizar; 3 – Determine a região de rejeição e a região de aceitação; 4 – Calcule o valor da estatística do teste; 5 – Tome uma decisão. Teste de hipóteses em relação a proporção de uma população p pp Z ˆ ˆ n pq p ˆ Exemplo: A ANVISA realiza inspeção em 142 lotes de medicamento de uma grande remessa, encontrando-se 8% dos medicamentos com a embalagem violada. O fornecedor garante que não haverá mais de 6% de medicamentos violados em cada remessa. O que devemos responder com o auxílio do teste de hipóteses é se a afirmação do fornecedor é verdadeira! 0,1 02,0 06,008,0ˆ ˆ p pp Z 02,0 142 94,0.06,0 ˆ n pq p H0: p ≤ 6% H1: p > 6% Supondo α= 1%, 3% e 5% construa o teste de hipóteses para saber se aceitamos ou rejeitamos a hipótese nula. Tópicos importantes • Para o teste de hipótese da média, o tamanho da amostra n sempre deve ser > que 30; • Para o teste de hipótese da média de pequenas amostras, a distribuição t de student deve ser usada; • No teste bicaudal, o nível de significância (α) é dividido igualmente entre as duas caudas que constituem regiões críticas; • A interpretação do teste é muito importante na realização dos experimentos de teste de hipótese. Se mencionar igual trata-se de uma afirmação nula, se não mencionar, a afirmação será a hipótese alternativa; • Quando a hipótese alternativa (H1) é ≠ de algum valor, temos um teste bicaudal. Quando H1 tem sinal > temos um teste com cauda à direita e quando H1 recebe sinal < temos um teste com cauda à esquerda. Regressão Linear “método estatístico que utiliza a relação entre duas ou mais variáveis de modo que uma variável pode ser estimada (ou predita) a partir da outra”. Prof. Joelmir Feliciano Objetivo Explicar uma variável quantitativa segundo uma outra variável quantitativa. Exemplos • Preço de um imóvel segundo a área construída • Consumo de combustível segundo o preço do combustível e a região • Valorização de uma ação segundo a valorização da bolsa • Taxa de criminalidade segundo a taxa de desemprego • Tempo de reação em um processo químico segundo a taxa de concentração do reagente. Algumas definições a) diagrama de dispersão: representação gráfica entre duas variáveis quantitativas b) correlação: quantifica a força da relação linear entre duas variáveis quantitativas c) regressão linear: explicita a forma da relação linear Exemplo 1: nota da prova e tempo de estudo X : tempo de estudo (em horas) Y : nota da prova Pares de observações (Xi , Yi) Tempo Nota 3,0 4,5 7,0 6,5 2,0 3,7 1,5 4,0 12,0 9,3 Diagrama de Dispersão Coeficiente de correlação linear O coeficiente de correlação linear é definido como n y y n x x n yx xy SS S r yyxx xy 2 2 2 2 Propriedades do coeficiente de correlação linear Propriedade -1 r 1 Classificação da correlação r = 1, correlação linear positiva e perfeita r = -1, correlação linear negativa e perfeita r = 0, inexistência de correlação linear Gráficos - exemplos da classificação da correlação Exemplo para r = 1 Gráficos - exemplos da classificação da correlação Exemplo para r = -1 Gráficos - exemplos da classificação da correlação Exemplo para 0 < r < 1 Gráficos - exemplos da classificação da correlação Exemplo para -1 < r < 0 Gráficos - exemplos da classificação da correlação Exemplo para r = 0 Gráficos - exemplos da classificação da correlação Outro exemplo para r = 0 Exemplo do cálculo da correlação Tempo ( X ) Nota ( Y ) X 2 Y 2 XY 3,0 4,5 9 20,25 13,5 7,0 6,5 49 42,25 45,5 2,0 3,7 4 13,69 7,4 1,5 4,0 2,25 16 6 12,0 9,3 144 86,49 111,6 25,5 28 208,25 178,68 184 9960,0 5 28 68,178 5 5,25 25,208 5 28*5,25 184 222 2 2 2
Compartilhar