Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIDADE 1 1) Analise as situações descritas abaixo e decida se a pesquisa deve ser feita por amostragem ou por censo, justificando sua resposta. a) Numa linha de produção de empacotamento de café, observar o peso especificado. b) Em uma sala de aula composta por 40 alunos, analisar suas idades. c) Observar se a água de uma lagoa está contaminada. d) Verificar a carga horária diária de trabalho dos funcionários da cozinha de um restaurante e) Num lote de cabos de aço, verificar a resistência dos mesmos à tração. a) Se houver possibilidade de agregar uma balança automática ao processo produtivo pode-se utilizar censo. Pois como não se trata de teste destrutivo, e peso dos pacotes é importante para a imagem da empresa (e para não haver desperdício) todos os pacotes podem ser medidos. b) Censo, porque a população é pequena, apenas 40 elementos. c) Amostragem. É no mínimo contraproducente retirar toda a água da lagoa para exame de sua contaminação. d) Censo, porque por necessidades políticas (e mesmo por exigência legal) todos deverão ter suas cargas horárias verificadas (evitando abusos, e/ou futuras ações judiciais). e) Amostragem, pois se trata de um teste destrutivo (aumenta-se a tração sobre o cabo até que ele se rompa, anotando então a força aplicada), e não pode ser feito com todo o lote. 2) Para as situações a seguir avalie a necessidade de utilizar dados primários ou se dados secundários serão suficientes para atingir os objetivos propostos. JUSTIFIQUE suas respostas. a) Uma empresa quer avaliar como está a renovação do seu pessoal, através da observação do seu tempo de serviço e experiência prévia. Tais dados estão disponíveis na gerência de RH. b) O MEC está pedindo que todas as universidades federais preparem um relatório sobre o tempo de conclusão do curso por seus alunos. O DAE dispõe de informações sobre o semestre de ingresso e o de saída, segmentado por curso. c) O coordenador do curso de administração da UFSC quer saber quais as razões que levaram os acadêmicos a escolherem o curso, em detrimento de outros na UFSC, ou em outras universidades. a) Dados secundários. O tempo de serviço e a experiência prévia dos funcionários estão disponíveis na gerência de RH, e não estamos procurando obter as opiniões deles, portanto podem ser usados dados secundários. b) Dados secundários. Para o caso da UFSC o DAE dispõe de uma série de informações sobre a vida dos acadêmicos, especialmente época de ingresso (por vestibular, transferência ou retorno) e tempo de conclusão de curso (em função da época do pedido de colação de grau). Não há necessidade de coletar novos dados. c) Dados primários. Busca-se obter os motivos que levaram os alunos a optarem pelo curso de administração, o que provavelmente não está registrado de modo confiável em lugar algum, exigindo a coleta dos dados. UNIDADE 2 1) Analise as situações descritas abaixo e decida se a pesquisa deve ser feita por amostragem ou por censo, justificando sua resposta. a) Numa linha de produção de empacotamento de café, observar o peso especificado. b) Em uma sala de aula composta por 40 alunos, analisar suas idades. c) Observar se a água de uma lagoa está contaminada. d) Num lote de cabos de aço, verificar a resistência dos mesmos à tração. a) Se houver possibilidade de agregar uma balança automática ao processo produtivo pode-se utilizar censo. Pois como não se trata de teste destrutivo, e peso dos pacotes é importante para a imagem da empresa (e para não haver desperdício) todos os pacotes podem ser medidos. b) Censo, porque a população é pequena, apenas 40 elementos. c) Amostragem. É no mínimo contraproducente retirar toda a água da lagoa para exame de sua contaminação. d) Amostragem, pois se trata de um teste destrutivo (aumenta-se a tração sobre o cabo até que ele se rompa, anotando então a força aplicada), e não pode ser feito com todo o lote. 2) Analise as situações abaixo e determine qual é o tipo de amostragem a ser usado em cada caso, e explique por quê. a) Parte da população é inacessível e trata-se de um estudo preliminar. b) Todos os elementos da população podem ser pesquisados, mas não há recursos para a sua listagem total. Sabe-se também que a população subdivide-se em subgrupos semelhantes (para os quais há uma listagem). c) Sabe-se que toda a população é acessível, e que é homogênea. A amostra deve ser obtida rapidamente. d) Uma empresa atua em três mercados distintos. Dispõe de uma listagem com os nomes e endereços de todos os clientes. Pretende pesquisar qual seria a eventual demanda de um novo produto. Precisa fazer isso rapidamente (não há tempo para censo). e) A reitoria da UFSC quer conhecer as diferenças básicas entre as idéias de professores, servidores e alunos sobre a instituição. Há listas com todos os professores, alunos e servidores. f) Um empreendedor tem interesse em montar um cyber-café. Pretende conduzir um estudo preliminar para conhecer os serviços que os prováveis usuários gostariam de ter no estabelecimento. Conhece algumas pessoas que usam cyber-café, e pode ser que estas conheçam outras. g) Pretende-se fazer uma pesquisa de opinião sobre a administração de um município. A população pode ser dividida em áreas geográficas, sendo que é possível imaginar homogeneidade dentro de cada área. Há uma listagem dos domicílios existentes em cada área (proveniente do cadastro do IPTU). h) Deseja-se avaliar a qualidade de um minério recentemente extraído de uma jazida descoberta pela Companhia Vale do Rio Doce. a) Amostragem não probabilística, a esmo. Como não há acesso a toda a população seria impossível aplicar uma amostragem probabilística, e como se trata de estudo preliminar a não probabilística é aceitável. b) Amostragem probabilística por conglomerados. Há acesso a toda a população (mas não há recursos para listar todos os elementos) e a população divide-se em grupos homogêneos (que podem ser listados). c) Amostragem probabilística sistemática. Há acesso a toda a população (pressupõe-se que haja listagem), que é homogênea. A amostragem sistemática, com o sorteio do ponto de partida e a retirada de elementos a intervalos regulares possibilita um processamento mais rápido do que a aleatória simples. d) Amostragem probabilística estratificada proporcional. Não há tempo para um censo. Há acesso a toda a população (há listagem), que pode ser considerada dividida em três estratos (mercados). Como se deseja conhecer a demanda por um novo produto é preciso obter informações precisas, o que pode ser obtido com uma amostra proporcional ao tamanho de cada estrato. e) Amostragem probabilística estratificada uniforme. Há acesso a toda a população (listagem), e supõe-se que há uma divisão em 3 estratos (embora dentro dos estratos suponha-se uma certa homogeneidade). Como há interesse em comparar os estratos (as opiniões dos seus integrantes) não há necessidade de obter uma amostra proporcional, bastando retirar a mesma quantidade de cada estrato. f) Amostragem não probabilística "bola de neve". É virtualmente impossível ter acesso a toda a população, em outras palavras, quais são os usuários potenciais de cyber-café. Como se trata de um estudo preliminar, uma amostragem não probabilística é aceitável, e a modalidade "bola de neve" poderia levar a um certo número de pessoas cujas opiniões seriam importantes para as etapas posteriores. g) Amostragem probabilística estratificada proporcional. Há acesso a toda a população (listagem de domicílios), que divide-se em áreas geográficas. Tais áreas geográficas poderiam ser consideradas estratos, pois é bastante comum diferenças substanciais no grau de atenção da administração pública entre os vários bairros, e dentro dos bairros considera-se razoável a existência de homogeneidade. Além disso, como se trata de uma pesquisa para avaliar a opinião acerca da administraçãomunicipal é preciso manter na amostra a proporcionalidade do número de habitantes das diferentes áreas geográficas do municípios para obter resultados mais precisos. h) Amostragem não probabilística a esmo. Não é possível conduzir um sorteio neste caso (como numerar cada grão de minério?). Assim, procura-se homogeneizar o minério e retirar a amostra a esmo (evitando qualquer espécie de viesamento). 3) Uma população é composta por 2960 elementos que estão ordenados. Se devesse ser retirada uma amostra sistemática de 20 elementos desta população, como você procederia? Na amostragem sistemática o primeiro passo é obter o intervalo de retirada k, sabendo o tamanho da população (N = 2960) e o tamanho da amostra (n = 20). k = N/n = 2960/20 =148. Como k é inteiro não há necessidade de ajustes. A cada 148 elementos da população retira-se um para fazer parte da amostra, até completar os 20 que devem compô-la. Deve-se sortear o ponto de partida das retiradas, para garantir que todos terão chance de pertencer à amostra: os primeiros 148 elementos devem receber números de 1 a 148. Utilizando o Microsoft Excel podemos sortear um número inteiro entre 1 e 148. Imagine que fosse sorteado o 44: então o ponto de partida será o quadragésimo quarto elemento da lista. A amostra então será composta pelos números: 44, 192, 340, 488, 636, 784, 932, 1080, 1228, 1376, 1524, 1672, 1820, 1968, 2116, 2264, 2412, 2560, 2856 (totalizando 20 elementos). 4) Uma amostragem entre os estudantes de ciências da computação, engenharia de produção e engenharia de automação foi realizada da seguinte maneira: considerou-se cada curso como um estrato, e fez-se retirada proporcional. O curso de computação possui 350 alunos, o de engenharia de produção 475 alunos e o curso de automação 200 alunos. Do curso de computação foram analisados 42 alunos. Qual o número total de alunos analisados na amostra? Trata-se de amostragem probabilística estratificada proporcional, indicando que o número de elementos de cada estrato que fazem parte da amostra é proporcional ao tamanho do estrato na população. A população é composta por 1025 alunos (350 + 475 + 200), com os seguintes percentuais para cada curso: computação = (350/1025) x 100 = 34,15% engenharia de produção = (475/1025) x 100 = 46,34% automação = (200/1025) x 100 = 19,51% Então, os 42 alunos de computação correspondem a 34,15% da amostra, fazendo uma regra de três simples podemos obter o total de elementos da amostra: 42 ---------> 34,15% ? ---------> 100% E encontramos 122,98, praticamente igual a 123. 5) Numa sala de aula temos 36 homens e 28 mulheres. Faça uma amostragem estratificada proporcional de tamanho 16 considerando o sexo como variável estratificadora. Quantos de cada sexo serão analisados? Temos que avaliar as proporções de cada estrato no total de 64 (36 + 28). Homens = (36/64) x 100 = 56,25% Mulheres = (28/64) x 100 = 43,75% Basta aplicar os percentuais acima ao tamanho da amostra (16): Homens = 0,5625 x 16 = 9 Mulheres = 0,4375 x 16 = 7 Então serão pesquisados 9 homens e 7 mulheres. A retirada dentro de cada estrato pode ser feita com amostra aleatória simples. UNIDADE 3 1) A seguir vemos a tabela obtida do arquivo AmostraToyord.xls para a variável Modelo. Como está a preferência dos clientes? JUSTIFIQUE. Modelo Freqüência Percentual Chiconaultla 81 32,53% DeltaForce3 56 22,49% Valentiniana 41 16,47% SpaceShuttle 42 16,87% LuxuriousCar 29 11,65% Total 249 100,00% Fonte: elaborado pelo autor Os clientes preferem os modelos Chiconaultla (32,53%), e DeltaForce3 (22,49%). Juntos eles representam cerca de 55% dos veículos. Os outros três modelos têm uma distribuição de preferência mais eqüitativa, especialmente Valentiniana e SpaceShuttle (em torno de 16% cada um). O modelo menos preferido é o LuxuriousCar, com 11,65% do total. 2) Construa a distribuição de freqüências para a variável idade dos clientes da Toyord. Como você caracteriza os clientes em termos de faixas etárias? Os clientes são predominantemente mais velhos? Mais jovens? JUSTIFIQUE! Aqui é necessário consultar o arquivo “Como fazer análise exploratória de dados com o Microsoft Excel”, disponível no ambiente virtual da disciplina, e realizar a análise propriamente dita no arquivo AmostraToyord.xls, também disponível no ambiente virtual. A variável idade dos clientes (Idade) é QUANTITATIVA DISCRETA, e neste caso estamos interessados em realizar uma análise individual para saber a composição etária dos clientes da TOYORD. Mas, um pouco de cautela é necessária: ao aplicar a função Auto-Filtro à variável Idade vamos observar que as idades variam de 18 a 55 anos. Ou seja, a distribuição de freqüência seria uma tabela com 37 linhas, pouco contribuindo para resumir o conjunto de dados. Então, embora Idade seja quantitativa discreta talvez seja melhor agrupar seus valores para proceder a análise: podemos seguir as recomendações da seção 2.1 (agrupamento em classes) ou da seção 2.2 (categorização de uma variável quantitativa contínua) do arquivo “Como fazer análise exploratória de dados com o Microsoft Excel”. Muito cuidado porém com os dados perdidos: se você usar a opção AutoFiltro, no menu Dados do Excel, para a variável Idade descobrirá que há um dado perdido, uma pessoa para a qual não há registro da idade. Esta linha deve ser eliminada antes do procedimento abaixo: 1) Primeiramente vamos seguir a opção da seção 2.2: vamos criar faixas etárias arbitrárias. - 18 a 24 anos: jovens, as seguradoras definem esta faixa etária como jovens, e cobram prêmios de seguro maiores para clientes desta faixa etária. - 25 a 30 anos: adultos jovens, ainda estabelecendo-se na vida profissional, muitos ainda em processo de formação acadêmica. - 31 a 40 anos: adultos, teoricamente já estabelecidos profissionalmente, provavelmente com filhos. - 41 a 55 anos: clientes com maior experiência de vida, provavelmente já tiveram alguns veículos (da TOYORD ou de concorrentes). Vamos então criar a variável qualitativa Idade Categorizada, usando a função SE, exatamente como descrito na seção 2.2 do arquivo “Como fazer análise exploratória de dados com o Microsoft Excel”. Uma vez pronta a variável podemos aplicar o procedimento usado para variáveis qualitativas e obter a tabela a seguir: Faixas etárias Freqüência Percentuais 18 a 24 anos 13 5,22% 25 a 30 anos 46 18,47% 31 a 40 anos 127 51,00% Mais de 40 anos 63 25,30% Total 249 100% Se imaginarmos que pessoas jovens são aquelas com idades até 30 anos os clientes da TOYORD podem ser classificados como “velhos”: nada menos do que 76,30% têm 31 ou mais anos de idade. 2) Agora vamos agrupar os dados em classes. Novamente, não se esqueça de remover o dado perdido antes do agrupamento. Intervalo = 55 – 18 (máximo – mínimo) = 37 Número conveniente de classes = 8115250 , Talvez 15 sejam muitas classes, podemos arbitrariamente escolher 10 classes. Amplitude das classes = 37/10 = 3,7. Teremos um valor fracionário, o que pode dificultar a futura visualização da tabela, podemos, também arbitrariamente, escolher amplitude igual a 4. Limites das classes: vamos começar pelo mínimo (18). 18 |-- 22 22|-- 26 26|-- 30 30|-- 34 34|-- 38 38|-- 42 42|-- 46 46|-- 50 50|-- 54 54|-- 58 Vamos então obter a distribuição agrupada em classes para a variável Idade, usando a função CONT.SE, exatamente como descrito na seção 2.1 do arquivo “Como fazer análise exploratória de dados com o Microsoft Excel”. Tomando os cuidados na utilização da função CONT.SE chegaremos ao resultado: Classes Freqüências Percentuais Pontos médios 18|-- 22 5 2,00 20 22|-- 26 12 4,80 24 26|-- 30 29 11,60 28 30|-- 34 50 20,00 32 34|-- 38 48 19,20 36 38|-- 42 53 21,20 40 42|-- 46 29 11,60 44 46|-- 50 16 6,40 48 50|-- 54 6 2,40 52 54|-- 58 1 0,40 56 Total 249 100,00 - A classificaçãoanteriormente usada, “jovens são aqueles de até 30 anos” torna-se difícil de ser usada aqui: os de 30 anos estarão na classe 30|-- 34 anos. Mesmo que consideremos jovens indivíduos com menos de 34 anos a conclusão será semelhante a do caso anterior: 61,20% dos clientes têm 34 anos ou mais, podendo ser classificados como “velhos”. Você pode observar os pontos médios na última coluna, indicando que as freqüências e percentuais seriam relativas a eles ao invés dos dados originais, após o agrupamento em classes. 3) É de grande interesse para a montadora analisar o relacionamento entre modelo do veículo e opinião dos clientes sobre seu design. A tabela a seguir mostra o relacionamento destas variáveis. Modelo Design Adiante dos outros Atualizados Ultrapassados Total Chiconaultla Freqüências 46 35 0 81 % da linha 56,79% 43,21% 0,00% 100,00% % da coluna 77,97% 22,01% 0,00% 32,53% % do total 18,47% 14,06% 0,00% 32,53% Deltaforce3 Freqüências 9 46 1 56 % da linha 16,07% 82,14% 1,79% 100,00% % da coluna 15,25% 28,93% 3,23% 22,49% % do total 3,61% 18,47% 0,40% 22,49% LuxuriousCar Freqüências 0 10 19 29 % da linha 0,00% 34,48% 65,52% 100,00% % da coluna 0,00% 6,29% 61,29% 11,65% % do total 0,00% 4,02% 7,63% 11,65% SpaceShuttle Freqüências 1 33 8 42 % da linha 2,38% 78,57% 19,05% 100,00% % da coluna 1,69% 20,75% 25,81% 16,87% % do total 0,40% 13,25% 3,21% 16,87% Valentiniana Freqüências 3 35 3 41 % da linha 7,32% 85,37% 7,32% 100,00% % da coluna 5,08% 22,01% 9,68% 16,47% % do total 1,20% 14,06% 1,20% 16,47% Total Freqüências 59 159 31 249 % da linha 23,69% 63,86% 12,45% 100,00% % da coluna 100,00% 100,00% 100,00% 100,00% % do total 23,69% 63,86% 12,45% 100,00% Fonte: adaptado pelo autor de Microsoft . Como está opinião sobre o design por modelo? Qual modelo se saiu melhor? Qual se saiu pior? JUSTIFIQUE! Torna-se imperativo fazer a análise através de algum percentual, pois os modelos têm freqüências (vendas) diferentes, o que poderia dificultar a análise com base nas freqüências. Mas qual percentual? Observe que a questão quer obter informações por modelo, cujos valores estão nas linhas, portanto, devemos usar os percentuais das linhas, para cada modelo e compará-los com o percentual da linha total. Observe que o total da tabela não é 250 porque há um dado perdido de modelo (uma pessoa não declarou o modelo comprado, e tal valor foi removido), o que explica as discrepâncias entre os percentuais da linha total acima e os da questão 2 da Unidade 3. Na análise individual da variável (questão 2 da Unidade 3) observou-se que a maioria dos clientes têm opiniões positivas sobre o design considerando-os atualizados (63,86%, ver acima) ou adiante dos outros concorrentes (23,69%). Esperaria-se que este comportamento ocorresse nos 5 modelos, mas não é o que acontecesse: - o modelo Chiconaultla é o que sai melhor, pois nenhum (0%) dos seus compradores considerou seu design ultrapassado, e 56,79% o consideraram adiante dos outros concorrentes (contra apenas 23,69% da opinião total). - o modelo DeltaForce3 também se sai bem, mas aqui o design é maciçamente (82,14%) considerado apenas atualizado (quase 20% acima da opinião total). - o modelo LuxuriousCar é, de longe, o veículo que se saiu pior, pois nenhum (0%) dos seus compradores considerou seu design adiante dos concorrentes, e 65,52% o consideraram ultrapassado (contra apenas 12,45% da opinião total). - o modelo SpaceShuttle não foi tão mal quanto o LuxuriousCar, mas não tão bem quanto DeltaForce3, 19,05% dos seus compradores consideraram seu design ultrapassado (contra 12,45% da opinião total), enquanto a grande maioria dos proprietários (78,57%) o achou apenas atualizado frente aos concorrentes. - o modelo Valentiniana teve comportamento semelhante ao DeltaForce3, mas na direção oposta, sendo que 85,37% dos seus compradores consideraram o design atualizado, mas o percentual dos que o acharam ultrapassado é maior (7,32% contra 1,79% do DeltaForce3). Obviamente HÁ relação entre as variáveis Modelo e opinião sobre o Design pois os percentuais das opiniões variam bastante dependendo do veículo. Pelas respostas acima conclui-se que o design do veículo Chiconaultla agrada muito seus proprietários, acarretando que não há necessidade de mudanças no curto prazo. Já o LuxuriousCar precisa de remodelação urgente, pois a opinião mais positiva a seu respeito é que o design é atualizado. Os outros modelos estão em situação intermediária, exigindo talvez modificações a médio prazo, na seguinte ordem de prioridade: SpaceShuttle, Valentiniana e DeltaForce3. Todos estes têm pelo menos 75% considerando seu design atualizado, mas isso pode mudar em breve exigindo uma ação pró-ativa da Toyord. 4) As variáveis quilometragem e idade são quantitativas. Suspeita-se que mais jovens percorram maiores quilometragens com seus veículos. Construa o gráfico apropriado para estudar o relacionamento entre as variáveis e verifique se a suspeita é confirmada. JUSTIFIQUE sua resposta. Aqui é necessário consultar o arquivo “Como fazer análise exploratória de dados com o Microsoft Excel”, disponível no ambiente virtual da disciplina, e realizar a análise propriamente dita no arquivo AmostraToyord.xls, também disponível no ambiente virtual. Conforme dito no enunciado as variáveis quilometragem e idade são quantitativas. Devemos, então, realizar os procedimentos descritos no item 2.3 do arquivo citado acima: construir um diagrama de dispersão das duas variáveis. Qual será a independente (posta no eixo X) e qual a dependente (posta no eixo Y)? Suspeita-se que mais jovens percorram maiores quilometragens: há uma evidência NÃO estatística que indica que a quilometragem PODERIA ser influenciada pela idade, menores idades maiores quilometragens. Tendo isso em mente podemos construir o diagrama o dispersão, exposto abaixo. Observe que há valores altos de quilometragem tanto para valores baixos de idade (os mais jovens) quanto para os mais altos (os mais velhos). Observe também, que os pontos parecem se distribuir Quilometragem por idade 200 300 400 500 600 700 800 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 Idade Q u il o m e tr a g e m de forma aleatória, não formam um padrão que permita identificar correlação entre as duas variáveis. Portanto, as suspeitas não são confirmadas pelos dados. 5) A opinião sobre o design tem relação com a percepção dos clientes de quando foi feita a última remodelação nos veículos? Construa a distribuição de freqüências relacionando as variáveis e responda a pergunta. JUSTIFIQUE sua resposta. Aqui é necessário consultar o arquivo “Como fazer análise exploratória de dados com o Microsoft Excel”, disponível no ambiente virtual da disciplina, e realizar a análise propriamente dita no arquivo AmostraToyord.xls, também disponível no ambiente virtual. A variável opinião sobre o design é qualitativa e a percepção de remodelação é quantitativa discreta, e pode assumir apenas 5 valores na amostra (0, 1, 2, 3 e 4). Neste caso podemos construir uma tabela de contingências, como se as duas variáveis fossem qualitativas. Devemos usar os procedimentos descritos na seção 1.2 do arquivo citado acima, incluindo os percentuais, que nos levará à tabela abaixo Design Remodelação Total 0 1 2 3 4 Adiante dos outros Freqüência 1 20 26 12 59 % por linha 1,69% 33,90% 44,07% 20,34% 0,00% 100,00% % por coluna 50,00% 35,09% 21,14% 20,34% 0,00% 23,60% % total 0,40% 8,00% 10,40% 4,80% 0,00% 23,60% Atualizados Freqüência 1 33 84 34 8 160 % por linha 0,63% 20,63% 52,50% 21,25% 5,00% 100,00% % por coluna 50,00% 57,89% 68,29% 57,63% 88,89% 64,00% % total 0,40% 13,20% 33,60% 13,60% 3,20% 64,00% Ultrapassados Freqüência 4 13 13 1 31 % por linha 0,00% 12,90% 41,94% 41,94% 3,23% 100,00%% por coluna 0,00% 7,02% 10,57% 22,03% 11,11% 12,40% % total 0,00% 1,60% 5,20% 5,20% 0,40% 12,40% Total Freqüência 2 57 123 59 9 250 % por linha 0,80% 22,80% 49,20% 23,60% 3,60% 100,00% % por coluna 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% % total 0,80% 22,80% 49,20% 23,60% 3,60% 100,00% Já realizamos as análises individuais das duas variáveis (Design na questão 2 e Remodelação na questão 3). Para que seja identificada relação entre as variáveis, ou seja, que as freqüências dos cruzamentos sejam substancialmente diferentes das proporções gerais devemos analisar os percentuais por linha, ou por coluna, dos cruzamentos. Na questão 2 definimos “há vários anos atrás” como 4 ou 5 anos no mínimo. A maioria esmagadora dos clientes (182, ou 72,8% do total) considera que os veículos foram remodelados há, no máximo 2 anos, não configurando o “há vários anos atrás”. Se houver relação com a opinião sobre o design espera-se que os percentuais nas categorias sejam diferentes: - na opção Adiante dos outros, analisando os percentuais por linha, observamos que 79,66% dos clientes que emitiram esta opinião acreditam que os veículos foram remodelados há no máximo 2 anos atrás (pouco acima dos 72,8% gerais). - na opção Atualizados, o percentual é de 73,75%, muito próximo ao do valor geral (72,8%). - já na opção Ultrapassados, o que até é bastante plausível, o percentual de clientes que consideram os veículos remodelados há no máximo 2 anos caiu para 54,84%, quase 20% abaixo do valor geral. Por causa deste último valor poderíamos formalmente dizer que HÁ relação entre as duas variáveis, pois uma queda de 20% no percentual é bastante substancial. UNIDADE 4 1) Usando o Excel ou a distribuição de freqüências construída na questão 4 das atividades de aprendizagem da Unidade 3, responda os itens a seguir. a) Calcule a média, mediana, moda e quartis da variável idade dos clientes. b) Calcule o intervalo, desvio padrão e coeficiente de variação percentual da variável idade dos clientes. c) Com base nos resultados dos itens a e c, você considera que os dados estão fortemente concentrados em torno da média? JUSTIFIQUE. a) A distribuição de freqüências da questão 4 da Unidade 3 é reproduzida abaixo: Classes Freqüências Percentuais Pontos médios 18|-- 22 5 2,00 20 22|-- 26 12 4,80 24 26|-- 30 29 11,60 28 30|-- 34 50 20,00 32 34|-- 38 48 19,20 36 38|-- 42 53 21,20 40 42|-- 46 29 11,60 44 46|-- 50 16 6,40 48 50|-- 54 6 2,40 52 54|-- 58 1 0,40 56 Total 249 100,00 - Os pontos médios, representantes das classes, passam a ser os “valores” da variável Idade. Utilizando as fórmulas vistas na questão 1 desta Unidade podemos calcular as medidas: - Média Precisamos multiplicar a coluna de valores (pontos médios das classes de Idade, nosso xi) pela das freqüências fi, somar os resultados, e dividi-los por 249, que é o número de elementos do conjunto, excluiu-se um dado perdido, (n). Observe que há 10 classes, logo k = 10. No quadro abaixo podemos observar o resultado: Classes Freqüências fi Pontos médios xi fi × xi 18|-- 22 5 20 100 22|-- 26 12 24 288 26|-- 30 29 28 812 30|-- 34 50 32 1600 34|-- 38 48 36 1728 38|-- 42 53 40 2120 42|-- 46 29 44 1276 46|-- 50 16 48 768 50|-- 54 6 52 312 54|-- 58 1 56 56 Total 249 - 9060 Agora podemos calcular a média: 3836 249 9060 249 10 11 , fx n fx x i ii k i ii anos. - Moda Basta encontrar o valor que ocorre com maior freqüência, rapidamente encontramos o valor 40, que possui a maior freqüência (53), logo Moda = 40 anos. - Mediana Precisamos obter a posição da mediana. Posição mediana = (n + 1)/2 = (249+1)/2 = 125 a . Esta posição pode ser encontrada através das freqüências acumuladas. Temos que acrescentar uma coluna com as freqüências acumuladas, o que é relativamente simples basta somar a freqüência de uma classe com as de todas as anteriores: Classes Freqüências fi Pontos médios xi Freq. Acumulada 18|-- 22 5 20 5 22|-- 26 12 24 17 26|-- 30 29 28 46 30|-- 34 50 32 96 34|-- 38 48 36 144 38|-- 42 53 40 197 42|-- 46 29 44 226 46|-- 50 16 48 242 50|-- 54 6 52 248 54|-- 58 1 56 249 Total 249 - - Até a classe 30|-- 34 (ponto médio 32) temos até a 96ª posição. A classe seguinte, 34|-- 38, compreende as posições 97ª a 144ª, onde se encontra a posição da mediana, a 125ª . Como o ponto médio desta classe (que vale 36) é seu representante, significa que os valores das posições 97ª a 144ª são iguais a 36, logo Md = 36 anos. - Quartis Precisamos obter as posições dos quartis. Posição do quartil inferior = (n + 1)/4 = (249 + 1)/4 = 62,5ª. Posição do quartil superior = [3×(n+1)]/4 = [3 × (249 + 1)]/4 = 187,5ª. Ambas as posições não existem, precisamos obter as médias dos valores que estão na 62ª e 63ª posições para calcular o quartil inferior, e dos valores que estão na 188ª e 189ª posições para chegar ao quartil superior. Observando as freqüências acumuladas podemos verificar que da 47ª à 96ª posição os valores estão na classe 30|-- 34, cujo ponto médio vale 32, incluindo as 62ª e 63ª posições, o que nos leva a concluir que o quartil inferior vale (32+32/2) = 32 anos. Da 145ª à 197ª posições os valores estão na classe 38|--42, cujo ponto médio vale 40, incluindo as 188ª e 189ª posições, o que nos leva a concluir que o quartil superior vale (40+40/2) = 40 anos. Vamos usar o Excel diretamente para podermos calcular rapidamente os valores das medidas no arquivo AmostraToyord.xls. A variável idade tem seus valores na coluna K, células K2 a K251. Este intervalo deverá ser usado como argumento das várias funções do Excel: MÉDIA(K2:K251) = 35,891 Pela tabela = 36,38 anos MED(K2:K251) = 36 Pela tabela = 36 anos MODO(K2:K251) = 39 Pela tabela = 40 anos QUARTIL(K2:K251;1) = 31 Pela tabela = 32 anos QUARTIL(K2:K251;3) = 41 Pela tabela = 40 anos. Observe que alguns valores são diferentes dos encontrados através da tabela agrupada em classes. Por quê? Porque as medidas calculadas através da tabela usam os pontos médios, que podem não ser os representantes mais fiéis das classes. As medidas calculadas diretamente dos dados originais (antes do agrupamento) são as exatas, e sempre devemos procurar usá-las, calculamos a partir da tabela agrupada em classes apenas se não tivermos acesso aos dados originais. b) Para calcular as medidas de dispersão, vamos usar os dados da tabela agrupada em classes - Intervalo: basta observar o limite superior da última classe e o limite inferior da primeira classe, respectivamente 58 e 18 anos; assim, o intervalo vale 58 – 18 = 40 anos, ou expresso pelos limites [18, 58] anos. - Desvio padrão: é preciso usar a fórmula do desvio padrão para o caso em que os dados estão em uma tabela de freqüências (veja Unidade 4, página 109). (amostra) 1n n fx fx s 2 k 1i iik 1i i 2 i Precisamos encontrar alguns somatórios e o valor de n. Pela tabela da letra a sabemos que n = 249. O resultado k i ii fx 1 já foi encontrado na letra a. Mas resta o resultado k i ii fx 1 2 . Podemos estender a tabela usada na letra a: Classes Freqüências fi Pontos médios xi fi × xi x 2 i fi × x 2 i 18|-- 22 5 20 100 400 2000 22|-- 26 12 24 288 576 6912 26|-- 30 29 28 812 784 22736 30|-- 34 50 32 1600 1024 51200 34|-- 38 48 36 1728 1296 62208 38|-- 42 53 40 2120 1600 84800 42|-- 46 29 44 1276 1936 56144 46|-- 50 16 48 768 2304 36864 50|-- 54 6 52 312 2704 16224 54|-- 58 1 56 56 3136 3136 Total 249 - 9060 - 342224 Agora basta substituir na equação: 1197 1249 249 9060 342224 1 1 2 2 10 1 10 1 2 2 1 1 2 , n n fx fx n n fx fx s i ii i ii k i iik i ii anos Então o desvio padrão foi de 7,119 anos. - Coeficiente de variação percentual: a expressão desta medida está na Unidade 4, página 110 do livro texto. c v s x . .% 100% Basta substituir os valores da média (calculada na letra a) e do desvio padrão para obter o coeficiente de variação percentual: %, , , % x s .%v.c 5719100 3836 1197 100 Então o desvio padrão representa 19,57% da média. Novamente, vamos usar o Excel diretamente para podermos calcular rapidamente os valores das medidas no arquivo AmostraToyord.xls. A variável idade tem seus valores na coluna K, células K2 a K251. Este intervalo deverá ser usado como argumento das várias funções do Excel: DESVPAD(K2:K251) = 7,118 anos Pela tabela = 7,119 anos MÍNIMO(K2:K251) = 18 anos Pela tabela = 18 anos MÁXIMO(K2:K251) = 55 anos Pela tabela = 58 anos INTERVALO = 37 [18, 55] anos Pela tabela = 40 [18, 58] anos CV% = 19,83% Pela tabela = 19,57% Observe que alguns valores são diferentes dos encontrados através da tabela agrupada em classes, embora as diferenças sejam pequenas neste caso. Da mesma forma que as medidas de posição as de dispersão calculadas através da tabela usam os pontos médios, que podem não ser os representantes mais fiéis das classes. As medidas calculadas diretamente dos dados originais (antes do agrupamento) são as exatas, e sempre devemos procurar usá-las, calculamos a partir da tabela agrupada em classes apenas se não tivermos acesso aos dados originais. c) No presente caso o cv% vale 19,57%, desvio padrão representa menos de 20% da média, podemos afirmar que os dados não estão fortemente concentrados, para que isso ocorresse o cv% deveria ser bem menor, algo em torno de 5%, o que não é o caso, mas também não apresentam a mesma dispersão relativa que a variável anos de remodelação (ver questão 3 desta Unidade) onde o cv% valia 57%. 2) Usando o Excel ou a distribuição de freqüências construída na questão 5 das atividades de aprendizagem da Unidade 3, responda os itens a seguir. a) Calcule a média, mediana, moda e quartis da quilometragem. b) Com base nos resultados da letra a, descreva a tendência central da variável quilometragem. c) Calcule o intervalo, desvio padrão e coeficiente de variação percentual da variável quilometragem d) Com base nos resultados dos itens a e c, você considera que os dados estão fortemente concentrados em torno da média? JUSTIFIQUE. a) A distribuição de freqüências da questão 5 da Unidade 3 é reproduzida abaixo: Classes Freqüências Percentuais Pontos médios 286|--333 4 1,60 309,5 333|--380 14 5,60 356,5 380|--427 29 11,60 403,5 427|--474 51 20,40 450,5 474|--521 53 21,20 497,5 521|--568 41 16,40 544,5 568|--615 32 12,80 591,5 615|--662 20 8,00 638,5 662|--709 2 0,80 685,5 709|--756 4 1,60 732,5 Total 250 100,00 - Os pontos médios, representantes das classes, passam a ser os “valores” da variável Quilometragem. Utilizando as fórmulas vistas na questão 1 desta Unidade podemos calcular as medidas: - Média Precisamos multiplicar a coluna de valores (pontos médios das classes de Quilometragem, nosso xi) pela das freqüências fi, somar os resultados, e dividi-los por 250, que é o número de elementos do conjunto, não há dado perdido, (n). Observe que há 10 classes, logo k = 10. No quadro abaixo podemos observar o resultado: Classes Freqüências fi Pontos médios xi fi × xi 286|--333 4 309,5 1238 333|--380 14 356,5 4991 380|--427 29 403,5 11701,5 427|--474 51 450,5 22975,5 474|--521 53 497,5 26367,5 521|--568 41 544,5 22324,5 568|--615 32 591,5 18928 615|--662 20 638,5 12770 662|--709 2 685,5 1371 709|--756 4 732,5 2930 Total 250 - 125597 Agora podemos calcular a média: 388502 250 125597 250 10 11 , fx n fx x i ii k i ii km. - Moda Basta encontrar o valor que ocorre com maior freqüência, rapidamente encontramos o valor 497,5 que possui a maior freqüência (53), logo Moda = 497,5 km. - Mediana Precisamos obter a posição da mediana. Posição mediana = (n + 1)/2 = (250+1)/2 = 125,5 a . Esta posição, obviamente não existe, precisamos calcular a média entre os elementos que estão na 125ª e 126ª posições respectivamente. Temos que acrescentar uma coluna com as freqüências acumuladas, o que é relativamente simples basta somar a freqüência de um valor com as de todos os anteriores: Classes Freqüências fi Pontos médios xi Freq. Acumulada 286|--333 4 309,5 4 333|--380 14 356,5 18 380|--427 29 403,5 47 427|--474 51 450,5 98 474|--521 53 497,5 151 521|--568 41 544,5 192 568|--615 32 591,5 224 615|--662 20 638,5 244 662|--709 2 685,5 246 709|--756 4 732,5 250 Total 250 - - Na classe 427|-- 474 (ponto médio 450,5) temos até a 98ª posição. A classe seguinte, 474|-- 521, compreende as posições 99ª a 151ª, portanto os valores que estão na 125ª e 126ª posições são iguais a seu ponto médio, 497,5. Logo, Md = (497,5+497,5)/2 = 497,5. - Quartis Precisamos obter as posições dos quartis. Posição do quartil inferior = (n + 1)/4 = (250 + 1)/4 = 62,75ª. Posição do quartil superior = [3×(n+1)]/4 = [3 × (250 + 1)]/4 = 188,25ª. Ambas as posições não existem, precisamos obter as médias dos valores que estão na 62ª e 63ª posições para calcular o quartil inferior, e dos valores que estão na 188ª e 189ª posições para chegar ao quartil superior. Observando as freqüências acumuladas podemos verificar que da 48ª à 98ª posição os valores estão na classe 427|--474, e são iguais a seu ponto médio, 450,5, incluindo as 62ª e 63ª posições, o que nos leva a concluir que o quartil inferior vale (450,5+450,5/2) = 450,5 km. Da 152ª à 192ª posições os valores estão na classe 521|-- 568, e são iguais a seu ponto médio, 544,5, incluindo as 188ª e 189ª posições, o que nos leva a concluir que o quartil superior vale (544,5+544,5/2) = 544,5 km. Vamos usar o Excel diretamente para podermos calcular rapidamente os valores das medidas no arquivo AmostraToyord.xls. A variável quilometragem tem seus valores na coluna I, células I2 a I251. Este intervalo deverá ser usado como argumento das várias funções do Excel: MÉDIA(I2:I251) = 502,364 Pela tabela = 502,388 km MED(I2:I251) = 499,5 Pela tabela = 497,5 km MODO(I2:I251) = 486 Pela tabela = 497,5 km QUARTIL(I2:I251;1) = 451 Pela tabela = 450,5 km QUARTIL(I2:I251;3) = 559,5 Pela tabela = 544,5 km Observe que alguns valores são diferentes dos encontrados através da tabela agrupada em classes. Por quê? Porque as medidas calculadas através da tabela usam os pontos médios, que podem não ser os representantes mais fiéis das classes. As medidas calculadas diretamente dos dados originais (antes do agrupamento) são as exatas, e sempre devemos procurar usá-las, calculamos a partir da tabela agrupada em classes apenas se não tivermos acesso aos dados originais. b) Podemos concluir que 50% dos clientes rodam até 499,5 km (mediana) e 50% rodam mais de 499,5 km. O valor típico de quilometragem está entre 499,5 (mediana) e 502,364 km (média). c) Para calcular as medidas de dispersão, vamos usar os dados da tabela agrupada em classes - Intervalo: basta observar o limite superior da última classe e o limite inferior da primeira classe, respectivamente 756 e 286 km; assim, o intervalo vale 756 – 286 = 470 km, ou expresso pelos limites [286, 756] km. - Desvio padrão: é preciso usar a fórmula do desvio padrão para o caso em que os dados estão em uma tabela de freqüências (veja Unidade 4, página 109). (amostra) 1n n fx fx s 2 k 1i iik 1i i 2 i Precisamos encontrar alguns somatórios e o valor de n. Pela tabela da letra a sabemos que n = 250. O resultado k i ii fx 1 já foiencontrado na letra a. Mas resta o resultado k i ii fx 1 2 . Podemos estender a tabela usada na letra a: Classes Freqüências fi Pontos médios xi fi × xi x 2 i fi × x 2 i 18|-- 22 4 309,5 1238 95790,25 383161 22|-- 26 14 356,5 4991 127092,3 1779292 26|-- 30 29 403,5 11701,5 162812,3 4721555 30|-- 34 51 450,5 22975,5 202950,3 10350463 34|-- 38 53 497,5 26367,5 247506,3 13117831 38|-- 42 41 544,5 22324,5 296480,3 12155690 42|-- 46 32 591,5 18928 349872,3 11195912 46|-- 50 20 638,5 12770 407682,3 8153645 50|-- 54 2 685,5 1371 469910,3 939820,5 54|-- 58 4 732,5 2930 536556,3 2146225 Total 250 - 125597 64943595 Agora basta substituir na equação: 0886 1250 250 125597 64943595 1 1 2 2 10 1 10 1 2 2 1 1 2 , n n fx fx n n fx fx s i ii i ii k i iik i ii anos Então o desvio padrão foi de 86,08 km. - Coeficiente de variação percentual: a expressão desta medida está na Unidade 4, página 110 do livro texto. c v s x . .% 100% Basta substituir os valores da média (calculada na letra a) e do desvio padrão para obter o coeficiente de variação percentual: %, , , % x s .%v.c 1317100 388502 0886 100 Então o desvio padrão representa 17,13% da média. Novamente, vamos usar o Excel diretamente para podermos calcular rapidamente os valores das medidas no arquivo AmostraToyord.xls. A variável idade tem seus valores na coluna I, células I2 a I251. Este intervalo deverá ser usado como argumento das várias funções do Excel: DESVPAD(I2:I251) = 84,13 km Pela tabela = 86,08 km MÍNIMO(I2:I251) = 286 km Pela tabela = 286 km MÁXIMO(I2:I251) = 754 km Pela tabela = 756 km INTERVALO = 468 [286, 754] km Pela tabela = 470 [286, 756] km CV% = 16,74% Pela tabela = 17,13% Observe que alguns valores são diferentes dos encontrados através da tabela agrupada em classes, embora as diferenças sejam pequenas neste caso. Da mesma forma que as medidas de posição as de dispersão calculadas através da tabela usam os pontos médios, que podem não ser os representantes mais fiéis das classes. As medidas calculadas diretamente dos dados originais (antes do agrupamento) são as exatas, e sempre devemos procurar usá-las, calculamos a partir da tabela agrupada em classes apenas se não tivermos acesso aos dados originais. d) No presente caso o cv% vale 17,13%, desvio padrão representa menos de 20% da média, podemos afirmar que os dados não estão fortemente concentrados, para que isso ocorresse o cv% deveria ser bem menor, algo em torno de 5%, o que não é o caso, mas também não apresentam a mesma dispersão relativa que a variável anos de remodelação (ver questão 3 desta Unidade) onde o cv% valia 57%. 3) Será que há relação entre a idade dos clientes e o modelo adquirido? Caso fosse identificada uma relação o marketing poderia ser diferenciado por faixa etária. a) Calcule as medidas de síntese de idade em função do modelo (através do Microsoft Excel ). b) Com base nos resultados do item há indício de relacionamento entre as duas variáveis? JUSTIFIQUE! Há um dado perdido de modelo, que portanto precisa ser excluído, assim a amostra passará a ter 249 elementos. a) Temos uma situação com duas variáveis: modelo (qualitativa nominal) e idade (quantitativa discreta, mas com grande número de valores). Podemos usar os procedimentos descritos na seção 2.3.2 do arquivo “Como fazer Análise Exploratória de Dados usando o Microsoft Excel”, disponível no ambiente virtual, para calcular as medidas de síntese de idade em função dos modelos. Lembre-se que é possível apenas obter as medidas mínimo, máximo, média e desvio padrão (e o coeficiente de variação percentual a partir destes), e o resultado será: Modelo Idade Chiconautla Mínimo 18 Máximo 43 Média 32,313 Desvio padrão 5,933 cv% 18,362% DeltaForce3 Mínimo 22 Máximo 51 Média 35,393 Desvio padrão 5,938 cv% 16,778% Valentiniana Mínimo 18 Máximo 55 Média 37,878 Desvio padrão 8,177 cv% 21,587% SpaceShuttle Mínimo 22 Máximo 48 Média 37,833 Desvio padrão 6,739 cv% 17,812% LuxuriousCar Mínimo 31 Máximo 52 Média 41,483 Desvio padrão 5,748 cv% 13,857% TOTAL Mínimo 18 Máximo 55 Média 35,935 Desvio padrão 7,099 cv% 19,754% b) Para avaliar se há relação entre as variáveis devemos observar os resultados das medidas. Se houver relação, as medidas devem se afastar substancialmente dos valores totais do conjunto. - a média total de idade (considerando os 249 clientes da amostra) vale 35,935 anos; as médias de idade para os modelos Chiconaultla, DeltaForce3, Valentiniana e SpaceShuttle são próximas deste valor (32,313, 35,393, 37,878 e 37,883 anos, respectivamente), não chegando aos 3 anos de diferença para mais ou para menos; apenas a média de idade dos proprietários LuxuriousCar é um pouco maior, vale 41,483 anos; não obstante, percebe-se um aumento progressivo da média de idade dependendo do modelo; - o mínimo do conjunto total vale 18 anos, e apenas no modelo LuxuriousCar o mínimo é substancialmente diferente (vale 31, 13 anos acima) - o máximo do conjunto total vale 55 anos, e é verificado nos clientes do modelo Valentiniana, sendo que os proprietários dos modelos DeltaForce3, SpaceShuttle e LuxuriousCar têm idades máximas semelhantes (51, 48 e 52 anos respectivamente); apenas a idade máxima dos clientes de Chiconaultla está um pouco abaixo, pois vale 43 anos; - no que tange à dispersão, avaliando os coeficientes de variação percentual (pois as médias de idade nos modelos são diferentes) podemos ver que o desvio padrão total da idade representa cerca 19,754% da média total; - somente a idade dos proprietários de LuxuriousCar apresenta diferença considerável da dispersão total, o cv% da idade deles vale 13,857% (6% abaixo do total); - para os modelos Chiconaultla, DeltaForce3, Valentiniana e SpaceShuttle os cv% não chegam a se afastar mais de 3% do valor do cv% total (-1,392%, -2,977%, 1,833% e - 1,943% respectivamente). As medidas de síntese de idade por modelo não se afastaram significativamente dos valores totais, com exceção do modelo LuxuriosCar, mas neste caso as diferenças (em todas as medidas) foram substanciais, além de observarmos que as médias de idade vão aumentando progressivamente do modelo Chiconaultla para o LuxuriousCar, o que nos permite concluir que HÁ uma relação entre as duas variáveis. Mas, comparado ao resultado da questão 4 a força do relacionamento não é tão grande, pois as diferenças UNIDADE 5 1) Lâmpadas que se apresentam em perfeitas condições são ensaiadas quanto ao tempo de vida. Um instrumento é acionado no instante em que a lâmpada é acesa, e desliga-se automaticamente quando a mesma apaga (queima), tendo-se assim anotado seu tempo de vida. a) Defina o espaço amostral para este experimento. b) Enumere os seguintes eventos: E1 = o tempo de vida oscila entre 1 semana e 1 mês. E2 = a lâmpada queima antes de 50 dias. E3 = o tempo de vida é superior a 500 horas. E1 E2 E1 E3 Vamos medir o tempo de duração da lâmpada. Ao ligarmos a lâmpada ela pode não funcionar, ou durar um tempo indeterminado. a) = {tempo, tempo 0). b) E1 = {168h tempo 720h} E2 = {tempo < 1200h} E3 = {tempo > 500h} E1 E2 = {168h tempo < 1200h} E1 E3 = {500h < tempo 720h} 2) Você costuma passar em determinado trecho de uma avenida onde existem 4 semáforos: A, B, C e D. Se você observar a ocorrência de sinal aberto/fechado descreva o espaço amostral para este experimento. A = aberto B = aberto C = aberto A = fechado B = fechado C = fechado Há 3 semáforos, o espaço amostral precisa incluir todas as combinações possíveis: CBACBACBACBA CBACBACBACBA 3) Quais dos seguintes pares de eventos são mutuamente exclusivos: Evento A Evento B a) Chover Não chover b) Obter conceito B em química Obter conceito C em química c) Dirigir um carro Andar a pé d) Dirigir um carro Falar e) Nadar Sentir frio f) Ganhar o jogo de futebol Perder o jogo de futebol g) Extrair uma dama do baralho Extrair uma carta vermelha do baralho h) Obter face cara ao lançar uma moeda Obter face coroa ao lançar uma moeda Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981, páginas 60-61. Dois eventos são mutuamente exclusivos quando não podem ocorrer simultaneamente. Os eventos das letras a, b, c, f e h são mutuamente exclusivos. 4) Seja o experimento aleatório lançamento de dois dados, e observação da soma das faces. a) Determine o Espaço Amostral associado ao experimento. b) Enumere os seguintes eventos: b.1 – Soma das faces menor ou igual a 5. b.2 – Soma das faces par. b.3 – Soma das faces ímpar. b.4 – Complementar do evento definido em b.1. b.5- Intersecção entre os eventos definidos em b.2 e b.4. b.6 – Soma das faces menor ou igual a 1. c) Você acha que TODOS os resultados do Espaço Amostral têm a mesma chance de ocorrer? Por quê? Neste caso temos interesse na SOMA das faces. a) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} b) b.1 E1 = {2, 3, 4, 5} b.2 E2 = {2, 4, 6, 8, 10, 12} b.3 E3 = {3, 5, 7, 9, 11} b.4 1E = {6, 7, 8, 9, 10, 11, 12} b.5 12 EE = {6, 8, 10, 12} b.6 E4 = c) Não. As somas 6, 7, e 8 têm maior probabilidade de ocorrer por haver maior número de combinações de faces. 5) Seja o experimento aleatório a observação das peças produzidas por uma linha de montagem e a contagem do número de defeituosas. a) Determine o Espaço Amostral associado ao experimento. b) Enumere os seguintes eventos: b.1 – Nenhuma peça defeituosa. b.2 – Mais de duas peças defeituosas. b.3 – Ao menos uma peça defeituosa. b.4 – Complementar do evento definido em b.1. b.5 – Intersecção entre os eventos definidos em b.2 e b.3. b.6 – Complementar do evento definido em b.2. b.7 – Intersecção entre os eventos definidos em b.4 e b.6. a) = {0, 1, 2, ...} Se não conhecemos o número total de peças produzidas o espaço amostral é infinito numerável. b) b.1 E1 = {0} b.2 E2 = {3, 4, ...} b.3 E3 = {1, 2, 3, ...} b4 E4 = 1E = {1, 2, 3, ...} b.5 E5 = 32 EE = {3, 4, ...} = E2 b.6 E6 = 2E = {0, 1, 2} b.7 E7 = 2164 EEEE = {1, 2} 6) Numa urna com 10 bolas numeradas de 1 a 10, extrair aleatoriamente uma bola e observar seu número. a) Construa um modelo probabilístico para o experimento: determine o Espaço Amostral e as probabilidades de ocorrência de cada um dos resultados. b) Enumere os seguintes eventos: b.1 – Número par. b.2 – Número ímpar. b.3 – Número menor que 3. b.4 – Intersecção dos eventos definidos em b.1 e b.2. b.5 – Intersecção dos eventos definidos em b.1 e b.3. b.6 – Intersecção dos eventos definidos em b.2 e b.3. Adaptado de BARBETTA, P. A. Estatística Aplicada às Ciências Sociais. 6ª ed. Florianópolis: Ed. da UFSC, 2006. a) = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} Como há apenas uma retirada supomos que cada bola tem a mesma chance de ser selecionada: P(1) = P(2) = ... = P(10) = 1/10. b) b.1 E1 = {2, 4, 6, 8} b.2 E2 = {1, 3, 5, 7, 9} b.3 E3 = {1, 2} b.4 E4 = 21 EE = b.5 E5 = 31 EE = {2} b.6 E7 = 32 EE = {1} 7) Seja uma família sorteada de uma população de 120 famílias, as quais se distribuem conforme a seguinte tabela: Distribuição conjunta de freqüências do grau de instrução do chefe da casa e uso de programas de alimentação popular, em um conjunto de 120 famílias. Uso de programas Grau de instrução do chefe da casa Total Nenhum 1 º Grau 2 º Grau Sim 31 22 25 78 Não 7 16 19 42 Total 38 38 44 120 Calcule a probabilidade da família sorteada ser: a) Usuária de programas de alimentação popular. (R.: 78/120) b) Tal que o chefe da casa tenha o 2 o grau. (R.: 44/120) c) Tal que o chefe da casa não tenha o 2 o grau. (R.: 76/120) d) Usuária de programas de alimentação popular e o chefe da casa ter o 2 º grau. (R.: 25/120) e) Usuária de programas de alimentação popular e o chefe da casa não ter o 2 º grau. (R.: 53/120) f) Usuária de programas de alimentação popular, considerando que o sorteio tenha sido restrito às famílias cujo chefe da casa tenha o 2 º grau. (R.: 25/44) g) Tal que o chefe da casa tenha o 2 º grau, considerando que o sorteio tenha sido restrito às famílias usuárias de programas de alimentação popular. (R.: 25/78) Adaptado de BARBETTA, P. A. Estatística Aplicada às Ciências Sociais. 6ª ed. Florianópolis: Ed. da UFSC, 2006. Use as freqüências da tabela para obter o número de resultados associados aos eventos. a) P(usa programa) = 78/120 b) P(2º grau) = 44/120 c) )ograu(P 2 (1-P2 o grau)76/120 d) P(usa programa 2º grau) = 25/120 e) 12022120312 //)ograuprogramausa(P f) P(usa programa | 2º grau) = P(usa programa 2º grau)/ P(2º grau) = (25/120)/(44/120) = 25/44 g) P(2º grau | usa programa) = P(2º grau usa programa)/ P(usa programa) = (25/120)/(78/120) = 25/78 8) Há 50 bolas numa urna: 20 azuis, 15 vermelhas, 10 laranjas e 5 verdes. Misturam-se as bolas e extrai-se aleatoriamente uma delas. Calcule a probabilidade da bola escolhida ser: a) Verde (R.: 0,1) b) Azul (R.: 0,4) c) Azul OU Verde (R.: 0,5) d) Não – Vermelha (R.: 0,7) Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981, página 67. a) P(verde) = nverde/n = 5/50 b) P(azul) = nazul/n = 20/50 c) P(azul verde) = P(azul) + P(verde) = 20/50 + 5/50 = 25/50 (azul e verde são mutuamente exclusivos). d) )vermelha(P = 1 – P(vermelha) = 1 – 15/50 = 35/50 9) João aguarda com ansiedade o resultado de duas provas que acaba de fazer. Ele estima em 0,80 a probabilidade de obter conceito A em TGA, e em 0,40 a probabilidade de obter A em Matemática Financeira. Calcule as seguintes probabilidades: a) Obter A em ambas as provas. b) Não obter A em nenhum das duas provas. c) Obter A em TGA e não obter em Matemática Financeira. Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981, página 75. P(A em TGA) = 0,8 P(Não A em TGA) = 0,2 P(A em Mat.) = 0,4 P(Não A em Mat.) = 0,6 a) P(A em TGA A em Mat.) = P(A em TGA) × P(A em Mat.) = 0,8 × 0,4 = 0,32 (eventos independentes) b) P(Não A em TGA Não A em Mat.) = P(Não A em TGA) × P(Não A em Mat.) = 0,2 × 0,6 = 0,12 (novamente, os eventos são independentes). c) P(A em TGA Não A em Mat.) = P(A em TGA) × P(Não A em Mat.) = 0,8 × 0,6 = 0,48 (novamente os eventos são independentes). UNIDADE 6 1) Uma faculdade contrata os 4 próximos funcionários sem distinção de sexo e o conjunto de candidatos é grande, com números iguais de homens e mulheres. A tabela a seguir apresenta uma distribuição que a faculdade afirma ser a distribuição de probabilidades do número X de mulheres contratadas: x 0 1 2 3 4 P(x) 0,0625 0,2500 0,3750 0,2500 0,0625 a) Esta distribuição pode realmente ser considerada uma distribuição de probabilidades? Por quê? b) Caso a resposta do item anterior seja positiva, calcule a média, variância e o desvio padrão do número X de mulheres contratadas. Adaptado de TRIOLA, M. Introdução à Estatística, Rio de Janeiro: LTC, 1999, página 97. a) Sim, a soma das respostas é igual a 1,0. b) Média = )x(px ii = (0 × 0,0625) + (1 × 0,25) + (2 × 0,375) + (3 × 0,25) + (4 × 0,0625) = 2,0 Variância = 22 )x(px)x(px iiii = 0,125 Desvio padrão = 35301250variância ,, 2) Ao avaliar riscos de crédito um banco investiga o número de cartões de crédito que a pessoa tem. Com X sendo o número de cartões de crédito que os adultos possuem. A tabelaa seguir apresenta o que se considera ser uma distribuição de probabilidades de X: x 0 1 2 3 4 5 6 7 P(x) 0,26 0,16 0,12 0,09 0,07 0,09 0,07 0,14 a) Esta distribuição pode realmente ser considerada uma distribuição de probabilidades? Por quê? b) Caso a resposta do item anterior seja positiva, calcule a média, variância e o desvio padrão do número X de cartões de créditos. Adaptado de TRIOLA, M. Introdução à Estatística, Rio de Janeiro: LTC, 1999, página 97. a) Sim, a soma das probabilidades é igual a 1. b) Média = )x(px ii = 2,8 Variância = 22 )x(px)x(px iiii = 6,36 Desvio padrão = 522366variância ,, 3) Um empreiteiro faz as seguintes estimativas para a execução de uma obra: Prazo de execução 10 15 22 Probabilidade 0,3 0,2 0,5 a) Qual é o prazo esperado para a execução da obra, de acordo com essas estimativas? Interprete este resultado. b) Qual é o desvio padrão do prazo para a execução da obra? a) E(X) = )x(px ii = (10 × 0,3) + (15 × 0,2) + (22 × 0,5) =17 dias (centro de massa) b) V(X) = 22 )x(px)x(px iiii = (102 × 0,3) + (152 × 0,2) + (222 × 0,5) – 172 = 28 dias 2 . Desvio padrão = V(X) = 5,29 dias. 4) No berçário de uma maternidade há 8 recém-nascidos. Qual a probabilidade de que: a) todos sejam homens. b) pelo menos um seja mulher. c) exatamente 3 sejam homens. d) ao menos 3 sejam homens. e) Qual é a média do número de recém-nascidos homens? f) Qual é o valor mais provável da variável número de recém-nascidos homens? Podemos definir a variável aleatória X = número de recém-nascidos homens, que pode assumir os valores: 0, 1, 2, 3, 4, 5, 6, 7, 8. Como não há nenhuma informação prévia podemos considerar que a probabilidade de que o recém-nascido seja homem é 0,5, e de que seja mulher é o seu valor complementar, também 0,5. Podemos também considerar que os sexos dos recém-nascidos são independentes. a) P(X = 8) = P(8 homens) = P(1º H 2º H 3º H 4º H 5º H 6º H 7º H 8º H) = = 0,5 × 0,5 × 0,5 × 0,5 × 0,5 × 0,5 × 0,5 × 0,5 = 0,5 8 = 0,0039 b) P(pelo menos uma mulher) = P(X 7) = 1- P(X > 7) = 1- P(X = 8) = 1- 0,0039 = 0,9961 c) P(exatamente 3 homens). Então 3 serão homens e 5 serão mulheres: de quantas maneiras diferentes podemos ter uma seqüência de 8 recém-nascidos em que 3 são homens? Podemos resolver por combinações: C8,3. Este valor será multiplicado pelas probabilidades de que 3 sejam homens e 5 sejam mulheres: P(X = 3) = C8,3 × P(1º H 2º H 3º H 4º M 5º M 6º M 7º M 8º M) (esta é apenas uma das combinações possíveis, e lembre-se que os eventos são independentes): P(X = 3) = C8,3 × 0,5 3 × 0,5 5 = 0,21875. d) P(ao menos 3 homens) = P(X 3) = 1 – P(X < 3) = 1- P(X = 0) – P(X = 1) – P(X = 2). Para encontrar P(X = 1) e P(X = 2) precisamos usar um raciocínio semelhante ao visto na letra c: precisamos encontrar C8,1 e C8,2. Posteriormente, obter as probabilidades associadas às seqüências com 1 ou 2 homens. P(X = 1) = C8,1 × P(1º H 2º M 3º M 4º M 5º M 6º M 7º M 8º M) (esta é apenas uma das combinações possíveis, e lembre-se que os eventos são independentes): P(X = 1) = C8,1 × 0,5 1 × 0,5 7 P(X = 2) = C8,2 × P(1º H 2º H 3º M 4º M 5º M 6º M 7º M 8º M) (esta é apenas uma das combinações possíveis, e lembre-se que os eventos são independentes): P(X = 2) = C8,2 × 0,5 2 × 0,5 7 P(X = 0) = P(8 mulheres) = P(1º M 2º M 3º M 4º M 5º M 6º M 7º M 8º M) = 0,58 Então: P(X 3) = 1 - 0,58 - C8,1 × 0,5 1 × 0,5 7 - C8,2 × 0,5 2 × 0,5 7 = 0,855468 e) Para calcular a média (valor esperado) é preciso obter as probabilidades associadas a cada valor de X, e então usar a expressão do problema 31, letra a. Vamos obter que a média vale 4. f) O valor de X que apresentará a maior probabilidade será 4, que será o valor mais provável. Neste caso, valor mais provável e média coincidiram, mas isso NEM SEMPRE ocorre. 5) Classifique cada uma das variáveis aleatórias a seguir como discreta ou contínua. JUSTIFIQUE sua resposta. a) Alturas em metros dos alunos do curso de Economia da UFSC. b) Número de dias em que o IBOVESPA apresentou baixa em um ano. c) Número de automóveis que passam por um posto da Polícia Rodoviária em uma hora. d) Safra de grãos produzida no Brasil em um ano, medida em toneladas. e) Lucro de uma empresa em um mês. a) Contínua, medida em metros, pode assumir inúmeros valores. b) Discreta, varia de 0 a 230. c) Discreta, podemos ter 0, 1, 2, ... carros. d) Contínua, medida em toneladas, pode assumir inúmeros valores. e) Contínua, medido em unidades monetárias (com centavos) pode assumir inúmeros valores. 6) Uma empresa está trabalhando em 4 projetos independentes, A, B, C e D, com lucros esperados de $4000, $5000, $10000, $20000, e desvios padrões de $100, $200, $300 e $400 respectivamente. a) Determine o lucro esperado total destes quatro projetos e o desvio padrão total. b) Se os projetos NÃO fossem independentes você poderia resolver o item a? Justifique sua resposta. Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981, página 101. Se 2 variáveis aleatórias X e Y são independentes então: E(X + Y) = E(X) + E(Y) e V(X + Y) = V(X) + V(Y) a) Lucro esperado total = 4000 + 5000 + 10000 + 20000 = 39000 Desvio padrão total = 2222 400300200100total variância = 547,72 b) Não, porque para calcular a variância total é preciso haver independência entre as variáveis, para que possamos somar suas variâncias individuais. UNIDADE 7 1) Em um sistema de transmissão de dados existe uma probabilidade igual a 0,05 de um dado ser transmitido erroneamente. Ao se realizar um teste para analisar a confiabilidade do sistema foram transmitidos 20 dados. a) Qual é o modelo teórico mais adequado para este caso? Por quê? b) Qual é a probabilidade de que tenha havido erro na transmissão? c) Qual é a probabilidade de que tenha havido erro na transmissão de exatamente 2 dados? d) Qual é o número esperado de erros no teste realizado? a) Binomial: cada realização tem apenas 2 resultados possíveis, o número de realizações é conhecido, e a probabilidade de sucesso é suposta constante (pois não há nenhuma informação em contrário). n = 20 p = 0,05 b) P(X>0) = 1 – P(X = 0) = 1 – C20,0 × 0,05 0 × 0,95 20 = 0,6415 c) P(X = 2) = C20,2 × 0,05 2 × 0,95 18 = 0,1886 d) E(X) = n × p = 20 × 0,05 = 1 erro. 2) Suponha que você vai fazer uma prova de TGA com 10 questões do tipo verdadeiro-falso. Você nada sabe sobre o assunto e vai responder as questões por adivinhação. a) Qual é o modelo probabilístico mais adequado para calcular as probabilidades de acertar um número X de questões dentre as 10? Por quê? b) Qual é a probabilidade de acertar pelo menos 8 questões? Adaptado de DOWNING, D. e CLARK, J.. Estatística Aplicada, São Paulo: Saraiva, 2000, página 139. a) Binomial: ver motivos em 1 a). n = 10 p = 0,5 b) P(X 8) = P(X = 8) + P(X = 9) + P(X = 10) = C10,8 × 0,5 8 × 0,5 2 + C10,9 × 0,5 9 × 0,5 1 + C10,10 × 0,5 10 × 0,5 0 = 0,05648 3) Um revendedor de automóveis novos constatou que 80% dos carros vendidos são devolvidos ao departamento mecânico para corrigir defeitos de fabricação, nos primeiros 25 dias após a venda. De 11 carros vendidos há interesse em calcular as probabilidades de que o número de automóveis que retornam para reparo seja 0, 1, 2, etc. a) Qual é o modelo teórico mais adequado para este caso? Por quê? b) Qual é a probabilidade de que todos voltem dentro de 25 dias para reparo? c) Qual é a probabilidade de que nenhum volte?) d) Uma organização de consumidores pretende processar o revendedor, e a fábrica dos automóveis, se a probabilidade de que a maioria deles (dentre os 11 vendidos) retornar para reparoseja superior a 75%. O revendedor e fábrica devem se preocupar com o processo? e) Qual é o número esperado de automóveis que retornarão para reparos? Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981, página 108. a) Binomial: ver motivos em 1 a). n = 11 p = 0,8 b) P(X = 11) = C11,11 × 0,8 11 × 0,2 0 = 0,085899 c) P(X = 0) = C11,0 × 0,8 0 × 0,2 11 = 0,0000002 d) P(X 6) = P(X = 6) + P(X = 7) + P(X = 8) + P(X = 9) + P(X = 10) + P(X =11) = C11,6 × 0,8 6 × 0,2 5 + C11,7 × 0,8 7 × 0,2 4 + C11,8 × 0,8 8 × 0,2 3 + C11,9 × 0,8 9 × 0,2 2 + C11,10 × 0,8 10 × 0,2 1 + C11,11 × 0,8 11 × 0,2 0 = 0,98834 Como P(X 6) > 0,75, a associação deve processar o fabricante. e) E(X) = n × p = 11 × 0,8 = 8,8 carros. 4) Em uma fábrica 3% dos artigos produzidos são defeituosos. O fabricante pretende vender 4000 peças recebendo 2 propostas: Proposta 1: o comprador A examina uma amostra de 80 peças e pagará $60 por peça, se houver 3 ou menos defeituosas, caso contrário pagará $30 por peça apenas. Proposta 2: o comprador examina 40 peças e está disposto a pagar $65 por peça, se todas forem perfeitas, porém pagará $20 por peça se houver alguma peça defeituosa. Qual é a melhor proposta? Por quê? Proposta 1 versus Proposta 2 Binomial: p = 0,03 Proposta 1 – n = 80 P(X 3) = P(X = 0) + P(X = 1) + P(X = 2) + P(X =3) = C80,0 × 0,03 0 × 0,97 80 + C80,1 × 0,03 1 × 0,97 79 + C80,2 ×0,03 2 ×0,97 78 + C80,3 ×0,03 3 ×0,97 77 = 0,78066 Proposta 2 – n = 40 P(X = 0) = C40,0 ×0,03 0 ×0,97 40 = 0,29571 Proposta Lote P(Aceitar) P(Rejeitar) Lucro 1 4000 0,78066 0,21934 60 se aceitar, 30 se não 2 4000 0,29571 0,70249 65 se aceitar, 20 se não E(Lucro1) = (4000 × 60 × 0,78066) + (4000 × 30 × 0,21934) = 213679,20 E(Lucro2) = (4000 × 65 × 0,29571) + (4000 × 20 × 0,70249) = 133227,80 Escolhe-se a proposta 1 pois tem o maior lucro esperado. 5) Uma comissão responsável pelo recebimento de equipamentos em uma empresa faz testes em equipamentos selecionados aleatoriamente dentre os que chegam. Para avaliar uma determinada marca de transformadores de pequeno porte, a comissão selecionou aleatoriamente 18 dentre os que chegaram e classificará a marca como satisfatória se não existir nenhum defeituoso nesta amostra. Sabe-se que a produção destes equipamentos apresenta um percentual de 6% de defeituosos. a) Qual é a probabilidade de que a marca venha a ser considerada satisfatória? b) Qual é a probabilidade de que no máximo uma amostra, de um grupo de 8 amostras destes transformadores (cada amostra com 18 transformadores) seja considerada satisfatória? a) Binomial, n = 18, p = 0,06 P(X = 0) = C18,0 ×0,06 0 ×0,94 18 = 0,3283 b) Binomial, novo p = 0,3283, novo n = 8 P(X 1) = P(X = 0) + P(X = 1) = C8,0 ×0,3283 0 ×0,6717 8 + C8,1 ×0,3283 1 ×0,6717 7 = 0,2035 6) Em um estudo de reconhecimento de marca, 95% dos consumidores reconheceram o refrigerante “Guaranazinho”. Mas, dentre 15 consumidores selecionados ao acaso apenas 10 reconheceram a marca. a) Determine a probabilidade de obter no máximo 10 consumidores que reconheceram “Guaranazinho” dentre os 15 selecionados. b) Você acha que o resultado possa ser conseqüência de mero acaso? c) Suponha que será realizada uma nova pesquisa com 1200 pessoas. Determine a média e o desvio padrão do número de consumidores que reconhecem “Guaranazinho”. Adaptado de TRIOLA, M. Introdução à Estatística, Rio de Janeiro: LTC, 1999, páginas 104 e 107. Binomial n = 15 p = 0,95 a) P(X 10) = 1 – P(X > 10) = 1 – P(X = 11) – P(X = 12) – P(X = 13) – P(X = 14) – P(X = 15) = 1 - C15,11 ×0,95 11 ×0,05 4 - C15,12 ×0,95 12 ×0,05 3 - C15,13 ×0,95 13 ×0,05 2 - C15,14 ×0,95 14 ×0,05 1 - C15,15 ×0,95 15 ×0,05 0 = 0,0006146 b) Não, a probabilidade é muito baixa. c) Novo n = 1200 p = 0,95 E(X) = n × p = 1200 × 0,95 = 1140 Desvio padrão 55705095012001 ,,,)p(pn 7) Certo pequeno município de SC relata que em média nascem 2,25 crianças por dia. Argumentam que tal taxa justificaria a instalação de um hospital com maternidade no local. O governo do estado, com problemas de caixa declara que somente se a probabilidade de nascerem mais de 2 crianças por dia for superior a 50% o hospital será instalado. Calcule as probabilidades apropriadas e responda se o hospital deve ser instalado? Adaptado de TRIOLA, M. Introdução à Estatística, Rio de Janeiro: LTC, 1999, página 109. Poisson = 2,25 crianças/dia t = 1 dia × t = 2,25 × 1 = 2,25 crianças P(X > 2) = 1 – P(X 2) = 1- P(X = 0) – P(X = 1) – P(X = 2) = ! ),(e ! ),(e ! ),(e ,,, 2 252 1 252 0 252 1 225212520252 = 1 – 0,60933 = 0,39067 O hospital não deve ser instalado: P(X > 2) < 0,5. 8) O sistema de atendimento utilizado por uma central telefônica possui telefonistas para atender às chamadas dos usuários. Uma certa telefonista recebe em média 0,20 chamadas por minuto, durante um turno de trabalho de 6 horas consecutivas. Qual é a probabilidade de que esta telefonista: a) receba exatamente 3 chamadas nos primeiros 10 minutos? b) nos primeiros 10 minutos receba no mínimo 5 chamadas? c) na primeira hora receba 10 chamadas? d) no turno completo receba no máximo 5 chamadas? e) Qual é a média de chamadas em meia hora e em um turno completo? Poisson = 0,20 chamadas/minuto a) t = 10 minutos × t = 0,2 × 10 = 2 chamadas P(X = 3) = !3 )2(e 32 = 0,1804 b) t = 10 minutos × t = 0,2 × 10 = 2 chamadas P(X ≥ 5) = 1 – P(X < 5) = 1 – P(X = 0) – P(X = 1) – P(X = 2) – P(X = 3) – P(X = 4) = !4 )2(e !3 )2(e !2 )2(e !1 )2(e !0 )2(e 1 4232221202 = 0,0526 c) t = 60 minutos × t = 0,2 × 60 = 12 chamadas P(X = 10) = !10 )12(e 1012 = 0,1048 d) t = 360 minutos × t = 0,2 × 360 = 72 chamadas P(X ≤ 5) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5) = !5 )72(e !4 )72(e !3 )72(e !2 )72(e !1 )72(e !0 )72(e 572472372272172072 0 e) Meia hora t = 30 minutos E(X) = × t = 0,2 × 30 = 6 chamadas. Turno completo t = 360 minutos E(X) = × t = 0,2 × 360 = 72 chamadas. 9) Certa peça de plástico de 10 cm 3 é considerada defeituosa se aparecerem 2 ou mais defeitos. Os defeitos podem ser por impurezas ou por bolhas. Em média aparecem 0,005 impurezas por 1 cm 3 e 0,3 bolhas por 2 cm 3 . a) Qual é a probabilidade de um peça ser considerada defeituosa? b) Em um grupo de 3 peças qual é a probabilidade de haver no máximo uma peça defeituosa? c) O custo de produção por peça é de $5, sendo que, se a peça é considerada defeituosa, ela volta para ser transformada em matéria prima, caso contrário é vendida por $10. c.1 Qual é o valor esperado do lucro para este tipo de peça? c.2 Em 1500 peças produzidas qual é o lucro esperado? Poisson Impurezas => = 0,005/cm3 Bolhas => = 0,15/cm3 t = 10 cm3. a) A peça é considerada defeituosa se apresentar 2 ou mais defeitos, sejam eles por impurezas ou bolhas isoladamente, ou qualquer combinação possível deles. Como os defeitos são independentes podemos somar suas taxas de ocorrência e obter a taxa combinada de defeitos: = impurezas + bolhas = 0,005 + 0,15 = 0,155 defeitos/cm3. Como t = 10 cm3, então × t = 0,155 × 10 = 1,55 defeitos. P(peça defeituosa) = P(X ≥ 2) = 1 – P(X < 2) = 1 – P(X = 0) – P(X = 1) = !1 )55,1(e !0 )55,1(e 1 155,1055,1 =1 – 0,5411 = 0,4589 b) Binomial n = 3 p = 0,4589 P(X ≤ 1) = P(X = 0) + P(X = 1) = C3,0 ×0,4589 0 ×0,5411 3 +C3,1 ×0,4589 1 ×0,5411 2 = 0,5615 c) c.1 – P(Defeito) = 0,4589 => Lucro = -5 P(Sem defeito) = 0,5411 => Lucro = 10 – 5 = 5 E(Lucro) = (-5 × 0,4589) + (5 ×0,5411) = 0,411 c.2 – E(Lucro em 1500 peças) = 1500 × E(Lucro) = 1500 × 0,411 = 616,5 10) Trace uma curva normal e sombreie a área desejada, obtendo então as probabilidades a) P(Z > 1,0) b) P(Z < 1,0) c) P(Z > -0,34) d) P(0 < Z < 1,5) e) P(-2,88 < Z < 0) f) P(-0,56 < Z < -0,20) g) P(-0,49 < Z < 0,49) h) P(2,5 < Z < 2,8) i) P(Z < -0,2) j) P(Z > -0,2) k) P(-0,2 < Z < 0) l) P(-0,2 < Z < 0,4) a) No gráfico abaixo P(Z>1,0) b) No gráfico abaixo P(Z < 1,0) c) No gráfico abaixo P(Z>-0,34) 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z A área sombreada corresponde a P(Z>1,0). Esta probabilidade pode ser obtida diretamente da tabela: P(Z> 1,0) = 0,1587 A área sombreada corresponde a P(Z<1,0). Esta probabilidade NÃO pode ser obtida diretamente da tabela. Mas pelas propriedades de probabilidade sabemos que: P(Z<1,0) = 1 – P(Z≥1,0). Esta última probabilidade pode ser obtida diretamente da tabela, e é igual à probabilidade encontrada no item a (P(Z>1,0)), pois Z é uma variável aleatória contínua. Então: P(Z< 1,0) = 1 – P(Z>1,0) = 1 - 0,1587 = 0,8413 d) No gráfico abaixo P(0 < Z < 1,5) e) No gráfico abaixo P(-2,88 < Z < 0) f) No gráfico abaixo P(-0,56<Z<-0,2) 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0, 5 1 1, 5 1, 99 2, 49 2, 99 3, 49 3, 99 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z A área sombreada corresponde a P(Z>- 0,34). Esta probabilidade NÃO pode ser obtida diretamente da tabela, pois o Z é negativo. Mas pelas propriedades de probabilidade sabemos que: P(Z>-0,34) = 1 – P(Z<-0,34). E devido à simetria da distribuição normal padrão em relação à média zero: P(Z<-0,34) = P(Z>0,34), e esta última probabilidade pode ser obtida da tabela. Então: P(Z>-0,34) = 1 – P(Z>0,34) = 1 – 0,3669 = 0,6331 Para obter a probabilidade de Z estar entre 0 e 1,5 basta obter a probabilidade de Z ser maior do que zero e subtrair a probabilidade de Z ser maior do que 1,5: o resultado será exatamente a probabilidade do intervalo procurado. P(0 < Z < 1,5) = P(Z>0) – P(Z>1,5) = 0,5 – 0,0668 = 0,4332 Esta probabilidade foi facilmente obtida por que os valores de Z são ambos positivos. Podemos usar um raciocínio semelhante ao da letra d): P(-2,88<Z<0) = P(Z<0) – P(Z<-2,88). A probabilidade P(Z<0) é igual a P(Z>0), mas P(Z<-2,88) não pode ser obtida diretamente da tabela. Contudo, devido à simetria da distribuição normal padrão em relação à média zero: P(Z<-2,88) = P(Z>2,88). Então: P(-2,88<Z<0) = P(Z>0) – P(Z>2,88) = 0,5 – 0,0020 = 0,4980 O valor de Z -2,88 é “invisível” no gráfico ao lado devido à grande distância da média (2,88 desvios padrões). Podemos usar um raciocínio semelhante ao da letra e, tendo em mente que os dois valores que definem o intervalo são negativos, e que há simetria da distribuição normal padrão em relação à média zero: P(-0,56<Z<-0,2)= P(Z>0,2) – P(Z>0,56) = 0,4207 – 0,2877 = 0,133 g) No gráfico abaixo P(-0,49 < Z < 0,49) h) No gráfico abaixo P(2,5 <Z < 2,8) i) No gráfico abaixo P(Z<-0,2) 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0, 5 1 1, 5 1, 99 2, 49 2, 99 3, 49 3, 99 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z Usemos um raciocínio semelhante ao das letras d e e, mas agora os valores que definem o intervalo têm sinais diferentes, mas são iguais em módulo, isto é estão à mesma distância da média (zero). Sendo assim, P(Z>0,49) = P(Z<-0,49), devido à simetria da distribuição normal padrão em relação à média. Recordando que a probabilidade de ocorrência de um evento é igual a 1 menos a probabilidade do seu complementar, então: P(-0,49<Z<0,49) = 1- 2 × P(Z>0,49) = 1 – 2 × 0,3121 = 0,3758 Usando um raciocínio semelhante ao da letra d, basta obter a probabilidade de Z ser maior do que 2,5 e subtrair a probabilidade de Z ser maior do que 2,8: o resultado será exatamente a probabilidade do intervalo procurado. P(2,5< Z < 2,8) = P(Z>2,5) – P(Z>2,8) = 0,0062 – 0,0026 = 0,0036 Esta probabilidade foi facilmente obtida por que os valores de Z são ambos positivos. O valor obtido é pequeno, pois o intervalo está a mais de 2 desvios padrões da média. A probabilidade procurada não pode ser obtida diretamente da tabela: esta define as probabilidades de Z ser MAIOR do que um certo valor. Entretanto, devido à simetria da distribuição normal padrão em relação à média zero: P(Z<-0,2) = P(Z>0,2) = 0,4207 j) No gráfico abaixo P(Z>-0,2) k) No gráfico abaixo P(-0,2<Z<0) l) No gráfico abaixo P(-0,2<Z<0,4) 11) Determine os valores de z1 que correspondem às seguintes probabilidades: 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0, 5 1 1, 5 1, 99 2, 49 2, 99 3, 49 3, 99 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0, 5 1 1, 5 1, 99 2, 49 2, 99 3, 49 3, 99 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0, 5 1 1, 5 1, 99 2, 49 2, 99 3, 49 3, 99 Z A probabilidade procurada não pode ser obtida diretamente da tabela, pois Z aqui é negativo. Entretanto, devido à simetria da distribuição normal padrão em relação à média zero, e usando a propriedade do evento complementar: P(Z>-0,2) = 1-P(Z>0,2) = 1-0,4207 = 0,5793 Podemos usar o raciocínio da letra e. A probabilidade P(Z<0) é igual a P(Z>0), mas P(Z<-0,2) não pode ser obtida diretamente da tabela. Contudo, devido à simetria da distribuição normal padrão em relação à média zero: P(Z<-0,2) = P(Z>0,2). Então: P(-0,2<Z<0) = P(Z>0) – P(Z>0,2) = 0,5 – 0,4207 = 0,0793 Usemos um raciocínio semelhante ao da letra g, mas os valores que definem o intervalo têm sinais e valores diferentes. Mas, devido à simetria da distribuição normal padrão em relação à média: P(Z<-0,2) = P(Z>0,2). Recordando que a probabilidade de ocorrência de um evento é igual a 1 menos a probabilidade do seu complementar, então: P(-0,2<Z<0,4) = 1- P(Z>0,2) - P(Z>0,4) = 1 – 0,4207 – 0,3446 = 0,2347 a) P(Z > z1) = 0,0505 b) P(Z > z1) = 0,0228 c) P(Z < z1) = 0,0228 d) P(0 < Z < z1) = 0,4772 e) P(-z1 < Z < z1) = 0,95 f) P(Z < z1) = 0,0110 g) P(Z < z1) = 0,0505 h) P(Z < z1) = 0,5 i) P(-z1 < Z < z1) = 0,6825 j) P(-z1 < Z < z1) = 0,9544 Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981, página 151. Neste exercício devemos procurar pelas probabilidades informadas na tabela e então encontrar os valores de Z correspondentes. Se não for possível encontrar o valor
Compartilhar