Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 1 – INTRODUÇÃO 1.1 – O que é Estatística? A Estatística é um ramo científico relacionado à obtenção de informações a partir de dados numéricos e ao emprego dessas informações para efetuar inferências a respeito de uma população, a partir da qual os dados são coletados. O estatístico estuda procedimentos inferenciais, sempre visando obter o melhor processo de realizar previsões ou tomar decisões a respeito de uma dada situação e, mais importante que isso, o estatístico obtém informações a respeito da boa qualidade de um procedimento inferencial. Ou resumindo: a Estatística é uma metodologia de coleta, sistematização, descrição, análise, apresentação e interpretação de dados, para a tomada de decisões. Basicamente, temos dois ramos de Estatística: Estatística Descritiva ou Dedutiva: conjunto de técnicas destinadas à síntese dos dados. Estatística Inferencial ou Indutiva: técnicas segundo as quais são tomadas decisões sobre uma população com base na observação de uma amostra. 1.2 – A Estatística nas Ciências Econômicas Por meio de sondagem, de coleta de dados e de recenseamento de opiniões, podemos conhecer a realidade geográfica e social, os recursos naturais, humanos e financeiros disponíveis, além das expectativas da comunidade. Esse conhecimento é fundamental para uma análise de conjuntura estruturada e fundamentada. As Ciências Econômicas têm fundamentos quantitativos e a Estatística contribui para a formulação matemática das teorias econômicas. 1.3 – A Estatística e as empresas A formação do profissional que trabalhará nas empresas do futuro deve ser centrada numa perspectiva política, social e cultural, possibilitando uma interpretação crítica do mundo, compreendendo a leitura e a escrita de dados estatísticos como produtos de uma prática social, na qual o sujeito e a educação precedem a escolarização. Por isso, possível afirmar que a inserção de determinados mecanismos no cotidiano das pessoas refletem diretamente na gestão empresarial, que deve se adaptar a uma sociedade iminentemente tecnológica, caracterizada pelo acúmulo de informações. 1.4 – Conceitos Básicos Planejamento estatístico O planejamento estatístico é composto de diversas fases, as quais devem ser estudadas isoladamente e em conjunto. Com base no objetivo da pesquisa, o primeiro passo é a identificação da população e das variáveis que serão medidas. Feito isso, é preciso decidir se a pesquisa se dará por meio de um censo ou por amostragem. Segue-se a coleta dos dados, que 2 posteriormente devem ser organizados e sintetizados. Faz-se, então, o cálculo das estatísticas ou parâmetros relativos aos dados coletados. Esses resultados obtidos, em conjunto com gráficos e tabelas, já possibilitam uma análise preliminar. Se a pesquisa foi feita com base em uma amostra, o que ocorre na maioria dos casos, é preciso extrapolar os resultados para a população, considerando-se a incerteza e a possibilidade de erro, que são mensurados com o auxílio da teoria de probabilidades. Os testes de hipóteses permitirão a interpretação dos resultados e a sua análise final poderá então ser feita, possibilitando uma posterior tomada de decisão. Todo esse processo pode ser simplificadamente expresso pelo fluxo a seguir: No fluxograma acima, a cor verde indica procedimentos de estatística descritiva e a cor laranja indica os procedimentos de estatística inferencial. População: conjunto de elementos portadores de, pelo menos, uma característica comum. Exemplos: os estudantes da universidade X, os candidatos ao concurso Y, as crianças de até 5 anos de idade de São Paulo, etc. Quanto ao número de elementos, a população pode ser finita ou infinita. A primeira é aquela que apresenta um número limitado de indivíduos. Muitas vezes, no entanto, o número de observações é infinito. A população será, então, infinita. Esta última normalmente está associada a processos. Ex: se um técnico de laboratório quisesse pesar um certo material, por maior que fosse o cuidado na experimentação ele poderia, em cada pesagem, obter uma leitura de certo modo diferente. Qualquer número de observações que ele realizasse não constituiria uma população completa, pois os resultados poderiam não ser uniformes. O número de tais medições (observações) tenderia a ser infinito, dando origem a uma população infinita. Uma população infinita deverá, então, ser concebida apenas como um esquema conceitual e teórico. 3 Censo: é um tipo de pesquisa na qual são inferidos todos os elementos da população. No Brasil, é muito conhecido o censo demográfico feito pela Fundação Instituto Brasileiro de Geografia e Estatística (IBGE), que costuma ser realizado com periodicidade decenal. Como outro exemplo, imagine que se queira fazer uma pesquisa sobre a qualidade da aula de um professor. A população, nesse caso, será composta por todos os alunos desse professor e, se pesquisarmos todos, teremos um censo. Geralmente, por problemas financeiros, temporais ou logísticos, limitamos as observações referentes a uma pesquisa a apenas uma parte da população, chamada de amostra. Amostra: é um subconjunto finito de uma população. Para que as inferências sejam corretas, é necessário garantir que a amostra seja representativa da população, isto é, a amostra deve possuir as mesmas características básicas da população no que diz respeito aos fenômenos que desejamos pesquisar. Amostragem: conjunto de técnicas para a escolha das amostras, que procuram garantir o tanto quanto possível a sua representatividade, bem como o acaso na escolha dos seus elementos. As principais técnicas de amostragem são: a) aleatória ou casual: a população é numerada de 1 a n e, por meio de um mecanismo aleatório, sorteiam-se os elementos que irão compor a amostra; b) estratificada: a população é dividida em subgrupos (os estratos), que têm comportamento heterogêneo. A proporção desses estratos na população é respeitada na amostra. c) sistemática: a população já está ordenada e os elementos que irão compor a amostra são escolhidos em intervalos regulares. d) conglomerados: a população é dividida em subgrupos (os conglomerados), que têm comportamento homogêneo. Sorteia-se um conglomerado e a sondagem é feita somente ali. e) amostragens não probabilísticas: são amostragens intencionais ou feitas por conveniência. Seus resultados têm validade local, apenas para a amostra estudada, e não podem ser generalizados para a população. Variável: é uma propriedade de um elemento que está sendo medido, assumindo diferentes valores ou atributos. Variável Qualitativa: seus valores se expressam através de atributos ou nomes. É uma forma mais rudimentar de variável, ou de nível mais baixo. Pode ser de dois tipos: nominal ou ordinal. a) Nominal: não apresenta uma ordenação. Exemplos: religião, cor dos cabelos. b) Ordinal: tem uma ordenação explícita. Exemplos: conceitos de alunos em escolas públicas, nível de renda, nível de instrução. Variável Quantitativa: seus valores se expressam através de números. Pode ser de dois tipos: a) Discreta: resulta da contagem, por isso seus valores geralmente são expressos através de números inteiros não negativos. Ex: no de livros de uma biblioteca, no de filhos, etc. b) Contínua: diz-se que uma variável é contínua se, ao passar de um valor real a para um valor real b qualquer, ela assume todos os valores intermediários entre a e b. Exemplos: temperatura, peso, altura, etc. 4 1.5 – Arredondamento de dados O correto arredondamento é fundamental para que possamos fazer um estudo preciso da variável. O resultado do arredondamento de um número como 72,8 para o inteiro mais próximo é 73, posto que 72,8 está mais próximo de 73 do que de 72. Assim, 72,8146 arredondado para o centésimo mais próximo é 72,81, pois está mais próximo de 72,81 do que de 72,82. Para o caso em que a primeira casa decimala ser desprezada apresenta o número 5, temos os seguintes casos: a) ao 5 sucede-se algum número diferente de zero: o arredondamento é feito para cima. Ex: arredondando para o décimo: 43,256 43,3 ; 17,8501 17,9 b) o 5 é a última casa decimal, ou a ele só se sucedem zeros: neste caso temos duas hipóteses: b1) o último algarismo a permanecer é par: desprezamos o 5 e fica o último algarismo par: Ex: arredondando para o décimo: 13,25 13,2 ; 7,6500 7,6 b2) o último algarismo a permanecer é ímpar: neste caso aumentamos uma unidade a este algarismo, transformando-o em um número par. Ex: arredondando para o décimo: 61,35 61,4 ; 92,5500 92,6 Ao arredondar os números em uma sequência de soma, é comum o resultado da soma arredondada ser diferente do resultado da soma se fizéssemos o arredondamento somente no final. Quando isso ocorrer, deve-se descarregar a diferença no maior número somado, indicando posteriormente que este número foi arredondado por compensação. Ex: 25,32 + 17,85 + 10,44 + 31,17 = 84,78 arredondando para o décimo, temos: 25,3 + 17,8 + 10,4 + 31,2 = 84,7 Note que o segundo resultado (84,7) é diferente do resultado que obtivemos (84,78) arredondado para o décimo, que é 84,8. Sabemos então que o resultado mais próximo do real é 84,8 e não 84,7. Essa diferença (0,1) deve ser acrescentada ao maior número somado, para que o resultado correto seja obtido. Assim temos o arredondamento final: 25,3 + 17,8 + 10,4 + 31,3* = 84,8 * arredondado por compensação Obs: essas regras estão em conformidade com a resolução 886/66 da Fundação IBGE. Exercícios 1) População é: a) conjunto de pessoas. b) conjunto de indivíduos apresentando uma característica especial. c) conjunto de todos os elementos apresentando uma característica comum objeto de estudo. d) conjunto de todos os resultados possíveis de um experimento aleatório. e) subconjunto finito do conjunto universo. 5 2) Classifique as variáveis abaixo em Quantitativa Discreta (QD), Quantitativa Contínua (QC) ou Qualitativa (QL): a) ( ) salário b) ( ) temperatura c) ( ) idade d) ( ) hierarquia militar e) ( ) peso 3) Assinale V ou F: a) ( ) Estatística Inferencial compreende um conjunto de técnicas destinadas à síntese de dados numéricos. b) ( ) O processo utilizado para se medir as características de todos os membros de uma dada população recebe o nome de censo. c) ( ) A Estatística Descritiva compreende as técnicas por meio das quais são tomadas decisões sobre uma população com base na observação de uma amostra. d) ( ) Uma população só pode ser caracterizada se forem observados todos os seus componentes. e) ( ) Na amostragem por conglomerados, a população está dividida em subpopulações que têm comportamento homogêneo entre si. 4) Arredonde os dados abaixo para o décimo: 234,7832 45,09 12,35 78,84 28,255 125,4500 48,85001 299,951 5) Efetue a soma, arredonde os dados para o centésimo e compense, se necessário. 0,060 + 0,119 + 0,223 + 0,313 + 0,164 + 0,091 + 0,030 = 6 2 – APRESENTAÇÃO DOS DADOS Após a fase de coleta dos dados, os resultados devem ser organizados e sintetizados, para permitir uma análise criteriosa. As tabelas e os gráficos devem ser usados para esse fim, pois permitem uma melhor avaliação dos resultados obtidos. 2.1 - Tabelas A tabela é um quadro composto por linhas e colunas, no qual se pode representar um conjunto de observações, sendo que os dados numéricos se destacam como informação central. Nas tabelas podemos identificar: Título: localizado na parte superior da tabela, deve indicar a natureza dos dados numéricos e suas abrangências temporal e geográfica. Cabeçalho: parte superior da tabela, logo abaixo do título, indica o conteúdo das colunas; Corpo da tabela: compreende as linhas e as colunas, as quais contém as informações sobre as variáveis pesquisadas. Coluna indicadora: apresenta as designações (classificações) da variável. Coluna numérica: apresenta os resultados de cada designação da variável. Casa ou Célula: espaço destinado a um só número ou classificação da variável. Elementos Complementares: na parte inferior da tabela, no qual se colocam as informações pertinentes aos dados, tais como fonte, notas e chamadas. Exemplo: De acordo com as Normas de Apresentação Tabular da Fundação IBGE1, as tabelas não devem ser fechadas lateralmente e nas casas ou células devemos colocar: () quando o valor assumido pela variável é zero, não resultante de arredondamento; (...) quando o dado numérico não está disponível; (..) quando não se aplica dado numérico; (x) para omitir o valor numérico; 1 IBGE. Centro de Documentação e Disseminação de Informações. Normas de apresentação tabular. 3ª ed. Rio de Janeiro: IBGE, 1993. 7 0 ou 0,0 ou 0,00 quando o valor original é positivo, mas muito pequeno, fazendo com que seu arredondamento para a precisão utilizada resulte em 0; -0 ou -0,0 ou -0,00 quando o valor original é negativo, mas muito pequeno, fazendo com que seu arredondamento para a precisão utilizada resulte em 0. Em trabalhos acadêmicos é importante observar as normas do IBGE, que são corroboradas pela ABNT e elaboradas com o objetivo de padronizar e racionalizar a apresentação de dados numéricos, bem como procuram garantir a clareza das informações apresentadas. Outros tipos de publicações não costumam observar com muito rigor essas normas, preferindo seguir orientações estéticas, normas editoriais próprias, ou definem outros recursos gráficos. 2.2 - Séries Estatísticas As séries estatísticas compõem uma classificação dos diversos tipos de tabelas, que se dá em referência ao tipo de variável utilizada e sua discriminação. Basicamente, as séries designam tabelas cujas variáveis são dadas em função da época, do local ou da espécie. a) Série histórica, cronológica ou temporal: a variável é discriminada em períodos de tempo: Domicílios com acesso à Internet - Brasil - 2005-2009 período número de domicílios (em milhões) 2005 13,7 2006 16,7 2007 20,0 2008 23,8 2009 27,4 Fonte: PNAD - IBGE b) Série geográfica, espacial, territorial ou de localização: a variável é discriminada segundo regiões. Países que mais investem em Educação como % do PIB - 2011 País Gasto com educação (% do PIB) Islândia 7,80 Noruega 7,30 Bélgica 6,60 Irlanda 6,50 Estônia 6,10 Argentina 6,00 França 5,90 Israel 5,80 Portugal 5,80 Brasil 5,70 Fonte: Exame (http://exame.abril.com.br) 17/09/2012 8 c) Série específica ou categórica: discrimina a variável segundo especificações ou categorias. Licenciamentos de carros por montadora - Brasil/2012 Empresa número de veículos Fiat 679.289 VW 651.277 GM 535.711 Ford 255.443 Renault 180.699 Honda 120.056 Nissan 87.196 Citroen 72.474 Peugeot 66.173 Toyota 63.585 Hyundai 62.970 Fonte: ANFAVEA d) Séries conjugadas ou tabelas de dupla entrada: refere-se à conjugação de duas séries em uma única tabela. Em uma tabela desse tipo, ficam criadas duas ordens de classificação: uma horizontal (linha) e uma vertical (coluna). A tabela abaixo apresenta uma conjugação histórico- geográfica (ou vice-versa): Mortalidade Infantil - Brasil - 1930-2010 Ano/Região Norte Nordeste Sudeste Sul Centro-Oeste 1930 193,3 193,2 153,0 121,0 146,0 1940 166,0 187,0 140,0 118,0 133,0 1950 145,4 175,0 122,0 109,0 119,0 1960 122,9 164,1 110,0 96,0 115,0 1970 104,3 146,4 96,2 81,9 89,7 1980 79,4 117,6 57,0 58,9 69,6 1990 44,6 74,3 33,6 27,4 31,2 2000 28,6 43,0 20,7 18,4 21,0 2010 23,5 33,2 16,6 15,1 17,8 Unidade: óbitos antes de completar 1 ano para cada 1.000 nascidos vivos Fonte: IBGE É possíveltambém conjugar mais de duas séries, formando tabelas mais complexas, como mostrado no próximo exemplo: 9 Desempenho da Indústria Brasileira de Motociclos - 2011/2012 em milhares de unidades produção vendas internas exportações 2011 2012 2011 2012 2011 2012 janeiro 180,4 177,0 164,9 154,8 3,6 6,8 fevereiro 141,1 153,1 165,2 149,0 5,0 8,7 março 181,6 179,5 173,5 164,7 4,6 7,0 abril 178,6 145,7 173,7 138,6 6,6 8,8 maio 203,9 171,7 195,3 151,3 6,7 10,2 junho 163,2 140,9 160,8 138,9 6,0 6,9 julho 160,2 75,8 161,3 86,8 5,4 6,7 agosto 217,6 178,0 203,7 170,9 4,7 13,0 setembro 187,5 130,9 177,7 129,0 6,6 8,9 outubro 195,4 133,3 176,8 112,3 5,7 8,5 novembro 195,6 137,7 177,8 125,8 9,7 10,0 dezembro 101,8 ... 113,8 ... 8,8 ... Fonte: Abraciclo e) Distribuição de frequência: é um conceito estatístico muito importante dentro do estudo descritivo dos dados numéricos, e será abordado com mais detalhes no final deste capítulo. Nesse tipo de tabela, a variável é discriminada em intervalos numéricos ou, se for discreta, em valores absolutos. Atendimentos na Campanha Nacional da Voz – Univ. Federal de Goiás - 1999 faixa etária (anos) número de pacientes frequência relativa (%) 0├── 10 32 7,10 10├── 20 36 7,98 20├── 30 71 15,74 30├── 40 90 19,96 40├── 50 106 23,50 50├── 60 56 12,42 60├── 70 43 9,53 70├── 80 13 2,88 80├── 90 4 0,89 total 451 100,00 Fonte: Revista Bras. de Otorrinolaringologia, n. 2732, vol. 67, ed. 1, jan/fev 2001 (adaptado) 2.3 - Gráficos A apresentação dos dados de uma pesquisa por meio de um gráfico representa um complemento importante da apresentação tabular. A principal vantagem de um gráfico sobre a tabela refere-se ao fato de que ele possibilita uma visualização mais rápida da concentração e da dispersão dos valores observados. No gráfico, podemos fazer uma interpretação visual da distribuição dos dados, comparando as grandezas e observando as tendências de maneira mais fácil e ágil. Contudo, devemos observar que, em geral, os gráficos não são tão ricos em detalhes como as tabelas, mas, em contrapartida, eles permitem uma melhor avaliação da distribuição 10 global dos dados. Dessa forma, entendemos que ao invés de compararmos a eficácia dos dois tipos de representação dos dados, o melhor é dispor dos dois para que a análise possa ser feita de maneira mais completa. Existem diversos tipos de gráficos, que podem (e devem) ser feitos com ferramentas computacionais, tais como a planilha eletrônica Excel. Alguns tipos de gráficos são mais indicados para certas finalidades específicas. Apresentamos a seguir os principais tipos de gráficos e suas aplicações. Gráfico em Colunas ou em Barras: é a representação de uma série por meio de retângulos, dispostos horizontalmente (em barras) ou verticalmente (em colunas). Exemplos: Percentage of interviewers that claim to be included in debt’s negative register by income class – Brazil 2008 Source: data from Data Popular (2008) 44 55 53 57 0 10 20 30 40 50 60 class A class B class C class D 11 Esse tipo de gráfico deve ser feito de forma que suas colunas ou barras se apresentem em ordem crescente ou decrescente, a não ser que a série seja histórica, caso em que devemos adotar a ordem cronológica. Um gráfico em barras muito utilizado é o da chamada pirâmide etária, que mostra a distribuição da população de um país segundo intervalos de idade e por sexo. De acordo com o censo demográfico do IBGE de 2010, a pirâmide etária do Brasil é: 0 1 2 3 4 5 6 7 3o trimestre 2001 4o trimestre 2001 1o trimestre 2002 2o trimestre 2002 3o trimestre 2002 taxa (%) PIB - Brasil - Taxa acumulada no ano agropecuária indústria serviços Fonte: IBGE – Depto. de Contas Nacionais 12 Gráfico em Setores: também chamado de gráfico tipo torta ou pizza. É construído com base em um círculo e é empregado sempre que desejamos ressaltar a participação do dado no total. Podem ser planificados, em perspectiva ou com as fatias destacadas. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. Exemplos: 3% 7% 2% 1% 2% 13% 29% 38% 3% 2% Safra agrícola - Brasil - 2011 principais produtos (exceto cana, frutas e hortaliças) Algodão Arroz Batata-inglesa Café Feijão Mandioca Milho Soja Trigo 2.237.426 2.540.527 1.822.221 1.864.678 3.928.351 PROJETO PINTANDO A LIBERDADE investimento em R$ no projeto por região 1997 a 2001 NORTE NORDESTE CENTRO-OESTE SUDESTE SUL Recomenda-se não utilizar muitos setores. As categorias com percentuais baixos devem ser agregadas para facilitar a interpretação do gráfico e valorizar a sua estética. Gráfico em Linhas: Os gráficos em linhas são interessantes para se destacar uma tendência. É comum também a sobreposição de linhas quando se quer comparar dados de duas ou mais séries. As linhas são mais eficientes do que as colunas quando há intensas flutuações nos dados. Exemplos: Fonte: Ministério do Esporte e Turismo Fonte: GCEA/IBGE, DPE, COAGRO 13 Comparativo Gráfico x Tabela Receita consolidada do Governo Federal por Regiões - 1999 Valor (1.000 R$) Brasil Grandes Regiões Norte Nordeste Sudeste Sul Centro- Oeste Total das receitas 283.769.434 4.795.727 16.040.941 153.003.819 29.734.718 80.194.829 Fonte: IBGE 300 400 500 600 700 800 900 produção de petróleo - Brasil - em milhões de barris Fonte: ANP 0 4 8 12 16 20 24 28 32 36 % Fonte: Datafolha Intenção de voto para prefeito de São Paulo - 2012 Serra Russomano Haddad Chalita 14 A leitura da tabela é mais difícil, enquanto o gráfico apresenta um entendimento bem mais fácil e agradável. Se for possível usar o recurso de cores no gráfico, fica melhor ainda. Entretanto, no gráfico perdemos os detalhes, ficamos apenas com uma idéia visual comparativa. Existem muitos outros tipos de gráficos, tais como os pictóricos e o cartograma. É aconselhável que os gráficos sejam produzidos com o auxílio de softwares adequados. O mais comumente usado é o Excel. Exemplo de pictograma: a revista portuguesa Grande Reportagem publicou uma série de oito gráficos, intitulada "O Poder das Estrelas". Um deles, sobre a guerra contra o Iraque é apresentado a seguir: 2% 6% 54% 10% 28% Receita consolidada do Governo Federal por Regiões - 1999 Norte Nordeste Sudeste Sul Centro-Oeste Receita total: R$284 bi Fonte: IBGE 15 Exemplo de cartograma: o gráfico abaixo mostra um mapa-múndi com cores indicando as escalas do IDH: 2.4 - Distribuição de frequências Agrupamento dos Dados Os dados numéricos provenientes da coleta, sem qualquer tipo de organização, são chamados de dados brutos. Uma primeira forma de organizá-los, ainda que de forma rudimentar, seria colocá-los em uma lista, obedecendo a uma ordem, crescente ou decrescente, obtendo o que chamamos de rol. Exemplos: Consumo mensal de energia elétrica de 80 residências com até 3 moradores, em kWh dados brutos 302 219 251 194 216 135 385 305 240 88 161 373 208 198 372 94 236 140 333 330 208 352 87 197 238 314 89 376 208 121 182 268 273 321 181 375 187 183 339 204 182 133 182 156 239 385 113 316 285 179 318 169 138 399 330 115 345 256 294 176 111 293 338 140 206 349 189 333 87 198 302 159 179 314 378 129 385 208 141 122 16 rol crescente 87 121 141 181 197 208 256 305 333 373 87 122 156 182 198 216 268 314 333 375 88 129 159 182 198 219 273 314 338 376 89 133 161 182 204 236 285 316 339 378 94 135 169 183 206 238 293 318 345 385 111 138 176 187 208 239 294 321 349 385 113 140 179 189 208 240 302 330 352 385 115 140 179 194 208 251 302 330 372 399 Tabelas de frequência: são representações nas quais os valores se apresentam em correspondência com suas repetições,evitando-se assim que eles apareçam mais de uma vez na tabela, como ocorre com o rol. As tabelas de frequências resumem os dados e facilitam o seu estudo e interpretação. Distribuição de frequência de dados tabulados não-agrupados em classes: é uma tabela na qual os valores da variável aparecem individualmente. Esse tipo de apresentação é utilizado para representar uma variável discreta. Exemplo: a tabela abaixo representa o número de faltas registrado em um semestre em uma grande empresa: Xi é a variável, ou seja, as faltas. fi é a frequência absoluta simples das faltas, que são os resultados numéricos provenientes da contagem. A soma das frequências é sempre igual ao número total de valores observados. n = fi = 158 Distribuição de frequências de dados agrupados em classes: é uma tabela na qual os valores não mais aparecerão individualmente, mas agrupados em classes. Quando a variável do estudo for contínua, será sempre conveniente agrupar os valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em classes. Exemplo: a tabela abaixo mostra a quantidade de municípios do Brasil em cada faixa de tamanho de população: Número de faltas (Xi) Quantidade de funcionários (fi) 0 95 1 28 2 19 3 12 4 4 total fi = 158 17 Se a variável for contínua, é conveniente utilizar os símbolos abaixo para separar os limites superior e inferior de cada classe: ├── : inclui o limite inferior, exclui o limite superior ├─┤ : inclui os limites inferior e superior ──┤ : exclui o limite inferior, inclui o superior : exclui os limites inferior e superior Elementos de uma Distribuição de Frequências Amplitude Total (At): é a diferença entre o maior e o menor valor observado da variável em estudo. Se, por exemplo, no teste que deu origem à tabela anterior a maior nota tivesse sido 97 e a menor 1, a amplitude total do conjunto de valores observados seria: At = 97 - 1 = 96 Classe: é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. O número de classes é representado por k. É importante que a distribuição tenha um número adequado de classes. Para determinar o número de classes há diversos métodos. A regra de Sturges estabelece que: k = 1 + 3,3.log n. Para a tabela anterior, em que temos n = 500, o número de classes, pela regra de Sturges calculado pela fórmula é k = 9,9. Arredondando, temos um total de 10 classes. Há quem prefira utilizar a relação k = n , mas estas fórmulas não nos levam a uma decisão precisa sobre o valor de k; esta vai depender de um julgamento pessoal, que deve estar ligado à natureza dos dados, da unidade usada para expressá-los e, ainda, do objetivo que se tem em vista, procurando evitar classes com frequência nula ou muito exagerada. Obs. k tem de ser um número natural e para obtê-lo devemos arredondar o resultado de 1 + 3,3.log n para mais ou para menos, conforme a conveniência. Amplitude do Intervalo de Classe (h): calculado o valor de k, devemos determinar a amplitude do intervalo de classe, o que é conseguido dividindo-se a amplitude total pelo número de classes: k A h t Quando o resultado não é exato, devemos arredondá-lo para cima. É conveniente a escolha de números naturais sempre que possível. É conveniente sempre construir tabelas nas quais as amplitudes dos intervalos sejam iguais, para evitar equívocos na interpretação da variação do fenômeno. Podemos também saber a amplitude do intervalo verificando a diferença entre o limite superior e o limite inferior de cada classe. Assim: h = LS – LI (usamos esta relação quando a tabela já é dada e queremos apenas saber o valor da amplitude das classes), mas essa definição não é geral. Em classes com intervalos abertos, fazemos a diferença entre dois limites inferiores sucessivos ou entre dois limites superiores sucessivos ou ainda entre o limite real superior e o limite real inferior. Municípios e População – Brasil/2011 Classes de tamanho da população Número de municípios (frequências) 0 a 5.000 1.300 5.001 a 20.000 2.602 20.001 a 50.000 1.054 50.001 a 500.000 571 acima de 500.000 38 fi = 5.565 Fonte: IBGE/TCU 18 Exemplo: construir as classes para 300 dados, maior valor = 4.510 e menor valor = 482. Solução: At = 4.510 – 482 = 4.028 log 300 = 2,477 k = 1 + 3,3.2,477 = 9,17 ~ 9 44856,447 9 4028 h Faremos 9 classes de tamanho 448. Como 9 x 448 = 4.032, observe que esse resultado supera em 4 unidades a amplitude total (4.028). Sendo assim, para equilibrar a distribuição, vamos começar a primeira classe em 480 (2 unidades abaixo do menor valor), para terminá-la em 4512 (2 unidades a mais que o maior valor): 480 ├── 928 928 ├── 1.376 1.376 ├── 1.824 1.824 ├── 2.272 2.272 ├── 2.720 2.720 ├── 3.168 3.168 ├── 3.616 3.616 ├── 4.064 4.064 ├── 4.512 Exercício: 1) Construir as classes para 250 dados, menor valor = 80, maior valor = 640. Ponto Médio de Classe (xi) : é o valor que representa a classe para efeito do cálculo de certas medidas. Na distribuição de frequências com valores agrupados em classes, considera-se que os resultados incluídos em cada classe distribuem-se uniformemente por seu intervalo, por isso escolhemos o ponto médio para representá-la. 2 si i LL x Frequência Relativa Simples: é obtida quando dividimos a frequência absoluta simples pelo número total de dados (n). Desejando-se expressar o resultado em porcentagem, basta multiplicar o quociente obtido por 100. A soma das frequências relativas é sempre igual a 1 ou 100%. Frequência Absoluta Acumulada “Abaixo de”: é a soma da frequência absoluta simples de uma classe com as frequências absolutas simples das classes anteriores. Toda vez que se procura saber quantas observações existem até uma determinada classe, recorre-se à frequência acumulada “abaixo de”. Frequência Absoluta Acumulada “Acima de”: é a soma da frequência absoluta simples de uma classe com as frequências absolutas simples das classes posteriores. Obs: as frequências acumuladas também podem ser calculadas em distribuições de dados não- agrupados em classes e podem ser representadas em porcentagem. Exemplo: a tabela abaixo representa os salários pagos a 110 operários da empresa XYZ ltda. 100 n f fr ii 19 a) Determinar a frequência relativa, as frequências acumuladas e os pontos médios. b) Quantos operários ganham abaixo de 6 salários mínimos? c) Qual a porcentagem de operários com salário entre 6 e 8 salários mínimos? Solução: a) Classes fi xi fri (%) fac fac 0 | 2 22 1 20,0 22 110 2 | 4 28 3 25,5 50 88 4 | 6 31 5 28,1* 81 60 6 | 8 17 7 15,5 98 29 8 | 10 12 9 10,9 110 12 = 110 = 100,0 *arredondado com compensação b) 81 operários c) 15,5% Histogramas: são gráficos formados por um conjunto de retângulos justapostos, de forma que a área de cada retângulo seja proporcional à frequência da classe que ele representa. Assim sendo, a soma dos valores correspondentes às áreas dos retângulos será sempre igual à frequência total. No eixo horizontal são anotados os valores individuais da variável em estudo ou os limites das classes e no eixo vertical as frequências da variável. É possível utilizá- lo para representar as frequências absolutas ou relativas, simples ou acumuladas. O histograma pode ser utilizado para representar a distribuição de variáveis quantitativas do tipo discreta ou contínua. Exemplo: para a tabela anterior, o histograma é: No de salários mínimos No de operários 0 | 2 22 2 | 4 28 4 | 6 31 6 | 8 17 8 | 10 12 Total 110 20 Polígono de Frequência: é um gráfico em linha, obtido unindo-se por segmentos os pontos médios das bases superiores dos retângulos do histograma. Pode referir-se às frequências absolutas ou relativas, conforme a escala utilizada no eixo vertical. O polígono feito sobre o histograma de frequência acumulada é chamado de Ogiva de Galton. Exemplo: Curvas de Frequência: são polígonos de frequência polidos, apresentando um formato característico, assemelhando-se ao contorno de um sino, evidenciando uma forte concentração dos valores em torno do centro da distribuição. Mesmo que a semelhança com um sino seja muito grande, é bem provável que, na prática, a curva apresente uma certa deformação (distorção) para a esquerda ou para a direita. Podemos dizer que, enquanto o polígono de frequência nos dá a imagem real do fenômeno, a curva de frequência nos dá a Salários da empresa XYZ ltda. 0 5 10 15 20 25 30 35 0 a 2 2 a 4 4 a 6 6 a 8 8 a 10 salários mínimos n o . d e f u n c io n á ri o s salários da empresa XYZ ltda 0 5 10 15 20 25 30 35 0 a 2 2 a 4 4 a 6 6 a 8 8 a 10 salários mínimos n o . d e f u n c io n á ri o s 21 imagem tendencial. Assim, após o traçado de um polígono de frequência, e desejável, muitas vezes, que se lhe faça um polimento. Geometricamente, o polimento corresponde à eliminação dos vértices da linha poligonal. Exemplo: Exercícios 2) Assinale a(s) definição/afirmação incorreta(s) em relação aos gráficos a) Um histograma representa uma distribuição de frequências para variáveis do tipo quantitativa contínua, somente. b) O gráfico de barras representa, por meio de uma série de barras, quantidades ou frequências para variáveis categóricas. c) O gráfico de setores é apropriado, quando se quer representar as divisões de um montante total. d) Um histograma pode ser construído utilizando-se, indistintamente, as frequências absolutas ou relativas. e) Uma ogiva pode ser obtida ligando-se os pontos médios dos topos dos retângulos em um histograma de frequência absoluta simples. 3) Frequência simples absoluta de um valor da variável é: a) o número de repetições desse valor. b) a porcentagem de repetições de valor. c) o número de observações acumuladas até esse valor. d) o somatório das frequências simples. e) quociente entre o número de repetições desse valor e o número total de casos. 4) Um conjunto de 100 notas de Matemática, de alunos do sexo masculino, tiradas dos arquivos da secretaria da escola, constitui: a) um rol b) uma relação de dados brutos c) uma tabela d) uma distribuição de frequência e) uma população 5) Assinale a alternativa verdadeira: a) A amplitude do intervalo de classe é calculada pela soma entre os limites inferior e superior de uma classe. b) O ponto médio da classe é a média aritmética dos seus limites inferior e superior c) Um intervalo de classe aberto em seus dois limites inclui ambos os números extremos. d) Intervalos de classe fechados têm seus limites superior e inferior excluídos dos números que os compõem. e) Os intervalos de classe precisam ser necessariamente iguais, na elaboração de uma tabela que apresente uma distribuição de frequência. 22 6) Os gráficos próprios de uma distribuição de frequência são: a) colunas, curva de frequência e histograma. b) polígono de frequência e histograma. c) colunas, curva de frequência e polígono de frequência. d) gráfico em setores, gráfico em barras, curva de frequência e curva normal. e) colunas, barras, setores e curva de frequência. 7) Os dados seguintes representam 40 observações relativas ao índice pluviométrico em determinados municípios do estado: Milímetros de chuva 144 152 159 160 136 144 152 153 160 151 157 146 137 155 159 154 154 145 141 150 139 140 145 158 142 146 142 141 144 147 150 149 141 150 143 158 159 162 151 151 a) construir a tabela de frequências absolutas simples; b) determinar as frequências absolutas acumuladas ‘abaixo de’ e ‘acima de’; c) determinar as frequências relativas; d) obter os pontos médios das classes; e) construir o histograma e o polígono de frequências. 8) Das afirmações: I. Tanto o histograma como o polígono de frequência, que são gráficos próprios da distribuição de frequência, são gráficos de análise, os quais devem ser feitos só quando a variável for discreta. II. Tanto o polígono de frequência como o histograma, que são gráficos próprios da distribuição de frequência, podem ser feitos para qualquer tipo de variável, desde que ela seja quantitativa. III. O histograma é um gráfico em colunas, mas qualquer gráfico em colunas não é necessariamente um histograma. a) todas são verdadeiras b) todas são falsas c) apenas I é falsa d) apenas I e II são falsas e) apenas II e III são falsas 23 3 – MEDIDAS DE POSIÇÃO São medidas que caracterizam a distribuição. Conhecendo-se algumas destas medidas podemos fazer uma ideia geral da distribuição. Ex: sabendo que a média de uma classe numa prova foi de 8,5, podemos concluir que a maioria dos alunos teve um bom desempenho na prova, mesmo sem saber a nota de cada um. São medidas de posição: as médias, a mediana, a moda, os quartis, decis, centis, etc. Medidas de Tendência Central: são as medidas de posição mais importantes. Também chamadas de promédias, elas caracterizam o centro da distribuição e são utilizadas para resumir o conjunto de valores representativos do fenômeno que se deseja estudar. Ex: médias, mediana, moda. Dentre as médias, estudaremos a aritmética simples e ponderada, mas existem outras, como a geométrica e a harmônica. 3.1 - Média Aritmética: símbolo: x Pode ser simples ou ponderada. a) Simples: usada para dados brutos: X = {x1, x2, ... , xn} n x n xxx x in ....21 Ex: X = {1, 3, 8, 10, 12} 5 1210831 x 8,6x na HP 12-C: f REG f Σ 1 Σ+ 3 Σ+ 8 Σ+ 10 Σ+ 12 Σ+ g x (é a tecla 0) b) Ponderada: usada para dados tabulados. Cada valor xi da variável é ponderado pela sua frequência fi. Temos então: x x f x f x f f k k i 1 1 2 2. . ... . x x f f i i i . Lembrando que se os dados estiverem agrupados em classes, cada valor de xi é o ponto médio da classe correspondente. Veja o exemplo seguinte, observando que a coluna xi traz o ponto médio de cada classe e que abrimos uma coluna xi . fi para facilitar o cálculo. 24 35 50 1750 i ii f fx x A média aritmética é utilizada principalmente quando desejamos obter a medida de posição central que possui a maior estabilidade. Entretanto, devemos lembrar que a média é fortemente influenciada pelos extremos, fato que pode descaracterizá-la como principal medida de tendência central. Nos casos em que as medidas extremas forem bastante afastadas das demais, a média será tendenciosa, e por isso deveremos optar por outra medida de posição, que não sofra esse tipo de influência. A média aritmética sozinha não deve ser tomada como espelho da distribuição. É necessário compor outras medidas de posição para podermos fazer uma completa avaliação dos dados. Exercícios 1) Uma empresa fabrica um componente e, para isso, precisa importar três itens A, B e C. Sabe- se que ela comprou 3.000 unidades do item A, pagando alíquota de 8% de imposto; 4.500 unidades do item B, com alíquota de 12% e 5.000 unidades do item C, com alíquota e 15%. Qual foi a alíquota média paga pela empresa? 2) Uma empresa comprou 400 unidades de um item A, pagando R$14,30 a unidade. Entretanto, ela recebeu uma proposta de outro fornecedor, que lhe ofereceu o mesmo item por R$13,20. A empresa decidiu então comprar mais 300 unidades desse novo fornecedor. Qual o preço médio pago por essa empresa pelo item A? 3) Calcule a média aritmética da distribuiçãoabaixo. Classes fi xi xi . fi 10 | 20 6 15 90 20 | 30 11 25 275 30 | 40 15 35 525 40 | 50 13 45 585 50 | 60 5 55 275 fi = 50 = n xi.fi = 1.750 Consumo (kwh) no de usuários 5 | 25 4 25 |45 6 45 |65 14 65 |85 26 85 |105 16 105 |125 7 125 |145 5 145 |165 2 80 25 3.2 - Moda: símbolo: Mo ou x̂ Também chamada de norma, valor dominante ou valor típico. Pode-se definir moda como o valor mais frequente, quando comparada sua frequência com a dos valores contíguos de um conjunto ordenado. Quando afirmamos que o salário modal de uma empresa é de R$1.200,00, queremos dizer que esse é o salário percebido pelo maior número de pessoas dessa empresa. O termo moda foi utilizado primeiramente por Karl Pearson em 1895, talvez como uma associação a sua concepção na linguagem comum. a) Dados Não-Tabulados: considerando um conjunto ordenado de valores, a moda será o valor mais frequente desse conjunto. Exemplo: calcular a moda dos conjuntos: X ={4, 5, 5, 6, 6, 6, 7, 7, 8, 8} Y = {4, 4, 5, 5, 6, 6} Z = {1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6} W = {1, 2, 3, 4, 5} A moda de cada um dos conjuntos será: X: x̂ = 6 (unimodal) ; Y: amodal; Z: 2ˆ1 x e 5ˆ2 x (bimodal); W: amodal Obs: para mais de duas modas, a série é classificada como plurimodal. b) Dados Tabulados: para dados não agrupados, a moda será o valor de xi correspondente à maior frequência, tirado direto da tabela, sem a necessidade de cálculos. Se os valores estiverem agrupados em classes, temos vários métodos de cálculo, como a moda bruta (ponto médio da classe de maior frequência) e o método de King2, mas o mais elaborado é o método de Czuber, que leva em consideração a frequência modal e as frequências adjacentes à classe modal (classe modal é a classe de maior frequência). Fórmula de Czuber: fpfafm fafmh Lx i 2 ˆ na qual Li = limite inferior da classe modal h = amplitude da classe modal fm = frequência absoluta simples da classe modal fa = frequência absoluta simples da classe anterior à modal fp = frequência absoluta simples da classe posterior à modal Exemplo: calcular a moda da distribuição ao lado, pelo método de Czuber: 2 O método de King não leva em consideração a frequência da classe modal, apenas as frequências anterior e posterior. Consumo (kwh) no de usuários 5 | 25 4 25 |45 6 45 |65 14 65 |85 26 85 |105 16 105 |125 7 125 |145 5 145 |165 2 80 26 Temos: classe modal: 4a classe: 65 | 85 (classe de maior frequência) Li = 65 ; h = 20 ; fm = 26 ; fa = 14 ; fp = 16 Utilizando a fórmula, temos: A moda corresponderá ao ponto médio da classe modal, quando as frequências anterior e posterior à modal forem iguais. Podemos também identificar as expressões gráficas da moda. Na curva de frequência, a moda é o valor correspondente, no eixo das abscissas, ao ponto de ordenada máxima. curva modal curva não-modal curva antimodal curva bimodal 9,759,1065 22 240 65 3052 1220 65 1614262 142620 65ˆ x 27 Exercícios 4) calcular a moda para a distribuição abaixo: classes fi 10 | 20 10 20 | 30 20 30 | 40 35 40 | 50 42 50 | 60 25 60 | 70 18 fi = 150 5) A moda é utilizada para determinar o perfil de uma população. Considerando a sala de aula, identifique as variáveis que podem compor o perfil dos alunos e obtenha os resultados. 3.3 - Mediana: símbolo: Md ou ~x . É o valor que divide uma série ordenada de tal forma que pelo menos a metade ou 50% dos itens sejam iguais ou maiores do que ela, e que haja pelo menos outra metade ou 50% de itens menores do que ela. a) Dados Não-Tabulados: podem ocorrer duas hipóteses: o no de observações é ímpar: o elemento mediano é dado por: Emd = n 1 2 . O passo seguinte é localizar a mediana na lista de valores, de acordo com o resultado obtido no cálculo do elemento mediano. Exemplo: calcular a mediana do conjunto X = {2, 3, 6, 12, 15, 23, 30} Solução: sendo n = 7 (ímpar), temos então: Emd = 7 1 2 4 . A mediana será, pois, o 4o elemento da série, ou seja, 12. o no de observações é par: o elemento mediano é dado por: Emd = n 2 Exemplo: calcular a mediana do conjunto X = {3, 6, 9, 12, 14, 15, 17, 20} Solução: sendo n par, temos então Emd = 8 2 4 . A mediana seria, pois, o 4o elemento da série, ou seja, 12. Entretanto, este valor contraria a definição, uma vez que não teríamos a mesma proporção de valores menores e maiores que 12. A mediana deverá então ser calculada como a média aritmética dos valores centrais, ou seja, 12 14 2 13 . Agora, percebe-se a ocorrência de igual número de valores maiores e menores do que ~x . Nesse exemplo verificamos também que a mediana não é típica. b) Dados Tabulados não Agrupados em Classes: o procedimento a ser adotado é semelhante ao anterior. Em primeiro lugar deve-se verificar se o número de observações é ímpar ou par e, conforme o caso, aplicar as fórmulas adotadas na alínea (a) para o cálculo do elemento mediano. 28 Em seguida, acrescentamos à tabela a coluna com as frequências acumuladas “abaixo de”. Comparando o resultado obtido no cálculo do elemento mediano com os valores dessa coluna, determinaremos a mediana. Exemplos: calcular a mediana dos valores apresentados nas tabelas: n é par, então Emd = n/2 = 50/2 = 25 A mediana deverá ser a média aritmética entre o 25o e o 26o elementos, que estão na 3a classe, portanto: 4~ x n é ímpar, então Emd = n 1 2 35 1 2 36 2 18 A mediana deverá ser o 18o elemento, que está na 3a classe, portanto: 5~ x c) Dados Tabulados Agrupados em Classes: inicialmente determinamos a classe mediana, sendo que esta é aquela à qual corresponde à frequência acumulada “abaixo de” imediatamente superior a 2 if . Feito isso, um problema de interpolação resolve a questão, admitindo-se que os valores se distribuam uniformemente no intervalo de classe. Assim: onde: Li = limite inferior da classe mediana Faa = freq. acumulada “abaixo de” anterior à classe mediana h = amplitude da classe mediana fmd = freq. absoluta simples da classe mediana Exemplo: calcule a mediana para os dados da tabela: 150/2 = 75 a classe mediana é a 4a classe. 4,42 42 100 40 42 1065 2 150 40~ x Obs: Se existir uma fac com valor igual a 2 if , então a mediana será o limite superior da classe correspondente a essa fac, sem a necessidade de usar a fórmula. xi fi fac 2 5 5 3 10 15 4 15 30 5 12 42 6 8 50 n = 50 xi fi fac 3 3 3 4 6 9 5 9 18 6 8 26 7 9 35 n = 35 classes fi fac 10 | 20 10 10 20 | 30 20 30 30 | 40 35 65 40 | 50 42 107 50 | 60 25 132 60 | 70 18 150 fi = 150 mdf Faa fi h Lix 2~ 29 Exercício 6) Calcular a mediana para a distribuição abaixo. Consumo (kwh) no de usuários 5 | 25 4 25 |45 6 45 |65 14 65 |85 26 85 |105 16 105 |125 7 125 |145 5 145 |165 2 80 3.4 - Considerações Adicionais Sobre Média Aritmética, Mediana e Moda Dentre as várias medidas de tendência central, seguramente a média aritmética é a mais utilizada por ser mais estável. Em termos de uma curva de distribuição de frequência, podemos perceber melhor o posicionamento dessas medidas: curva normal(simétrica) assimétrica à esquerda assimétrica à direita 30 A média aritmética é preferível às demais medidas, para estimar a tendência central, quando se trata de muitas classes de populações, por haver menos variabilidade entre as médias aritméticas calculadas a partir de várias amostras aleatórias do que entre as medianas e as modas. A mediana é preferível à média quando se está interessado em conhecer exatamente o ponto médio da distribuição, aquele valor que a divide em duas partes exatamente iguais. É preferível ainda, quando os resultados extremos são tais que podem afetar sensivelmente o valor da média. A moda é utilizada essencialmente quando pretendemos apenas uma medida rápida e aproximada da tendência central. A moda é também bastante útil quando desejamos que este valor seja típico da distribuição. Tanto a média aritmética quanto a mediana e a moda são dadas na mesma unidade da variável. Obs: um promédio não deve ser usado como um resumo da distribuição de frequências, quando o interesse estiver concentrado na distribuição completa. Exercícios Considere a distribuição de salários anuais abaixo para responder as questões 7 e 8: Frequências Acumuladas de Salários Anuais, em Milhares de Reais, da Cia. Alfa Classes de Salário Frequências Acumuladas ( 3 ; 6] 12 ( 6 ; 9] 30 ( 9 ; 12] 50 (12 ; 15] 60 (15 ; 18] 65 (18 ; 21] 68 7) Quer-se estimar o salário médio anual para os empregados da Cia. Alfa. Assinale a opção que representa a aproximação desta estatística calculada com base na distribuição de frequências. a) 9,93 b) 15,00 c) 13,50 d) 10,00 e) 12,50 8) Quer-se estimar o salário mediano anual da Cia. Alfa. Assinale a opção que corresponde ao valor aproximado desta estatística, com base na distribuição de frequências. a) 12,50 b) 9,60 c) 9,00 d) 12,00 e) 12,10 Exercícios 9 e 10: os dados abaixo representam a distribuição de 1.200 domicílios residenciais, por classe de consumo de energia elétrica mensal, em uma área de concessão da CERON, medidos em 2006. Não existem observações coincidentes com os extremos das classes. Faixa de consumo Frequência relativa 0 – 50 kWh 8% 50 – 100 kWh 12% 100 – 150 kWh 32% 150 – 300 kWh 40% 300 – 500 kWh 8% 31 9) O consumo médio mensal, em kWh, pode ser estimado, aproximadamente, em: a) 108 b ) 124 c) 147 d) 173 e) 236 10) O consumo mediano mensal, em kWh, pode ser estimado, aproximadamente, em: a) 108 b) 124 c) 147 d) 173 e) 236 11) A tabela abaixo representa o tamanho de áreas (em hectares) devastadas em 100 fazendas da região amazônica em determinado ano. Área Tamanho (Ha) Nº de fazendas 1 5 ├── 15 10 2 15 ├── 25 20 3 25 ├── 35 25 4 35 ├── 45 30 5 45 ├── 55 10 6 55 ├── 65 5 Total 100 Fonte: SEAD/SEMA – FADESP/2008 Podemos afirmar que os números médio, mediano e modal do tamanho das áreas são, respectivamente, a) Média = 28,2; Mediana = 27,5; Moda = 35,0. b) Média = 30,5; Mediana = 30,2; Moda = 36,5. c) Média = 32,5; Mediana = 33,0; Moda = 37,0. d) Média = 35,0; Mediana = 35,0; Moda = 37,5. 12) Considere os valores totais lançados em notas fiscais durante um dia de vendas: R$2.000,00; R$4.500,00; R$3.000,00; R$2.500,00; R$3.500,00 e R$2.500,00. Tomando por base esses dados, é correto afirmar sobre média aritmética, mediana e moda que: a) o valor da mediana supera o valor da média aritmética. b) os valores da moda e da mediana são iguais. c) o valor da média aritmética supera o valor da mediana em R$500,00. d) os valores da mediana e da moda são inferiores ao valor da média aritmética. e) o valor da moda é inferior ao valor da mediana em R$500,00. 13) Considere o seguinte texto, adaptado da publicação ‘Núcleo de Inflação’, inserida no relatório de inflação do Banco Central do Brasil em junho/2000 (pp. 90-91). <https://www.bcb.gov.br/htms/relinf/port/2000/06/ri200006b4p.pdf> O núcleo de inflação, também denominado de inflação subjacente, é uma medida que procura captar a tendência dos preços, desconsiderando distúrbios resultantes de choques temporários. É uma medida de inflação desenhada para detectar mudanças de caráter fundamental nos preços, que podem ser causadas por pressões de demanda sobre a capacidade produtiva, por choques permanentes nos preços relativos ou por alterações nas expectativas de inflação. A literatura sobre núcleo de inflação vem avançando rapidamente nos últimos anos, à medida que mais países adotam explicitamente o regime de metas para inflação, ou passam a enfatizar a estabilidade de preços como principal objetivo de política monetária. O núcleo é uma medida relevante para orientar a política monetária, pois ajuda a autoridade monetária a identificar e diagnosticar os choques que afetam a inflação. 32 Muitos bancos centrais divulgam medidas de núcleo, notadamente os de países desenvolvidos. No Brasil, o cálculo do núcleo de inflação é tema recente e que tomou corpo após a adoção das metas para a inflação como regime de política monetária. No início de 2000, começaram a aparecer os primeiros resultados em termos de cálculos de indicadores de tendência de inflação. A FGV, a partir de março/2000, passou a divulgar mensalmente uma medida de núcleo para o IPC-Br. O IPEA, por sua vez, no Boletim Conjuntural de janeiro/2000, apresentou os resultados preliminares de medidas de núcleo de inflação para o IPCA utilizando métodos de suavização. Existem várias metodologias para o cálculo do núcleo de inflação, sendo que uma delas propõe a adoção da mediana como medida de referência. Nesse contexto, pergunta-se: a) O que se pode esperar de uma medida de inflação que utilize a mediana, ao invés da média aritmética, para o cálculo do índice? b) O que a inflação do núcleo tem a ver com a política de metas de inflação? 14) (Administrador/BNDES – Cesgranrio/2013) A figura abaixo representa um histograma. Em relação às medidas de centralidade do histograma, considere as afirmativas abaixo. I – A média é maior que a mediana. II – A distribuição dos dados é unimodal. III – A moda é menor que a média. É correto o que se afirma em a) II, apenas b) III, apenas c) I e II, apenas d) II e III, apenas e) I, II e III 33 4 – MEDIDAS DE DISPERSÃO A análise completa dos dados não requer apenas a sua apresentação por meio de gráficos e tabelas, ou do cálculo de promédios ou outras medidas de posição. Caracterizar um conjunto de valores apenas pela média, por exemplo, é descrevê-lo inadequadamente, uma vez que os dados diferem entre si, em maior ou menor grau. Para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de números, lançaremos mão das estatísticas denominadas medidas de dispersão. Elas nos proporcionarão um conhecimento mais completo do fenômeno a ser analisado, permitindo estabelecer comparações entre fenômenos de mesma natureza e mostrando até que ponto os valores se distribuem acima ou abaixo da tendência central. 4.1 - Desvio-padrão: (S) é a medida de dispersão mais usada e considera os desvios tomados em relação a x . O desvio-padrão é a média quadrática dos desvios em relação à média aritmética de um conjunto de números, ou seja, a raiz quadrada da média aritmética dos quadrados dos desvios, tomados a partir da média aritmética. Em distribuições normais (ou aproximadamente normais), o intervalo Sx contém aproximadamente 70% dos dados da série. a) Dados Brutos: o desvio-padrão é calculado por: n xx S i 2 Obs: alguns autores afirmam que quando o desvio-padrão representar uma descrição da amostra e não da população, caso mais frequente em estatística, o denominadordas expressões acima deve ser n 1 , em vez de n. A razão desse procedimento reside no fato de que, utilizando o divisor n 1 , obtém-se uma estimativa melhor do parâmetro de população. Para valores grandes de n (n > 30) não há grande diferença entre os resultados proporcionados pela utilização de qualquer dos dois divisores. Daremos preferência para a fórmula que proporciona um cálculo mais simples e rápido (denominador n). Exemplo: calcular o desvio-padrão do conjunto abaixo: X = {1, 3, 8, 10, 12} 8,6x 5 04,2724,1044,144,1464,33 5 )8,612()8,610()8,68()8,63()8,61( 22222 S 166533,436,17 5 8,86 S Na HP 12-C, o cálculo do desvio padrão pode ser feito com a seguinte sequência de teclas: com denominador n – 1 com denominador n f REG f REG f Σ f Σ 1 Σ+ 1 Σ+ 3 Σ+ 3 Σ+ 8 Σ+ 8 Σ+ 10 Σ+ 10 Σ+ 12 Σ+ 12 Σ+ g S (tecla ponto) g x (tecla 0) Σ+ visor: 4,65833 visor: 4,166533 34 b) Dados Tabulados: utilizando o divisor n, temos: fi fxx S ii 2 Exemplo: calcular o desvio-padrão da tabela abaixo: 99899,309375,960 80 875.76 2 fi fxx S ii kwh Observações: (i) O desvio-padrão é dado na mesma unidade da variável. (ii) A média aritmética desta distribuição é 78,75 (já calculada). 4.2 - Variância: (S2) é o quadrado do desvio-padrão. Dessa forma, pode-se dizer que a fórmula da variância é igual à expressão do desvio-padrão, sem o sinal do radical. Utilizaremos, também neste caso, o denominador n. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras. 4.3 - Medida de Dispersão Relativa - Coeficiente de Variação de Pearson: o desvio-padrão por si só não nos diz muita coisa. Assim, um desvio-padrão de duas unidades pode ser considerado pequeno para uma série de valores cuja média é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. Além disso, o fato de o desvio-padrão ser expresso na mesma unidade dos dados limita o seu emprego, quando desejamos comparar duas ou mais séries de valores relativamente à sua dispersão. Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada coeficiente de variação de Pearson: 100 x S CV No exemplo anterior temos: %36,39100 75,78 99899,30 CV Quanto menor for o CV, mais homogêneo será o conjunto de dados. Consumo (kwh) no de usuários (fi) xi x xi x xi 2 x x fi i 2 . 5 | 25 4 15 -63,75 4.064,0625 16.256,2500 25 |45 6 35 -43,75 1.914,0625 11.484,3750 45 |65 14 55 -23,75 564,0625 7.904,7500 65 |85 26 75 -3,75 14,0625 365,6250 85 |105 16 95 16,25 264,0625 4.225,0000 105 |125 7 115 36,25 1.314,0625 9.198,4375 125 |145 5 135 56,25 3.164,0625 15.820,3125 145 |165 2 155 76,25 5.814,0625 11.628,1250 80 76.875,0000 35 Exercícios 1) O que é o desvio padrão e o que ele mede? 2) Complete a tabela abaixo com os dados que julgar necessários para determinar: a) desvio padrão; b) variância; c) coeficiente de variação. 3) Uma variável contábil Y, medida em milhares de reais, foi observada em dois grupos de empresas apresentando os resultados seguintes: Grupo Média Desvio padrão A 20 4 B 10 3 Assinale a opção correta. a) No Grupo B, Y tem maior dispersão absoluta. b) A dispersão absoluta de cada grupo é igual à dispersão relativa. c) A dispersão relativa do Grupo B é maior do que a dispersão relativa do Grupo A. d) A dispersão relativa de Y entre os Grupos A e B é medida pelo quociente da diferença de desvios padrão pela diferença de médias. e) Sem o conhecimento dos quartis não é possível calcular a dispersão relativa nos grupos. 4) De posse dos resultados de produtividade alcançados por funcionários de determinada área da empresa em que trabalha, o Gerente de Recursos Humanos decidiu empregar a seguinte estratégia: aqueles funcionários com rendimento inferior a dois desvios padrões abaixo da média (Limite Inferior - LI) deverão passar por treinamento específico para melhorar seus desempenhos; aqueles funcionários com rendimento superior a dois desvios padrões acima de média (Limite Superior - LS) serão promovidos a líderes de equipe. Indicador Frequência 0 ├─ 2 10 2 ├─ 6 20 4 ├─ 6 240 6 ├─ 8 410 8 ├─ 10 120 Total 800 Xi frequências (fi) 2 | 6 5 6 | 10 10 10 | 14 18 14 | 18 14 18 | 22 3 50 36 Assinale a opção que apresenta os limites LI e LS a serem utilizados pelo Gerente de Recursos Humanos. a) LI = 4,0 e LS = 9,0 b) LI = 3,6 e LS = 9,4 c) LI = 3,0 e LS = 9,8 d) LI = 3,2 e LS = 9,4 e) LI = 3,4 e LS = 9,6 5) (EXCEL) Dois importantes indicadores usados pelos investidores em mercados de ações são o retorno diário médio (percentual) e o desvio padrão desses retornos (medida de risco). Considere a planilha abaixo com preços de fechamento do ativo BRFS3 (Brasil Foods). Obtenha o retorno médio e o desvio padrão dessa amostra. data R$ 1/10/2014 58,32 2/10/2014 58,83 3/10/2014 59,31 6/10/2014 60,33 7/10/2014 60,08 8/10/2014 60,60 9/10/2014 61,35 10/10/2014 60,27 13/10/2014 61,01 14/10/2014 60,88 15/10/2014 60,48 16/10/2014 58,43 17/10/2014 59,80 20/10/2014 59,05 21/10/2014 56,86 22/10/2014 58,36 23/10/2014 57,09 24/10/2014 56,78 27/10/2014 56,72 28/10/2014 58,67 29/10/2014 59,06 30/10/2014 60,83 31/10/2014 64,01 37 5 – MEDIDAS DE ASSIMETRIA E CURTOSE São as medidas que faltam para complementarmos o quadro das estatísticas descritivas, que proporcionam, juntamente com as medidas de posição e de dispersão, a descrição e compreensão completas da distribuição de frequências estudada. As distribuições de frequência não diferem apenas quanto ao valor médio e à variabilidade, como também quanto à sua forma. Do ponto de vista desse último aspecto, as características mais importantes são o grau de deformação ou assimetria e o grau de achatamento ou afilamento da curva de frequências ou do histograma. Assimetria: Símbolo: (As ou Sk). Como já vimos, se a média aritmética coincidir com a moda, temos uma distribuição simétrica dos valores estudados. A diferença entre a média e a moda já nos dá uma boa ideia da assimetria da distribuição, mas essa medida é absoluta, o que não é adequado, pois não permite comparações com as medidas de outras distribuições. Por esse motivo, dá-se preferência ao Coeficiente de Assimetria de Pearson , dado por: S xx As ~.3 Obs: Se o módulo de As estiver entre 0,15 e 1, a assimetria é considerada moderada. Acima de 1 (em módulo), é forte. Exemplo: Considerando a distribuição de frequências abaixo, determine o tipo de assimetria e o seu grau. x 400 60 6,67 ~ . . ,x L h fi Faa fi Md 2 6 2 30 24 15 6 12 15 6 8 99,29567,8 60 4,537 2 n fxx S ii assimetria fraca à esquerda Xi fi xi Fac xi . fi x xi x xi 2 x x fi i 2 0 | 2 5 1 5 5 -5,67 32,15 160,75 2 | 4 7 3 12 21 -3,67 13,47 94,29 4 | 6 12 5 24 60 -1,67 2,79 33,48 6 | 8 15 7 39 105 0,33 0,11 1,65 8 | 10 11 9 50 99 2,33 5,43 59,73 10 | 12 10 11 60 110 4,33 18,75 187,50 = 60 400 537,40 13,0 99,2 39,0 99,2 )13,0(3 99,2 )8,667,6(3)~( 3 S xx As 38 Curtose: símbolo: (C). Denomina-securtose o grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva correspondente a uma distribuição teórica de probabilidade), à qual tem índice de curtose igual a 0,263. Tem-se então: A curtose (C) se define como a razão entre a amplitude semi-interquartílica (Q) e a amplitude decílica - Curtose Decílica. C Q Q D D 3 1 9 12 Os quartis (Q1 e Q3) são medidas de posição, calculadas como a mediana, que dividem a distribuição em quatro partes com a mesma quantidade de elementos. Assim: Q L k n Faa h f k i i . 4 Os decis (D9 e D1) também são medidas de posição, semelhantes aos quartis, que dividem a distribuição em dez partes com a mesma quantidade de elementos. Assim: D L k n Faa h f k i i . 10 no qual: fi = frequência absoluta simples da classe quartílica / decílica Li = limite inferior da classe quartílica / decílica h = amplitude da classe quartílica / decílica n = número total de observações (fi) Faa = frequência acumulada anterior à classe quartílica / decílica k = ordem do quartil / decil. Essas medidas de posição são importantes, pois: a) entre os quartis Q1 e Q3 encontramos 50% dos dados da amostra; b) entre os decis D1 e D9, encontramos 90% dos dados da amostra. Exemplo: determinar o índice de curtose e da distribuição abaixo: 39 1o Quartil: 1 4 1 60 4 15 n 15a posição (3a classe) 3o Quartil: 3 4 3 60 4 45 n 45a posição (5a classe) 1o Decil: 1 10 1 60 10 6 n 6a posição (2a classe) 9o Decil: 9 10 9 60 10 54 n 54a posição (6a classe) Assim: C Q Q D D 3 1 9 12 9 09 4 5 2 10 8 2 29 4 59 2 8 51 4 59 17 02 0 27 , , , , , , , , , A distribuição tende ao achatamento (platicúrtica). Exercícios Para as questões 1 e 2, considere a tabela de frequências abaixo. pesos (kg) fi xi xi . fi xxi 2)( xxi ii fxx 2)( fac ↓ 50 ├─ 58 10 54 540 -20,08 403,2064 4032,0640 10 58 ├─ 66 15 62 930 -12,08 145,9264 2188,8960 25 66 ├─ 74 25 70 1750 -4,08 16,6464 416,1600 50 74 ├─ 82 24 78 1872 3,92 15,3664 368,7936 74 82 ├─ 90 16 86 1376 11,92 142,0864 2273,3824 90 90 ├─ 98 10 94 940 19,92 396,8064 3968,0640 100 100 7408 13247,3600 Xi fi fac 0 | 2 5 5 2 | 4 7 12 4 | 6 12 24 6 | 8 15 39 8 | 10 11 50 10 | 12 10 60 60 50,4 12 6 4 12 21215 44 .1 1 i i f hFaan LQ Q L n Faa h f i i 3 3 4 8 45 39 2 11 8 12 11 9 09 . , D L n Faa h f i i 1 1 10 2 6 5 2 7 2 2 7 2 . ,29 80,10 10 8 10 10 25054 1010 .9 9 i i f hFaan LD 40 1) O índice de curtose e a sua classificação são, respectivamente: a) 0,26 mesocúrtica b) 0,258 platicúrtica c) 0,258 leptocúrtica d) 25,8% fortemente cúrtica e) 25,8% moderadamente cúrtica 2) O coeficiente de assimetria de Pearson e sua classificação são, respectivamente: a) 0,258 assimétrica à esquerda b) 0,258 assimétrica à direita c) praticamente 0 simétrica d) 0,02 assimétrica à direita e) 20% assimétrica à direita 3) Para dados agrupados representados por uma curva de frequências, as diferenças entre os valores da média, da mediana e da moda são indicadores da assimetria da curva. Indique a relação entre essas medidas de posição para uma distribuição negativamente assimétrica. a) A média apresenta o maior valor e a mediana se encontra abaixo da moda. b) A moda apresenta o maior valor e a média se encontra abaixo da mediana. c) A média apresenta o menor valor e a moda se encontra abaixo da mediana. d) A média, a mediana e a moda são coincidentes em valor. e) A moda apresenta o menor valor e a mediana se encontra abaixo da média. 4) Considerando o coeficiente de curtose das distribuições de frequências, pode-se afirmar que a sequência que apresenta ordem crescente com relação à respectiva dispersão dos dados é dada pelas distribuições a) leptocúrtica, mesocúrtica e platicúrtica. b) platicúrtica, mesocúrtica e leptocúrtica. c) platicúrtica, leptocúrtica e mesocúrtica. d) leptocúrtica, platicúrtica e mesocúrtica. e) mesocúrtica, leptocúrtica e platicúrtica. 41 6 – PROBABILIDADE – CONCEITOS BÁSICOS Experimentos Aleatórios: ou fenômenos aleatórios são aqueles que, mesmo repetidos várias vezes sob as mesmas condições, apresentam resultados imprevisíveis. Espaço Amostral: Consideremos uma experiência onde pode ocorrer qualquer um de n resultados possíveis. Cada um dos n resultados possíveis será chamado de ponto amostral, e o conjunto S de todos os resultados possíveis, ou seja, o conjunto S de todos os pontos amostrais, será chamado de espaço amostral, espaço de prova ou conjunto universo da experiência. Nos espaços amostrais equiprobabilísticos ou laplacianos, todos os pontos amostrais tem a “mesma chance” de ocorrer. Evento: Chama-se evento a qualquer subconjunto do espaço amostral S. Ex: No lançamento de um dado, considerar a ocorrência de um no ímpar. Temos: Espaço amostral S = {1, 2, 3, 4, 5, 6} Evento no ímpar A = {1, 3, 5} Evento certo - é o próprio conjunto universo S. Intuitivamente, é o fato que ocorre sempre, com certeza. Evento impossível - o conjunto vazio também é subconjunto de S, portanto também é um evento, chamado de impossível porque nunca ocorre. Ex: No lançamento de um dado, o evento “no maior ou igual a 7” é um evento impossível e o evento “no menor ou igual a 6” é um evento certo. Probabilidade: Dado um espaço amostral S, com n(S) elementos, e um evento A de S, com n(A) elementos, A probabilidade do evento A é o número P(A) tal que: P A n A n S ( ) ( ) ( ) Exemplos: a) Considerando o lançamento de uma moeda e o evento A “obter cara”, temos: S = {Ca, Co} n(S) = 2 A = {Ca} n(A) = 1 Logo: P(A) = ½ = 0,5 ou 50% b) Considerando o lançamento de um dado, vamos calcular a probabilidade do evento B “obter o número 4 na face superior”. Temos: S = {1, 2, 3, 4, 5, 6} n(S) = 6 A = {4} n(A) = 1 Logo: P(A) = 1/6 = 0,1666... ou aprox. 16,7% Eventos Complementares – Sabemos que um evento pode ocorrer ou não. Sendo p a probabilidade de que ele ocorra (sucesso) e q a probabilidade de que ele não ocorra (insucesso), para um mesmo evento existe sempre a relação: p + q = 1 Assim, se a probabilidade de se realizar um evento é p = 1/5, a probabilidade de que ele não ocorra é: q = 1 – 1/5 = 4/5 42 Exemplo: sabemos que a probabilidade de tirar quatro no jogo de um dado é 1/6. Assim, a probabilidade de não tirar 4 é: q = 1 – 1/6 = 5/6. Eventos independentes – dizemos que dois eventos são independentes quando a realização ou a não-realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa. Por exemplo, quando lançamos dois dados, o resultado obtido em um deles independe do resultado obtido no outro. Se dois eventos são independentes, a probabilidade de que eles se realizem simultaneamente é igual ao produto das probabilidades de realização dos dois eventos. Assim, sendo p1 a probabilidade de realização do primeiro evento e p2 a probabilidade de realização do segundo evento, a probabilidade de que tais eventos se realizem simultaneamente é dada por: p = p1 . p2 Exemplo: lançamos dois dados. A probabilidade de obtermos 1 no primeiro dado é p1 =1/6. A probabilidade de obtermos 5 no segundo dado é p2 = 1/6. Logo, a probabilidade de obtermos, simultaneamente, 1 no primeiro e 5 no segundo é: p = 1/6 . 1/6 = 1/36. Eventos mutuamente exclusivos – dizemos que dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do outro. Assim, no lançamento de uma moeda, o evento “tirar cara” e o evento “tirar coroa” são mutuamente exclusivos, já que, ao se realizar um deles o outro não se realiza. Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize: p = p1 + p2 Exemplo: lançamos um dado. A probabilidade de se tirar o 3 ou o 5 é: p = 1/6 + 1/6 = 2/6 = 1/3 Se dois eventos A e B não forem mutuamente exclusivos, a probabilidade de ocorrer A ou B é dada por: P(A ou B) = P(A) + P(B) – P(AB) AB significa A e B, ou seja, P(AB) = P(A) . P(B) Exemplo: ao retirar uma carta de um baralho de 52 cartas, qual a probabilidade da carta ser um Ás ou carta de ouros? P(ás) = 4/52 = 1/13 P(ouros) = 13/52 = 1/4 P(ás de ouros) = 1/13 * 1/4 = 1/52 P(ás ou ouros) = 1/13 + 1/4 – 1/52 = 16/52 43 Probabilidade condicionada Sejam A e B dois eventos associados ao experimento E. Denotaremos por P(B/A) a probabilidade condicionada do evento B, quando A tiver ocorrido. Sempre que calculamos P(B/A), estaremos essencialmente calculando P(B) em relação ao espaço amostral reduzido A, em lugar de fazê-lo em relação ao espaço amostral original S. Exemplo: dois dados equilibrados são lançados, registrando-se o resultado. Considere os eventos: A = soma igual a 10 B = resultado do primeiro dado é maior que o resultado do segundo Calcular a probabilidade de ocorrer B, sabendo que ocorreu A. Resolução: O espaço amostral é: S = { (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) } Os eventos são: A = { (4,6) (5,5) (6,4) } B = { (6,4) } Observe que aqui usamos o evento A para espaço amostral de B. Assim, P(B/A) = 1/3 Poderíamos também calcular a probabilidade de ocorrer A sabendo que ocorreu B. Nesse caso, primeiro construímos o evento B. B = { (2,1) (3,1) (4,1) (5,1) (6,1) (3,2) (4,2) (5,2) (6,2) (4,3) (5,3) (6,3) (5,4) (6,4) (6,5) } A = { (6,4) } Assim, P(A/B) = 1/15 Exercícios resolvidos: 1) De um baralho de 52 cartas, retiram-se ao acaso duas cartas sem reposição. Qual é a probabilidade de a primeira carta ser o ás de paus e a segunda ser de ouros? R: P = (1/52).(13/51) = 13/2652 2) Qual a probabilidade de sair uma carta de copas ou ouros quando retiramos uma carta de um baralho de 52 cartas? R: P = (13/52) + (13/52) = 26/52 = 1/2 3) No lançamento de um dado, qual a probabilidade de se obter um número não inferior a 5? R: S = {5, 6} P = 2/6 = 1/3 4) Dois dados são lançados ao mesmo tempo. Determine a probabilidade de a soma ser 10 ou maior que 10. R: A = {(5,5), (5,6), (6,5), (6,6)} como S tem 36 elementos (6×6), temos P = 4/36 = 1/9 5) Em um lote de 12 peças, 4 são defeituosas. Sendo retirada uma peça, calcule: a) a probabilidade de essa peça ser defeituosa. R: P = 4/12 = 1/3 b) a probabilidade de essa peça não ser defeituosa. R: este evento e o anterior são complementares, logo: P = 1 – 1/3 = 2/3 44 Exercícios 1) A probabilidade de que Antônio esteja vivo daqui a 10 anos é igual a 80% e de que Paulo o esteja daqui a 10 anos é 70%. Então, a probabilidade de que somente um deles esteja vivo daqui a 10 anos é igual a a) 30% b) 36% c) 56% d) 38% e) 44% 2) Na prova de Língua Estrangeira de um concurso, 60% dos candidatos optaram por Inglês e os demais, por Espanhol. Destes, 5% foram classificados e daqueles, 10% foram classificados. Escolhendo-se ao acaso um candidato classificado, qual é a probabilidade de ele haver optado por Inglês? a) 0,06 b) 0,40 c) 0,50 d) 0,60 e) 0,75 3) Em um jogo de cara-ou-coroa, foram realizados dois lances independentes de uma moeda não viciada. Sabe-se que pelo menos um dos resultados foi cara. Assim sendo, a probabilidade de que os dois resultados tenham sido cara é: a) 1/4 b) 1/3 c) 1/2 d) 2/3 e) 3/4 4) Uma loja de artigos femininos vende blusas, saias e calças, confeccionadas em seda e confeccionadas em algodão. Ao final de cada mês, o gerente dessa loja costuma sortear dois artigos para suas clientes. Para tanto, ele escreve o nome de cada artigo e do material de que ele é feito numa pequena ficha, que é posta numa urna. A seguir, sorteia a primeira ficha, recoloca-a na urna e sorteia a segunda. A probabilidade de que esse gerente tenha sorteado uma saia de algodão e uma blusa, no final do mês passado, é de a) 1/2 b) 1/3 c) 1/18 d) 1/36 e) 1/72 5) (Escriturário Banco do Brasil/DF – FCC/2006) O histograma de frequências absolutas abaixo demonstra o comportamento dos salários dos 160 empregados de uma empresa em dezembro de 2005. Utilizando as informações nele contidas, calculou-se a média aritmética dos valores dos salários destes empregados, considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo. Escolhendo aleatoriamente um empregado da empresa, a probabilidade dele pertencer ao mesmo intervalo de classe do histograma ao qual pertence a média aritmética calculada é 45 a) 6,25% b) 12,50% c) 18,75% d) 31,25% e) 32,00% 6) Lança-se um par de dados. Aparecendo dois números diferentes, encontre a probabilidade de que: a) a soma seja 6; b) o 1 apareça; c) a soma seja 4 ou menor que 4. 7) Considere que 60% do total dos títulos que um investidor possui é do tipo X e o restante do tipo Y. A probabilidade do título X apresentar uma taxa de retorno igual ou superior à taxa de inflação é igual a 80% e do título Y igual a 50%. Selecionando ao acaso um título entre estes em poder do investidor e verificando que a taxa de retorno apresentada foi inferior à taxa de inflação, a probabilidade dele ser um título do tipo Y é igual a a) 37,5% b) 50,0% c) 56,5% d) 62,5% e) 65,0% 8) Um grupo de funcionários da Administração Tributária de um Estado é composto por auditores e fiscais de receitas estaduais conforme quadro abaixo: Uma pessoa desse grupo é sorteada ao acaso, a probabilidade de ocorrer no sorteio um homem, sabendo que o funcionário sorteado é auditor: a) é inferior a 0,15 b) está entre 0,15 e 0,25 c) está entre 0,25 e 0,35 d) está entre 0,35 e 0,50 e) é superior a 0,50 Esperança Matemática Se p é a probabilidade de uma pessoa receber uma quantia $, a esperança matemática é definida por p.$. Exemplo 1: se a probabilidade de um homem ganhar um prêmio de R$10,00 é de 1/5, sua esperança é de (1/5).10 = 2 ou R$2,00 Se X representa uma variável aleatória discreta que pode assumir os valores X1, X2, ..., Xn com as probabilidades de p1, p2, ..., pn, respectivamente, sendo p1 + p2 + ... + pn = 1, a esperança matemática de X é definida por: E(X) = p1.X1 + p2.X2 + ... + pn.Xn Exemplo 2: se um homem adquirir um bilhete de loteria, poderá ganhar um primeiro prêmio de R$5.000,00 ou um segundo, de R$2.000,00 com as probabilidades de 0,1% e 0,3% respectivamente. Qual será o preço justo a se pagar pelo bilhete? Resolução: E = 5000 . 0,001 + 2000 . 0,003 = 5 + 6 = 11 (R$11,00 é o preço justo) 46 Exemplo 3: em uma certa especulação comercial, um homem pode ter um lucro de R$300,00 com a probabilidade de 0,6, ou um prejuízo de R$100,00, com a probabilidade de 0,4. Determinar a sua esperança. Resolução: E = 300 . 0,6 + (-100) . 0,4 = 180 – 40 = 140 ou R$140,00 Exercícios 9) Um fiscal pretende avaliar o lucro de um
Compartilhar