Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA NOTAS DE AULA Estatística Descritiva Probabilidades e Distribuições Sandra Denisen do R. Marcelino 2009 SUMÁRIO 1. INTRODUÇÃO...................................................................................................................................................................1 1.1 CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA ..............................................................................................1 1.2 FASES DE UM TRABALHO ESTATÍSTICO ...........................................................................................................2 1.3 TIPOS DE VARIÁVEIS ESTATÍSTICA ...................................................................................................................2 1.4 APRESENTAÇÃO DOS DADOS ..............................................................................................................................3 1.4.1 Tabelas .............................................................................................................................................3 1.4.2 Gráficos ............................................................................................................................................4 2. ESTATÍSTICA DESCRITIVA..........................................................................................................................................5 2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS......................................................................................................................5 2.1.1 Exercícios .........................................................................................................................................9 2.2 DE TENDÊNCIA CENTRAL...................................................................................................................................11 2.2.1 Média Aritmética.............................................................................................................................11 2.2.2 Mediana..........................................................................................................................................12 2.2.3 Moda...............................................................................................................................................14 2.3 MEDIDAS DE POSIÇÃO (QUANTIS)....................................................................................................................14 2.4 EXERCÍCIOS ...........................................................................................................................................................16 2.5 MEDIDAS DE DISPERSÃO....................................................................................................................................17 2.5.1 Amplitude........................................................................................................................................18 2.5.2 Variância.........................................................................................................................................18 2.5.3 Desvio Padrão ................................................................................................................................20 2.5.4 Coeficiente de Variação .................................................................................................................21 2.5.5 Exercícios .......................................................................................................................................22 2.6 ASSIMETRIA...........................................................................................................................................................23 2.6.1 Exercícios .......................................................................................................................................26 2.7 CURTOSE.................................................................................................................................................................27 3. NOÇÕES DE PROBABILIDADE ..................................................................................................................................28 3.1 DEFINIÇÕES ...........................................................................................................................................................28 3.1.1 Experimento Aleatório ....................................................................................................................28 3.1.2 Espaço Amostral ............................................................................................................................28 3.1.3 Evento Aleatório .............................................................................................................................28 3.1.4 Eventos Mutuamente Exclusivos (ou Excludentes) .......................................................................29 3.1.5 Operações com Eventos ................................................................................................................30 3.1.6 Definição Axiomática de Probabilidade..........................................................................................30 3.1.7 Exercícios .......................................................................................................................................31 3.2 TEOREMAS FUNDAMENTAIS .............................................................................................................................33 3.2.1 Exercícios .......................................................................................................................................34 3.3 VARIÁVEL ALEATÓRIA.......................................................................................................................................36 3.3.1 Variável Aleatória Discreta .............................................................................................................36 3.3.2 Variável Aleatória Contínua............................................................................................................36 3.3.3 Distribuições de Probabilidades .....................................................................................................36 3.4 ESPERANÇA MATEMÁTICA, MÉDIA OU VALOR ESPERADO.......................................................................38 3.5 VARIÂNCIA ............................................................................................................................................................39 3.6 EXERCÍCIOS ...........................................................................................................................................................40 3.7 DISTRIBUIÇÕES TEÓRICAS DE PROBABILIDADE..........................................................................................41 3.7.1 Distribuição Binomial ......................................................................................................................41 3.7.2 Distribuição de Poisson..................................................................................................................42 3.7.3 Distribuição Hipergeométrica .........................................................................................................43 3.7.4 Exercícios .......................................................................................................................................44 3.7.5 Distribuição Normal ........................................................................................................................46 3.7.6 Aplicações da Distribuição Normal.................................................................................................48 3.7.7 Exercícios .......................................................................................................................................494. RESULTADOS DOS EXERCÍCIOS PROPOSTOS.....................................................................................................53 4.1 LISTA DE PROBABILIDADE – PÁGINA 29....................................................................................................................54 4.2 LISTA DE PROBABILIDADE – PÁGINA 32...................................................................................................................54 4.3 LISTA DE ESPERANÇA MATEMÁTICA E VARIÂNCIA – PÁGINA 38...............................................................................55 4.4 LISTA DE DISTRIBUIÇÕES DISCRETAS – PÁGINA 42...................................................................................................55 4.5 LISTA DISTRIBUIÇÃO NORMAL – PÁGINA 47............................................................................................................55 5. REFERÊNCIAS BIBLIOGRÁFICAS............................................................................................................................57 1. INTRODUÇÃO A Estatística pode ser considerada como uma metodologia quantitativa que se preocupa em coletar, organizar, analisar e interpretar um conjunto de observações, visando a tomada de decisões. O objetivo dos estudos estatísticos reside naqueles fenômenos que se referem principalmente a um conjunto muito numeroso de indivíduos semelhantes quanto a pelo menos uma característica específica. Pode-se dizer que toda ciência que manipula dados experimentais necessita da Estatística como método de análise desses dados, para que o pesquisador possa tirar conclusões que tenham validade científica. Basicamente, o estudo da Estatística pode ser dividido em quatro partes: Estatística Descritiva, Probabilidades, Amostragem e Inferência Estatística. A Estatística Descritiva consiste no resumo dos dados através do uso de certas medidas estatísticas. Em um sentido mais amplo, a Estatística Descritiva pode ser interpretada como uma função cujo objetivo é a observação de fenômenos de mesma natureza, a coleta de dados numéricos referentes a esses fenômenos, a organização e a classificação desses dados observados e a sua apresentação através de gráficos e tabelas, além do cálculo de medidas que permitem descrever resumidamente os fenômenos. A Amostragem vai possibilitar o conhecimento das principais técnicas de obtenção das amostras, de tal forma que estas sejam representativas da população, bem como suas aplicações. O estudo das Probabilidades será necessário para que se possa desenvolver os principais métodos da Inferência Estatística. A Inferência Estatística refere-se a um processo de generalização, a partir de resultados particulares. Consiste em obter e generalizar conclusões, ou seja, a Inferência Estatística possibilita a tomada de decisões acerca de populações (conjunto de elementos que têm pelo menos uma característica de interesse em comum) partindo de amostras (subconjuntos representativos da população). À inferência está associado um grau de incerteza. A existência da incerteza deve-se ao fato de que a conclusão que se pretende obter para o conjunto de todos os indivíduos analisados, quanto a determinadas características comuns, baseia-se em uma parcela do total de observações. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria da Probabilidade. 1.1 CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA Dois conceitos muito utilizados em estatística são população (ou universo) e amostra. População: totalidade dos indivíduos que se deseja investigar quanto a pelo menos uma característica específica, ou seja, é a totalidade dos elementos que estão sob discussão e dos quais se deseja informação. As características da população são chamadas de parâmetros, valores fixos e desconhecidos, representados, em geral, por letras gregas. É importante ficar bem claro que uma população é estudada em termos de observações de características nos indivíduos e não em termos de pessoas ou objetos em si. Assim, por exemplo, as alturas dos cidadãos do Brasil constituem uma população, enquanto que os pesos destes mesmos indivíduos poderiam formar uma outra população. Nem sempre é possível investigar todos os elementos que compõem a população, quer seja por dificuldades operacionais (material humano para coleta de dados em tempo hábil, dificuldade de acesso, ...) ou mesmo por custos elevados. Faz-se, então, o estudo através de amostras. Amostra: é a parte selecionada da totalidade de observações abrangidas pela população, através da qual se faz inferência sobre as características da população. Ressalta-se que tal parcela deve ser selecionada mediante técnicas de amostragem, de tal forma que a amostra seja representativa, ou seja, contenha todas as características da população. As características da amostra são chamadas de estatísticas, sendo simbolizadas por caracteres latinos. Entende-se por observação cada valor coletado (ou observado), seja na amostra ou na população. Por exemplo: Suponha que se tenha interesse em avaliar o teor alcoólico de dez tipos de vinho. Para tanto Sandra Denisen do R. Marcelino Página 2 considerou-se 50 garrafas de cada marca. Tem-se aqui 500 observações, pois será coletado o teor alcoólico de 500 garrafas de vinho. Cabe ressaltar aqui, que o estudo cuidadoso de uma amostra tem mais valor científico do que o estudo sumário de toda a população. Por exemplo, para estudar o efeito de uma determinada propaganda nas vendas de produtos de uma certa marca, é melhor analisar periodicamente as vendas dos produtos de forma minuciosa, que examinar rapidamente o total de vendas de cada produto ao final de um ano. 1.2 FASES DE UM TRABALHO ESTATÍSTICO “Quando se vai viajar, qual é a primeira coisa que se deve saber? Para onde se está indo, onde se quer chegar e o porquê de se estar indo. Depois, qual o caminho que leva até lá de modo mais fácil, rápido e econômico, e então escolher a condução que melhor se adapta a esse caminho: ônibus, trem, avião, etc. (precisa comprar passagens? Com qual antecedência?) Está-se indo para um hotel ou para uma casa de praia? (precisa levar roupa de cama ou não?). Tudo isto é necessário para que a viagem transcorra o mais agradável possível. Quando tudo é planejado da maneira certa, existe uma grande probabilidade de que tudo ocorra certo, não é mesmo?” (FERNANDEZ, 1992). Quando se deseja fazer uma pesquisa, seja com finalidade acadêmica (teses, dissertações, trabalhos científicos) ou com finalidade comercial ou industrial, há que se planejá-la corretamente, a fim de se obter as informações de modo a ajudarem a testar se as hipóteses formuladas a princípio são verdadeiras ou não, e conseguir usar as técnicas adequadas para testar estas hipóteses. O primeiro passo numa pesquisa é levantar a hipótese de maneira bem definida. Para tanto, deve-se conhecer bem os objetivos da pesquisa. Lembrar que quem levanta a hipótese sobre o assunto é o pesquisador, devendo-se tomar cuidado quando a sua pesquisa depende de outra pessoa além de você (orientador, auxiliar de campo ou laboratório), pois todos os envolvidos na pesquisa devem estar pensando da mesma maneira sobre o assunto em questão. Sugere-se sempre que se faça análise da literatura sobre o assunto que se deseja estudar (ou investigar). A literatura sugere hipóteses, variáveis, instrumentos de coleta de dados, formas de apresentação dos resultados, métodos estatísticos, resultados esperados, etc. Então, hipóteses são respostas provisórias às questões que a pesquisa pretende investigar; são relações entre duas ou mais variáveis; sendo necessária a verificação empírica dessas relações. Os dados estatísticos são obtidos mediante um processo que envolve a observação ou outra mensuração de itens tais comorenda anual numa comunidade, escores de testes, quantidade de café por xícara servida por uma máquina automática, resistência à ruptura de fibras de náilon, entre outros. Tais itens são denominados variáveis, pois originam valores que tendem a apresentar certa variabilidade quando são efetuadas sucessivas medidas. 1.3 TIPOS DE VARIÁVEIS ESTATÍSTICA Na descrição ou análise de um conjunto de dados estatísticos, pode-se associar a eles certos tipos de variáveis, pois o tratamento matemático exigido e o método estatístico a ser utilizado dependem dessa variável. Pode-se considerar dois tipos de variáveis: qualitativas e quantitativas. As variáveis qualitativas são aquelas utilizadas para descrever qualidades, categorias, atributos, podendo ser classificadas como categóricas (nominais) ou ordinais. Em geral são características que não podem ser medidas numericamente. As variáveis categóricas ou nominais permitem somente a classificação dos dados. Exemplo: sexo, ramo de atividade de uma empresa, tipo de comércio, entre outras. Já as variáveis ordinais permitem que se estabeleça uma ordenação natural das variáveis, sem no entanto, determinar-se numericamente a distância entre as ordenações. Por ex.: status social, grau de instrução, porte de uma empresa, entre outras. As variáveis quantitativas estão associadas a valores numéricos, podendo ser discretas ou contínuas. As variáveis contínuas são aquelas usadas para descrever dados contínuos, ou seja, podem assumir qualquer valor de um subconjunto dos números reais. Ex.: peso, altura, diâmetro, tempo, concentração química. A variável é dita discreta quando o número de valores possíveis for finito ou enumerável. Ex.: quantidade de sacas de soja colhidas por hectare, número de dias que choveu em Curitiba no mês de Abril, número de estabelecimentos comerciais por área, etc. Sandra Denisen do R. Marcelino Página 3 ⎪⎪⎩ ⎪⎪⎨ ⎧ ⎩⎨ ⎧ ⎩⎨ ⎧ Contínua Discreta vaQuantitati Ordinal Nominal aQualitativ Variável A natureza das variáveis pode orientar a escolha das técnicas estatísticas. As técnicas estatísticas utilizadas para dados provenientes de variáveis qualitativas são diferentes das técnicas utilizadas para dados provenientes de variáveis quantitativas. EX. DE PROVAS ESTATÍSTICAS ESCALA EXEMPLO DE ESTATÍSTICAS APROPRIADAS ANÁLISE ESTATÍSTICA ADEQUADA AMOSTRAS RELACIONADAS AMOSTRAS INDEPENDENTES Nominal • Moda • Freqüência • Coeficiente de contingência Análise estatística não paramétrica • Prova de McNemar • Teste Exato de Fischer • Teste χ2 Ordinal • Mediana • Percentis • Correlação: • rs de Spearman • τ de Kendall • W de Kendall Análise estatística não paramétrica • Prova de Wilcoxon • Prova de Friedman • Prova de Kolmogorov-Smirnov • Prova U de Mann Withney • Prova de Kruskall- Wallis Discreta e Contínua • Média • Desvio padrão • Coeficiente de correlação de Pearson • Coeficiente de variação Análise estatística paramétrica • Teste t para amostras pareadas • Teste t • Teste F ou ANOVA (Análise de variância) 1.4 APRESENTAÇÃO DOS DADOS 1.4.1 Tabelas As tabelas podem ser classificadas de acordo com seu conteúdo: a) estatísticas: apresentam o fenômeno, o local e o tempo. Há 3 tipos: • Simples: apenas duas colunas, variando o tempo (séries históricas); o local (séries geográficas) ou o fenômeno (séries específicas); • Dupla Entrada: que combinam duas ou mais séries estatísticas; • Distribuições de Freqüências; b) de codificação: Código <=> descrição ( 1 = masculino); c) de conversão de unidades: metro quadrado para are; d) técnicas: apresentam especificações técnicas de determinados produtos ou área de interesse; e) de rotina ou controle: fluxograma. diagrama, organograma; f) especiais: classificação periódica dos elementos. As tabelas têm título, corpo, cabeçalho e coluna indicadora. O título explica o que a tabela contém. O corpo é formado pelas linhas e colunas. O cabeçalho especifica o conteúdo das colunas, e a coluna indicadora especifica o conteúdo das linhas. Uma tabela pode ainda apresentar fonte, nota e chamada. A fonte dá indicação da entidade ou do pesquisador, ou dos pesquisadores que publicaram ou forneceram os dados. A nota é utilizada para esclarecer aspectos relevantes do levantamento dos dados ou apuração. As chamadas são esclarecimentos sobre os dados e devem ser feitas através de algarismos arábicos escritos entre parênteses, e colocados à direita da coluna. Sandra Denisen do R. Marcelino Página 4 Quando se trabalha com datas, é importante observar como se indica corretamente um determinado período. DATAS: 1. Anos civis consecutivos: 1976-79 (1976 até 1979) 2. Anos civis não-consecutivos: 1976-1979 (apenas 1976 e 1979) 3. Período de 12 meses diferente do ano civil: 1978/1979 (doze meses) 4. Período relativo a safra: 77/78 Como exemplo, veja a Tabela 1.1 Tabela 1.1 Nascidos vivos registrados segundo o ano de registro e o sexo Ano do Sexo Total Registro Masculino Feminino 1984 1307758 1251280 2559038 1985 1339059 1280545 2619604 1986 1418050 1361203 2779253 Fonte: IBGE (1988) Nota: Nascimentos ocorridos no ano de registro Quanto à questão do arredondamento, tem-se como regra o seguinte, de acordo com os equipamentos de cálculo tais como calculadora e microcomputador: 1) finais 1 2 3 4 - eliminar as casas decimais indesejadas: 2,342 = 2,34; 2) finais 5 6 7 8 9 - eliminar o restante e acrescentar uma unidade à última casa considerada: 2,347 = 2,35; 1.4.2 Gráficos Os gráficos também podem ser classificados de acordo com seu conteúdo: • Estatísticos; • Organizacionais: organogramas (quadro geométrico representativo de uma organização ou de um serviço), fluxogramas (representação gráfica da definição, análise e solução de um problema); cronogramas (representação gráfica da previsão de execução de um trabalho); • Mapas: do Estado, do País, da América do sul; • Plantas: arruamento (traçado, demarcação e abertura de ruas) de cidades: • Figuras: fotografias; • Técnicos: nomograma (gráfico, com curvas apropriadas, mediante o qual se pode obter soluções de uma equação determinada pelo simples traçado de uma reta). São elementos de um gráfico: • títulos; • escala; • fonte; • nota; • chamada; • legenda. Dentre os gráficos estatísticos têm-se: • diagramas (de pontos, de bastões, de linhas, de colunas, de barras, de superfícies, de áreas, de setores, histogramas); • cartogramas (dados geográficos); • pictogramas (desenhos de pessoas, etc.); • estereogramas (espaço tridimensional). 2. ESTATÍSTICA DESCRITIVA 2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS Um conjunto de observações de um certo fenômeno, não estando adequadamente organizado, fornece pouca informação de interesse ao pesquisador. Para uma visão rápida e global do fenômeno em estudo é preciso que os dados estejam organizados em tabelas e gráficos convenientemente construídos. O tipo de tabela ou gráfico utilizado é função do tipo de variável que representa o fenômeno de interesse. Se a variável de interesse é uma variável qualitativa é possível resumir as categorias ou atributos em uma tabela de distribuição de freqüências, listando as realizações da variável e as respectivas vezes que tais realizações ocorreram. Se a variável toma somente valores discretos (isolados), ou seja, se a variável de interesse é discreta, é possível construir uma tabela de freqüências de valores não agrupados em classes, ou seja, os valores que a variável assumiu são listados, e a freqüência simples (fi), ou de maneira comum só freqüência,é o número de observações referentes àquela realização. Por outro lado, se a variável toma valores dentro de um intervalo dos números reais, ou seja, a variável de interesse é contínua, é possível construir uma tabela de freqüências de valores agrupados em classes, onde a freqüência de uma classe é o número de observações que se enquadram entre os limites daquela classe. Uma distribuição de freqüências em classe também pode ser construída para variáveis discretas, quando esta apresentar muitas realizações distintas. Considerando as tabelas de distribuição de freqüências, muitas vezes pode-se ter interesse em outros tipos de freqüências, além da simples. É possível construir uma tabela de freqüências acumuladas, sendo a freqüência acumulada de um ponto igual à freqüência desse ponto somada com as freqüências de todos os pontos menores que o considerado. Se está-se trabalhando com classes, então a freqüência acumulada de determinada classe é dada pela freqüência simples da classe em questão somada às freqüências das classes anteriores. A freqüência acumulada é denotada por Fi ou “fa”. Muitas vezes, existe interesse em trabalhar com a freqüência relativa (fr) de determinada realização ou classe. Essa freqüência é dada pelo quociente entre a freqüência simples (fi) e o número total de observações ou freqüência total (n). Assim: f f nr i= (1) Exemplo 2.1: Considere o conjunto de dados abaixo, onde tem-se o número de alunos de 60 disciplinas ministradas em quatro cursos de uma Faculdade. Curso A Curso B Curso C Curso D 15 36 75 45 36 75 65 45 65 36 24 75 65 45 36 45 80 45 65 24 75 87 65 24 45 65 15 36 45 87 65 45 36 8 75 65 65 45 75 36 24 45 36 8 65 80 75 75 24 36 15 65 75 45 24 45 15 36 45 80 Dados fictícios. A Tabela 2.1 abaixo mostra os dados referentes ao número de turmas em cada curso Tabela 2.1 Distribuição de freqüências para a variável curso Curso (xi) Freqüência (fi) Freqüência Acumulada (fa) A 15 15 B 15 30 C 15 45 D 15 60 Total 60 Sandra Denisen do R. Marcelino Página 6 A Tabela 2.2 a seguir mostra os dados referentes ao número de alunos de 60 disciplinas ministradas, distribuídos conforme as respectivas freqüências absoluta e relativa, e ainda as respectivas freqüências acumuladas. Tabela 2.2 Distribuição de freqüências para a variável número de alunos Número de Alunos Freqüência Simples Freqüência Acumulada (xi) Absoluta (fi) Relativa (fr) Absoluta (Fi) Relativa (Fr) 8 2 0,0333 2 0,0333 15 4 0,0667 6 0,1000 24 6 0,1000 12 0,2000 36 10 0,1667 22 0,3667 45 13 0,2167 35 0,5834 65 11 0,1833 46 0,7667 75 9 0,1500 55 0,9167 80 3 0,0500 58 0,9667 87 2 0,0333 60 1,0000 Total 60 1,0000 Pode-se ainda representar os dados da Tabela 2.2 graficamente, através de um diagrama de freqüências por pontos, como mostra a Figura 2.1 abaixo, ou ainda pelo gráfico de freqüências acumuladas, conforme a Figura 2.2. Figura 2.1: Diagrama por pontos 0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 70 80 90 Número de alunos Fr eq uê nc ia s Figura 2.2: Diagrama de frequências acumuladas 0 10 20 30 40 50 60 70 80 0 50 100 Número de alunos Fr eq . A cu m ul ad as Ainda considerando o exemplo 2.1, pode-se desejar construir uma tabela de freqüências para o número de alunos das 60 disciplinas ministradas, distribuídos de acordo com o curso. A Tabela em questão denomina-se tabela de cruzamento de variáveis ou tabela de dupla entrada. Tabela 2.3 Cruzamento das variáveis curso e número de alunos Número de Alunos Curso Curso A Curso B Curso C Curso D Total 8 1 0 1 0 2 15 1 1 1 1 4 24 2 1 2 1 6 36 3 3 2 2 10 45 3 2 3 5 13 65 2 3 3 3 11 75 2 3 3 1 9 80 0 1 0 2 3 87 1 1 0 0 2 Total 15 15 15 15 60 Sandra Denisen do R. Marcelino Página 7 Se a variável é contínua, ou ainda, se o número de categorias envolvidas na tabela de distribuição de freqüências para uma variável discreta é muito grande, é possível construir uma tabela de freqüências de valores agrupados em classes. Um critério utilizado na determinação do número de classes (k) é através da fórmula empírica de Sturges. k = 1 + 3,32 log n, (2) onde n representa o total de observações. Cabe ressaltar que um número muito pequeno (k = 3) ou um número muito grande de classes (k = 30), pode comprometer a visualização dos dados, pois se k é demasiado pequeno, perde-se muita informação, enquanto que, se k é muito grande, têm-se pormenores desnecessários. A amplitude (h) de cada classe será dada por: h A k t= (3) onde At representa a amplitude total das observações, definida como a diferença entre o maior valor (máximo) e o menor valor (mínimo) observados. Denominam-se extremos de classe, os limites dos intervalos de classe. Deve ficar muito claro se os valores iguais aos extremos devem ou não ser incluídos na classe. Adota-se a seguinte notação: |_ para indicar que o limite inferior pertence à classe, ou seja, o intervalo é fechado à esquerda. Já a notação _| indica que o intervalo é fechado à direita, ou seja, o limite superior é incluído na classe. A notação |-| indica que ambos os limites inferior e superior estão inclusos na classe. Numa distribuição de freqüências também podem ser apresentados os pontos médios de classe. O ponto médio é dado pela soma dos extremos da classe, dividida por 2, e é representado por xi (se a variável considerada for X). Exemplo 2.2: Seja a variável X representando a altura de 28 estudantes do sexo masculino de um determinado Curso. Foram obtidos os seguintes valores para X, em m: 1,84 1,60 1,73 1,86 1,78 1,80 1,88 1,71 1,89 1,65 1,83 1,76 1,83 1,81 1,66 1,86 1,74 1,70 1,77 1,68 1,96 1,72 1,79 1,74 1,78 1,71 1,67 1,77 Visando a construção da tabela de distribuição freqüências, há que se calcular o número de classes e a amplitude de classe. Analisando o conjunto de dados tem-se: Valor mínimo = 1,60 ⇒ amplitude (A t) = 1,96 - 1,60 = 0,36 m Valor máximo = 1,96 Usando a fórmula de Sturges (2) tem-se: k = 1 + 3,32 log n = 1 + 3,32 log 28 = 5,80 ≅ 6 classes, e usando a fórmula (3) tem-se h = 0,06m ou 6 cm, que é a amplitude de classe. Então, a tabela de freqüência a ser construída terá 6 classes, com o intervalo de classe de 6 cm. Tabela 2.3 Distribuição de freqüências para dados agrupados em classes Classes fi fa xi 1,60 |− 1,66 2 2 1,63 1,66 |− 1,72 6 8 1,69 1,72 |− 1,78 7 15 1,75 1,78 |− 1,84 7 22 1,81 1,84 |− 1,90 5 27 1,87 1,90 |−| 1,96 1 28 1,93 Total 28 A representação gráfica da Tabela 2.3 é dada pelo histograma de freqüências, Figura 2.3 abaixo. O histograma é uma representação gráfica onde cada classe é representada por um retângulo, cuja base é igual à amplitude de classe correspondente, e a área é proporcional à freqüência de classe. Sandra Denisen do R. Marcelino Página 8 Figura 2.3: Histograma de frequências 2 6 7 7 5 1 0 1 2 3 4 5 6 7 8 160|-166 166|-172 172|-178 178|-184 184|-190 190|-|196 Altura (cm) Fr eq uê nc ia s Outra representação gráfica de interesse para uma variável contínua é o polígono de freqüências, que é uma representação gráfica onde considera-se o ponto médio (xi) no eixo das abcissas, e as freqüências no eixo das ordenadas, ligando-se todos os pontos. O polígono de freqüências para os dados da Tabela 2.3 é dado a seguir, Figura 2.4. Figura 2.4: Polígono de frequências 0 1 2 3 4 5 6 7 8 160|-166 166|-172 172|-178 178|-184 184|-190 190|-|196 Altura (cm) Fr eq uê nc ia s Se naFigura 2.4 forem consideradas as freqüências acumuladas ao invés das freqüências absolutas, o gráfico passa a se chamar Polígono de Freqüências Acumuladas ou Ogiva de Galton, gráfico este que tem por finalidade a representação das tabelas de freqüências acumuladas. Para os dados da Tabela 2.3, tem-se a Figura 2.5 a seguir. Figura 2.5: Polígono de frequências acumuladas Ogiva de Galton 0 5 10 15 20 25 30 160|-166 166|-172 172|-178 178|-184 184|-190 190|-|196 Altura (cm) Fr eq . A cu m ul ad as Quando o polígono de freqüências acumuladas se refere às freqüências relativas, usa-se a denominação Ogiva Percentual ou Polígono de Freqüências Relativas Acumuladas. Sandra Denisen do R. Marcelino Página 9 2.1.1 Exercícios 1. Foram anotados, durante 30 dias, o tempo necessário (em minutos) para a realização de uma tarefa, visando estabelecer um tempo padrão, a fim de que tal tempo seja base para a realização de um teste para a seleção de novos funcionários. Construa uma tabela de distribuição de freqüências, considerando intervalos de classes iguais. 5,1 4,4 7,7 32,3 9,9 7,4 5,2 8,3 8,3 6,3 9,0 7,0 6,6 4,9 9,6 14,1 7,0 2,4 4,4 18,0 14,6 9,6 16,7 7,4 8,2 8,7 24,0 9,4 8,2 5,8 2. Sejam os dados relativos ao número de acidentes diários num grande estacionamento, durante um período de 50 dias. Construa uma tabela de distribuição de freqüências para a variável número de acidentes. 6 9 2 7 0 8 2 5 4 2 5 4 4 4 4 2 5 6 3 7 3 8 8 4 4 4 7 7 6 5 4 7 5 3 7 1 3 8 0 6 5 1 2 3 6 0 5 6 6 3 3. Um teste de estatística, contendo 100 perguntas do tipo certo-errado, foi aplicado em uma turma de 500 estudantes. A Tabela a seguir apresenta o resultado do teste. Resultados do teste de estatística Classes Freqüências (fi) 0 |- 10 5 10 |- 20 15 20 |- 30 20 30 |- 40 45 40 |- 50 100 50 |- 60 130 60 |- 70 100 70 |- 80 60 80 |- 90 15 90 |- 100 10 Total 500 a) Quantos alunos acertaram de 30 a 79 perguntas? Quantos por cento esse valor representa no total de alunos que se submeteram ao teste? b) Qual o percentual de alunos que acertaram de 50 a 59 questões? c) Quantos alunos acertaram menos de 20 questões? E quantos acertaram 80 ou mais questões? d) Qual a variável de interesse? Classifique-a. 4. Classifique as variáveis abaixo em qualitativas (nominais ou ordinais) ou quantitativas (discretas ou contínuas): a) Distância entre duas cidades; b) Tempo para a realização de uma prova; c) Quantidade de cursos de uma Universidade; d) Classificação de um produto (Excelente/Bom/Ruim); e) Cor dos olhos. 5. Complete a tabela a seguir. Vendas de bebidas leves em um dia Freqüências Simples Freqüências Acumuladas Tipo Vendas Absolutas Vendas Relativas Vendas Absolutas Vendas Relativas Cola 600 600 60% Limão 200 800 Laranja 10% Uva 50 Cereja 40 Outros 1000 Total 1000 100% Sandra Denisen do R. Marcelino Página 10 6. Complete a tabela a seguir. Tempos de espera na fila de um Banco Tempo Freqüência Simples Freqüência Acumuladas Ponto (Minutos) Absoluta (fi) Relativa (fr) Absoluta (Fi) Relativa (Fr) Médio (xi) 0 a < 5 220 5 a < 10 82 15 a < 20 15 5 25 a < 30 1 Total 350 100% a) Qual o tempo máximo de espera na fila? E o tempo mínimo? b) Quantos clientes foram considerados no estudo? c) Qual o tempo de espera predominante? d) Quantos clientes esperaram 25 minutos ou mais na fila? Quanto esse valor representa no total de clientes? 7. Uma pesquisa feita em um hotel de determinada cidade revelou que 40 hóspedes chegaram pelos seguintes meios de transporte: Carro Carro Trem Ônibus Trem Carro Trem Avião Carro Avião Carro Avião Carro Carro Carro Carro Ônibus Carro Avião Carro Ônibus Avião Carro Ônibus Ônibus Carro Ônibus Carro Avião Avião Avião Ônibus Carro Carro Carro Ônibus Avião Trem Carro Avião Construa uma distribuição categórica* mostrando as freqüências correspondentes aos diferentes meios de transporte. * como trata-se de dados qualitativos, a distribuição de freqüências a ser construída recebe tal denominação, pois não se utilizam “classes” e sim “categorias”. 8. São apresentadas a seguir as idades de um grupo de aposentados. 68 81 62 61 76 65 69 73 82 79 63 69 68 66 73 74 66 68 71 74 70 68 73 64 77 80 73 66 67 81 77 66 a) Qual a variável do problema? Qual a sua classificação? b) Utilizando o conjunto de dados, construa uma tabela de distribuição de freqüências com intervalo de classe igual a 5. c) Considerando a tabela obtida, construa também o histograma de freqüências. 9. As notas de 25 alunos em um teste são dadas a seguir. Agrupe-as em uma tabela de distribuição de freqüências, considerando intervalo de classes iguais. Complete a tabela construída com as freqüências: simples relativa, acumulada absoluta e acumulada relativa, ambas em ordem crescente. 75 65 31 82 68 81 56 38 73 69 62 63 52 81 37 83 60 69 84 97 89 70 88 68 77 10. Dá-se a seguir a distribuição dos gastos semanais de 200 clientes de um supermercado: Valor (R$) Freqüência 0 –| 20 22 20 –| 40 47 40 –| 60 66 60 –| 80 35 80 –| 100 21 100 –| 120 9 a) faça um histograma desta distribuição b) utilizando a freqüência acumulada, “fa” ou “Fi” , trace uma ogiva. Sandra Denisen do R. Marcelino Página 11 2.2 DE TENDÊNCIA CENTRAL Os dados quantitativos, apresentados em tabelas e gráficos, constituem a informação básica do problema em estudo. Uma forma mais resumida de descrever um conjunto de dados pode ser feita através de um valor único, que representa em termos "médios" todo o conjunto. Esse valor tende a se localizar no centro do conjunto MEDIDAS de dados, sendo conhecida como medida de tendência central. As medidas de tendência central mais conhecidas e que serão aqui estudadas são: média aritmética, mediana e moda. 2.2.1 Média Aritmética A média aritmética de um conjunto de valores pode ser de dois tipos: simples ou ponderada. A média aritmética simples x de um conjunto de n valores x1, x2, ... ,xn é definida pelo quociente entre a soma dos valores do conjunto e o número total de valores, ou seja: n x x n 1i i∑ == , (4) onde: n é o total de observações xi é cada valor observado. ∑ ix é a soma de todos os valores do conjunto de dados considerado. Exemplo 2.3: Tabela 2.4 Sejam as notas de 5 alunos da Disciplina de Estatística Aluno 1 Aluno 2 Aluno 3 Aluno 4 Aluno 5 90 100 70 65 47 Então: n x x n 1i i∑ == = 90 100 70 65 47 5 372 5 74 40 + + + + = = , A média aritmética é considerada ponderada quando os valores do conjunto tiverem pesos diferentes. Obtém-se uma média aritmética ponderada através do quociente entre o produto dos valores pelos respectivos pesos e a soma dos pesos. Então, se x1, x2, ... ,xk ocorrem com as freqüências f1, f2, ... ,fk, respectivamente, a média aritmética será dada pela expressão: n fx f fx x k 1i ii k 1i i k 1i ii ∑ ∑ ∑ = = = == (5) onde: fi representa a freqüência da classe ou categoria, xi são os valores das categorias ou ponto médio das classes ∑ ii fx é a soma do produto de valores de cada categoria ou ponto médio pela respectiva freqüência. Sandra Denisen do R. Marcelino Página 12 Exemplo 2.4: Tabela 2.5 Dados de 25 pessoas, referentes ao número de livros lidos por semana N.º de livros lidos por semana (xi) Freqüência (fi) xifi 0 16 0 1 2 2 2 3 Cria-se coluna 6 3 2 auxiliar 6 4 2 8 Total 25 22 x x f f x f n i i i n i i n i i i n= = = + + + + = = ≅= = = ∑ ∑ ∑ 1 1 1 0 16 1 2 2 3 3 2 4 2 25 22 25 0 88 1 ( * ) ( * ) ( * ) ( * ) ( * ) , livro Caso os dados sejam distribuídos em classes, os valores x1, x2, ... ,xk corresponderão aos pontos médios das k classes. O ponto médio xi da i-ésima classe pode ser definido como a média aritmética entre os limites inferior (li) e o superior (ls) da classe i considerada, ou seja, 2 lslix i += (6) Exemplo 2.5: Tabela 2.6 Número de horas trabalhadas de 32 funcionários de um Banco Classes Freq. (fi) Ponto médio (xi) xifi 120 |- 130 9 125 1125 130 |- 140 7 135 945 140 |- 150 3 145 435 150 |- 160 6 155 930 160 |- 170 2 165 330 170 |- 180 5 175 875 Total 32 4640 x x f f x f n i i i n i i n i i i n = = = + + + + + = == = = ∑ ∑ ∑ 1 1 1 9 125 7 135 3 145 6 155 2 165 175 32 4640 32 145 ( * ) ( * ) ( * ) ( * ) ( * ) (5* ) hs. 2.2.2 Mediana A mediana Me é uma quantidade que, como a média, procura caracterizar o centro da distribuição de freqüências, porém de acordo com um critério diferente. A mediana é calculada com base na ordem dos valores que formam o conjunto. A mediana Me de um conjunto de n valores x1, x2, ... ,xn , ordenados, é representada pelo valor central do conjunto para n ímpar ou pela média aritmética dos dois valores centrais do conjunto, para n par. Sandra Denisen do R. Marcelino Página 13 ⎪⎪ ⎪⎪ ⎩ ⎪⎪ ⎪⎪ ⎨ ⎧ +⇒ = = ⇒ ⇒=⇒ (8) 2 E valorEvalor =Me 1+ 2 n ordem de elementoE 2 n ordem de elementoE E e E :edianosm elementos dois se- tem par én se (7) amostra na E dovalor =Me 2 1+n ordem de elementoE ímpar én se Se me2me1 me2 me1 me2 me1 meme A mediana Me de um conjunto de dados é útil, principalmente, quando esse conjunto é muito influenciado pelos extremos, refletindo aqui com mais fidelidade que a média, a medida de tendência central correspondente, o centro do conjunto de valores. Geometricamente, a mediana é o valor da variável que divide o histograma em duas partes de áreas iguais. Exemplo 2.6: Sejam os dados considerados no exemplo 2.3, referentes às notas de 5 alunos da Disciplina de Estatística, ordenados crescentemente. Dados Ordenados: 47 65 70 90 100 Como n = 5 ⇒ Eme = n + = + =12 5 1 2 3 ⇒ O valor do 3o elemento é a mediana: Me = 70 No caso de dados agrupados em classes de freqüências, a mediana Me pode ser calculada pela expressão: me aa f f 2 n hliMe − += (9) onde: Classe mediana é a classe que contém o valor central do conjunto de dados ordenados. n 2 é a posição da classe mediana; li é o limite inferior da classe mediana (classe que contém a mediana); faa é a freqüência acumulada da classe vizinha anterior à classe mediana; fme é a freqüência da classe mediana; h é a amplitude do intervalo da classe mediana. Exemplo 2.7: Sejam os dados considerados no exemplo 2.5, referentes ao número de horas trabalhadas de 32 funcionários de um Banco. Classes Freq. (fi) Freq. Acumulada (Fi) 120 |- 130 9 9 130 |- 140 7 16 140 |- 150 3 19 150 |- 160 6 25 160 |- 170 2 27 170 |- 180 5 32 Total 32 horas 14010130 7 9 2 32 10130 f f 2 n hliMe me aa =+= − += − += Sandra Denisen do R. Marcelino Página 14 2.2.3 Moda A moda Mo de um conjunto de n valores x1, x2, ... ,xn é representada pelo valor que apresenta maior freqüência. Um conjunto pode não apresentar moda, (conjunto amodal), como também, a moda pode não ser única. Um conjunto com apenas uma moda é dito unimodal, com duas modas, bimodal, com três modas é dito trimodal, assim como um conjunto com mais de três modas é denominado de plurimodal. Exemplo 2.8: Sejam os conjuntos de dados abaixo: X: { 3, 6, 7, 9, 9, 7, 6, 3} ⇒ Mo não existente, portanto X é amodal Y: {2, 2, 2, 6, 7, 10, 14} ⇒ Mo = 2 (o conjunto Y é unimodal) Z: {4, 5, 8, 8, 9, 11, 13, 13} ⇒ Mo1 = 8 e Mo2 = 13 (o conjunto Z é bimodal) No caso de dados agrupados em classes de freqüências, a moda Mo pode ser calculada pela expressão: ( )postantmo antmo fff2 ff hliMo +− −+= (10) onde: li é o limite inferior da classe modal; h é a amplitude do intervalo da classe modal; fmo é a freqüência da classe modal; fant é a freqüência da classe imediatamente anterior à classe modal; fpost é a freqüência da classe imediatamente posterior à classe modal. Classe modal é a classe de maior freqüência. Exemplo 2.9: Sejam os dados considerados no exemplo 2.5, referentes ao número de horas trabalhadas de 32 funcionários de um Banco. Classes Freq. (fi) 120 |- 130 9 130 |- 140 7 140 |- 150 3 150 |- 160 6 160 |- 170 2 170 |- 180 5 Total 32 ( ) horas 18,12818,8120)70(9*2 0910120fff2 ffhliMo postantmo antmo =+=+− −+=+− −+= 2.3 MEDIDAS DE POSIÇÃO (QUANTIS) A mediana, geometricamente, divide a área do histograma em duas partes iguais. Por extensão do conceito da mediana, se o interesse for dividir a área do histograma em quatro, dez ou cem partes iguais, tem-se interesse em encontrar os valores dos quartis, decis e percentis, respectivamente. Os quartis Qi de um conjunto de n valores x1, x2, ... ,xn , ordenados, são representados pelos valores de posição 4 in do conjunto, onde i é a ordem do quartil e n é a quantidades de observações no conjunto de valores. Sandra Denisen do R. Marcelino Página 15 No caso de dados agrupados em classes de freqüências, os quartis Qi são calculados pela expressão: qi aa i f f 4 in hliQ − += (11) onde: li é o limite inferior da classe que contém o quartil Qi de interesse; 4 in é a posição do quartil de ordem i, de interesse; faa é a freqüência acumulada da classe vizinha anterior à classe do quartil Qi; Fqi é a freqüência da classe do quartil Qi; h é a amplitude do intervalo da classe do quartil Qi; Se o interesse estiver no cálculo dos decis e percentis, então as respectivas posições serão dadas por 10 in e 100 in , onde i é a ordem do decil ou percentil e n é a quantidades de observações no conjunto de valores. No caso de dados agrupados em classes de freqüências, os decis Di são calculados pela expressão: di aa i f f 10 in hliD − += (12) onde: li é o limite inferior da classe que contém o decil Di de interesse; 10 in é a posição do decil de ordem i, de interesse; faa é a freqüência acumulada da classe vizinha anterior à classe do decil Di; Fdi é a freqüência da classe do decil Di; h é a amplitude do intervalo da classe do decil Di De maneira análoga, os percentis são calculados pela expressão: pi aa i f f 100 in hliP − += (13) onde: li é o limite inferior da classe que contém o Percentil Pi de interesse; 100 in é a posição do percentil de ordem i, de interesse; faa é a freqüência acumulada da classe vizinha anterior à classe do Percentil Pi; Fpi é a freqüência da classe do Percentil Pi; h é a amplitude do intervalo da classe do Percentil Pi. Exemplo 2.10: Sejam os dados considerados no exemplo 2.5, referentes ao número de horas trabalhadas de 32 funcionários de um Banco. Encontrar os valores para o 3º quartil, o 9º decil e o 32º percentil. Posição do 3º quartil: posição ª244 32*34 in == horas 33,15833,8150 6 192410150 f f 4 n hliQ qi aa 3 =+=−+= − += Sandra Denisen do R. Marcelino Página 16 Posição do 9º decil: posição ª8,2810 32*9 10 in == horas 6,1736,3170 5 278,2810170 f f 10 n hliD di aa 6 =+=−+= − += Posição do 32º percentil: posição ª24,10100 32*32 100 in == horas 77,13177,1130 7 924,1010130 f f 100 n hliP pi aa 32 =+=−+= − += 2.4 EXERCÍCIOS 1. Imagine um conjunto de doze pessoas com as seguintes rendas mensais (em reais): 2500 2700 3000 3200 3300 4200 4800 5000 5500 6000 7000 18000 a) Qual a variável de interesse? b) Calcule a média, a mediana e os quartis das rendas mensais; c) Qual medida, média ou mediana, fornece uma melhor idéia do centro da distribuição de rendas? Justifique sua resposta. 2. Um projeto de investimento está sendo avaliado pelo método do pay-back. Uma simulação envolvendo vários cenários futuros forneceu os seguintes tempos de retorno do investimento (em anos): 2,8 4,3 3,7 6,4 3,2 4,1 4,4 4,6 5,2 3,9 Encontre os tempos médio e mediano de retorno. São apresentadas a seguir as idades de um grupo de aposentados. Encontre a moda, a média, a mediana, , os quartis e o 3º decil para as idades dos aposentados. 68 81 62 61 76 65 69 73 82 79 63 69 68 66 73 74 66 68 71 74 70 68 73 64 77 80 73 66 67 81 77 66 3. Pela foto de um radar eletrônico dentro da cidade, doze motoristas multados por excesso de velocidade estavam dirigindo a 8, 11, 14, 16, 8, 10, 20, 11, 7, 15, 19, 9 km/h acima dos 60 km/h permitidos. a) Em média, em quantos km/h esses motoristas estavam excedendo o limite? b) Qual foi a velocidade média destes motoristas? c) Considerando que os motoristas que excedem a velocidade máxima em até 20% pagam uma multa de 120 U.M., e os que excedem em mais de 20% pagam multa de 500 U.M., determine o valor médio das multas que esses motoristas pagaram. 4. Em determinado final de semana, um supermercado vendeu as seguintes quantidades: Produto (tipo) Preço unitário Quantidade (em kg) A 36,00 400 B 39,00 600 C 40,00 350 D 30,00 200 E 28,00 450 Determinar os preços médio, mediano e modal. Sandra Denisen do R. Marcelino Página 17 5. Para uma amostra de 200 estudantes que realizaram um teste de idioma grego, verificaram-se questões erradas em quantidades que variaram segundo a distribuição a seguir: Questões erradas Número de alunos 5 ––| 10 12 10 ––| 15 73 15 ––| 20 52 20 ––| 25 39 25 ––| 30 24 Total 200 Determine a média, a moda, a mediana e os quartis para a variável de interesse. 6. Em uma fábrica, o tempo, no horário de trabalho, durante o qual uma máquina não está funcionando em virtude de quebra ou falha é chamado tempo parado (downtime). A distribuição a seguir é da duração desses tempos parados de certa máquina: Tempo Parado (minutos) Freq. 00 ––| 10 4 10 ––| 20 22 20 ––| 30 58 30 ––| 40 14 40 ––| 50 2 Total 100 Determine a média, para o tempo parado. Determine também os decis: 2º, e 8º; e os percentis: 23º, 34º, 92º. 2.5 MEDIDAS DE DISPERSÃO As medidas de tendência central dão uma idéia de todo o conjunto, através de um valor único. Mas elas não são suficientes para descrever mais detalhadamente o comportamento de todo o conjunto. Além da informação quanto ao "centro" de uma distribuição, é conveniente a obtenção de uma medida que informe o quanto os dados estão dispersos em torno da região central. As medidas de dispersão indicam se os valores estão relativamente próximos uns aos outros, ou separados. Exemplo 2.11: Imagine que quatro alunos obtiveram, em cinco provas, as notas apresentadas na Tabela 2.7. Tabela 2.7 Notas de quatro alunos em cinco provas Alunos Notas Média Antônio 5 5 5 5 5 5 João 6 4 5 4 6 5 José 10 5 5 5 0 5 Pedro 10 10 5 0 0 5 Todos os alunos obtiveram média igual a 5, mas a dispersão (variação das notas) em torno da média não é a mesma para todos os alunos. A Tabela 2.7 mostra claramente que: a) as notas de Antônio não variam (dispersão nula); b) as notas de João variam menos que as de José (a dispersão das notas de João é menor que a dispersão das notas de José); c) as notas de Pedro variaram mais que as notas de todos os demais (maior dispersão). Para uma análise quantitativa dessa maior ou menor variação (ou dispersão) do conjunto de valores em torno do valor médio, deve-se estudar as medidas de dispersão. As principais são: amplitude, variância, desvio padrão, que são medidas absolutas de dispersão e coeficiente de variação, que é uma medida de dispersão relativa. Sandra Denisen do R. Marcelino Página 18 2.5.1 Amplitude Amplitude ou amplitude total (At) de um conjunto de n valores x1, x2, ..., xn é definida pela diferença entre o maior valor (xmax) e o menor valor (xmin) do conjunto, ou seja, At = xmax - xmin (14) Verifica-se que a amplitude tem o grave inconveniente de depender somente dos valores extremos do conjunto, desprezando os valores intermediários. Assim sendo, a amplitude contém relativamente pouca informação quanto à dispersão. Salvo aplicações no controle de qualidade, a amplitude não é muito utilizada como medida de dispersão. Exemplo 2.12: Sejam considerados os tempos (em minutos) necessários para a realização de 5 operações industriais, avaliados em 2 operadores: Operador 1: 3, 4, 5, 20, 18 At = xmax - xmin = 20 - 3 = 17 min. Operador 2: 10, 10, 10, 3, 20 At = xmax - xmin = 20 - 3 = 17 min. Observe que ambos os operadores apresentam a mesma amplitude, apesar dos conjuntos de valores serem bem diferentes. Nesse caso, pode-se desejar outra medida de dispersão, mais precisa. 2.5.2 Variância A variância σ2 de um conjunto de valores x1, x2, ..., xn, é a média aritmética dos quadrados dos desvios desses valores em relação à sua média aritmética, ou seja, ( ) n nx n x n ``1i 22 i n 1i 2 i 2 ∑∑ == μ− = μ− =σ (15) expressão esta que deve ser utilizada para calcular a variância populacional. Se está-se trabalhando com amostra, considera-se, então, o tamanho da amostra, menos 1, substituindo n em (15), por n-1, que são os chamados graus de liberdade. O cálculo da variância amostral s2 de um conjunto de valores é dado por: ( ) 1n xnx 1n xx s n ``1i 22 i n 1i 2 i 2 − − =− − = ∑∑ == (16) onde: n é o total de observações xi é cada valor observado. x é a média do conjunto de observações ∑ 2ix é a soma dos quadrados de cada valor do conjunto de dados considerado. Exemplo 2.13: Considerando os dados do exemplo 2.3, tem-se que 40,74x = . Sejam as notas de 5 alunos da Disciplina de Estatística Aluno 1 Aluno 2 Aluno 3 Aluno 4 Aluno 5 90 100 70 65 47 Usando (16) obtém-se: ( ) =− − = ∑ = 1n xx s n 1i 2 i 2 15 )40,7447()40,7465()40,7470()40,74100()40,7490( 22222 − −+−+−+−+− ( ) ( ) ( ) ( ) ( ) 30,439 4 20,1757 4 40,2740,940,460,2560,15s 22222 2 ==−+−+−++= Sandra Denisen do R. Marcelino Página 19 ou similarmente: 30,439 4 20,1757 4 80,2767629434 15 40,74*529434 1n xnx s 2 n ``1i 22 i 2 ==−=− −=− − = ∑ = Se x1, x2, ..., xk ocorrem com as freqüências f1, f2, ..., fk, respectivamente, a variância será dada por: ( ) 1f xfxf 1f xxf s n 1i i n ``1i n 1i 2 i 2 ii n 1i i n 1i 2 ii 2 − − = −⎟⎠ ⎞⎜⎝ ⎛ − = ∑ ∑ ∑ ∑ ∑ = = = = = (17) onde: ∑ if é a soma da coluna de freqüências, que corresponde ao total de observaçõesxi é cada valor observado. x é a média do conjunto de observações ∑ 2ii xf é a soma do produto de cada ponto médio ou valor da categoria pela respectiva freqüência. Exemplo 2.14: Considerando-se os dados do exemplo 2.4, para os quais obteve-se 88,0x = livros, criam-se colunas auxiliares para a obtenção da variância com maior facilidade de cálculo. Dados de 25 pessoas, referentes ao número de livros lidos por semana N.º de livros lidos (xi) Freqüência (fi) xi - x (xi - x )2*fi xi2*fi xi*fi 0 16 -0,88 12,3904 0 0 1 2 Criam-se 0,12 0,0288 2 2 2 3 colunas 1,12 3,7632 12 6 3 2 auxiliares 2,12 8,9888 18 6 4 2 3,12 19,4688 32 8 Total 25 44,6400 64 22 Usando (17) obtém-se: ( ) 86,1 24 64,44 125 2*)88,04(...2*)88,01(16*)88,00( 1f xxf s 222 n 1i i n 1i 2 ii 2 ==− −++−+−= −⎟⎠ ⎞⎜⎝ ⎛∑ ∑ − = = = livros2 ou similarmente: 86,1 24 36,1964 125 88,0*2564 1f xfxf s 2 n 1i i n ``1i n 1i 2 i 2 ii 2 =−=− −= − − = ∑ ∑ ∑ = = = livros2 A expressão (17) pode ser utilizada para calcular a variância amostral para os dados agrupados em intervalos de classes desde que xi represente o ponto médio de cada um desses intervalos. Sandra Denisen do R. Marcelino Página 20 Exemplo 2.15: Sejam considerados os dados do exemplo 2.5, para os quais obteve-se x = 145 horas. Número de horas trabalhadas de 32 funcionários de um Banco Classes Freq. (fi) Ponto médio (xi) xi - x (xi - x )2*fi xi*fi xi2*fi 120 |- 130 9 125 -20 400*9 = 3600 1125 1252*9 = 140625 130 |- 140 7 135 -10 100*7 = 700 945 1352*7 = 127575 140 |- 150 3 145 0 0*3 = 0 435 1452*3 = 63075 150 |- 160 6 155 10 100*6 = 600 930 1552*6 = 144150 160 |- 170 2 165 20 400*2 = 800 330 1652*2 = 54450 170 |- 180 5 175 30 900*5 = 4500 875 1752*5 = 153125 Total 32 10200 4640 683000 Usando (17) obtém-se: ( ) 03,329 132 10200 1f xxf s n 1i i n 1i 2 ii 2 =−=−⎟⎠ ⎞⎜⎝ ⎛ − = ∑ ∑ = = horas2 ou similarmente, 03,329 31 10200 31 672800683000 132 145*32683000 1f xfxf s 2 n 1i i n ``1i n 1i 2 i 2 ii 2 ==−=− −= − − = ∑ ∑ ∑ = = = horas2 Para medir a dispersão dos dados em torno da média, usa-se então, a variância, que leva em consideração o tamanho da amostra. A unidade da variância é expressa pelo quadrado da unidade da variável em estudo. Em virtude do problema da unidade, é inconveniente o uso prático da variância. Para contornar o problema da unidade, define-se o desvio padrão, que tem as mesmas propriedades da variância, mas é expresso na mesma unidade de medida dos dados. 2.5.3 Desvio Padrão O desvio padrão (s) é a mais importante das medidas de dispersão absoluta e é definido como a raiz quadrada positiva da variância. Assim, o desvio padrão amostral é dado por: s s= 2 (18) Quando uma curva de freqüência representativa da série é simétrica, pode-se afirmar que: a) o intervalo ( )σ+μσ−μ , contém aproximadamente 68% dos valores da série; b) o intervalo ( )σ+μσ−μ 2,2 contém aproximadamente 95% dos valores da série; c) o intervalo ( )σ+μσ−μ 3,3 contém aproximadamente 99% dos valores da série. Figura 2.6: Interpretação do desvio padrão numa distribuição simétrica 13,5% 13,5% 34% 34% 2% 2% 0,5% 0,5% 3 2 2 3 σμσμσμμσμσμσμ +++−−− Sandra Denisen do R. Marcelino Página 21 Exemplo 2.16: Seja o exemplo 2.15 onde s2 = 329,03. Usando-se a fórmula (18), tem-se 14,1803,329s == horas. Figura 2.7: Interpretação do desvio padrão considerando um exemplo Supondo que as horas trabalhadas por 32 funcionários (exemplo 2.15) tenha distribuição simétrica, pode- se interpretar o desvio padrão conforme Figura 2.7. Por exemplo, pode-se presumir que 68% dos funcionários trabalham de 126,86 a 161,16 horas, ou então que somente 2% deles trabalham de 181,28 a 199,42 horas, ou ainda, que 0,5% dos funcionários não chegam a trabalhar 91 horas. Ao se utilizar o desvio padrão, deve-se observar que quanto maior o seu valor, maior a dispersão da variável em estudo, levando-se em consideração a magnitude dos valores assumidos para a variável em questão. Também pode-se utilizar o desvio padrão para comparar a dispersão entre dois ou mais conjuntos de valores, desde que tais conjuntos sejam expressos na mesma unidade de medida. Cabe ressaltar que tais comparações somente serão adequadas se os diferentes conjuntos apresentarem médias próximas. Em caso contrário deve-se utilizar o coeficiente de variação. 2.5.4 Coeficiente de Variação O coeficiente de variação (CV) é uma medida relativa de dispersão, sendo definida como o quociente entre o desvio padrão (s) e a média ( x ), ou seja: x s CV = (19) O coeficiente de variação é uma medida adimensional e pode ser expresso em porcentagem, bem por isso considerado como medida relativa de dispersão em relação ao seu valor médio. Por ser adimensional, o coeficiente de variação fornece uma maneira de se comparar conjuntos de valores expressos em diferentes unidades de medida. Exemplo 2.17: Sejam os dados do exemplo 2.5, para as quais obteve-se x = 145 horas e s = 18,14 horas. Tem-se, então, o coeficiente de variação dado por: 12,51%=CV 1251,0 horas 145 horas 14.18 x sCV ⇒=== 13,5% 13,5% 34% 34% 2% 2% 0,5% 0,5% 90,58 108,72 126,86 145 163,14 181,28 199,42 Sandra Denisen do R. Marcelino Página 22 2.5.5 Exercícios 1. Avaliou-se, durante doze meses, a renda mensal média da população de uma determinada cidade, obtendo- se os seguintes valores: Renda mensal 562,20 638,40 695,44 752,22 787,13 822,55 835,67 897,50 885,20 864,90 852,36 865,58 a) Qual a renda média da população da cidade considerada? b) Encontre também a variância e o desvio padrão. 2. Um projeto de investimento está sendo avaliado pelo método do pay-back. Uma simulação envolvendo vários cenários futuros forneceu os seguintes tempos de retorno do investimento (em anos): 2,8 4,3 3,7 6,4 3,2 4,1 4,4 4,6 5,2 3,9 Encontre a variância, o desvio padrão e o coeficiente de variação para os tempos. 3. Encontre a amplitude, a variância, o desvio padrão e o coeficiente de variação para a tabela a seguir. Tempos de espera na fila de um Banco Tempos (Minutos) Nº de clientes (fi) 0 a < 5 220 5 a < 10 82 10 a < 15 27 15 a < 20 15 20 a < 25 5 25 a < 30 1 Total 350 4. Supondo que a distribuição das idades das pessoas inscritas em um concurso X seja simétrica, com média de 25 anos e desvio padrão de 2 anos, qual a porcentagem de pessoas com: a) idade entre 23 e 27 anos? b) mais de 31 anos ou menos de 19 anos? c) mais de 27 anos d) menos de 21 anos? e) mais de 29 anos? f) menos de 29 anos? 5. Uma loja vende 5 produtos básicos: A, B, C, D e E, O lucro por unidade comercializada destes produtos vale, respectivamente, R$ 200,00, R$ 300,00, R$ 500,00, R$ 1000,00 e R$ 5000,00. A loja vendeu em determinado mês: 20, 30, 20, 10 e 5 unidades de cada produto, respectivamente. Qual foi o lucro médio por unidade comercializada. Encontre a amplitude, a variância, o desvio padrão e o coeficiente de variação para a tabela a seguir. Lucro por unidade comercializada Preço Quantidade vendida R$ 200,00 20 R$ 300,00 30 R$ 500,00 20 R$ 1000,00 10 R$ 5000,00 5 Total 6. Será que sua respiração é normal? Efetivamente falando, não existe umarespiração padrão para os seres humanos, podendo variar de 4 inspirações por minuto a cerca de 70 ou 75, para uma pessoa que esteja executando um exercício forte. Suponha que as respirações normais dos estudantes sigam uma distribuição simétrica, com média de 12 e desvio padrão de 2,3 respirações por minuto. Que porcentagem dos estudantes tem: a) entre 9,7 e 14,3 respirações por minuto? b) entre 7,4 e 16,6 respirações por minuto? c) mais de 12 respirações por minuto? d) mais de 14,3 respirações por minuto? e) mais de 7,4 respirações por minuto? f) mais de 18,9 ou menos de 5,1 respirações por minuto? Sandra Denisen do R. Marcelino Página 23 7. Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 cm. Outro grupo de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrão igual a 6,01 cm. Qual é o coeficiente de variação de cada um dos grupos? Qual o grupo mais homogêneo? 8. Em cada alternativa abaixo, identifique qual grupo apresenta maior dispersão absoluta (variância, desvio padrão) e qual apresenta maior dispersão relativa (coeficiente de variação). Justifique suas respostas. a) ⎩⎨ ⎧ = = 9s 89x :1A 2 b) ⎩⎨ ⎧ = = 7s 87x :1B 2 c) ⎩⎨ ⎧ = = 100s 400x :1C 2 ⎩⎨ ⎧ = = 100s 55x :2A 2 ⎩⎨ ⎧ = = 9s 25x :2B 2 ⎩⎨ ⎧ = = 8s 25x :2C 2 9. Um grupo de 196 famílias tem renda média de 163,8 dólares, com um coeficiente de variação de 3,3%. Qual o desvio padrão da renda desse grupo? 10. O risco de uma ação de uma empresa pode ser devidamente avaliado através da variabilidade dos retornos esperados. Portanto, a comparação das distribuições probabilísticas dos retornos, relativas a cada ação individual, possibilita a quem toma decisões perceber os diferentes graus de risco. Discriminação Ação A Ação B Ação C Ação D Ação E Valor esperado 15% 12% 5% 10% 4% Desvio Padrão 6% 6,6% 2,5% 3% 2,6% Coeficiente de Variação 0,40 0,55 0,50 0,30 0,65 Analisando os dados estatísticos relativos aos retornos de 5 ações, constantes no quadro acima, indique a ação menos arriscada, justificando sua resposta. 2.6 ASSIMETRIA A assimetria é definida como o grau de desvio, ou afastamento da simetria, de uma distribuição. Quantitativamente, o grau de desvio ou afastamento pode ser determinado pelas medidas denominadas de coeficiente momento de assimetria e coeficiente de assimetria de Pearson. O coeficiente do momento de assimetria (a3) é uma medida adimensional definida como o quociente entre o terceiro momento centrado na média (m3) e o cubo do desvio padrão, ou seja, 3 3 3 s m a = (20) O momento de ordem r (mr) centrado na média, de um conjunto de n valores x1, x2, ..., xn é definido pela quantidade: ( ) m x x nr i r i n = − = ∑ 1 (21) que no caso de dados agrupados em classes de freqüências, a expressão (21) fica sendo: ( ) ∑ ∑ − = = = n 1i i n 1i r ii r f xxf m (22) Para r = 1 (momento de primeira ordem) verifica-se que m1 = 0, enquanto que para r = 2 (momento de segunda ordem), m2 = s2. Para a3 = 0, tem-se uma distribuição simétrica, caso contrário, a distribuição é dita assimétrica. Quando a3 < 0, a distribuição é alongada à esquerda, sendo denominada de negativamente assimétrica, enquanto que, para a3 > 0, a distribuição é alongada à direita, sendo denominada de positivamente assimétrica. Nas Figuras 2.8 a 2.10, pode-se verificar os três casos: Sandra Denisen do R. Marcelino Página 24 Figura 2.8: Assimetria negativa 0 2 4 6 8 10 1 2 3 4 5 6 7 a3<0 Figura 2.9: Assimetria nula 0 2 4 6 8 10 1 2 3 4 5 6 7 a3=0 Figura 2.10: Assimetria positiva 0 2 4 6 8 10 1 2 3 4 5 6 7 a3>0 Outra maneira de se medir a assimetria de uma distribuição é através do 1º coeficiente de assimetria de Pearson (A), uma medida adimensional de assimetria, definida por: A x Mo s = − (23) onde : x é a média aritmética do conjunto; Mo é a moda e s é o desvio padrão. Para A = 0, tem-se uma distribuição simétrica, para A < 0, a distribuição é denominada de negativamente assimétrica, enquanto que, para A > 0, a distribuição é denominada de positivamente assimétrica. A aplicação do 1º coeficiente de assimetria de Pearson só é necessário aos conjuntos unimodais. Aos demais, faz-se necessária a aplicação do 2º coeficiente de assimetria de Pearson (e2), outra medida adimensional de assimetria, definida por: ( ) s Mex3e2 −= (24) onde : x é a média aritmética do conjunto; Me é a mediana do conjunto e s é o desvio padrão. Para e2 = 0, tem-se uma distribuição simétrica, para e2 < 0, a distribuição é denominada de negativamente assimétrica, enquanto que, para e2 > 0, a distribuição é denominada de positivamente assimétrica Outro método, mais rudimentar, o qual não permite estabelecer até que ponto a curva analisada se desvia da simetria, consiste no Método de Comparação entre as Medidas de Tendência Central. ⎪⎪⎩ ⎪⎪⎨ ⎧ ⇒<< ⇒== ⇒<< negativa Assimetria MoMedx simétrica Curva MoMedx positiva Assimetria xMedMo Exemplo 2.18: Doze falhas de energia elétrica duraram: 31, 81, 47, 76, 34, 26, 60, 49, 74, 63, 47 e 33 minutos. Analisando o conjunto, o que se pode dizer quanto à simetria dos dados? Para o conjunto em questão tem-se: 75,51 12 621 ==x , Me = 48, Mo = 47, 18,94s 75,358 112 75,51*1236083 22 =⇒=− −=s e ( ) 90,1154 12 80,13858 12 )75,5133()75,5147(...)75,5181()75,5131( 12 xx m 3333 12 1i 3 i 3 ==−+−++−+−= ∑ − = = , resultando em: 17,0 94,18 90,1154 s m a 33 3 3 === Sandra Denisen do R. Marcelino Página 25 Tem-se também: 25,0 94,18 4775,51 s MoxA =−=−= e ( ) 59,0 94,18 )4875,51(*3 s Mex3e2 =−=−= • Através do Método de Comparação entre as Medidas de Tendência Central, tem-se xMeMo << , ou seja, 47 < 48 < 51,75, daí dizer que a distribuição que representa os tempos de duração das falhas de energia é dada por uma curva assimétrica positiva. Como as medidas são próximas, pode-se dizer, levemente assimétrica positiva. • Através do 1º Coeficiente de assimetria de Pearson (A), tem-se 25,0A = , um valor positivo. Ou seja, A>0, então a distribuição dos tempos é assimétrica positiva. • Através do 2º Coeficiente de assimetria de Pearson (e2), tem-se e2 =0,59, um valor positivo. Ou seja, e2 > 0, então a distribuição dos tempos é assimétrica positiva. • Através do coeficiente momento de assimetria obteve-se 17,0 94,18 90,1154 s m a 33 3 3 === . Uma vez que para a3 > 0, a distribuição é alongada à direita, sendo denominada de positivamente assimétrica. Exemplo 2.19: Tanto os coeficientes de assimetria de Pearson, quanto o coeficiente momento de assimetria , podem ser aplicados aos dados apresentados em tabela, como segue. Considere a tabela 2.8 que resume os dados referentes ao tempo de serviço (em anos) de 20 trabalhadores do Setor A de uma determinada empresa. Tabela 2.8 Tempo de serviço (em anos) de 20 funcionários de uma empresa Classes Freq. (fi) Ponto médio (xi) xi*fi xi2*fi ( )3ii xxf − 1 |- 6 8 3,5 28,0 98,00 -1520,88 6 |- 11 5 8,5 42,5 361,25 -2,11 11 |- 16 5 13,5 67,5 911,25 383,83 16 |- 21 0 18,5 0,0 0,00 0,00 21 |- 26 2 23,5 47,0 1104,5 5787,28 Total 20 185,0 2475 4648,13 Para a tabela em questão tem-se média: 25,9 20 185 f xf x i n 1i ii === ∑ ∑= , variância e desvio padrão, respectivamente: anos 6,34 s anos 20,40 120 25,9*204648 1f xfxf s 2 2 n 1i i n ``1i n 1i 2 i 2 ii 2 =⇒=− −= − − = ∑ ∑ ∑ = = = e ainda o terceiro momento centrado na média: ( ) 41,232 20 13,4648 f xxf m n 1i i n 1i 3 ii 3 == − = ∑ ∑ = = Sandra Denisen do R. Marcelino Página 26 Sendo assim, tem o coeficiente momento de assimetria: 9119,0 34,6 41,232 s m a 33 3 3 === , indicando a existência de assimetria positiva. 2.6.1 Exercícios 1. Assimetria ou enviesamento: a) ocorre quando uma curva de freqüências apresenta um desvio padrão grande; b) é o grau de deformação de uma curva de freqüências; c) é o grau de achatamento de uma curva de freqüências; d) é o desvio de uma curva de freqüências em relação a uma origem arbitrária, 2. Dadas as medidas de tendência central: Mo = 30, Me = 28 e x =22, o que se pode concluir em relação à simetria dos dados que originaram tais medidas. 3. Avaliando-se a idade de 25 pessoas, obteve-se média de 22,32, moda de 19 e desvio padrão de 4,66. Considerando tais informações, pode-se avaliar a simetria da distribuição das idades: a) através do Coeficiente Momento de Assimetria; b) através do Coeficiente de assimetria de Pearson; c) através do Método de Comparação das Medidas de Tendência Central; d) nenhum dos métodos anteriores. 4. Avaliando-se a idade de 25 pessoas, obteve-se média de 22,32, moda de 19 e desvio padrão de 4,66. Com base em tais informações pode afirmar que; a) a distribuição das idades é assimétrica positiva; b) a distribuição das idades é assimétrica negativa; c) a distribuição das idades é simétrica; d) nada se pode concluir. 5. Os percentuais de variação do índice de desemprego nos primeiros semestres de 1983 a 1999 no Brasil foram os seguintes: 6,76 -7,77 -6,09 -4,16 -3,61 -4,08 -3,79 -4,29 -5,48 -5,96 -5,68 -5,46 -4,41 -5,86 -5,74 7,81 7,82 (Jornal do Brasil, 24/7/1999) a) Determine os coeficientes (1º e 2º) de assimetria de Pearson. b) Determine o coeficiente momento de assimetria. 6. Os números abaixo representam a quantidade de jornais vendidos por uma banca de Segunda a Sexta-feira: 231 228 244 240 236 Calcule o coeficiente de assimetria momento de assimetria. 7. Uma amostra do comprimento (em mm) de um lote de pregos forneceu a seguinte distribuição: Comprimentos Nº de pregos (fi) 80 |–– 85 1 85 |–– 90 3 90 |–– 95 9 95 |–– 100 42 100 |–– 105 34 105 |–– 110 5 110 |–– 115 4 115 |–– 120 2 TOTAL 100 A especificação para esses pregos exige que o comprimento médio esteja entre 98 e 102 mm, que o CV seja inferior a 20% e que a distribuição dos comprimentos seja simétrica. O controle de qualidade aceitará o lote de pregos analisado? Sandra Denisen do R. Marcelino Página 27 8. Em uma amostra de 30 intervalos de 3 minutos, um restaurante do tipo “fast food” serviu os seguintes números de clientes: 4 5 5 8 7 3 5 6 9 5 6 5 4 7 3 5 10 6 4 5 6 9 4 5 3 8 6 7 4 5 Graficamente, discuta a simetria ou assimetria desse conjunto de dados. 9. Em uma pesquisa com lâmpadas, mediu-se 100 lotes para os quais obteve-se o tempo de vida médio, em dias. Destes 100 lotes, selecionou-se 30, construindo-se a tabela de distribuição de freqüências abaixo. Determine a média, o desvio padrão e o coeficiente momento de assimetria. Tempo de vida Nº de lâmpadas 81 |⎯ 88 4 88 |⎯ 95 5 95 |⎯ 102 1 102 |⎯ 109 8 109 |⎯ 116 9 116 |⎯ 123 3 Total 30 10. Sabendo-se que, para um conjunto de 50 dados, agrupados em 8 classes, ( ) 55,22696xxf 38 1i ii =−∑ = e ( ) 72,2150xxf 28 1i ii =−∑ = determine o coeficiente momento de assimetria e interprete o resultado obtido. 2.7 CURTOSE A curtose é definida como o grau de achatamento de uma distribuição, considerado usualmente em relação à distribuição normal. Com relação ao achatamento, a distribuição normal é dita mesocúrtica. As distribuições mais achatadas que a normal são ditas platicúrticas, enquanto que as menos achatadas que a normal são ditas leptocúrticas. A principal medida de curtose é proporcionada pelo coeficiente do momento de curtose (a4), sendo definida pelo quociente entre o quarto momento centrado na média e o quadrado da variância, ou seja, ( ) 4422 44 s m s ma == , (24) onde m4 é calculado de acordo com (21), se os dados se apresentam em lista, ou (22) para dados tabelados. O coeficiente do momento de curtose é uma medida adimensional de curtose, sendo a4 = 3 para a distribuição normal, a4 < 3 para as distribuições platicúrticas e a4 > 3 para as distribuições leptocúrticas. Na prática, só faz sentido calcular a curtose para as distribuições simétricas ou pelo menos aproximadamente simétricas. A figura 2.11 mostra os três casos de curtose, utilizando a representação através de curvas de frequências (aproximação de uma curva ao histograma de frequências). Distribuição platicúrtica a4 < 3 Distribuição mesocúrtica a4 = 3 Distribuição leptocúrtica a4 > 3 Figura 2.11: Distribuições quanto à curtose. 3. NOÇÕES DE PROBABILIDADE 3.1 DEFINIÇÕES 3.1.1 Experimento Aleatório Na natureza tem-se dois tipos de fenômenos: determinísticos e aleatórios. Nos fenômenos determinísticos os resultados são sempre os mesmos, enquanto que nos fenômenos aleatórios, os resultados não são previsíveis. A temperatura necessária para um determinado sólido passar para o estado líquido é um exemplo de fenômeno determinístico. Já a produção de cada planta de um pomar de laranjeiras serão diferentes, mesmo que as condições de temperatura, pressão, umidade sejam as mesmas para todas as árvores. Pode-se considerar experimentos aleatórios como fenômenos produzidos pelo ser humano. Um experimento é dito aleatório quando satisfaz às seguintes condições: a) pode ser repetido indefinidamente; b) somos capazes de descrever todos os possíveis resultados do experimento, embora não sejamos capazes de predizer, com certeza, qual ocorrerá; c) para um grande número de observações pode-se observar a tendência em relação aos resultados. São experimentos aleatórios: 1. lançar uma moeda honesta; 2. lançar um dado e observar o número obtido na face superior; 3. temperatura máxima da cidade de Curitiba, durante o mês de Julho. A cada experimento aleatório está associado o resultado obtido, chamado evento aleatório. 3.1.2 Espaço Amostral Espaço amostral é o conjunto S de todos os resultados possíveis de um experimento aleatório. Cada resultado do experimento aleatório é denominado ponto amostral. Exemplo 3.1: Lançar um dado e observar os resultados na face de cima. S = {1, 2, 3, 4, 5, 6} Os pontos amostrais serão: 1, 2, 3, 4, 5, 6 Exemplo 3.2: Contar o número de dias que choveu na cidade de Curitiba, durante o mês de Julho. S = {0, 1, 2, ,,,,, 31} Os pontos amostrais serão: 0, 1, 2, ,,,,, 31 3.1.3 Evento Aleatório É qualquer subconjunto do espaço amostral S. Deve-se considerar como eventos de qualquer espaço amostral, o evento impossível ∅ (aquele que nunca ocorre) e o evento certo (o próprio espaço amostral) S. Exemplo 3.3: Considere o lançamento de dois dados, onde observa-se o número da face superior. O espaço amostral desse experimento pode ser dado por uma tabela de dupla entrada: Sandra Denisen do R. Marcelino Página 29 Tabela 3.1: Combinações possíveis entre as faces de dois dados Faces do dado 2 Faces do dado 1 1 2 3 4 5 6 1 (1,1) (1,2) (1,3) (1,4) (1,5 (1,6) 2 (2,1) (2,2) (2,3) (2,4) (2,5 (2,6) 3 (3,1) (3,2) (3,3) (3,4)
Compartilhar