Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA PROF.A MA. SIMONE DEMEIS BRAGUIM Reitor: Prof. Me. Ricardo Benedito de Oliveira Pró-reitor: Prof. Me. Ney Stival Gestão Educacional: Prof.a Ma. Daniela Ferreira Correa PRODUÇÃO DE MATERIAIS Diagramação: Alan Michel Bariani Thiago Bruno Peraro Revisão Textual: Gabriela de Castro Pereira Letícia Toniete Izeppe Bisconcim Mariana Tait Romancini Produção Audiovisual: Heber Acuña Berger Leonardo Mateus Gusmão Lopes Márcio Alexandre Júnior Lara Gestão da Produção: Kamila Ayumi Costa Yoshimura Fotos: Shutterstock © Direitos reservados à UNINGÁ - Reprodução Proibida. - Rodovia PR 317 (Av. Morangueira), n° 6114 Prezado (a) Acadêmico (a), bem-vindo (a) à UNINGÁ – Centro Universitário Ingá. Primeiramente, deixo uma frase de Sócrates para reflexão: “a vida sem desafios não vale a pena ser vivida.” Cada um de nós tem uma grande responsabilidade sobre as escolhas que fazemos, e essas nos guiarão por toda a vida acadêmica e profissional, refletindo diretamente em nossa vida pessoal e em nossas relações com a sociedade. Hoje em dia, essa sociedade é exigente e busca por tecnologia, informação e conhecimento advindos de profissionais que possuam novas habilidades para liderança e sobrevivência no mercado de trabalho. De fato, a tecnologia e a comunicação têm nos aproximado cada vez mais de pessoas, diminuindo distâncias, rompendo fronteiras e nos proporcionando momentos inesquecíveis. Assim, a UNINGÁ se dispõe, através do Ensino a Distância, a proporcionar um ensino de qualidade, capaz de formar cidadãos integrantes de uma sociedade justa, preparados para o mercado de trabalho, como planejadores e líderes atuantes. Que esta nova caminhada lhes traga muita experiência, conhecimento e sucesso. Prof. Me. Ricardo Benedito de Oliveira REITOR 33WWW.UNINGA.BR U N I D A D E 01 SUMÁRIO DA UNIDADE INTRODUÇÃO ............................................................................................................................................................. 5 1 - CONCEITOS FUNDAMENTAIS ............................................................................................................................. 6 1.1 EXPERIMENTO ALEATÓRIO ................................................................................................................................. 6 1.2 ESPAÇO AMOSTRAL ............................................................................................................................................ 6 1.3 EVENTO ................................................................................................................................................................. 6 1.3.1 EVENTOS MUTUAMENTE EXCLUSIVOS ......................................................................................................... 6 2 - PROBABILIDADE ................................................................................................................................................... 7 2.1 RESULTADOS IGUALMENTE PROVÁVEIS (EQUIPROVÁVEIS) .......................................................................... 7 2.2 DEFINIÇÃO CLÁSSICA DE PROBABILIDADE ..................................................................................................... 7 2.3 PROBABILIDADE CONDICIONAL ....................................................................................................................... 9 2.4 PROBABILIDADE INDEPENDENTE ................................................................................................................... 10 CÁLCULO DAS PROBABILIDADES PROF.A MA. SIMONE DEMEIS BRAGUIM ENSINO A DISTÂNCIA DISCIPLINA: ESTATÍSTICA 4WWW.UNINGA.BR 3 - INDEPENDÊNCIA ESTATÍSTICA ........................................................................................................................ 10 4 - VARIÁVEIS ALEATÓRIAS .................................................................................................................................... 14 4.1. VARIÁVEL ALEATÓRIA DISCRETA .................................................................................................................... 15 4.2 VARIÁVEL ALEATÓRIA CONTÍNUA ................................................................................................................... 16 4.3 FUNÇÃO DENSIDADE DE PROBABILIDADE ..................................................................................................... 16 4.4 FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA ...................................................................................................... 17 4.5 CARACTERIZAÇÃO DE UMA VARIÁVEL ALEATÓRIA DISCRETA .................................................................... 17 4.6 VARIÂNCIA DE UMA VARIÁVEL ALEATÓRIA ................................................................................................... 18 4.7 VARIÁVEL ALEATÓRIA BIDIMENSIONAL ......................................................................................................... 18 5 - MEDIDAS DE POSIÇÃO OU MEDIDAS DE TENDÊNCIA CENTRAL ................................................................. 19 5.1 MEDIA OU ESPERANÇA MATEMÁTICA ............................................................................................................ 19 5.2 PROPRIEDADES DA MÉDIA .............................................................................................................................. 19 5.3 VANTAGENS E DESVANTAGENS DA MÉDIA ................................................................................................... 20 5.4 MEDIANA (MD) .................................................................................................................................................. 20 5.5 MODA (MO) ........................................................................................................................................................ 21 5.6 SEPARATRIZES .................................................................................................................................................. 21 6 - MEDIDAS DE DISPERSÃO ................................................................................................................................. 22 6.1 AMPLITUDE TOTAL (AT) .................................................................................................................................... 22 6.2 VARIÂNCIA ......................................................................................................................................................... 23 6.3 DESVIO PADRÃO ................................................................................................................................................ 23 6.4 COEFICIENTE DE VARIAÇÃO (CV) ................................................................................................................... 24 7 - MEDIDAS DE SIMETRIA .................................................................................................................................... 24 8 - MEDIDAS DE CURTOSE ..................................................................................................................................... 25 9 - RESUMO DAS PRINCIPAIS FÓRMULAS DAS PROBABILIDADES ................................................................ 25 5WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA INTRODUÇÃO A Estatística teve por função, nas suas origens, principalmente a organização e apresentação de dados coletados empiricamente. O desenvolvimento da teoria das probabilidades permitiu, entretanto, a criação de técnicas mais adequadas de amostragem e formas de relacionar as amostras e as populações de onde provieram essas amostras. O estudo das probabilidades teve origens no século XVII, bem posterior à Estatística, por meio do estudo dos jogos de azar propostos pelo Cavalheiro de Mère aos matemáticos franceses Fermat e Pascal. No entanto, somente no século XX éque se desenvolveu uma teoria matemática rigorosa baseada em axiomas, definições e teoremas. Com o advento da teoria das probabilidades, foi possível estabelecer as distribuições de probabilidade, consideradas como a “espinha” dorsal da teoria estatística, pois todos os processos inferenciais são aplicações de distribuições de probabilidade. Assim, o conhecimento dos conceitos advindos da teoria das probabilidades é de grande importância para uma correta utilização da técnica estatística. 6WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 1 - CONCEITOS FUNDAMENTAIS 1.1 Experimento Aleatório É o processo de coleta de dados relativos a um fenômeno que acusa variabilidade em seus resultados, ou seja, podemos dizer que são os experimentos cujos resultados podem não ser os mesmos, ainda que sejam repetidos sob condições idênticas. Por exemplo: ➢ Ex.1: Jogar um dado e observar o número mostrado na face superior. ➢ Ex.2: Lançar uma moeda e um dado e observar a sua face superior. ➢ Ex.3: observar o sexo de um recém-nascido. 1.2 Espaço amostral É o conjunto de todos os resultados possíveis de um experimento. Representaremos espaço amostral por S ou Ω. ➢ S1: { 1, 2, 3, 4, 5, 6 } ➢ S2: { c1, c2, c3, c4, c5, c6, k1, k2, k3, k4, k5, k6}, onde c representa o número de cara e k o nº de coroa. ➢ S3: { M, F}, onde M representa o sexo masculino e F representa o feminino. Quando um espaço amostral consiste em um número finito ou infinito numerável de ventos, é chamado de espaço amostral discreto; consiste-se em todos os números reais de determinado intervalo, é um espaço amostral contínuo. 1.3 Evento É um subconjunto de um espaço amostral, assim, o próprio S é um evento, chamado evento certo e o conjunto vazio (ɸ) também é um evento, chamado evento impossível. As mesmas operações realizadas com conjuntos são válidas também para os eventos. 1.3.1 Eventos mutuamente exclusivos Dois eventos A e B são chamados de eventos mutuamente exclusivos ou mutuamente excludentes se, e somente se, a ocorrência de um evento impede a ocorrência de outro evento, ou seja, 7WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 2 - PROBABILIDADE A cada evento A associado a um espaço amostral S, associamos um número real P(A) denominado probabilidade de A, tal que: Esta definição não nos diz como calcular P(A). Apenas nos dá algumas propriedades gerais que P(A) deve ter. Antes de aprendermos como calcular P(A) vamos enunciar mais algumas propriedades decorrentes destas propriedades mais gerais: Propriedades relacionadas às probabilidades: • Se A e B forem mutuamente excludentes (m.e.) então d) Se S ou Ω for finito, então a soma das probabilidades de todos os resultados possíveis é igual a 1. 2.1 Resultados igualmente prováveis (equiprováveis) A hipótese mais comumente feita para espaços amostrais finitos é a de que todos os resultados sejam igualmente prováveis. Tais espaços são chamados equiprováveis. 2.2 Definição clássica de Probabilidade Consideremos então um espaço equiprovável S e seja um evento qualquer. A probabilidade de A ocorrer será dada por: em que, n(A) é o número de elementos de A e n(S) é o número de elementos de S. É muito importante compreender que a expressão acima é apenas uma consequência da suposição de que todos os resultados sejam igualmente prováveis e ela é somente aplicável quando essa suposição for atendida. 8WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA Exemplo 1: O Centro Universitário Ingá possui 180 alunos matriculados no curso de Psicologia e 220 no curso de Biologia. Nesta universidade existe um programa que prevê a escolha aleatória de um aluno para representá-la num congresso local. Qual a probabilidade do aluno escolhido ser do curso Psicologia? Qual a probabilidade que o sorteado seja aluno de Biologia? Solução: a) A= {O aluno sorteado é do curso de Psicologia} Interpretação: A probabilidade de que o aluno escolhido seja do curso de Psicologia é de 45%. b) B= {O aluno sorteado é do curso de Biologia} Interpretação: A probabilidade de que o aluno escolhido seja do curso de Biologia é de 55%. Exemplo 2: Considere a seguinte tabela: CURSO SEXO TOTAL Masculino (M) Feminino (F) A = Biologia 70 40 110 B = Psicologia 10 40 50 C = Medicina 20 20 40 D = Biomedicina 20 10 30 TOTAL 120 110 230 Sejam os eventos: A={Aluno de Biologia} B={Aluno de Psicologia} C={Aluno de Medicina} D={Aluno de Biomedicina} M={Aluno do sexo masculino} F={aluno do sexo feminino} Considerando agora o sorteio de um destes alunos e usando a frequência relativa como aproximação da probabilidade calcule os seguintes eventos: P(A); P(B); P(C); P(D); 9WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA Solução: uma vez que B e M não são mutuamente excludentes, ou seja, existe a intersecção dos dois eventos. 2.3 Probabilidade Condicional Dois eventos, A e B, são ditos de probabilidades condicionais se, dado que um tenha ocorrido, isto afeta a probabilidade do outro evento ocorrer. Temos então que, Se P(B) é diferente de zero, a probabilidade condicional de A relativa à B, isto é, a probabilidade de A ocorrer dado que B tenha ocorrido (ou A dado B), isto é: 10WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 2.4 Probabilidade independente Dois eventos, A e B, são ditos independentes se a probabilidade do evento A ocorrer não é afetada pela ocorrência ou não de B, ou seja: 2.5 Teorema do produto (Regra da multiplicação) De acordo com Fonseca (apud MATINS, 1996, p. 27) pode-se definir o Teorema do produto a partir da definição de probabilidade condicional: “[...] A probabilidade da ocorrência simultânea de dois eventos, A e B, do mesmo espaço-amostral, é igual ao produto da probabilidade de um deles pela probabilidade condicional do outro, dado o primeiro. [...]”. Assim, se A e B são eventos são condicionais, então: 3 - INDEPENDÊNCIA ESTATÍSTICA Se A e B são dois eventos independentes, então “um evento A é considerado independente de outro evento B se a probabilidade de A é igual a probabilidade condicional de A dado B” (FONSECA, 1996). Assim, se A e B são dois eventos independentes, temos: Exemplo 3: Sejam os eventos tais que ; Calcular m considerando A e B: i) Mutuamente exclusivos; ii) Independentes; 11WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA Solução: a) A fórmula que podemos utilizar com as informações que temos é a da união (U) de eventos. Não podemos esquecer que os eventos são m.e. (mutuamente exclusivos ou mutuamente excludentes), assim: b) Sendo as mesmas informações utilizaremos a fórmula da união (U), mas não esquecendo que os eventos agora são independentes, assim temos: Observação: lembre-se que m é um valor inteiro. Exemplo 4: De acordo com as tábuas atuárias a probabilidade de que um homem esteja vivo daqui a 30 anos é 3/5, a de sua mulher é 4/5. Calcular a probabilidade de que daqui a 30 anos: a) Ambos estejam vivos. b) Somente o homem esteja vivo. c) Somente a mulher esteja viva. d) Nenhum esteja vivo. e) Pelo menos um esteja vivo. 12WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA Solução: Primeiramente devemos enunciar os eventos de interesse: H : Homem esteja vivo daqui a 30 anos. H : Homem esteja morto daqui a 30 anos. M : Mulher esteja viva daqui a 30 anos. M: Mulher esteja morta daqui a 30 anos. Assim, Observação: lembre-se que o complementar de estar vivo é estar morto e o símbolo de evento complementar é uma barra acima do evento de interesse. Como os eventos são independentes, temos: a) Ambos estejam vivos; Para calcularmos a probabilidade de o homem estar vivo e a mulher estar viva daqui a 30 anos devemos lembrar que os eventos são independentes, e desta forma, a intersecção dos dois eventos é dada pela multiplicação dos eventos, assim: Interpretação: A probabilidade de queum homem e uma mulher estejam vivos daqui a 30 anos é de 48,00%. b) Somente o homem esteja vivo; Observe a informação que somente o homem está vivo daqui a 30 anos, ou seja, a mulher está morta. Desta forma, Interpretação: A probabilidade de que um homem esteja vivo daqui a 30 anos e que a mulher esteja morta é de 12,00%. c) Somente a mulher esteja viva; Se somente a mulher está viva daqui a 30 anos, significa que o homem já morreu. 13WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA Interpretação: A probabilidade de que a mulher esteja viva daqui a 30 anos e que o homem esteja morto é de 32,00%. d) Nenhum esteja vivo. Se nenhum está vivo significa que ambos já morreram daqui a 30 anos, assim: Interpretação: A probabilidade de que a mulher esteja morta e o homem também daqui a 30 anos é de 8,00%. e) Pelo menos um esteja vivo. Para calcular a probabilidade de que pelo menos um deles esteja vivo, devemos interpretar que: o homem pode estar vivo ou a mulher está viva daqui a 30 anos, ou ainda, os dois estão vivos. Mas lembre-se que a probabilidade do homem estar vivo é independente da probabilidade da mulher está viva daqui a 30 anos. Desta forma, utiliza-se a fórmula da união de eventos: Interpretação: A probabilidade de que ambos estarem vivos daqui a 30 anos é de 92,00%. 14WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 4 - VARIÁVEIS ALEATÓRIAS Quando realizamos um experimento, não temos obrigatoriamente, que obter um valor numérico. Por exemplo, ao descrevermos uma peça manufaturada, podemos associar duas categorias: “defeituosas” e “não defeituosas”, ou seja, uma variável qualitativa. Por outro lado, ao estudarmos a descrição dos dados, vimos que os recursos disponíveis para análise das variáveis quantitativas são mais ricos do que para as variáveis qualitativas, portanto, buscaremos uma maneira de trabalharmos esta situação de uma maneira mais prática e facilitada associando sempre um número real a qualquer evento de um espaço amostral, possibilitando assim, a construção de modelos probabilísticos para tais variáveis. DEFINIÇÃO 1 - Variável Aleatória: Seja E um experimento e S um espaço amostral associado a esse experimento. Uma função X que associe a cada elemento s Є S um número real X(s), denomina-se Variável Aleatória (v.a.). Exemplo 5: Seja o experimento E: lançar duas moedas. O espaço amostral associado a este experimento será: S= {CC, CK, KC, KK} Podemos definir uma v.a. (variável aleatória) como sendo: X: Número de caras obtidas nas duas moedas. • Para o evento s1 = {CC}, temos X(s1) = 2 • Para o evento s2 = {CK}, temos X(s2) = 1 • Para o evento s3 = {KC}, temos X(s3) = 1 • Para o evento s4 = {KK}, temos X(s4) = 0 Portanto, os valores assumidos pela v.a. X são os elementos do conjunto {0, 1, 2}. Observações: I) Embora usemos o termo “variável”, X é uma função cujo domínio é S e contradomínio e R. II) Para simplificar a notação, em geral, escrevemos X e não X(S). III) Podem-se definir inúmeras v.a. para um mesmo espaço amostral S. IV) Se S é numérico, então X(S) = S. V) As variáveis aleatórias podem ser discretas ou contínuas. 15WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 4.1. Variável aleatória discreta DEFINIÇÃO 2 – Variável Aleatória Discreta: Seja X uma v.a. Se o número de valores possíveis de X for finito ou infinito enumerável, denominaremos X de variável aleatória discreta. Ao trabalharmos com uma variável aleatória discreta, a função que descreve as probabilidades da variável aleatória X assumir valores particulares será denominada Função de Probabilidade. DEFINIÇÃO 3 - Função de Probabilidade. Seja X uma variável aleatória discreta. A cada possível resultado xi associaremos um número p(xi) = P(X = xi) denominado probabilidade de xi. os números p(xi) e i= 1,2,3,...,n devem satisfazer: Então esta função é chamada de “Função de Probabilidade” no ponto da variável aleatória X. Os pares ordenados [xi , p(xi)], onde i= 1, 2, ..., n é denominado de distribuição de probabilidade. Exemplo 6: Seja o experimento E: lançar 2 dados e a variável aleatória Y: soma dos pontos obtidos na face de cada dado. O espaço amostral associado a este experimento será: De onde obtemos a seguinte função distribuição de probabilidade: Y 2 3 4 5 6 7 8 9 10 11 12 P(Y=yi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 16WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 4.2 Variável aleatória contínua DEFINIÇÃO 4 – Variável Aleatória Contínua: Seja X uma variável aleatória. Suponha que Rx, o contra-domínio de X, é um intervalo ou um conjunto de intervalos. Então diremos que X é uma variável aleatória contínua. Lembremos que no caso da v.a. discreta definiu-se P(X=xi) como função de probabilidade, no caso v.a. contínua, este conceito não poderá ser aplicado, pois X assume valores não enumeráveis. Para melhor entendimento, tomemos como exemplo um relógio elétrico, onde os ponteiros dos segundos movem-se continuamente. Neste caso, o conjunto de possíveis valores de X não é um conjunto enumerável de valores, como no caso de um relógio mecânico, pois X pode assumir qualquer valor do intervalo [0,360º] = {xЄR / 0≤ x ≤360º}. Assumindo que não existe uma região de preferência para o ponteiro parar, e como existem infinitos pontos nos quais o ponteiro pode parar, cada um com igual probabilidade, cada ponto teria probabilidade de ocorrer igual a zero. Assim, não tem muito sentido falar na probabilidade de o ângulo X ser igual a certo valor, pois esta probabilidade sempre será igual a zero. Entretanto, podemos determinar a probabilidade de o ângulo X estar compreendido entre dois valores quaisquer, por exemplo: P(0º < X < 90º) = ¼. Por menor que seja o intervalo, sempre poderemos achar a probabilidade da v.a. ocorrer. Como será visto na construção de histogramas, a área correspondente ao intervalo [a, b] indica a probabilidade da v.a. estar entre a e b. Matematicamente, isso é expresso através da integração da função entre a e b. Pois a integral de uma função entre dois pontos determina a área sob a curva compreendida entre esses dois pontos. A função que nos permitirá calcular a probabilidade para uma v.a. será definida como função densidade de probabilidade. 4.3 Função densidade de probabilidade DEFINIÇÃO 5 – Função densidade de probabilidade: Seja X uma variável aleatória contínua, a Função Densidade de Probabilidade, f(f.d.p), é uma função que satisfaz as seguintes condições: 17WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA A definição acima mostra-nos que a probabilidade de qualquer valor especificado de X, por exemplo, xo, tem P(X = xo) = 0, pois Sendo assim, as probabilidades abaixo serão todas iguais, se X for variável aleatória contínua: Note-se que f(x), não é probabilidade. Somente quando a função for integrada entre dois limites ela produzirá uma probabilidade, que será a área sob a curva da função entre xo=a e x1=b; b>a. 4.4 Função de distribuição acumulada DEFINIÇÃO 6 – Função de distribuição acumulada. Seja X uma variável aleatória discreta ou contínua. Define-se a função F como Função de distribuição acumulada da v.a. (f.d.) como: 1.1 Se X for uma v.a.d. (variável aleatória discreta), 1.2 Se X for uma v.a.c. (variável aleatória contínua), 4.5 Caracterização de uma variável aleatória discreta Tal como para conjuntos de dados de amostras e populações, é frequentemente útil descrever uma distribuição de probabilidade em termos de sua média e de sua variância. A média será chamada de valor esperado (esperança matemática ou expectância). Valor esperado, esperança matemática ou expectância - E(X) DEFINIÇÃO 7 – Seja X uma v.a.d. com possíveis valores x1, x2 , ..., xn. Seja p(xi)=P(X=xi), com i=1, 2, ..., n. Então o valor esperado de X (ou esperança de X), denotado por E(X) ou µX, é definido como: ou 18WWW.UNINGA.BR ES TA TÍST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA Exemplo 7: Descobriu-se que a chegada de clientes a uma loja de materiais fotográficos, durante intervalos aleatórios escolhidos de 10 minutos, segue a distribuição: Número de chegadas (X) 0 1 2 3 4 5 Probabilidade p(xi) 0,15 0,25 0,25 0,20 0,10 0,05 Sabe-se que , assim, 4.6 Variância de uma variável aleatória Embora o valor da esperança de variável aleatória nos dê boas informações sobre o seu comportamento, ainda não nos diz tudo. É óbvio que precisamos definir uma medida que nos dê o grau de dispersão de probabilidade em torno da média e essa medida é chamada de variância. Do exemplo do dado, acima, temos que calcular: Assim, 4.7 Variável aleatória bidimensional Existem casos em que há interesse por dois resultados simultâneos. Segundo Fonseca (apud Martins, 1996, p. 47) pode-se definir variável aleatória bidimensional: “[...] X=X(s) e Y=Y(s), duas funções, cada uma associando um número real a cada resultado s Є S, denomina-se (X,Y) uma variável aleatória bidimensional [...]”. Exemplo 8: Seja E: jogar dois dados, em que (X,Y) = pontos dos respectivos dados: X/Y 1 2 3 4 5 6 1 1/36 1/36 1/36 1/36 1/36 1/36 2 1/36 1/36 1/36 1/36 1/36 1/36 3 1/36 1/36 1/36 1/36 1/36 1/36 4 1/36 1/36 1/36 1/36 1/36 1/36 5 1/36 1/36 1/36 1/36 1/36 1/36 6 1/36 1/36 1/36 1/36 1/36 1/36 19WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 5 - MEDIDAS DE POSIÇÃO OU MEDIDAS DE TENDÊNCIA CENTRAL São medidas que objetivam representar o ponto central de equilíbrio de uma distribuição de dados. Essas medidas representam quantitativamente os dados, e as mais utilizadas são a média ou esperança matemática, mediana e moda. 5.1 Media ou esperança matemática Média representa o ponto de equilíbrio de um conjunto de dados. Seja (x1,x2,...,xn) um conjunto de dados, a média é dada por: Quando os dados são agrupados em intervalos de classes, xi corresponde ao ponto médio do intervalo. 5.2 Propriedades da média 1 - A soma algébrica dos desvios tomados em relação à média é nula. Isto é, = 0 onde di = xi - x, i = 1, 2, ..., n e x é a média do conjunto de dados. 2 - Somando-se ou subtraindo-se uma constante, k, a todos os valores de uma variável, a média do conjunto fica aumentada ou diminuída dessa constante. 3 - Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante, k, a média do conjunto fica multiplicada ou dividida por essa constante. 20WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 5.3 Vantagens e desvantagens da média É uma medida que, por uniformizar os dados, não representa bem os conjuntos que revelam tendências extremas, uma vez que a mesma será grandemente influenciada por valores discrepantes. Suponha por exemplo, que durante um ano letivo, um aluno obtenha as seguintes notas em uma disciplina: 30, 35, 25, 30, 25, 35, 35, 95, 90, 100. Um cálculo rápido nos mostra que sua média final foi 50. Como a média final deve traduzir o aproveitamento do aluno durante o ano e a média 50 só foi conseguida à custa das três últimas notas, concluímos que 50 é um valor falho para medir o aproveitamento do aluno. Desta forma, entende-se que: 1 - A média nem sempre tem existência real, isto é, ela nem sempre faz parte do conjunto de dados; 2 - É a medida de posição mais conhecida e de maior emprego; 3 - É facilmente calculada; 4 - Serve para compararmos conjuntos semelhantes; 5 - Depende de todos os valores do conjunto de dados; 6 - Em geral não ocupa a posição central do conjunto (ocupa a posição do centro de equilíbrio). 5.4 Mediana (Md) A mediana de um conjunto de valores ordenados segundo uma ordem de grandeza é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. Quando o conjunto de observações tem um número ímpar de valores, não-agrupados em classes, então a mediana é dada pela expressão: Quando o conjunto de observações tem um número par de valores, não-agrupados em classes, então a mediana será, a média aritmética dos dois números que ocuparem o meio da série: Quando o conjunto de observações se apresenta agrupados em classes em uma tabela de frequências, então a mediana é dada pela expressão: Vantagens e desvantagens da mediana 1- Não depende de todos os valores da série, podendo mesmo não se alterar com a modificação de alguns deles; 2- Não é influenciada por valores discrepantes. 21WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 5.5 Moda (Mo) Moda é o valor que ocorre com maior frequência em uma série de dados. Existem séries de dados em que nenhum valor aparece mais vezes que outros. Neste caso não apresenta moda, as quais denomina-se séries amodais. Em outros casos, pode aparecer dois ou mais valores de concentração. Diz-se, então, que a série tem duas ou mais modas (bimodal, trimodal). Quando os dados se apresentam agrupados em tabelas de frequências, é necessário utilizar a expressão de Czuber para calcular o valor que representa a moda: (em que “i” é a ordem da classe de maior frequência). Podemos também, neste caso, tomar o ponto médio da classe modal como sendo a moda. 5.6 Separatrizes Quartis (Qi): Denominamos quartis os valores de uma série que a divide em quatro partes iguais. Indicamos por: Q1,... Q3. Decis (Di): Denominamos decis os nove valores e uma série que a divide em dez partes iguais. Indicamos por: D1,... D9. Percentis (Pi): Denominamos percentis os noventa e nove valores de uma série que a divide em cem partes iguais. Indicamos por: P1,... P99. Para valores NÃO-AGRUPADOS (em ROL): Quando a série tem um número par de valores, as posições dos quartis deverão ser calculadas por : Quando a série tem um número ímpar de valores, as posições dos quartis deverão ser calculadas por: 22WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA Quando p for inteiro, então o elemento quartílico será Q = xp. Caso p não seja inteiro o elemento quartílico será a média dos valores mais próximos. Para valores AGRUPADOS (em tabelas): As medidas de posição para dados agrupados são calculadas através da expressão: em que: S = é a separatriz desejada (Md, Q, D, P); K = é a ordem da separatriz: K = 1 para a mediana K = 1, 2, 3 para os quartis K = 1, ... , 9 para os decis K = 1, ... , 99 para os percentis p = é a posição da observação (dado) que é a separatriz desejada e é calculada pela expressão: Observação: Os decis e os percentis, geralmente, são calculados para dados agrupados. 6 - MEDIDAS DE DISPERSÃO São medidas estatísticas que indicam o grau de dispersão, ou variabilidade do conjunto de observações pesquisados, em relação a uma medida de tendência central. Elas descrevem os dados qualitativamente. Uma única medida não é suficiente para descrever de modo satisfatório um conjunto de observações. Por exemplo, dois conjuntos de dados podem ter a mesma média aritmética e, no entanto, a dispersão de um pode ser muito maior que a dispersão do outro. As principais medidas de dispersão Amplitude total, Variância, Desvio Padrão, Coeficiente de variação. 6.1 Amplitude total (AT) Amplitude total é a diferença entre o maior e o menor valor observado. AT = x (máximo) - x (mínimo), para valores não agrupados, AT = L(máximo) - l(mínimo) para valores agrupados em classes em uma tabela de frequências, em que: L é o limite superior da última classe da tabela de frequências e, l é o limite inferior da primeira classe da tabela de frequências. ü ü ü ü üü ü 23WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 6.2 Variância Variância é a medida que fornece o grau de dispersão, ou variabilidade dos valores do conjunto de observações em torno da média. Ela é calculada tomando-se a média dos quadrados dos desvios em relação à média: paravalores populacionais não agrupados, para valores amostrais não agrupados, para valores populacionais agrupados em classes em uma tabela de frequências, para dados amostrais agrupados em classes em uma tabela de frequências. 6.3 Desvio padrão Como a variância é calculada a partir do quadrado dos desvios, sua unidade é quadrada em relação à variável estudada, o que, sob o ponto de vista prático é um inconveniente. Por isso mesmo, imaginou-se uma nova medida que tem utilidade e interpretação prática, denominada desvio padrão, definido como a raiz quadrada da variância e representada por: (desvio padrão amostral) (desvio padrão populacional) 24WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 6.4 Coeficiente de variação (CV) Coeficiente de variação é uma medida relativa da dispersão ou variabilidade dos dados: Destaca-se que o desvio padrão tem a mesma unidade de medida que os dados, de modo que o coeficiente de variação é adimensional. Critérios para interpretação do CV: Quanto menor for o coeficiente de variação, mais representativa dos dados será média. Coeficiente de variação acima de 50%, a média não é representativa. • Se 0%≤ cv%<30%, conclui-se pela baixa variabilidade dos dados e a média é uma ótima medida para representar os dados; • Se 30%≤ cv%<50%, conclui-se pela média variabilidade dos dados e a média é uma boa medida para representar os dados; • Se cv%≥50%, conclui-se pela alta variabilidade dos dados e a média não é uma medida apropriada para representar os dados. Neste caso, deve-se pensar na mediana ou moda. 7 - MEDIDAS DE SIMETRIA As medidas de simetria têm por objetivo básico medir o quanto a distribuição de frequências do conjunto de valores observados se afasta da condição de simetria. Distribuição Simétrica. Quando a média, moda e mediana são iguais. Distribuição Assimétrica negativa. Quando a média é menor que a mediana que é menor que a moda. Distribuição Assimétrica positiva. Quando a média é maior que a mediana que é maior que a moda. Uma medida para quantificar a assimetria de uma distribuição é dada pelo primeiro coeficiente de assimetria de Pearson ( As ). As expressões apresentadas nos possibilitam a seguinte interpretação: As = 0 (distribuição simétrica) As > 0 (assimétrica positiva) As < 0 (assimétrica negativa) 25WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 8 - MEDIDAS DE CURTOSE A curtose ou achatamento mede a concentração ou dispersão dos valores de um conjunto de valores em relação às medidas de tendência central em uma distribuição de frequências. Distribuição Leptocúrtica: Quando a distribuição apresenta uma curva de frequência mais fechada que a da distribuição normal. Distribuição Platicúrtica: Quando a distribuição apresenta uma curva de frequência mais aberta que a da distribuição normal. Distribuição Mesocúrtica: Quando a distribuição apresenta uma curva de frequência idêntica a da distribuição normal. As medidas de curtose podem ser calculadas através da expressão: (coeficiente de curtose) Relativamente à curva da distribuição normal, temos: K > 0,263 (platicúrtica) K = 0,263 (mesocúrtica) K < 0,263 (leptocúrtica) 26WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 1 ENSINO A DISTÂNCIA 9 - RESUMO DAS PRINCIPAIS FÓRMULAS DAS PROBABILIDADES 1. Avaliação da probabilidade de um evento: 2. Avaliação da probabilidade do evento certo (S) e do evento impossível: 3. Regras básicas para cálculo de probabilidade: 4. Regra da soma: 5. Eventos Complementares:] 6. Avaliação da Probabilidade Condicional: 7. Regra do Produto: 2727WWW.UNINGA.BR U N I D A D E 02 SUMÁRIO DA UNIDADE INTRODUÇÃO ........................................................................................................................................................... 28 1 - MODELOS DE DISTRIBUIÇÕES DISCRETAS .................................................................................................... 29 1.1 DISTRIBUIÇÃO BINOMIAL ................................................................................................................................. 29 1.2 DISTRIBUIÇÃO DE POISSON ............................................................................................................................ 30 2 - MODELOS DE DISTRIBUIÇÕES CONTÍNUAS ................................................................................................. 33 2.1 DISTRIBUIÇÃO NORMAL ................................................................................................................................... 33 2.2 DISTRIBUIÇÃO NORMAL PADRONIZADA ......................................................................................................, 34 3 - DISTRIBUIÇÃO QUI-QUADRADO ...................................................................................................................... 41 4 - DISTRIBUIÇÃO T-STUDENT .............................................................................................................................. 42 MODELOS DE DISTRIBUIÇÕES PROF.A MA. SIMONE DEMEIS BRAGUIM ENSINO A DISTÂNCIA DISCIPLINA: ESTATÍSTICA 28WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA INTRODUÇÃO Quando realizamos um experimento, não temos obrigatoriamente, que obtermos um valor numérico. Por exemplo, ao descrevermos uma peça manufaturada, podemos associar duas categorias: “defeituosas” e “não defeituosas”, ou seja, uma variável qualitativa. Por outro lado, ao estudarmos a descrição dos dados, vimos que os recursos disponíveis para análise das variáveis quantitativas são mais ricos do que para as variáveis qualitativas, portanto, buscaremos uma maneira de trabalharmos esta situação de forma mais prática e facilitada associando sempre a um número rela a qualquer evento de um espaço amostral, possibilitando assim, a construção de modelos probabilísticos para tais variáveis. 29WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA 1 - MODELOS DE DISTRIBUIÇÕES DISCRETAS Destacamos os principais modelos de distribuições de probabilidade para variáveis discretas: Distribuição binomial e Distribuição de Poisson. 1.1 Distribuição Binomial Observamos um experimento aleatório ao qual associamos a variável aleatória X. A distribuição discreta de probabilidade de X será definida como Distribuição Binomial se atender às seguintes condições: i) Em cada tentativa existem dois resultados possíveis mutuamente exclusivos. Eles são chamados de sucesso (se ocorrer o evento em que estamos interessados) e fracasso (se tal evento não ocorre). ii) As séries de tentativas (ou observações) do experimento são constituídas de n eventos independentes. iii) A probabilidade de sucesso é p e a do fracasso é q = 1-p. Então, para n repetições independentes, a probabilidade de ocorrer exatamente k sucessos da variável aleatória X é dado por: Notação: X~B (np; npq), onde lê-se que a variável aleatória X tem uma distribuição binomial com parâmetros E(x) = np (média) e VAR(x) = npq (variância). Exemplo 1: Uma moeda é lançada cinco vezes. Qual a probabilidade de se obter três caras? Solução: E: lançar uma moeda X: Número de caras que ocorrem (sucesso) n = 5 p = ½ (probabilidade de sucesso em um lançamento) q = 1-p = 1-½ = ½ Então, a probabilidade de obter k=3 caras é: Portanto, a probabilidade de ocorrer duas caras em e três lançamentos de uma moeda é 5/16 ou 31,25%. 30WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA Exemplo 2: Numa criação de coelhos, 40% são machos. Qual a probabilidade de que nasçam pelo menos 2 coelhos machos num dia em que nasceram 20 coelhos? Solução: X: Número de coelhos machos n = 20 p = 0,40 (probabilidade de sucesso do evento de interesse) q = 1-p = 1-0,40 = 0,60 (probabilidade de fracasso do evento de interesse) Então, a probabilidade de obter pelo menos dois coelhos é k ≥ 2 , ou seja, de doisaté vinte. Deve-se calcular pelo complementar para facilitar os cálculos, assim: Portanto, a probabilidade de que nasçam pelo menos 2 coelhos machos num dia em que nasceram 20 coelhos é de 0,9995 ou 99,95%. 1.2 Distribuição de Poisson A Distribuição de Poisson é um caso particular da distribuição binomial, quando o número de provas n tende para o infinito e, a probabilidade p de cada evento, em uma única prova, tende a zero, entretanto E[X] = n permanece finita e não nula. DEFINIÇÃO 8 – Diz-se que a variável aleatória X tem distribuição de Poisson com parâmetro λ=np, se sua função de probabilidade é dada pela fórmula: Com λ representando o número médio dos eventos ocorridos no intervalo considerado. A distribuição será denotada por X~P (λ) onde: E(X) = V(X) = λ = np 31WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA A Distribuição de Poisson também é chamada de distribuição de eventos raros, tais como: i) Número de falhas de um computador em um dia de operação. ii) Número de chamadas recebidas por um PBX durante um intervalo pequeno de tempo. iii) Número de relatórios de acidentes enviados a uma companhia de seguros em uma semana. Exemplo 3: O número de mortes por afogamento em fins de semana, numa cidade praiana, é de 2 para cada 50.000 habitantes. Qual a probabilidade de que em: a) Ocorra nenhum afogamento? b) 200.000 habitantes ocorram 5 afogamentos? c) 112.500 habitantes ocorram pelo menos 3 afogamentos? Solução: a) X: Número de afogamentos λ = 2 Portanto, a probabilidade de que não ocorra nenhum afogamento a cada 50.000 habitantes é de 0,1353 ou 13,53%. b) X: Número de afogamentos a cada 200.000 habitantes Cuidado, agora temos que calcular o número médio de afogamentos por habitantes, pois o evento mudou de 50.000 habitantes, para cada 200.000 habitantes. Assim, temos que calcular a nova média: 2 = 50.000 habitantes λ = 200.000 habitantes Resolvendo por regra de três obtemos: 50.000l = 2.200.000 λ = 8 Assim, 32WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA Portanto, a probabilidade de que ocorra 5 afogamentos a cada 200.000 habitantes é de 0,0916 ou 9,16%. c) X: Número de afogamentos a cada 112.500 habitantes Cuidado, agora temos que calcular o número médio de afogamentos por habitantes, pois o evento mudou para cada 112.500 habitantes. Também preste atenção que pede para calcular a probabilidade de pelo menos 3 afogamentos, isso significa três ou mais. Como não sabemos até quantos afogamentos podem ocorrer aleatoriamente em um dia, calculamos pelo complementar. Assim, 2 = 50.000 habitantes λ = 112.500 habitantes Resolvendo por regra de três obtemos: 50.000λ = 2. 112.500 λ= 4,5 Desta forma, Portanto, a probabilidade de que ocorra pelo menos três afogamentos a cada 112.500 habitantes é de 0,8264 ou 82,64%. 33WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA 2 - MODELOS DE DISTRIBUIÇÕES CONTÍNUAS 2.1 Distribuição Normal DEFINIÇÃO 9 – Seja uma variável aleatória contínua e independente X que apresenta a seguinte função densidade: Em que, os parâmetros µ e σ2 são respectivamente a média e a variância populacional que satisfaz as condições: a) -∞ < m < ∞ b) σ2 > c) -∞ < x < ∞ Então a família de densidade definida como a função anterior é chamada de Distribuição Normal, denotadas por: X ~ N (µ , σ2) Ou seja, X tem distribuição Normal com média µ e variância σ2, cuja função de distribuição é: Graficamente apresentará as seguintes características: Como podemos observar o gráfico da função densidade de uma variável normal tem a forma de um sino e é simétrica em relação à média µ. Fixando-se a média, verificamos que o “achatamento” está diretamente ligado ao valor de σ; um valor maior da variância significa maior dispersão da curva. 34WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA 2.2 Distribuição Normal Padronizada DEFINIÇÃO 10 – Se X ~ N (µ , σ2), a variável aleatória Z definida como tem distribuição normal com média 0 e variância 1, ou seja, Z ~N(0, 1). Demonstração: Logo, Z ~(0, 1). Exemplo 4: Seja Z~N(0,1), Calcular: Respostas: a) P(Z < 1,00) a) 0,8413 b) P(Z < 0,00) b) 0,5000 c) P(Z < -1,88) c) 0,0301 d) P(Z < 6,88) d) 1 e) P(Z < -5,67) e) 0 f) P(Z < 1,96) f) 0,9750 g) P(Z > 1,00) g) 0,1587 h) P(Z > 1,645) h) 0,0495 i) P(Z > -2,05) i) 0,9798 j) P(Z > -8,0 ) j) 1 k) P(Z > 6,6 ) k) 0 l) P(-1,0 < Z < 1,0) l) 0,6826 m) P(-2,08 < Z < 1,0) m)0,8225 n) P(0 < Z < 1,645) n) 0,4495 o) P(-1,96 < Z < 0) o) 0,4750 p) P(-1,96 < Z < 1,96) p) 0,9500 q) P(-1,65 < Z < 1,65) q) 0,9010 r) P(-5,8 < Z < 6,9) r) 1 s) P(0 < Z < 7,0) s) 0,5000 t) P(-7,0 < Z < 0) t) 0,5000 Observação: As tabelas “Z” e “t” estão disponíveis no final da apostila 35WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA Exemplo 5: Suponha que você é o gerente de um laboratório de análises clínicas onde os montantes diários de depósitos e de retiradas são dados por variáveis aleatórias independentes com distribuições normais. Para os depósitos, a média é de R$ 12.000,00 e o desvio padrão é R$ 4.000,00; para as retiradas, a média é de R$ 10.000,00 e o desvio padrão é R$ 5.000. Calcule a probabilidade de cada um dos eventos abaixo em um determinado dia: a) Depósitos inferiores a R$ 11.000,00. b) Depósitos superiores a R$ 13.000,00. c) Retiradas superiores a R$ 13.000,00. d) Os depósitos excederem as retiradas em no máximo R$ 5.000,00. Solução: a) X: Depósitos diários mx = R$ 12.000,00 sx = R$ 4.000,00 Y: Retiradas diárias my = R$ 10.000,00 sy = R$ 5.000,00 Portanto, a probabilidade de que ocorra depósitos inferiores a R$ 11.000,00 em qualquer dia é de 0,4013 ou 40,13%. b) A variável aleatória de interesse continua sendo os depósitos diários, assim: 36WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA Portanto, a probabilidade de que ocorra depósitos superiores a R$ 13.000,00 em qualquer dia é de 0,4013 ou 40,13%. c) Cuidado, pois a variável aleatória de interesse agora são as retiradas diárias, assim: Portanto, a probabilidade de que ocorra retiradas superiores a R$ 13.000,00 em um dia aleatório é de 0,2743 ou 27,43%. d) Cuidado, pois o evento de interesse mudou. Agora temos o evento: D: Diferença entre depósito e retirada Temos que calcular a média da variável D. Lembre-se que pelas propriedades da média podemos somar ou subtrair as médias, assim: mD = mx - my mD = 12- 10 mD = 2 Sabemos que devemos somar as variâncias das variáveis de interesse. Assim, s2D = s 2 x + s 2 y s2D = (4) 2 + (5)2 s2D = 16+ 25 s2D = 41 Desta forma, para obtermos o desvio padrão da Diferença: sD = raiz(41) sD = 6,4031 Assim, D ~(2000; 6,40312) P[(Depósito – Retirada) ≤ 5] = P(D ≤ 5) 37WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA Portanto, a probabilidade da diferença entre depósito e retirada é de 0,6808 ou 68,08%. Exemplo 6: Um sistema é formado por 100 componentes, com desvio padrão de 2,18, dada um dos quais com confiabilidade de 0,95 (probabilidade de funcionamento do componente durante certo período de tempo). a) Mais de 97 dos componentes funcionam durante certo período de tempo; b) Se esses componentes funcionam independentemente uns dos outros e se o sistema completo funciona adequadamente quando pelo menos 80 componentes funcionam, qual a confiabilidade do sistema? Solução: Cuidado, temos que calcular a média e a variância total do sistema: Xi: Sistema “i”,em que a Notação é: Xi ~ N(0,95;4,75) X: Sistema total, ü Assim, a média e a variância do sistema é dada por: e, a Notação é: X ~ N(95;475) a) A variável aleatória de interesse é o sistema funcionando totalmente, assim: Portanto, a confiabilidade do sistema funcionar, em qualquer dia, seja superior a 97 éde 0,1788 ou 17,88% do tempo. 38WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA b) A variável aleatória de interesse é o sistema funcionando totalmente dentro de um intervalo, assim: Portanto, a confiabilidade do sistema completo funcionar adequadamente quando pelo menos 80 componentes funcionam é de 0,9890, ou seja, 98,90% do tempo. Exemplo 7: As alturas de 10.000 alunos do Centro Universitário UNINGÁ têm distribuição aproximadamente normal, com média 170 cm e desvio - padrão 5 cm. a. Qual a probabilidade de alunos com altura superior a 165 cm? b. Qual o número esperado de alunos com altura inferior a 173 cm? c. Qual o número esperado de alunos com altura entre 168 cm e 175 cm? d. Qual o intervalo simétrico em torno da média, que conterá 75% das alturas dos alunos? Solução: Notação é: X ~ N(170;52), ou X ~ N(170;25) X: Altura dos alunos do Centro Universitário UNINGÁ. a) Qual a probabilidade de alunos com altura superior a 165 cm? ou Portanto, a probabilidade de alunos com altura superior a 165 cm é de 0,8413, ou seja, 84.13%. 39WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA b) Qual o número esperado de alunos com altura inferior a 173 cm? Cuidado, como queremos um número esperado (número médio) temos que calcular a probabilidade da altura pedida no exercício e multiplicarmos pela constante (k), pela propriedade da média, a qual é o número de alunos desta instituição. Desta forma, Assim, Portanto, o número esperado de alunos do Centro Universitário UNINGÁ que tem altura inferior a 173 cm é de 7257 alunos. c) Qual o número esperado de alunos com altura entre 168 cm e 175 cm? Assim, Portanto, o número esperado de alunos do Centro Universitário UNINGÁ que tem altura entre 168 cm a 175 cm é de 4967 alunos. 40WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA d) Qual o intervalo simétrico em torno da média, que conterá 75% das alturas dos alunos? Sabemos que a soma de todas as probabilidades é 1. Temos como limite 75%, ou 0,75, então consequentemente: Como temos a probabilidade, da tabela Normal Padronizada obtemos os valores críticos: Assim, Portanto, o intervalo simétrico em torno da média, que conterá 75% das alturas dos alunos está entre 164,25 cm e 175,75 cm. 41WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA 3 - DISTRIBUIÇÃO QUI-QUADRADO Seja x1, x2, x3,,..., xp, em que “p” variáveis aleatórias independentes, normalmente distribuídas, com média zero e variância 1. DEFINIÇÃO 11 – A variável aleatória tem distribuição qui-quadrado se: Em que “p” é um parâmetro da função densidade denominado “grau de liberdade”, denotado pela letra grega “φ”, onde lê-se fi. A média é igual ao grau de liberdade, e que a variância é igual ao dobro do número de graus de liberdade. Desta forma, A distribuição qui-quadrado está tabelada nos livros referenciados. Exemplo 8: Admita parâmetro 8, ou seja, φ=8 e α=5% unilateral à direita. Solução: Observe a primeira coluna da tabela com φ=8, e na primeira linha observe o alfa informado, neste caso, α=5%, encontre a intersecção da linha com a coluna o número 15,5. Graficamente temos: Exemplo 9: Admita parâmetro 23, ou seja, φ=23 e α=5% bilateral. Solução: Observe a primeira coluna da tabela com φ=23, e na primeira linha observe a metade do valor do alfa informado, neste caso, α=5%\2= 0,025, encontre a intersecção da linha com a coluna o número 38,1, sendo este o limite superior da qui-quadrado. O valor da abscissa à esquerda é obtido na tabela observando na primeira coluna com φ=23 e na primeira linha com 0,975 (1-0,025), em que encontramos 11,7, sendo este o limite inferior. 42WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA Graficamente temos: 4 - DISTRIBUIÇÃO T-STUDENT A variável tem distribuição normal. Quando não conhecemos a variância populacional (σ2), devemos usar sua estimativa, a variância amostral (S2). DEFINIÇÃO 12 – A variável com distribuição de “t de Student” com “φ” graus de liberdade é definida como: em que: (estimador do erro padrão) Quando o tamanho da amostra for suficientemente grande (n≥30), S2 se aproxima bastante de σ2, o que faz com que a variável “t” se aproxime da variável normal “Z”. Se o tamanho da amostra for pequeno (n<30), devemos usar a distribuição “t de Student”. Em que o número de informações independentes da amostra dá o número de graus de liberdade “φ” da distribuição “t”. O número de graus de liberdade é igual ao número de informações independentes da amostra “n” menos o número “k” de parâmetros da população a serem estimados além do parâmetro de interesse no estudo. 43WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA Como vamos estimar a média de uma população normal com σ2 desconhecida, além de x, estimador inerente ao estudo, estimaremos σ2, um parâmetro a mais. Desta forma, usaremos a “t” com “n-1” graus de liberdade. Exemplo 10: Admita parâmetro 7, ou seja, φ=7 e α=5% bilateral. Solução: Observe na primeira coluna da tabela com φ=7, e na primeira linha com α=5%=0,05, assim encontramos o número 2,3646. Graficamente obtemos: Exemplo 11: Foi aferida a pressão sanguínea arterial em 7 pacientes homens. Considerando o Modelo Padrão, obteve-se os seguintes resultados: 84 81 77 85 69 80 79 A amostra apresentou média de 79,29, α =0,05 e desvio padrão de 5,31. Determine os valores críticos. Solução: 44WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 2 ENSINO A DISTÂNCIA Da tabela “t” de Student obtemos: t1 = -2,447 e t2 = 2,447 Graficamente: Portanto, os limites críticos são: 4545WWW.UNINGA.BR U N I D A D E 03 SUMÁRIO DA UNIDADE INTRODUÇÃO ........................................................................................................................................................... 47 1 - ESTATÍSTICA DESCRITIVA ................................................................................................................................ 48 2 - RESUMO E APRESENTAÇÃO DE DADOS QUALITATIVOS .............................................................................. 48 2.1 TABELAS ............................................................................................................................................................. 48 2.1.1 TABELAS SIMPLES .......................................................................................................................................... 49 2.1.2 TABELAS DE DUPLA ENTRADA OU DE CONTINGÊNCIA ............................................................................. 49 2.2 TIPOS DE SÉRIES ESTATÍSTICAS .................................................................................................................... 50 2.2.1 TEMPORAL ...................................................................................................................................................... 50 2.2.2 GEOGRÁFICA .................................................................................................................................................. 50 2.2.3 ESPECÍFICA .................................................................................................................................................... 50 2.2.4 DISTRIBUIÇÃO DE FREQUÊNCIAS ................................................................................................................ 51 ESTATÍSTICA DESCRITIVA PROF.A MA. SIMONE DEMEIS BRAGUIM ENSINO A DISTÂNCIA DISCIPLINA: ESTATÍSTICA 46WWW.UNINGA.BR 3 GRÁFICOS .............................................................................................................................................................. 51 2.3.1 GRÁFICO EM BARRAS (OU EM COLUNAS) .................................................................................................. 52 2.3.2 GRÁFICO EM SETORES .................................................................................................................................52 2.3.3 GRÁFICO EM LINHA ....................................................................................................................................... 53 2.3.4 GRÁFICO COMPARATIVO .............................................................................................................................. 53 3 - RESUMO E APRESENTAÇÃO DE DADOS QUANTITATIVOS ........................................................................... 54 3.1 CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA DISCRETA .......................................................... 54 3.2 GRÁFICO EM BARRAS (OU EM COLUNAS) .................................................................................................... 55 3.3 AGRUPAMENTO DOS DADOS – DISTRIBUIÇÃO DE FREQUÊNCIAS ............................................................ 56 3.2 CONSTRUÇÃO DE DISTRIBUIÇÃO DE FREQUÊNCIA CONTÍNUA ................................................................. 58 4 - GRÁFICOS ........................................................................................................................................................... 59 4.1 HISTOGRAMAS ................................................................................................................................................... 59 4.2 POLÍGONOS DE FREQUÊNCIAS ....................................................................................................................... 59 4.3 POLÍGONOS DE FREQUÊNCIA ACUMULADA OU OGIVAS ............................................................................ 60 47WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA INTRODUÇÃO Nesta Unidade, estudaremos a Estatística Descritiva: descrever, analisar e interpretar os dados numéricos de uma população ou amostra. Então, aprenderemos sobre apresentação de dados qualitativos com os tipos de tabelas e as maneiras de fazer cada uma delas. Também veremos sobre os tipos de séries estatísticas e os gráficos, os quais são muito utilizados para exposição de dados e que possuem diversos tipos que são utilizados conforme a intenção da pesquisa e os dados coletados. Vamos estudar e analisar as maneiras de se apresentar os dados quantitativos também, a saber: Distribuição de Frequência discreta, Distribuição de Frequência Contínua e, após ver como são construídas, estudaremos os gráficos de histogramas, polígonos de frequências e polígonos de frequência acumulada. 48WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA 1 - ESTATÍSTICA DESCRITIVA Segundo (FONSECA, 1996), como o próprio nome sugere, estatística descritiva se constitui num conjunto de técnicas que objetivam descrever, analisar e interpretar os dados numéricos de uma população ou amostra. A amostra dos dados pode ser obtida de diversas formas, tais como: amostra aleatória simples (a.a.s.), amostra sistemática, amostra estratificada proporcional, ou a combinação delas. Não iremos nos ater neste tema, pois é outra disciplina de estatística. Coletados os dados, surgem então questões do tipo: Como comunicar os dados obtidos? Como descrever e caracterizar o conjunto de dados como um todo? Pode-se tentar lê-los e adquirir uma idéia subjetiva da informação nele contida. Porém em muitas situações isto não é viável devido ao grande número de dados. Além disso, uma impressão subjetiva não só é difícil de ser transmitida como também pouco convincente. Assim, chegamos à conclusão de que são necessárias técnicas estatísticas que reduzam e descrevam uma grande quantidade de informação. Para condensar e comunicar os dados são usados dois esquemas: as tabelas e as representações gráficas. Estas estratégias se direcionam de forma diferente quando se trata de dados qualitativos ou quantitativos, conforme veremos em seguida. Além disso, os dados podem ser organizados para uma única variável de cada vez, ou envolvendo duas ou mais variáveis. Para caracterizar o conjunto de dados como um todo, faz-se a análise descritiva dos mesmos através das medidas descritivas. 2 - RESUMO E APRESENTAÇÃO DE DADOS QUALITATIVOS 2.1 Tabelas Ao se resumir os dados coletados, em uma tabela, algumas normas devem ser seguidas: a) Toda tabela deve conter Título e Fonte. Título: é a indicação que precede a tabela e que contém a designação do fato observado, o local e a época em que foi registrado. Fonte: é a indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração. b) Outros dois elementos primordiais na tabela são: o cabeçalho e a coluna indicadora. O primeiro evidencia o conteúdo das colunas e fica na parte superior da tabela, o segundo mostra o conteúdo das linhas. c) Cada cruzamento entre linha e coluna é denominado célula ou casa. d) Nenhuma célula (casa) deve ficar em branco. e) Hífen (-), indica que o valor numérico é nulo. f) Reticência (...) , indica que não se dispõe do dado. g) Interrogação (?) , indica dúvida quanto a exatidão do valor numérico. 49WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA h) Zeros (0; 0,0; 0,00), indica valor muito pequeno em relação a unidade utilizada. i) A tabela não é fechada lateralmente por traços verticais. j)Não há obrigatoriedade de linha vertical entre as colunas, mas deve ser usada quando a tabela apresenta muita informação (muitas colunas e/ou muitas linhas). 2.1.1 Tabelas simples É a representação dos valores de uma única variável. Tabela 01: VENDAS DE IMÓVEIS REALIZADAS PELAS MAIORES IMOBILIÁRIAS DA CIDADE DE SÃO PAULO EM 1999 Coluna indicadora Título IMOBILIÁRIA UNIDADES VENDIDAS AItaplan Lopes Nosso Teto Procasa 5186 4273 4992 3426 TOTAL 17877 Fonte: Setor Imobiliário de São Paulo. Total Corpo da tabela 2.1.2 Tabelas de dupla entrada ou de contingência É a representação, em uma única tabela, de valores de mais de uma variável, isto é, a conjugação de duas tabelas simples. TABELA 2 Tabela 02: MIGRAÇÃO RURAL, EM MILHÕES POR DÉCADA, EM ALGUNS ESTADOS BRASILEIROS NOS ANOS 1970 E 1980 ESTADOS ANOS 70 80 BA 0,7 1,0 RS 1,4 1,1 PR 2,4 1,5 MG 2,4 1,6 Fonte: revista ISTO É, julho/98. 50WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA 2.2 Tipos de séries estatísticas 2.2.1 Temporal Também conhecida como cronológica, evolutiva ou histórica. É a série em que os dados são observados segundo a época de ocorrência. Nesta série o fator variável é tempo e os fixos são: local e espécie. Tabela 03: POSTOS DE TRABALHO, NOS BANCOS, BRASIL, 1992/1997 ANO NÚMERO DE POSTOS(em milhares) 1992 677 1993 664 1994 643 1995 590 1996 524 1997 481 Fonte: revista ISTO É, julho/98. 2.2.2 Geográfica Também denominada Territorial ou espacial. É a série em que os dados são observados segundo a localidade de ocorrência. Nesta série o fator variável é local e os fixos são: tempo e espécie. Tabela 04: BALANÇO COMERCIAL DA REGIÃO SUL DO BRASIL EM 1995 REGIÃO VALOR (em US$ milhão) Paraná 1200 Rio Grande do Sul 3200 Santa Catarina 1600 Total 6000 Fonte: Almanaque Abril 96. 2.2.3 Específica Também conhecida por categórica. É a série em que os dados são agrupados segundo a modalidade de ocorrência (os dados variam em f unção do gênero específico em estudo). Nesta série o fator variável é espécie e os fixos são: tempo e local. 51WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA Tabela 05: PREÇOS MÉDIOS, EM REAIS, PAGOS PELAS COOPERATIVAS/CEREALISTAS AOS PRODUTORES, SÃO PAULO, 24/02/1999 PRODUTO PREÇO MÉDIO Algodão Milho Soja Trigo 6,90*** 8,18** 16,09** 11,08* Fonte: jornal Folha de São Paulo, 24/02/99. Nota: *** Preço por arroba em caroço, para o tipo 6. ** Preço por saca de 60 kg. * Preço por saca de 60 kg, Ph 78, por região. 2.2.4 Distribuição de frequências É a série em que os dados são agrupados segundo suas respectivas frequências absolutas (a variação dos dados fica definidaconforme as classes em que foram divididos ou os valores assumidos). Nesta série os três valores tempo, local e espécie são fixos. Tabela 06: DISTRIBUIÇÃO DOS SALÁRIOS DOS FUNCIONÁRIOS DO HOSPITAL ESPERANÇA, FEVEREIRO, 2017. Salários Número de funcionários 000 |---- 937 11 937 |---- 1437 8 1437 |---- 1937 6 1937 |---- 2437 2 2437 |---- 2937 1 2937 |---- 3437 1 3437 |---- 3937 3 Total 32 Fonte: Departamento Pessoal. 2.3 Gráficos Os gráficos são de grande utilidade na apresentação de dados estatísticos. Os números são considerados frios e de difícil interpretação, mas ganham vida quando são substituídos por figuras que mostram, com uma simples olhadela, o significado global de um conjunto de dados. Os gráficos mais usados para dados qualitativos são: Barras ou Colunas, Setor e Linha. Assim como as tabelas, os gráficos também devem ter título e fonte. Nos gráficos apresentados em nosso estudo, utilizamos os dados das tabelas 2, 4, 3 e 2 respectivamente. 52WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA 2.3.1 Gráfico em barras (ou em colunas) São empregados para representar informações de qualquer tipo de variável, inclusive o tempo (no caso em que o número de datas não é muito grande). Fonte: Revista ISTO É, julho/98. 2.3.2 Gráfico em setores Aplicável quando as categorias básicas são quantificáveis. Toma-se um círculo (360 graus), que é dividido em setores com áreas proporcionais às frequências das diversas categorias. Fonte: Almanaque. Abril 1996. 53WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA 2.3.3 Gráfico em linha É um dos mais importantes gráficos; representa observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo. Fonte: revista ISTO É, julho/98. 2.3.4 Gráfico comparativo É um gráfico utilizado quando se deseja comparar variáveis. Fonte: revista ISTO É, julho/98. 54WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA 3 - RESUMO E APRESENTAÇÃO DE DADOS QUANTITATIVOS Quando nos é proposta a análise de um conjunto de dados sem características de séries cronológicas, geográficas ou específicas, o tratamento descritivo desses dados estatísticos deve iniciar-se por um processo de sintetização. A sintetização dos dados poderá ser feita, adotando- se algum critério de classificação (subconjuntos), que permita apresentar os dados em tabelas, de forma resumida. Tais tabelas são chamadas distribuição de frequências. 3.1 Construção de uma Distribuição de Frequência Discreta Para o desenvolvimento desse item, utilizaremos o Exemplo 12: A prescrição médica solicita que 250 mL de soro glicofisiológico sejam infundidos em 3 horas. Para atender a essa prescrição, é necessário controlar o gotejamento do soro para, aproximadamente, 28 gotas/ minuto. Uma amostra de prescrições deste soro, infundidos em horas, coletados no Hospital Esperança de Maringá, em 12/2017, foi de: 6 3 5 6 4 3 5 4 4 2 3 2 5 4 3 4 Os dados são fictícios. Para a construção de uma distribuição de frequência discreta, vamos utilizar alguns dados importantes que devem ser conceituados para nosso estudo. Dados brutos (Xi): É o conjunto de dados numéricos obtidos após a crítica dos valores coletados, como acima. Representação: - x1,...,xn ( se amostrais ); - x1,...,xN (se populacionais ). ROL: É o arranjo dos dados brutos em ordem crescente ou decrescente. O rol em geral, por ser trabalhoso em sua elaboração, pode ser dispensado. Organizando os dados brutos do exemplo 12 em ROL CRESCENTE obtemos: ROL: 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 6, 6. Frequência absoluta (Fi): É o número de vezes que um valor Xi aparece no conjunto de dados. Frequência absoluta acumulada (Fac): Consiste em acumular o número vezes que um dado Xi aparece no conjunto de dados acrescido da frequência absoluta dos Xi’s anteriores. No exemplo usado, a distribuição de frequência será: 55WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA Tabela 06: Prescrições de 250 mL de soro glicofisiológico, infundidos em horas, coletados no Hospital Esperança, de Maringá, 12/2017. Soro infundido em Horas Fi Fai 2 2 2 3 4 6 4 5 11 5 3 14 6 2 16 Total 16 --- Fonte: Dados fictícios. Observação: Na tabela acima, a coluna dos Fai’s (frequência absoluta acumulada) é uma coluna complementar da distribuição de frequência. Veremos no exemplo a seguir uma distribuição de frequência completa. 3.2 Gráfico em barras (ou em Colunas) Utilizado quando os dados consistem em contagens e não de mensurações em escala contínua. Os valores distintos Xi’s são locados no eixo horizontal, e em cada um deles traça-se um segmento vertical de altura proporcional à respectiva frequência. Fonte: revista ISTO É, julho/98. 56WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA 3.3 Agrupamento dos dados – Distribuição de frequências Um grande conjunto de dados quantitativos necessita de um método eficiente de agrupamento ou de sumarização, de forma que seu manuseio, visualização e compreensão sejam simplificados. Para isto, os dados devem ser agrupados em classes. Exemplo 13: Considere uma amostra de 25 postos de saúde, da variável “número de funcionários”, da região de Maringá em 31/01/2017. Suponha os dados fictícios. 46 47 51 47 43 47 43 44 51 49 48 43 48 46 42 49 46 45 46 44 46 49 51 48 50 Os dados, como apresentados acima, são chamados brutos, pois não foram ainda submetidos a nenhum tipo de tratamento. Inicialmente, os dados devem ser colocados em ordem crescente, ou seja, em ROL: 42 43 43 43 44 44 45 46 46 46 46 46 47 47 47 48 48 48 49 49 49 50 51 51 51 Pode-se observar agora que das 25 observações o menor valor é 42 e o maior é 51. Amplitude (AT) É a diferença entre o maior e o menor valor do conjunto de dados observados. Para os dados acima: AT = 51-42 = 9. Observa-se que esse exemplo contém um número pequeno de observações (n=25), quando há um grande número de dados observados o processo de ordenação é trabalhoso e a listagem final pouco representará. Nesses casos, pode-se simplificar o processo agrupando os dados em certo número de classes, cujos limites serão denominados limite inferior e limite superior. A quantidade de classes e a amplitude destas devem ser obtidas observando as seguintes normas: i)as classes devem cobrir a amplitude total; ii)o extremo superior de uma classe é o extremo inferior da classe seguinte; iii)cada valor observado deve enquadrar-se em apenas uma classe; iv)número total de classes não deve ser inferior a 5 e nem superior a 25; O número de classes (k), pode ser obtido de uma das fórmulas seguintes: i) k = ; ii)k = 1 + 3,22 log n (fórmula de Sturges) 57WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA Para o conjunto de dados do exemplo: Não é obrigatório o uso de qualquer dessas fórmulas, pois existem outras, mas estas são as mais conhecidas. O número de classes pode ser estabelecido pelo bom senso de quem vai construir a tabela. Dividindo a amplitude total (AT) por 5 chega-se ao tamanho ou amplitude de cada uma das classes: Observação: quando os valores observados são números inteiros, os limites das classes também devem ser números inteiros. Aconselho escolher o número mais próximo de AT que resulte em um número inteiro. Agora, utilizando esse valor podem-se obter os limites inferiores e superiores das classes: i) O limite inferior da primeira classe é o menor valor da série; ii) os demais limites serão obtidos somando aos limites inferiores o valor de h. Isto é, 42 |----- 42+h = 42 + 2=44 44 |----- 44+h = 46 46 |----- 46+h = 48 48 |----- 48+h = 50 50 |----- 50+h = 52 Observe que a notação (|-----) significa que se está incluindo os valores iguais ao limite inferior e excluindo os valoresiguais ou superiores ao limite superior. A partir da listagem ordenada das classes, podem-se construir os chamados quadros (ou tabelas) de frequência ou distribuições de frequência, que permitem uma melhor visualização dos dados. Frequência: é o número de valores que aparecem no domínio de uma classe. 58WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA 3.2 Construção de Distribuição de Frequência Contínua Utilizando os limites de classes obtidos acima para o exemplo, tem-se o quadro abaixo: Tabela 07: Número de funcionários de 25 postos de saúde de Maringá, Paraná, 31/01/2017. Classes Frequência (Fi) 42 |----- 44 4 44 |----- 46 3 46 |----- 48 8 48 |----- 50 6 50 |----- 52 4 Total 25 Fonte: Dados hipotéticos. Uma tabela de frequências completa deve conter as seguintes informações: i) xi é o ponto médio da i-ésima classe; representa a média dos pontos limites da classe; ii) n é o tamanho da amostra; iii) ni é o número de observações, ou a frequência, da i-ésima classe; iv) Fi é a frequência absoluta da i-ésima classe; v) fi é a frequência relativa da i-ésima classe, vi) Fac é a frequência acumulada; vii) fac é a frequência relativa acumulada, Tabela 07: Número de funcionários de 25 postos de saúde de Maringá, Paraná, 31/01/2017 Classes xi Fi fi Fac fac 42 |----- 44 43 4 0,16 4 0,16 44 |----- 46 45 3 0,12 7 0,28 46 |----- 48 47 8 0,32 15 0,6 48 |----- 50 49 6 0,24 21 0,84 50 |----- 52 51 4 0,16 25 1 Total --- 25 1 --- --- Fonte: Dados hipotéticos. 59WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 3 ENSINO A DISTÂNCIA 4 - GRÁFICOS Os principais gráficos utilizados na representação de distribuição de frequências são: i) Histograma e polígono de frequência; ii) Ogiva ou polígono de frequência acumulada. 4.1 Histogramas Um conjunto de retângulos com bases sobre um eixo dividido de acordo com os tamanhos de classe, centros nos pontos médios das classes e áreas proporcionais às frequências. Fonte: Dados hipotéticos 4.2 Polígonos de frequências É um gráfico que se obtém unindo por uma poligonal os pontos correspondentes às frequências das diversas classes, centradas nos respectivos pontos médios (xi). Para obter as interseções do polígono com o eixo, cria-se em cada extremo do histograma uma classe com frequência nula. Fonte: Dados hipotéticos OBSERVAÇÃO: Suavizando a linha poligonal que define o polígono obtém-se uma curva que visualiza a tendência de variação dos dados. 4.3 Polígonos de frequência acumulada ou ogivas É o gráfico representativo de uma distribuição acumulada de frequências. É uma poligonal ascendente. No eixo horizontal colocam-se as extremidades de classe e no eixo vertical as frequências acumuladas. Note que a frequência acumulada relacionada com o limite inferior da primeira classe é sempre zero. Ao contrário do polígono de frequência, a ogiva de frequências acumuladas utiliza os pontos extremos dos intervalos de classe, e não os pontos médios. Fonte: Dados hipotéticos 6161WWW.UNINGA.BR U N I D A D E 04 SUMÁRIO DA UNIDADE INTRODUÇÃO ........................................................................................................................................................... 63 1 - ESTATÍSTICAS E PARÂMETROS ....................................................................................................................... 64 2 - ESTIMAÇÃO, ESTIMADOR E ESTIMATIVA ..................................................................................................... 64 2.1 CONCEITO DE ESTIMAÇÃO ............................................................................................................................... 64 2.2 CONCEITOS DE ESTIMADOR E ESTIMATIVA ................................................................................................. 65 2.2.1 ESTIMATIVA PONTUAL .................................................................................................................................. 65 2.2.2 DISTRIBUIÇÃO AMOSTRAL DOS ESTIMADORES ....................................................................................... 65 2.2.3 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA (X) ................................................................................................. 65 3 - INTERVALOS DE CONFIANÇA ........................................................................................................................... 69 INFERÊNCIA ESTATÍSTICA PROF.A MA. SIMONE DEMEIS BRAGUIM ENSINO A DISTÂNCIA DISCIPLINA: ESTATÍSTICA 62WWW.UNINGA.BR 3.1 INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL (µ) QUANDO A VARIÂNCIA (σ2) É CONHECIDA ............................................................................................................................................................. 69 3.2 INTERVALO DE CONFIANÇA PARA MÉDIA (µ) QUANDO A VARIÂNCIA (σ2) É DESCONHECIDA ............... 71 3.3 INTERVALO DE CONFIANÇA PARA A VARIÂNCIA .......................................................................................... 73 3.4 INTERVALO DE CONFIANÇA PARA A PROPORÇÃO (P) ................................................................................. 75 3.5 INTERVALO DE CONFIANÇA PARA A DIFERENÇA DE MÉDIAS QUANDO AS VARIÂNCIAS POPULACIONAIS FOREM CONHECIDAS ............................................................................................................... 76 3.6 INTERVALO DE CONFIANÇA PARA A DIFERENÇA DE MÉDIAS QUANDO AS VARIÂNCIAS POPULACIONAIS FOREM GUAIS E DESCONHECIDAS ........................................................................................ 77 4 - TESTE DE HIPÓTESE PARAMÉTRICO ............................................................................................................. 79 4.1 PROCEDIMENTO GERAL DO TESTE DE HIPÓTESE (TH) ................................................................................ 81 4.2 PASSOS PARA CONSTRUÇÃO DE UM TESTE DE HIPÓTESE PARAMÉTRICO ............................................. 81 4.3 TESTES DE HIPÓTESES PARAMÉTRICOS ...................................................................................................... 82 4.3.1 TESTES PARA A MÉDIA DE UMA POPULAÇÃO, COM VARIÂNCIA CONHECIDA ...................................... 82 4.3.2 TESTES PARA µ COM σ2 DESCONHECIDO ................................................................................................ 85 4.3.3 TESTE DE HIPÓTESE PARA A PROPORÇÃO DE SUCESSO POPULACIONAL (P) ..................................... 88 4.3.4 TESTE DE HIPÓTESE PARA A DIFERENÇA DE DUAS MÉDIAS POPULACIONAIS COM VARIÂNCIAS CONHECIDAS ........................................................................................................................................................... 90 4.4.5 TESTE DE HIPÓTESES PARA A DIFERENÇA DE DUAS MÉDIAS COM VARIÂNCIAS DESCONHECIDAS E IGUAIS ...................................................................................................................................................................... 93 5 - ESTATÍSTICA NÃO PARAMÉTRICA .................................................................................................................. 96 5.1. TESTE DE MANN-WHITNEY ........................................................................................................................... 99 6 - TABELAS ............................................................................................................................................................ 103 63WWW.UNINGA.BR ES TA TÍ ST IC A | U NI DA DE 4 ENSINO A DISTÂNCIA INTRODUÇÃO Inferência Estatística ou Estatística indutiva é a parte da estatística que utiliza métodos científicos para fazer afirmações e tirar conclusões sobre características ou parâmetros de uma população, baseando-se em resultados de uma amostra. O próprio termo “indutiva” decorre da existência de um processo de indução, isto é, um processo de raciocínio em que, partindo-se do conhecimento de uma parte,
Compartilhar