Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA Amanda M. Eudes D’Andrea Juliana Cobre Mariana Cúri 1. APRESENTAÇÃO 1.1 eDisciplinas https://edisciplinas.usp.br https://edisciplinas.usp.br/acessar/ 1. Ementa da disciplina 2. Plano de aulas 3. Monitoria 4. Controle de presença (quizzes) 5. Datas das avaliações 6. Referências bibliográficas 7. Slides e links para as videoaulas 8. Listas de exercícios 9. Links para as avaliações 1.2 Motivação Pergunta de interesse População Amostra Planejamento O que avaliar: - quem: UNIDADES AMOSTRAIS (samples/objetos) - o que: VARIÁVEIS (atributos) - quando: MOMENTOS / CONDIÇÕES de avaliação A n álise D escritiva Análise I nferenci al (com bas e na Teo ria de Pr obabilida des) BayesianaClássica 4 2 5 3 https://paises.ibge.gov.br/#/mapa/comparar/brasil?lan g=pt 20,37% 15,61% 14,82% 4,73% 10,45% 12,38% Fonte: https://www.worldometers.info/coronavirus/ A Estatística está em nosso dia a dia https://paises.ibge.gov.br/#/mapa/comparar/brasil?lang=pt https://paises.ibge.gov.br/#/mapa/comparar/brasil?lang=pt https://www.worldometers.info/coronavirus/ Representações sofisticadas Fonte: https://www.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6 https://www.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6 Em diversas áreas Fonte: https://www.who.int/growthref/cht_wfa_girls_perc_5_10years.pdf?ua=1 Intervalo: 3:15 a 4:00 Fonte: https://www.youtube.com/watch?v=u7E1v24Dllk&t=1142s “Normal distribution of temperatures” “Statistically significant” https://www.who.int/growthref/cht_wfa_girls_perc_5_10years.pdf?ua=1 http://www.youtube.com/watch?v=u7E1v24Dllk https://www.youtube.com/watch?v=u7E1v24Dllk&t=1142s Cuidados com conclusões equivocadas Fonte: Fonte: https://www.tylervigen.com/spurious-correlations https://www.tylervigen.com/spurious-correlations Manipulações? Screen grab of chart showing unemployment rate under President Obama. (Fox News) Fonte: https://www.washingtonpost.com/blogs/erik-wemple/post/fox-newss-unemployment-chart-better-graphics/2011/12/12/gIQAUVgNqO_blog.html https://www.washingtonpost.com/blogs/erik-wemple/post/fox-newss-unemployment-chart-better-graphics/2011/12/12/gIQAUVgNqO_blog.html Erros de aplicações da Estatística Fonte: https://plus.maths.org/content/beyond-reasonable-doubt https://plus.maths.org/content/beyond-reasonable-doubt Sally Clark, advogada, 1964-2007 ● condenada pelo assassinato dos dois filhos lactentes em 1999-2000 ● testemunho de Roy Meadow: ‘uma morte súbita na infância é uma tragédia para a família, duas são suspeitas e três são assassínio a menos que existam provas em contrário’ ● evidência estatística falha: ‘a probabilidade de dois lactentes de uma família abastada vir a óbito por morte súbita é 1 em 73 milhões ≅ (1/8500)2 ● Libertada após 3 anos: evidências de infecção no líquor do 2º filho os 2 eventos foram considerados independentes!!!!! Estatística ● aplicada em muitas áreas Statistical Significance Series da ASA (American Statistical Association) https://www.amstat.org/ASA/Science-Policy-and-Advocacy/Statistical-Significance-Series.aspx ● conhecimento das metodologias disponíveis ● melhores resultados: conhecimentos em ambas as áreas (individual e/ou equipe) ● uso de softwares: R, SAS, SPSS, Minitab, Python, … https://www.amstat.org/ASA/Science-Policy-and-Advocacy/Statistical-Significance-Series.aspx 2. PROBABILIDADES 2.1 CONCEITOS BÁSICOS “... A tal senhora do título dizia que o gosto do chá fica diferente se alguém põe antes o leite na xícara e depois derrama o chá, ou se alguém põe antes o chá e depois derrama o leite. Ouvindo isso, naquela tarde de verão em Cambridge, Ronald Aymler Fisher propôs que se testasse a proposição: oferecer diferentes xícaras de chá com leite àquela senhora, convenientemente vendados os seus olhos, e verificar se ela era capaz de acertar a ordem da mistura.” EXPERIMENTO ALEATÓRIO Um experimento cujo resultado não se prevê com certeza, mesmo se repetido nas mesmas condições. chá leite leite chá Oferecer uma xícara de chá com leite à senhora e verificar se ela acerta ou não a ordem da preparação. Desenho do Experimento - sorteia-se um dos 2 tratamentos (tipos de preparo) - olhos vendados - repete-se 4 vezes o experimento Ω = {acerta, erra} A = {acerta} ESPAÇO AMOSTRAL (Ω) Conjunto cujos elementos são todos os possíveis resultados do experimento. Pode ser discreto (finito ou infinito enumerável) ou contínuo. EVENTO (A, B, ...) Qualquer subconjunto de Ω. EVENTOS MUTUAMENTE EXCLUSIVOS A e B são dois eventos mutuamente exclusivos se não têm intersecção: A ∩ B = ∅ chá leite leite chá Ω = {acerta, erra} A = {acerta} B = {erra} Neste caso, como B = Ac, A e B também são complementares A e B são mutuamente exclusivos EVENTOS COMPLEMENTARES A e B são dois eventos complementares se não têm intersecção e se sua união formam o espaço amostral: A ∩ B = ∅ e A ∪ B = Ω https://www.facebook.com/203247256523779/videos/418521009057984 Fonte: g1.globo.com Número de veículos que passam por uma praça de pedágio durante um certo intervalo: Ω = {0, 1, 2, ...} https://www.facebook.com/203247256523779/videos/418521009057984 EXEMPLO DE ESPAÇO AMOSTRAL CONTÍNUO Espaço amostral (Hemoglobina) Ω = A = [12; 16,5] B = [11; 13] C = [13,5; 18] eventos mutuamente exclusivos B ∩ C = ∅ Encontrar os valores de referência de normalidade para exames laboratoriais de hemograma da população brasileira. Desenho do Experimento - amostra de brasileiros sem doenças prévias - limites estratificados por sexo, faixa etária - 24h sem exercício físico e 48h sem álcool Fonte: Wikipedia: https://pt.wikipedia.org/wiki/Hemograma A B C https://pt.wikipedia.org/wiki/Hemograma 2.2 OPERAÇÕES COM EVENTOS Ω DIAGRAMA DE VENN A BC União: A ∪ B Intersecção: A ∩ B Mutuamente exclusivos ou disjuntos: B ∩ C = ∅ Complementares: A ∩ Ac = ∅ e A ∪ Ac = Ω Ω PARTIÇÃO DO ESPAÇO AMOSTRAL A B C A, B e C formam uma partição de Ω se forem mutuamente exclusivos e se (A∪B∪C)=Ω LEIS DE DEMORGAN 2.3 DEFINIÇÕES DE PROBABILIDADE DEFINIÇÃO CLÁSSICA DE PROBABILIDADE Se os elementos de Ω são equiprováveis e mutuamente exclusivos, a probabilidade de um evento A (subconjunto de Ω) é: #: número de elementos no conjunto - mesma quantidade de chá e de leite nos 2 tratamentos - xícara com camada dupla para isolamento térmico QUANTO SE ESPERA DE ACERTO AO ACASO? ao acaso: P(acerto)=0,5 Ω = {acertar, errar} A = {acertar} P(A) = ½ ? Apenas se P(acertar)=P(errar) Lançamento de dois dados balanceados. Calcular a probabilidade de: a) se obter soma das faces igual a 7 b) se obter soma maior do que 5 c) que o resultado do primeiro dado seja maior do que o resultado do segundo. EXERCÍCIO OUTRA DEFINIÇÃO DE PROBABILIDADE Frequência relativa de vezes que ocorre o evento A em infinitas repetições do experimento: P(A) = lim nº de vezes que ocorre A n → n ao acaso: P(acerto)=0,5 Se A1, A2, … são mutuamente exclusivos: AXIOMAS DA PROBABILIDADE PROPRIEDADES DE PROBABILIDADE Se , então Se , então Se , então Ω P(A∪B∪C) = A B C x x x x x -x P(A) +P(B) +P(C) -P(A∩B) -P(A∩C) -P(B∩C) +P(A∩B∩C) 2.4 PROBABILIDADE CONDICIONAL PROBABILIDADE CONDICIONAL Se A e B ⊆ Ω, eventos, a probabilidade condicional de A dado que ocorreu B é: P(A|B) = P(A ∩ B) , se P(B)>0. P(B) Note que: P(A ∩ B) = P(A|B).P(B) A fração de vezes que A ocorre dentre aquelas que B ocorre P(A|B) P( ∙ |B) satifaz os axiomas da probabilidade: ❖ 0 ≤ P(A|B) ≤ 1, ∀ A ⊂ Ω ❖ P(Ω|B) = 1 ❖ Se A1, A2, … são mutuamente exclusivos: P(∪ Ai|B)= ∑ P(Ai|B)i=1 i=1 nn A fração de vezes que A ocorre dentre aquelas que B ocorre P(A|B) P( ∙ |B) satifaz as propriedades: ❖ P(∅|B) = 0 ❖ Se A ⊂ Ω, P(A c|B) = 1- P(A|B) ❖ Se A,C ⊂Ω, então: P(A∪C|B) = P(A|B) + P(C|B) - P(A∩C|B) Exemplo 1: No lançamento de dois dados. A: sair 6 no primeiro B: sair 6 no segundo B interfere em A? P(A) x P(A | B) Exemplo 2: Na população de mulheres em idade fértil. A: atraso menstrual B: estar grávida EXPERIMENTO SENHORA TOMA CHÁ ◸ 4 xícaras de chá: 2 leite+chá e 2 chá+leite ◸ escolhe-se aleatoriamente a xícara a ser oferecida em cada prova ◸ a cada xícara que ela prova, revela-se qual a ordem de preparação usada, após ela emitir sua opinião ◸ suponha que a senhora não consegue distingui-las pelo paladar ◸ a senhora usa seu conhecimento prévio do experimento e seus conhecimentos de probabilidade para dar o próximo palpite Probabilidade condicional: árvore de probabilidades Chá Leite Chá Leite Chá Leite Chá Leite Chá Leite Chá Leite Chá Leite Leite Leite Chá Leite Chá Chá 0,5 0,5 1/3 2/3 2/3 1/3 0 1 1 0,5 0,5 1 1 0,5 0,5 1 1 1 1 0 P(C1C2L3L4) = P(C1).P(C2|C1).P(L3|C1∩C2).P(L4|C1∩C2∩L3) P(C1L2C3L4) = 0,5 . 0,67 . 0,5. 1 = 0,167 P(C1L2L3C4) = 0,5 . 0,67 . 0,5 . 1 = 0,167 P(L1C2C3L4) = 0,5 . 0,67 . 0,5 . 1 = 0,167 P(L1C2L3C4) = 0,5 . 0,67 . 0,5 . 1 = 0,167 P(L1L2C3C4) = 0,5 . 0,33 . 1 . 1 = 0,167 Total = 1: soma de eventos mutuamente exclusivos que formam uma partição de Ω ORDEM DE OFERECIMENTO DAS XÍCARAS P(C1) P(L1) P(C2|C1) P(L2|C1) P(L2|L1) P(C2|L1) P(C3|C1∩C2) P(L3|C1∩C2) Qual a probabilidade de ela acertar as 4 xícaras? Partição: (C1C2L3L4), (C1L2C3L4), (C1L2L3C4), (L1C2C3L4), (L1C2L3C4), (L1L2C3C4) Ω A evento A: acertar as 4 xícaras P(A) = P(A ∩ (C1C2L3L4)) + P(A ∩ (C1L2C3L4)) + P(A ∩ (C1L2L3C4)) + P(A ∩ (L1C2C3L4)) + P(A ∩ (L1C2L3C4)) + P(A ∩ (L1L2C3C4)) = 0 + 0,0417 + 0,0417 + 0,0417 + 0,0417 + 0 = 16,68% FÓRMULA DA PROBABILIDADE TOTAL Se (B1,B2,B3, … , Bk) uma partição de Ω e A ⊆ Ω, então: P(A) = P(B1) . P(A|B1) + P(B2) . P(A|B2) + … + P(Bk) . P(A|Bk) FÓRMULA DE BAYES Se (B1,B2,B3, … , Bk) uma partição de Ω e A ⊆ Ω, então: Chá Leite Chá Leite Chá Leite Chá Leite Chá Leite Chá Leite Chá Leite Leite Leite Chá Leite Chá Chá 0,5 0,5 1/3 2/3 2/3 1/3 0 1 1 0,5 0,5 1 1 0,5 0,5 1 1 1 1 0 P(C1C2L3L4) = 0,167 P(C1L2C3L4) = 0,167 P(C1L2L3C4) = 0,167 P(L1C2C3L4) = 0,167 P(L1C2L3C4) = 0,167 P(L1L2C3C4) = 0,167 Exp. 1 acerta erra Exp. 2 acerta erra Exp. 3 acerta erra Exp. 4 acerta Estratégia da senhora: escolhe a preparação com maior probabilidad e de ocorrer “Árvore” de probabilidades P(A) = P(A ∩ (C1C2L3L4)) + P(A ∩ (C1L2C3L4)) + P(A ∩ (C1L2L3C4)) + P(A ∩ (L1C2C3L4)) + P(A ∩ (L1C2L3C4)) + P(A ∩ (L1L2C3C4)) = 0 + 0,0417 + 0,0417 + 0,0417 + 0,0417 + 0 = 16,68% Exemplo: seguradora Uma seguradora oferece apólices anuais a seus clientes classificando-os em dois grupos: aqueles propensos a acidentes, que correspondem a 45% de sua carteira de clientes, e aqueles não propensos a acidentes, correspondendo aos 55% restantes. Acidentes ocorrem com uma probabilidade de 12% no grupo propenso a acidentes e 8% no não propenso. (i) Se um novo cliente chega para contratar o serviço, qual a probabilidade de ele ter um acidente dentro da apólice vigente? (ii) Dado que houve um acidente, qual a probabilidade de que tenha sido com um cliente do grupo não propenso a acidentes? Respostas: (i) 0,098 (ii) 0,45 Exemplo: seguradora 2.5 INDEPENDÊNCIA EVENTOS INDEPENDENTES Dois eventos A e B em Ω são independentes se a informação da ocorrência ou não de B não altera a probabilidade de ocorrência de A. P(A|B) = P(A), em que P(B)>0 Independência Pode ser assumida ou verificada por uma das condições: ➢ P(A|B) = P(A), em que P(B)>0 ➢ P(B|A) = P(B), em que P(A)>0 ➢ P(A ∩ B) = P(A). P(B) Consequências, se A e B são independentes: Ac e B são independentes Ac e Bc são independentes A e Bc são independentes Senhora toma chá Sob que condições é razoável supor independência entre os acertos? Ai: a senhora acerta a ordem de preparo da xícara i, para i=1, 2, 3 e 4 ◸ 4 xícaras de chá: 2 leite+chá e 2 chá+leite ◸ escolhe-se aleatoriamente a xícara a ser oferecida em cada prova ◸ a cada xícara que ela prova, revela-se qual a ordem de preparação usada, após ela emitir sua opinião ◸ suponha que a senhora não consegue distingui-las pelo paladar ◸ a senhora usa seu conhecimento prévio do experimento e seus conhecimentos de probabilidade para dar o próximo palpite Senhora toma chá ➢ Sob a condição de independência de Ai’s ➢ Seja p a probabilidade de acertar a ordem de preparo de cada xícara ➢ Errar a primeira e acertar as demais: P(A1 c ∩ A2 ∩ A3 ∩ A4) = P(A1 c) . P(A2) . P(A3) . P(A4) = (1-p).p 3 ➢ Acertar 3 ou mais ao acaso (p=0,5): P(A1 cA2A3A4) + P(A1A2 cA3A4) + P(A1A2A3 cA4) + P(A1A2A3A4 c) + P(A1A2A3A4) = 4 . (0,5)3 . (0,5)1 + (0,5)4 = 0,25 + 0,0625 = 31,25% Exemplo Um atirador acerta 80% de seus disparos e outro (nas mesmas condições de tiro), 70%. Qual a probabilidade de o alvo ser acertado se ambos os atiradores disparam simultaneamente? Bi :"o atirador acerta o alvo", i =1,2 P(B1)=0,8 P(B2)=0,7 P(B1∪B2) = P(B1) + P(B2) - P(B1∩B2) = P(B1) + P(B2) - P(B1).P(B2) = 0,8 + 0,7 - 0,8.0,7 = 0,94 sob independência Exercício: Paradoxo de Monty Hall Quebrando a banca (2008) 1: 18 expõe o problema Esclareça o raciocínio matemático usando probabilidade condicional e definindo os eventos pertinentes. http://www.youtube.com/watch?v=ryBVlEzt8Lk VARIÁVEIS ALEATÓRIAS 2.6 VARIÁVEL ALEATÓRIA (X) Função que associa um valor real a cada elemento de Ω. Pode ser discreta (Ω é finito ou enumerável) ou contínua (Ω é infinito não enumerável). Ω Exemplos de variáveis aleatórias X: resposta da senhora sobre a ordem de preparo da bebida x = 0, 1 X = 0, se erra a ordem de preparo 1, se acerta a ordem de preparo maiúscula: variável aleatória (v.a.) minúscula: valores que a v.a. assumeX é uma v.a. discreta Exemplos de variáveis aleatórias Y: número de acertos da senhora sobre a ordem de preparo da bebida nas 4 repetições do experimento y = 0, 1, 2, 3, 4 Y é uma v.a. discreta T: número de veículos que passam por uma praça de pedágio durante um certo intervalo de tempo t = 0, 1, 2, ... T é uma v.a. discreta H: níveis de hemoglobina no sangue (g/100ml) h ∊ 𝓡+ H é uma v.a. contínua Eventos x V.A. no caso de acerto ao acaso Ai: a senhora acerta a ordem de preparo da xícara i, para i=1, 2, 3, 4 Y: número de acertos da senhora sobre a ordem de preparo A1 cA2 cA3 cA4 c A1A2 cA3 cA4 c A1 cA2A3 cA4 c A1 cA2 cA3A4 c A1 cA2 cA3 cA4 A1A2A3 cA4 c A1A2 cA3A4 c A1A2 cA3 cA4 A1 cA2A3A4 c A1 cA2A3 cA4 A1 cA2 cA3A4 A1 cA2A3A4 A1A2 cA3A4 A1A2A3 cA4 A1A2A3A4 c A1A2A3A4 Y=0 Y=1 Y=2 Y=3 Y=4 Eventos x V.A. P(A1 cA2 cA3 cA4 c)=0,54 P(A1A2 cA3 cA4 c)=0,510,5 3 P(A1 cA2A3 cA4 c)=0,54 P(A1 cA2 cA3A4 c)=0,54 P(A1 cA2 cA3 cA4)=0,5 4 P(A1A2A3 cA4 c)=0,54 P(A1A2 cA3A4 c)=0,54 P(A1A2 cA3 cA4)=0,5 4 P(A1 cA2A3A4 c)=0,54 P(A1 cA2A3 cA4)=0,5 4 P(A1 cA2 cA3A4)=0,5 4 P(A1 cA2A3A4)=0,5 4 P(A1A2 cA3A4)=0,5 4 P(A1A2A3 cA4)=0,5 4 P(A1A2A3A4 c)=0,54 P(A1A2A3A4)=0,5 4 P(Y=0) = 0,54 P(Y=1) = 4.0,54 P(Y=2) = 6.0,54 P(Y=3) = 4.0,54 P(Y=4) = 0,54 função de probabilidade de Y (ou função massa de probabilidade) FUNÇÃO DE PROBABILIDADE Se X é uma v.a. discreta com possíveis valores no conjunto RX. Uma função f(x) é uma função de probabilidade (fp) se: função de distribuição acumulada Qual a probabilidade de acertar 3 ou mais xícaras ao acaso? P(Y≥3) = P(Y=3) + P(Y=4) = 0,3125 y 0 1 2 3 4 f(y) 0.0625 0.25 0.375 0.25 0.0625 Quantas xícaras é esperado (em média) que ela acerte ao acaso? E(Y) = 2 Qual a probabilidade de ela acertar menos do que o esperado? P(Y<2) = P(Y=0) + P(Y=1) = 0,3125 P(Y≤2) = P(Y=0) + P(Y=1) + P(Y=2) = 0,6875 esperança FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA Se X é uma v.a. discreta com possíveis valores no conjunto RX e função de probabilidade f(x),a função de distribuição acumulada (fda) de X é: y 0 1 2 3 4 f(y) 0.0625 0.25 0.375 0.25 0.0625 y 0 1 2 3 4 F(y) 0.0625 0.3125 0.6875 0.9375 1 + = + = + =+ = Propriedades de F(x) ESPERANÇA OU VALOR ESPERADO Se X é uma v.a. discreta, seu valor esperado é dado por: No caso de dependência (sabe-se que são 2 de cada tipo e revela-se qual bebida provou, após cada resposta da senhora) E(Y)=2,8 No caso de independência e acerto ao acaso Y: número de acertos y = 0, 1, 2, 3, 4 P(Y=0) = (1-0,5)4= 0,0625 P(Y=1) = 4. 0,51.(1-0,5)3 = 0,25 P(Y=2) = 6. 0,52.(1-0,5)2 = 0,375 P(Y=3) =0,25 P(Y=4) = 0,0625 = 0 . 0,0625 + 1 . 0,25 + 2 . 0,375 + 3 . 0,25 + 4 . 0,0625 = 2 ESPERANÇA DE FUNÇAO DE UMA V.A. Se Y = h(X), o valor esperado de Y é: em que f(x) é a função de probabilidade de X. VARIÂNCIA A variância de uma v.a. X é dada por: V(X) é também denotada por + + Fórmula alternativa para a variância No caso de independência e acerto ao acaso Y: número de acertos y = 0, 1, 2, 3, 4 P(Y=0) = 0,0625 P(Y=1) = 0,25 P(Y=2) = 0,375 P(Y=3) =0,25 P(Y=4) = 0,0625 V(Y) = E(Y2) - E2(Y) = = 0x0,0625 + 1x0,25 + 4x0,375 + 9x0,25 + 16x0,0625 - 4 = 1 USE A OUTRA FÓRMULA E CHEGUE AO MESMO RESULTADO! Propriedades da Esperança e da Variância Se X e Y são variáveis aleatórias e a e b são números reais: ◸ E(a)=a ◸ E(aX ± b) = aE(X) ± b ◸ E(aX ± bY) = aE(X) ± bE(Y) ◸ V(a)=0 ◸ V(aX)=a2V(X) ◸ Se X e Y são independentes, então: V(aX ± bY) = a2V(X) + b2V(Y) Se X é uma v.a. cóntínua Definições de função de densidade de probabilidade, (fdp), acumulada, esperança e variância análogas às apresentadas para variáveis discretas, com ∑ substituído por ⟆. Função densidade de probabilidade: Função de distribuição acumulada: do teorema fundamental de Cálculo: Note que P(X=a)=0 Se X é uma v.a. cóntínua Definições de função de distribuição (densidade) de probabilidade, acumulada, esperança e variância análogas às apresentadas para variáveis discretas, com ∑ substituído por ⟆. Exemplo: distribuição contínua Suponha X uma v.a. com a seguinte fdp, chamada Uniforme(0,1): Ideia intuitiva da distribuição é escolher um ponto aleatório em (0,1). 0 1 = Exemplo: distribuição contínua (i) Qual a probabilidade de X<0,1? ou (ii) Qual a esperança e a variância de X? média teórica (calculada com a função de distribuição de probabilidade de X) DISTRIBUIÇÕES DISCRETAS 2.7 Na prática Supõe-se que a variável de interesse, X, segue determinada distribuição de probabilidades na população, ou seja, define-se o modelo probabilístico. Binomial (4; ½)?Normal (μ; σ2)? Na prática George Box (1919-2013) Academic Press, 1979 Modelos discretos Modelos discretos: Bernoulli Um experimento que resulta em sucesso ou fracasso Exs: ● transmissão de dados com ou sem erro ● peça com ou sem defeito de uma linha de produção ● resultado + ou - de um exame para COVID-19 ● tirar 6 ou outro valor no lançamento de um dado ● acertar ou errar um lance livre no basquete X ~ Bernoulli (p): Fonte: https://pt.wikipedia.org/wiki/Fam%C3%ADlia_Bernoulli https://pt.wikipedia.org/wiki/Fam%C3%ADlia_Bernoulli Modelos discretos: Binomial X1= x1= 0 ou 1 X2= x2= 0 ou 1 X3 = x3= 0 ou 1 X4 = x4= 0 ou 1 … Xn = xn= 0 ou 1 X1 ~ Bernoulli (p) X2 ~ Bernoulli (p) X3~ Bernoulli (p) Xn~ Bernoulli (p) independentes ~ Binomial(n,p) Y: nº de sucessos em n repetições independentes do experimento Bernoulli (p) Problema: contratar um jogador para uma posição num time de basquete; bom potencial de arremesso Tradução: alta probabilidade de acertar um arremesso (prob p de sucesso) XLo ~ Bernoulli (pLo) YLo ~ Binomial (n=5,pLo) http://www.espn.in/video/clip?id=28146919 YMJ ~ Binomial (n=5,pMJ) n=10, 20? YKB ~ Binomial (n=5,pKB) n=100? https://docs.google.com/file/d/1GgPaRWwiAn7UYW96oxbnnJ_lX1B4kypc/preview Modelos discretos: Geométrica X: nº de repetições de Bernoulli’s (p, indep.) até a ocorrência do 1º sucesso X ~ Geométrica(p) Outra definição: nº de repetições que antecedem o 1º sucesso 1º sucesso x-1 fracassos 1º sucesso x fracassos Modelos discretos: Binomial Negativa X: nº de repetições de Bernoulli’s (p, indep.) até a ocorrência do kº sucesso, k≥1 X ~ Binomial Negativa(k,p) kº sucesso x-1 experimentos, sendo k-1 sucessos Modelos discretos: exemplo 1 Suponha que seu filho adora jogar basquete e que erra 3 arremessos a cada 10. Como ele sempre pede para ficar mais um pouco jogando antes de ir embora, você pensa responder sempre da mesma forma, para ser consistente. Entre as duas opções seguintes: 1) Mais 5 lances livres e vamos embora 2) Apenas lances livres e vamos embora quando você errar Qual é a estratégia que permite que ele jogue mais, em média? Modelos discretos: exemplo 1 Modelos discretos: Hipergeométrica X nº de sucessos em uma amostra de tamanho n (sem reposição) de uma população finita, de tamanho N, que contém k sucessos (k,n≤N). X ~ Hipergeométrica(N,n,k) k N-k n x n-x Modelos discretos: Hipergeométrica X nº de sucessos em uma amostra de tamanho n (sem reposição) de uma população finita, de tamanho N, que contém k sucessos (k,n≤N). X ~ Hipergeométrica(N,n,k) k N-k n x n-x Modelos discretos: Hipergeométrica X nº de sucessos em uma amostra de tamanho n (sem reposição) de uma população finita, de tamanho N, que contém k sucessos (k,n≤N). X ~ Hipergeométrica(N,n,k) k N-k n x n-x Modelos discretos: Hipergeométrica fator de correção para população finita Modelos discretos: exemplo 2 Processo de captura e recaptura para estimar tamanho populacional Captura k animais marcados Recaptura n animais x são marcados Qual o N? k N-k n x n-x https://www.tamar.org.br/noticia1.php?cod=830 http://www.youtube.com/watch?v=2qJNWtbRCTQ https://www.tamar.org.br/noticia1.php?cod=830 Modelos discretos: Poisson Exemplo: indústria de peças automobilísticas ● fabrica n peças por dia ● probabilidade p da fabricação gerar uma peça defeituosa ● X: número de peças fabricadas com defeito no dia ● Se p é constante e as peças são com ou sem defeito de forma independente, então: X ~ Binomial (n,p) e E(X) = np = λ Modelos discretos: Poisson Se n ↑ e p ↓ tal que E(X) = np = λ se mantém constante, então: ∴ X ~ Poisson(λ) Seja X o número de fissuras em um fio de cobre de 1m de comprimento, com um número médio de fissuras igual a λ: ● particionando o comprimento do fio em (n, ↑) subintervalos bem pequenos, t.q. ● a probabilidade de um subintervalo ter mais de uma fissura é 0 (desprezível), ● os subintervalos têm mesma probabilidade, p=λ/n, (↓) de apresentar uma fissura, proporcional ao comprimento do subintervalo, e ● os subintervalos apresentam ou não uma fissura de forma independente, então X ~ Poisson(λ) Processo de Poisson Modelos discretos: exemplo 3 A avaliação final de um curso à distância consta de uma prova com 10 questões de múltipla escolha, cada uma com 5 alternativas de resposta. Aprovação no curso requer pelo menos 6 questões corretas. a) Se um aluno responde a todas as questões baseado em palpite (“chute”), qual a probabilidade de ser aprovado? b) O curso, a cada ano de oferecimento, tem 200 alunos matriculados. Qual é o número médio de alunos sem nenhum conhecimento que são aprovados no curso? Use a aproximação pela Poisson. c) Qual é a probabilidade de que esse curso tenha no máximo 2 alunos sem nenhum conhecimento aprovados em dois anos de seu oferecimento? Modelos discretos: exemplo 3 ȻɋɁ %R¡ª�R�°R"�.¡ɵ �xpªTp°�¡ %R¡ª�R�°R"�xɵ°pRDx�n.ɵ�xpªTp°� 7OC�X�C��EQPVªPWC�:�VGO�FKUVTKDWK¤ Q�WPKHQTOG�EQO� RCT�OGVTQU�C�G�D��C���D���UG�UWC�HWP¤ Q�FGPUKFCFG�FG� RTQDCDKNKFCFG�¦�FCFC�RQT 0QVC¤ Q��:�`�7�C�D� DƊŊûóŒɵþĪŻƄŵĪöƊĪûóŒɵÚøƊňƊŁÚþÚ ÆÚŁŒŵɵąŻűąŵÚþŒɵąɵƠÚŵĪãŊøĪÚ DƊŊûóŒɵþąŊŻĪþÚþąɵþąɵűŵŒöÚöĪŁĪþÚþą .ƦąňűŁŒɍɵ$�FGPUKFCFG�FG�WOC�RG¤C�FG�EGTVC�OCVGTKCN�RQFG�UGT� EQPUKFGTCFC�WOC�X�C��WPKHQTOG�PQ�KPVGTXCNQ����������3WCN�C�RTQDCDKNKFCFG� FG�SWG�WOC�RG¤C�FGUUCU�VGPJC�FGPUKFCFG�GPVTG����G���"JuCobre .ƦąňűŁŒɍɵ$�FGPUKFCFG�FG�WOC�RG¤C�FG�EGTVC�OCVGTKCN�RQFG�UGT� EQPUKFGTCFC�WOC�X�C��WPKHQTOG�PQ�KPVGTXCNQ����������3WCN�C�RTQDCDKNKFCFG� FG�SWG�WOC�RG¤C�FGUUCU�VGPJC�FGPUKFCFG�GPVTG����G���" JuCobre pŒƄÚɍɵ$�FKUVTKDWK¤ Q�WPKHQTOG�¦�EQOWOGPVG�WVKNK\CFC�PC� ͲPHGT§PEKC�%C[GUKCPC�RCTC�FGOQPUVTCT�XCIQ� EQPJGEKOGPVQ�C�RTKQTK� 7OC�X�C��:�VGO�FKUVTKDWK¤ Q�GZRQPGPEKCN�EQO�RCT�OGVTQ�ź�!�� UG�UWC�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG�¦�FCFC�RQT� %R¡ª�R�°R"�xɵ.Ì�xp.p�R�f 0QVC¤ Q��:�`�(ZR�ź� DƊŊûóŒɵþĪŻƄŵĪöƊĪûóŒɵÚøƊňƊŁÚþÚ ÆÚŁŒŵɵąŻűąŵÚþŒɵąɵƠÚŵĪãŊøĪÚ DƊŊûóŒɵþąŊŻĪþÚþąɵþąɵűŵŒöÚöĪŁĪþÚþą �ŵŒűŵĪąþÚþąɍɵɱĜÚŁƄÚɵþąɵňąňœŵĪÚɱ 5G�:�`�(ZR�ź��GPV Q DƊŊûóŒɵþąɵŵĪŻøŒɵ pŒƄÚɍɵ2QFGOQU�GUETGXGT�VCOD¦O .ƦąňűŁŒɍɵ1�VGORQ�FG�XKFC�FG�WO�EQORQPGPVG�GN¦VTKEQ�UGIWG�WOC�FKUVTKDWK¤ Q� GZRQPGPEKCN�EQO�XKFC�O¦FKC�FG���CPQU��&CFC�EQORQPGPVG�VGO�WO�EWUVQ�FG�����G�� UG�FWTCT�OGPQU�FG���CPQU��J��WO�EWUVQ�CFKEKQPCN�FG����� C� 3WCN�¦�C�RTQDCDKNKFCFG�FG�WO�EQORQPGPVG�FGUUG�FWTCT�OGPQU�FG�����CPQ" D� 3WCN�¦�Q�EWUVQ�GURGTCFQ" JuCobre JuCobre JuCobre �ąŁÚûóŒɵþÚɵþĪŻƄŵĪöƊĪûóŒɵąƦűŒŊąŊøĪÚŁɵøŒňɵÚɵ�ŒĪŻŻŒŊ 0��X�C��SWG�TGRTGUGPVC�Q�P·OGTQ�FG�GXGPVQU�GO�EGTVQ�KPVGTXCNQ�FG�VGORQ��0� `�2QKUUQP�ź���ź��P·OGTQ�O¦FKQ�FG�GXGPVQU�RQT�WPKFCFG�FG�VGORQ��� :��X�C��SWG�TGRTGUGPVC�Q�VGORQ�CV¦�Q�RTKOGKTQ�GXGPVQ�CEQPVGEGT� :�`�" pąŊĦƊňɵąƠąŊƄŒɵÚøŒŊƄąøąŵɵÚƄĆɵƄ %ĪŻƄŵĪöƊĪûóŒɵþąɵÌ .ƦąňűŁŒɍɵ&QPUKFGTG�SWG�Q�P·OGTQ�FG�EJCOCFCU�VGNGH±PKECU�GO�WOC�EGPVTCN�FG� CVGPFKOGPVQU�UGIWG�WOC�FKUVTKDWK¤ Q�2QKUUQP�EQO�O¦FKC�FG�����EJCOCFC�RQT� JQTC��3WCN�C�RTQDCDKNKFCFG�FG�RCUUCT�OCKU�FG���JQTCU�UGO�TGEGDGT�WOC�EJCOCFC" 0��P·OGTQ�FG�EJCOCFCU :��VGORQ�CV¦�C�RTKOGKTC�EJCOCFC %R¡ª�R�°R"�xɵÇ.R�°ff 7OC�X�C��EQPVªPWC�:�VGO�FKUVTKDWK¤ Q�9GKDWNN�EQO� RCT�OGVTQU�FG�GUECNCܤ��!���G�FG�HQTOC�ű�!�����UG�UWC� HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG�¦�FCFC�RQT 0QVC¤ Q��:�`�9GKDWNN�ܤ���ű� DƊŊûóŒɵþĪŻƄŵĪöƊĪûóŒɵÚøƊňƊŁÚþÚ DƊŊûóŒɵþąŊŻĪþÚþąɵþąɵűŵŒöÚöĪŁĪþÚþą DƊŊûóŒɵþąɵŵĪŻøŒ �ÚŻŒɵűÚŵƄĪøƊŁÚŵ 7OC�X�C��:�VGO�FKUVTKDWK¤ Q�PQTOCN�EQO�RCT�OGVTQU�Ż�䌜�4� G�Ƃ�!��UG�UWC�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG�¦�FCFC� RQT� %R¡ª�R�°R"�xɵpx�n�f 0QVC¤ Q��:�`�0�Ż��Ƃ�� DƊŊûóŒɵþĪŻƄŵĪöƊĪûóŒɵÚøƊňƊŁÚþÚ ÆÚŁŒŵɵąŻűąŵÚþŒɵąɵƠÚŵĪãŊøĪÚ DƊŊûóŒɵþąŊŻĪþÚþąɵþąɵűŵŒöÚöĪŁĪþÚþą 0 Q�VGO�GZRTGUU Q�HGEJCFC� nĆþĪÚŻɵĪĞƊÚĪŻɵąɵƠÚŵĪãŊøĪÚŻɵþĪĜąŵąŊƄąŻnĆþĪÚŻɵþĪĜąŵąŊƄąŻɵąɵňąŻňÚɵƠÚŵĪãŊøĪÚ �����ª.�T¡ªR��¡ɵ%�ɵ%R¡ª�R�°R"�xɵpx�n�f ွ ��UKO¦VTKEC�GO�TGNC¤ Q���O¦FKC� ွ /¦FKC��OGFKCPC�G�OQFC�U Q�KIWCKU� ွ $��TGC�UQD�C�EWTXC�FG�FGPUKFCFG���GUSWGTFC�FC�O¦FKC�¦�KIWCN�C����� ွ $��TGC�UQD�C�EWTXC�FG�FGPUKFCFG���FKTGKVC�FC�O¦FKC�¦�KIWCN�C����� ွ 3WCPFQ�C�O¦FKC�¦�\GTQ�G�C�XCTK�PEKC�¦����¦�EJCOCFC�FG�PQTOCN�RCFT Q� ွ 1�RCT�OGVTQ�Ż��O¦FKC��¦�EJCOCFQ�FG�RCT�OGVTQ�FG�NQEC¤ Q� ွ 1�RCT�OGVTQ�Ƃ��FGUXKQ�RCFT Q��¦�EJCOCFQ�FG�RCT�OGVTQ�FG�GUECNC� �ŵąÚɵŻŒöɵÚɵøƊŵƠÚ �ÚŻŒɵűÚŵƄĪøƊŁÚŵɍɵ5G�<�¦�WOC�VTCPUHQTOC¤ Q�NKPGCT�FG�:�VCN� SWG��C� ��Ż�Ƃ��G��D� ���Ƃ�GPV Q ªŵÚŊŻĜŒŵňÚûóŒɵŁĪŊąÚŵɵþąɵƊňÚɵƠÚŵĪÛƠąŁɵŊŒŵňÚŁ 5G�:�`�0�Ż�Ƃ���GPV Q�;� �C���D:�`�0�C��DŻ��D�Ƃ��� ªÚöąŁÚɵþÚɵ%ĪŻƄŵĪöƊĪûóŒɵpŒŵňÚŁ $�HFC�FC�0������¦�VCDGNCFC��QW�UGLC��GZKUVG�WOC�VCDGNC�SWG� EQPV¦O�C�CRTQZKOC¤ Q�FC�HFC�RCTC�FKHGTGPVGU�SWCPVKU��\�� ªÚöąŁÚɵþÚɵ%ĪŻƄŵĪöƊĪûóŒɵpŒŵňÚŁ ªÚöąŁÚɵþÚɵ%ĪŻƄŵĪöƊĪûóŒɵpŒŵňÚŁɵɛ�ÚþŵóŒɜ ªÚöąŁÚɵþÚɵ%ĪŻƄŵĪöƊĪûóŒɵpŒŵňÚŁɵɛ�ÚþŵóŒɜ 2�<ȡ������ 2CTVG� KPVGKTC�G� RTKOGKTC� FGEKOCN 5GIWPFC�FGEKOCN °ŻÚŊþŒɵƊňɵŻŒĜƄơÚŵą 3WCPFQ�XCOQU�WUCT�WO�UQHVYCTG�FGXGOQU�DWUECT�EQOQ�TGURQUVC�Q� SWCPVKN��SWCPFQ�SWGTGOQU�UCDGT�\��G�EQOQ�VGT�TGURQUVC�C� RTQDCDKNKFCFG��SWCPFQ�SWGTGOQU�UCDGT�2�<�ȡ�\�� 0 Q�RTGEKUCOQU�RCFTQPK\CT���DCUVD�UCDGTOQU�UG�Q�UQHVYCTG�RGFG� EQOQ�KPHQTOC¤ Q�Q�FGUXKQ�RCFT Q��C�XCTK�PEKC�QW�C�RTGEKU Q�FC� FKUVTKDWK¤ Q�PQTOCN��G�KPHQTOCT�GUVC�OGFKFC�LWPVQ�EQO�C�O¦FKC� � .ƦąňűŁŒ &CNEWNCT��2�:�ȡ�Z�� �R��UGPFQ�:�`�0�Ż�Ƃ�� pŒɵ�ɍɵ R� �RPQTO�Z��Ż��Ƃ� Z� �SPQTO�R��Ż��Ƃ� pŒɵ.ƦøąŁɍ R� �'Ͳ56�014/�0�Z��Ż��Ƃ��8(4'$'(Ͳ41� Z� �Ͳ08�014/�0�R��Ż��Ƃ� � .ƦąňűŁŒ 1�VGORQ�PGEGUU�TKQ�RCTC�RTQFW\KT�WO�NQVG�FG�KVGPU�VGO�FKUVTKDWK¤ Q� PQTOCN�EQO�O¦FKC�����OKPWVQU�G�FGUXKQ�RCFT Q����OKPWVQU� �C��5QTVGCPFQ�UG�WO�NQVG�RTQFW\KFQ��SWCN�C�RTQDCDKNKFCFG�FG�SWG� VGORQ�FG�RTQFW¤ Q�UGLC�KPHGTKQT�C�����OKPWVQU" �D��3WCN�Q�VGORQ�EQTTGURQPFGPVG���RTQFW¤ Q�FG�����FQU�KVGPU" �E��3WCN�Q�KPVGTXCNQ�FG�VGORQ�EGPVTCN�EQTTGURQPFGPVG���RTQFW¤ Q�FG� ����FQU�KVGPU"� ¡ŒŁƊûóŒ JuCobre ¡ŒŁƊûóŒ JuCobre JuCobre ¡ŒŁƊûóŒ JuCobre JuCobre JuCobre JuCobre JuCobre �ɵ.¡��f�ɵ¡RFn� 7VKNK\CFC�RCTC�OGFKT�Q�PªXGN�FG�SWCNKFCFG�FG�WO� RTQEGUUQ�FG�RTQFW¤ Q��3WCPVQ�OCKQT�Q�P·OGTQ� FG�UKIOCU��Ƃ���OGNJQT� �ɵ.¡��f�ɵ¡RFn� ွ :�TGRTGUGPVC�WOC�ECTCEVGTªUVKEC�FG�WO�KVGO��UGPFQ� SWG�:�`�0�Ż�Ƃ����UGPFQ�Ż�Q�XCNQT�PQOKPCN� ွ .KOKVGU�FG�GURGEKȤEC¤ Q��.Ͳ(� �Ż����Ƃ�G�.5(� �Ż����Ƃ�� (PV Q�� ွ ွ &QTTGURQPFG��GO�O¦FKC��C�EGTEC�FG�FQKU�KVGPU�SWG� P Q�CVGPFGO��U�GURGEKȤEC¤²GU�C�ECFC�DKNJ Q�FG� KVGPU�RTQFW\KFQU� � ����D�FDGD�ELOKmR �ɵ.¡��f�ɵ¡RFn� ွ 1�RTQEGUUQ�UQHTG�WOC�CNVGTC¤ Q� ွ $�O¦FKC�RCTC�C�UGT�Ż$ �Ż������Ƃ��QW�UGLC��C�PQXC� RTQFW¤ Q�UGIWG�:�`�0�Ż$�Ƃ ����(PV Q ွ ွ &QTTGURQPFG��GO�O¦FKC��C�EGTEC�FG�����KVGPU�SWG� P Q�CVGPFGO��U�GURGEKȤEC¤²GU�C�ECFC�OKNJ Q�FG� KVGPU�RTQFW\KFQU� � �����D�FDGD�PLOKmR �ɵ.¡��f�ɵ¡RFn� 0ªXGN /¦FKC�FG�FGHGKVQU�RQT�OKNJ Q �Ƃ ������ �Ƃ ����� �Ƃ ���� �Ƃ ��� �Ƃ ��� �ɵ.¡��f�ɵ¡RFn� �Ƃ �Ƃ 5GVG�JQTCU�FG�HCNVC�FG�GPGTIKC� RQT�O§U 7OC�JQTC�FG�HCNVC�FG�GPGTIKC�C� ECFC����CPQU ����EKTWTIKCU�KPEQTTGVCU�RQT� UGOCPC������UGOCPC� ����EKTWTIKCU�KPEQTTGVCU�C�ECFC� ��OGUGU ���OKPWVQU�FG�HQTPGEKOGPVQ� FG��IWC�P Q�RQV�XGN�RQT�FKC 7O�OKPWVQ�FG�HQTPGEKOGPVQ� FG��IWC�P Q�RQV�XGN�C�ECFC� UGVG�OGUGU� � � )RQWH��.HHQH��6����������5HOLDELOLW\�5HYLHZ�����S����� 5G�:�¦�WOC�X�C��EQO�FKUVTKDWK¤ Q�DKPQOKCN��%KP�R�P���FG� O¦FKC�(�:�� �PR�G�XCTK�PEKC�8�:�� �PR���R���GPV Q�RCTC�P� UWȤEKGPVGOGPVG�ITCPFG��P�ĺȝ��VGOQU�SWG� ɵ���xÌRn�"�xɵ%�ɵ�RpxnR�fɵ�.f�ɵpx�n�f �°�fɵ�ɵÆ�pª�F.nɒ 7UCPFQ�C�CRTQZKOC¤ Q�RGNC�PQTOCN�VGOQU )QPVG��9CNRQNG��4QPCNF�(��2TQDCDKNKFCFG� �(UVCVªUVKEC�RCTC�(PIGPJCTKC�G�&K§PEKCU��2GCTUQP�2TGPVKEG�+CNN�������� $241:Ͳ/$��1�014/$.�(�241%$%Ͳ.Ͳ'$'(5�%Ͳ01/Ͳ$Ͳ5�8(4'$'(Ͳ4$5 )QPVG��9CNRQNG��4QPCNF�(��2TQDCDKNKFCFG� �(UVCVªUVKEC�RCTC�(PIGPJCTKC�G�&K§PEKCU��2GCTUQP�2TGPVKEG�+CNN�������� $241:Ͳ/$��1�014/$.�(�241%$%Ͳ.Ͳ'$'(5�%Ͳ01/Ͳ$Ͳ5�8(4'$'(Ͳ4$5 &QORCTC¤ Q�RCTC�R� ���� P � P �� P �� &QORCTC¤ Q�RCTC�R� ���� P �� P �� P �� .ƦąňűŁŒ 1�4+�FG�WOC�GORTGUC�TGEGDGW�����EWTTªEWNQU�FG�ECPFKFCVQU��$� RTQDCDKNKFCFG�FG�WO�ECPFKFCVQ�RTGGPEJGT�QU�TGSWKUKVQU�RCTC�C�XCIC�¦� FG�������5G�GZKUVGO����XCICU�PC�GORTGUC��SWCN�C�RTQDCDKNKFCFG�FG� VQFCU�CU�XCICU�UGTGO�RTGGPEJKFCU" ¡ŒŁƊûóŒ JuCobre JuCobre JuCobre Ȼɋɂ Æ��R�Æ.R¡ɵ �f.�ªy�R�¡ �R%Rn.p¡Rxp�R¡ ÆÚŵĪÛƠąĪŻɵÚŁąÚƄœŵĪÚŻɵöĪþňąŊŻĪŒŊÚĪŻɵɛŒƊɵňƊŁƄĪþĪňąŊŻĪŒŊÚĪŻɜ %R¡ª�R�°R"�xɵ%.ɵ��x���RfR%�%.ɵ�xpa°pª� 5G��:�;��¦�WO�XGVQT�CNGCV°TKQ�EQO�RQUUªXGKU�XCNQTGU�PQ��������������������� ������������������������WOC�HWP¤ Q�H�Z�[��¦�WOC�HWP¤ Q�FG� RTQDCDKNKFCFG�EQPLWPVC�UG� ÌɍɵŊƋňąŵŒɵþąɵňŒŵÚþŒŵąŻ ÍɍɵŊƋňąŵŒɵþąɵƄąŁąƠĪŻŒŵąŻ ����������������������������������������������������������������������������������������������������������I�[�\� [ \ � � � � ���� � � � ���� ���� ���� � ���� ���� ���� � � ���� ���� )WP¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC JuCobre $�HWP¤ Q�H�Z�[��¦�WOC�HWP¤ Q�FGPUKFCFG�EQPLWPVC�FCU�XCTK�XGKU� CNGCV°TKCU�EQPVªPWCU�:�G�;�UG� D°p"�xɵ%.p¡R%�%.ɵ�xpa°pª� )WP¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC PQTOCN�DKXCTKCFC� .ƦąňűŁŒ &QPUKFGTG�CU�KPVGPUKFCFGU�GN¦VTKECU�FG�FWCU�EQORQPGPVGU�FG�WO�UKUVGOC� GNGVT±PKEQ��:�G�;��SWG�U Q�X�C��$�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG� EQPLWPVC�FG�:�G�;�¦�FCFC�RQT 1DVGPJC�C�RTQDCDKNKFCFG�FG�CODCU�CU�XCTK�XGKU�GUVCTGO�FGPVTQ�FCU� GURGEKȤEC¤²GU��QW�UGLC��GPVTG�����G����� JuCobre JuCobre JuCobre %R¡ª�R�°R"�.¡ɵn��FRp�R¡ 5G�:�G�;�U Q�FKUETGVCU�CU�HWP¤²GU�FG�RTQDCDKNKFCFG�OCTIKPCKU� FG�:�G�FG�;�U Q�TGURGEVKXCOGPVG ������������� � UG�:�G�;�U Q�EQPVªPWCU��CU�HWP¤²GU�FGPUKFCFGU�OCTIKPCKU�U Q ÌɍɵŊƋňąŵŒɵþąɵňŒŵÚþŒŵąŻ ÍɍɵŊƋňąŵŒɵþąɵƄąŁąƠĪŻŒŵąŻ ���������������������������������������������������������������������������������������������������������� I�[�\� [ \ � � � K�\� � ����� � ���� � ���� ���� ���� ���� � ���� ���� ���� ���� � � ���� ���� ���� J�[� ���� ���� ���� � )WP¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC�G�OCTIKPCKU )WP¤²GU�FG�RTQDCDKNKFCFGU�OCTIKPCKU�FG�:�G� ;��I�Z��G�J�[��TGURGEVKXCOGPVG� .ƦąňűŁŒ &QPUKFGTG�CU�KPVGPUKFCFGU�GN¦VTKECU�FG�FWCU�EQORQPGPVGU�FG�WO�UKUVGOC� GNGVT±PKEQ��:�G�;��SWG�U Q�X�C��$�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG� EQPLWPVC�FG�:�G�;�¦�FCFC�RQT 1DVGPJC�CU�HWP¤²GU�FGPUKFCFG�FG�RTQDCDKNKFCFG�OCTIKPCKU�FG�:�G�FG�;�� 3WCN�C�RTQDCDKNKFCFG�FG�:�GUVCT�FGPVTQ�FCU�GURGEKȤEC¤²GU" JuCobre JuCobre JuCobre $�HWP¤ Q�FG�RTQDCDKNKFCFG�EQPFKEKQPCN�QW�C�HWP¤ Q�FGPUKFCFG� EQPFKEKQPCN�FC�XCTK�XGN�CNGCV°TKC�;�FCFQ�: Z�¦ %R¡ª�R�°R"�xɵ�xp%R�Rxp�f $PCNQICOGPVG��C�HWP¤ Q�FG�RTQDCDKNKFCFG�EQPFKEKQPCN�QW�C� HWP¤ Q�FGPUKFCFG�EQPFKEKQPCN�FC�XCTK�XGN�CNGCV°TKC��:�FCFQ�; [�¦ ÌɍɵŊƋňąŵŒɵþąɵňŒŵÚþŒŵąŻ ÍɍɵŊƋňąŵŒɵþąɵƄąŁąƠĪŻŒŵąŻ )WP¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC�G�OCTIKPCKU�� .ƦąňűŁŒ 3WCN�C�HWP¤ Q�RTQDCDKNKFCFG�EQPFKEKQPCN�FG�:�FCFQ�;"� I�[�\� [ \ � � � K�\� � ���� � � ���� � ���� ���� ���� ���� � ���� ���� ���� ���� � � ���� ���� ���� J�[� ���� ���� ���� � I�[_\� [ \ � � � � � � � )WP¤ Q�FG�RTQDCDKNKFCFG�EQPFKEKQPCN� FG�:�FCFQ�; JuCobre JuCobre JuCobre .ƦąňűŁŒ &QPUKFGTG�CU�KPVGPUKFCFGU�GN¦VTKECU�FG�FWCU�EQORQPGPVGU�FG�WO�UKUVGOC� GNGVT±PKEQ��:�G�;��SWG�U Q�X�C��$�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG� EQPLWPVC�FG�:�G�;�¦�FCFC�RQT 3WCN�C�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG�EQPFKEKQPCN�FG�:�FCFQ�;" JuCobre Rp%.�.p%2p�R� 'WCU�X�C��:�G�;�U Q�KPFGRGPFGPVGU�UG��G�UQOGPVG��UG ������������� � QW �.¡°fª�%x 5G�:�G�;�U Q�KPFGRGPFGPVGU�GPV Q� ������������� � 0QVC����RQUUªXGN�WUCT�GUVG�TGUWNVCFQ�EQOQ�FGȤPK¤ Q�G�HQWmR�D� GHILQLomR�DSUHVHQWDGD�DQWHULRUPHQWH�SDVVD�D�VHU�D�FRQVHTXrQFLD� :�G�;�U Q�KPFGRGPFGPVGU" ÌɍɵŊƋňąŵŒɵþąɵňŒŵÚþŒŵąŻ ÍɍɵŊƋňąŵŒɵþąɵƄąŁąƠĪŻŒŵąŻ ���������������������������������������������������������������������������������������������������������� )WP¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC .ƦąňűŁŒ I�[�\� [ \ � � � K�\� � ���� � � ���� � ���� ���� ���� ���� � ���� ���� ���� ���� � � ���� ���� ���� J�[� ���� ���� ���� � JuCobre JuCobre .ƦąňűŁŒ &QPUKFGTG�CU�KPVGPUKFCFGU�GN¦VTKECU�FG�FWCU�EQORQPGPVGU�FG�WO�UKUVGOC� GNGVT±PKEQ��:�G�;��SWG�U Q�X�C��$�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG� EQPLWPVC�FG�:�G�;�¦�FCFC�RQT :�G�;�U Q�KPFGRGPFGPVGU" JuCobre JuCobre JuCobre Æ�fx�ɵ.¡�.��%xɵ%.ɵĞɛÌɌÍɜ 5GLCO��:�G�;�X�C��EQO�FKUVTKDWK¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC� H�Z�[����$�O¦FKC�QW�XCNQT�GURGTCFQ�FG�I�:��;��¦��UG�:�G�;�HQTGO� FKUETGVCU ������������� � G�UG�:�G�;�HQTGO�EQPVªPWCU�¦� 3WCN�Q�XCNQT�GURGTCFQ�FG�;�:"ÌɍɵŊƋňąŵŒɵþąɵňŒŵÚþŒŵąŻ ÍɍɵŊƋňąŵŒɵþąɵƄąŁąƠĪŻŒŵąŻ ���������������������������������������������������������������������������������������������������������� )WP¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC .ƦąňűŁŒ I�[�\� [ \ � � � K�\� � ���� � � ���� � ���� ���� ���� ���� � ���� ���� ���� ���� � � ���� ���� ���� J�[� ���� ���� ���� � JuCobre JuCobre .ƦąňűŁŒ &QPUKFGTG�CU�KPVGPUKFCFGU�GN¦VTKECU�FG�FWCU�EQORQPGPVGU�FG�WO�UKUVGOC� GNGVT±PKEQ��:�G�;��SWG�U Q�X�C��$�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG� EQPLWPVC�FG�:�G�;�¦�FCFC�RQT 3WCN�Q�XCNQT�GURGTCFQ�FG�:�;" JuCobre �xÆ��R p�R� 5GLCO��:�G�;�X�C��EQO�FKUVTKDWK¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC� H�Z�[����$�EQXCTK�PEKC�FG�:�G�;�¦ ������������� � G�RQFG�UGT�GUETKVC�EQOQ 3WCN�C�EQXCTK�PEKC�FG��:�;�" ÌɍɵŊƋňąŵŒɵþąɵňŒŵÚþŒŵąŻ ÍɍɵŊƋňąŵŒɵþąɵƄąŁąƠĪŻŒŵąŻ )WP¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC�G�OCTIKPCKU .ƦąňűŁŒ I�[�\� [ \ � � � K�\� � ���� � � ���� � ���� ���� ���� ���� � ���� ���� ���� ���� � � ���� ���� ���� J�[� ���� ���� ���� � JuCobre JuCobre JuCobre .ƦąňűŁŒ &QPUKFGTG�CU�KPVGPUKFCFGU�GN¦VTKECU�FG�FWCU�EQORQPGPVGU�FG�WO�UKUVGOC� GNGVT±PKEQ��:�G�;��SWG�U Q�X�C��$�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG� EQPLWPVC�FG�:�G�;�¦�FCFC�RQT 3WCN�C�EQXCTK�PEKC�FG��:�;�" JuCobre JuCobre JuCobre JuCobre ª.x�.n� 5G��:�G�;�U Q�X�C��KPFGRGPFGPVGU�GPV Q ������������� � 5G�:�G�;�U Q�X�C��KPFGRGPFGPVGU�GPV Q �x�xf��Rx %ąňŒŊŻƄŵÚûóŒ JuCobre JuCobre JuCobre JuCobre JuCobre JuCobre JuCobre JuCobre JuCobre �.�F°pª�ɍɵ¡ąɵ�ŒƠɛÌɌÍɜɵʕɵȹɵąŊƄóŒɵÌɵąɵÍɵŻóŒɵĪŊþąűąŊþąŊƄąŻɒ 8COQU�XGT�WO�GZGORNQ�RCTC�TGURQPFGT� I�[�\� [ \ � � � K�\� � ���� ���� ���� ���� � ���� ���� ���� ���� � ���� ���� ���� ���� J�[� ���� ���� ���� � JuCobre JuCobre JuCobre JuCobre JuCobre JuCobre :�G�;�U Q�KPFGRGPFGPVGU"ÌɍɵŊƋňąŵŒɵþąɵňŒŵÚþŒŵąŻ ÍɍɵŊƋňąŵŒɵþąɵƄąŁąƠĪŻŒŵąŻ )WP¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC�G�OCTIKPCKU .ƦąňűŁŒ I�[�\� [ \ � � � K�\� � ���� � � ���� � ���� ���� ���� ���� � ���� ���� ���� ���� � � ���� ���� ���� J�[� ���� ���� ���� � JuCobre JuCobre n�ª�RÖɵ%.ɵÆ��R p�R�ɵ.ɵ�xÆ��R p�R� $�OCVTK\�FG�XCTK�PEKC�G�EQXCTK�PEKC�FG�FWCU�X�C��:�G�;�¦�FCFC� RQT������������� � &QOQ�&QX�:�;�� �&QX�;�:��RQFGOQU�GUETGXGT $�OCVTK\�FG�XCTK�PEKC�G�EQXCTK�PEKC� FG�:�G�;�¦�FCFC�RQTÌɍɵŊƋňąŵŒɵþąɵňŒŵÚþŒŵąŻÍɍɵŊƋňąŵŒɵþąɵƄąŁąƠĪŻŒŵąŻ )WP¤ Q�FG�RTQDCDKNKFCFG�EQPLWPVC�G�OCTIKPCKU .ƦąňűŁŒ I�[�\� [ \ � � � K�\� � ���� � � ���� � ���� ���� ���� ���� � ���� ���� ���� ���� � � ���� ���� ���� J�[� ���� ���� ���� � JuCobre JuCobre .ƦąňűŁŒ &QPUKFGTG�CU�KPVGPUKFCFGU�GN¦VTKECU�FG�FWCU�EQORQPGPVGU�FG�WO�UKUVGOC� GNGVT±PKEQ��:�G�;��SWG�U Q�X�C��$�HWP¤ Q�FGPUKFCFG�FG�RTQDCDKNKFCFG� EQPLWPVC�FG�:�G�;�¦�FCFC�RQT $�OCVTK\�FG�XCTK�PEKC�EQXCTK�PEKC�FG�:�G�;�¦ JuCobre JuCobre 5GLCO�:�G�;�X�C��GPV Q�C�EQTTGNC¤ Q�RQRWNCEKQPCN�GPVTG�:�G�;�¦� FCFC�RQT �x��.f�"�x �����ª.�T¡ªR��¡ɵ%�ɵ�x��.f�"�x ွ ��WOC�OGFKFC�CFOGPUKQPCN� ွ 2GTVGPEG�CQ�KPVGTXCNQ�=����?� ွ 5G�KIWCN�C����KPFKEC�WOC�TGNC¤ Q�NKPGCT�RGTHGKVC�G�FGETGUEGPVG� ွ 5G�KIWCN�C���KPFKEC�WOC�TGNC¤ Q�NKPGCT�RGTHGKVC�G�ETGUEGPVG� ွ 5G�CU�X�C��U Q�KPFGRGPFGPVGU�UWC�EQTTGNC¤ Q�¦�\GTQ�� ွ 5G�¦�\GTQ��PCFC�RQFGOQU�CȤTOCT�SWCPVQ�C�FGRGPF§PEKC�FCU�X�C� ွ &7Ͳ'$'1��0 Q�EQPHWPFKT�EQO�C�EQTTGNC¤ Q�COQUVTCN�EQPJGEKFC�EQOQ� EQGȤEKGPVG�FG�EQTTGNC¤ Q�FG�2GCTUQP� .ƦąňűŁŒ 5GLCO�:�WOC�X�C��G�;� ��:������1DVGPJC�C�EQTTGNC¤ Q�FG��:�;�� JuCobre JuCobre JuCobre �xn�Rp�"�xɵfRp.��ɵ%.ɵÆɋ�ɋɵpx�n�R¡ɵ Rp%.�.p%.pª.¡ 5GLCO�:�G�;�FWCU�X�C��ͲPFGRGPFGPVGU�VCKU�SWG� �����������������������������������G��������������������������������������(PV Q RCTC�C�G�D�EQPUVCPVGU� GO�SWG� 5GLCO��������������������������������������VCKU�SWG�������������� ���(PV Q ��¡xɵF.��f ��¡xɵ���ªR�°f�� &QPKUGTG�SWG���������������������������������������������������������������������������G ������������������������������������� 2GNQ�TGUWNVCFQ�CPVGTKQT $UUKO JuCobre JuCobre 3. Planejamento estatístico 3.1 CONCEITOS BÁSICOS Arte de torturar os dados até obter os resultados esperados! O que é estatística? A estatística é uma ciência que se preocupa com a coleta, organização, simplificação, análise e interpretação dos dados, assim como tirar conclusões sobre as características das fontes de onde estes foram retirados, para melhor compreender as situações. Conjunto de dados Um conjunto de dados estatísticos consiste de uma ou mais medidas, escores ou valores observados (coletados) de certo número de indivíduos, animais, objetos, ensaios, experimentos, etc. Variável: Variável é a característica de interesse que é medida em cada elemento da amostra ou população, é aquilo que se deseja observar para tirar algumas conclusões. Como o nome diz, seus valores variam de elemento para elemento. Tipos de variáveis VARIÁVEL Qualitativa Quantitativa Nominal Ordinal Discreta Contínua tem como característica categorias ou classes. Variável qualitativa: Nominal: Apenas identifica um atributo à unidade observacional sem qualquer outra propriedade. Ex: região de procedência, cor dos olhos. Ordinal: Identifica um atributo que estabelece uma estrutura de ordem nas unidades de observação. Ex: nível de escolaridade, classe social. pode ser medida em uma escala quantitativa, ou seja, apresenta valores numéricos que fazem sentido. Variável quantitativa: Discreta: Pode assumir um conjunto finito ou enumerável de valores. Ex: número de filhos, quantidade de televisoresna residência. Contínua: Pode assumir infinitos valores num intervalo de números reais. Ex: peso, altura. População e amostra ◸ Problema típico de estatística aplicada: conhecer certas características dos elementos de uma população, com base nos dados de uma amostra. ◸ Chamamos de população o conjunto de elementos que formam o universo de nosso estudo e que são passíveis de serem observados. Uma parte destes elementos é dita uma amostra. ◸ N: tamanho da população. ◸ n: tamanho da amostra. ◸ Censo: coleta de dados realizada com toda a população. ◸ Amostragem: coleta de dados realizada com uma parte da população. Tipos de levantamento ◸ Estudos Retrospectivos: os dados são obtidos a partir de uma coleta de informações históricas relacionadas ao problema investigado. ◸ Estudos Observacionais: as características da população são observadas ou medidas sem que se faça manipulação ◸ Experimentos Planejados: as características da população são observadas ou medidas por pesquisadores que manipulam os dados para avaliar o efeito de diferentes tratamentos. Amostragem Nas pesquisas científicas, em que se deseja conhecer algumas características da população, essas características chamamos de parâmetros. Podemos observar apenas uma amostra de seus elementos e, com base nos resultados da amostra, obter valores aproximados, ou estimativas, para os parâmetros de interesse. Esse tipo de pesquisa é usualmente chamada de levantamento por amostragem. O uso apropriado dos dados de uma amostra para se ter conhecimento sobre parâmetros da população onde foi extraída a amostra é chamado de inferência. Exemplos: proporção de pessoas contaminadas por uma doença, tempo médio de serviço de funcionários de uma empresa. Plano de Amostragem Para elaborar um plano de amostragem, devemos ter bem definidos: ◸ os objetivos da pesquisa, ◸ a população a ser amostrada, ◸ os parâmetros que precisamos estimar para atingir os objetivos da pesquisa, ◸ a unidade de amostragem, ◸ a forma de seleção dos elementos da população e ◸ o tamanho da amostra. Unidade de amostragem pode ser os próprios elementos da população ou outras unidades que sejam mais fáceis de serem selecionadas, mas que tenham correspondência com os elementos da população. Características importantes para o sucesso da pesquisa por amostragem ◸ Representatividade: a amostra precisa conter todas as subdivisões da população, ◸ Suficiência: quantidade tal que permita caracterizar a variabilidade, mesmo dentro das subdivisões da população e ◸ Aleatoriedade: necessária para a generalização estatística. Tipos de amostragem Amostragem Aleatória A amostragem probabilística ou aleatória reúne todas as técnicas que usam mecanismos aleatórios de seleção dos elementos de uma amostra distribuindo a cada um deles uma probabilidade conhecida a priori de pertencer a amostra. Aqui podemos fazer inferência a respeito da população. Amostragem Não Aleatória Na amostragem não probabilística ou não aleatória os elementos da população são selecionados de forma não aleatória, assim a probabilidade de seleção não é conhecida. Aqui não é possível fazer inferência a respeito da população. Tipos de amostragem aleatória: Amostragem aleatória simples (AAS) Amostragem sistemática Amostragem estratificada Amostragem por conglomerados Metodologia Científica Etapas da metodologia científica: Conjunto de métodos e técnicas para analisar dados e tomar decisões com base na incerteza. Definição do problema Planejamento Coleta dos dadosApuração dos dados Análise e interpretação dos dados 3.2 Organização de dados em planilhas Fonte: FLAI Inteligência Artificial https://www.instagram.com/p/CErdQJJAAbj/ Exemplo de um conjunto de dados Como organizar dados em planilhas ◸ Uma variável por coluna, uma unidade amostral por linha. ◸ Cabeçalho com nomes informativos. ◹ Evite utilizar letras maiúsculas, caracteres especiais (acentos, barras, vírgulas). ◹ Evite espaços (use, por exemplo, underline ou hífen). ◹ Caso opte por usar siglas, adicione uma aba na planilha explicando o que é cada coluna (metadados). ◸ A aba dos metadados pode conter também as unidades de medida adotadas, informações do delineamento experimental, datas de atividades e todas as informações relevantes daqueles dados. ◸ ID geralmente é uma coluna inserida na planilha e representa a identificação da unidade amostral. Essa identificação não é utilizada para analisar os dados, mas é útil para sabermos a qual das unidades amostrais estamos nos referindo. Exemplo Fonte: SOBREVIVENDO NA CIÊNCIA https://marcoarmello.wordpress.com/2018/02/01/dados/ Usando as dicas: 3.3 Elementos de inferência Problemas de inferência Inferir significa fazer afirmações sobre algo desconhecido. A inferência estatística tem como objetivo fazer afirmações sobre uma característica de uma população a partir do conhecimento de dados de uma parte desta população (isto é, uma amostra de n observações). A população é representada por uma distribuição de probabilidade com parâmetro(s) cujo(s) valor(es) é (são) desconhecido(s). Fazemos inferências sobre o(s) parâmetro(s). População Amostra Inferência Estatística A Inferência estatística, portanto, tem como objetivo estudar generalizações sobre uma população através de evidências fornecidas por uma amostra retirada desta população. A amostra contém os elementos que podem ser observados e é onde as quantidades de interesse podem ser medidas. Definições Parâmetro: característica numérica (desconhecida) da distribuição dos elementos da população. Espaço paramétrico: conjunto de todos os valores possíveis que o parâmetro pode assumir. Estatística: qualquer função dos elementos de uma amostra aleatória, a qual não depende de parâmetros desconhecidos. Estimador: Função da amostra, construída com a finalidade de representar, ou estimar um parâmetro de interesse na população. Estimativa: Valor numérico que um estimador assume. 4. ANÁLISE EXPLORATÓRIA Por quê? Como?Quando? ANÁLISE EXPLORATÓRIA Como? ANÁLISE EXPLORATÓRIA ◸ Medidas descritivas ◹ Medidas de posição ◹ Medidas de dispersão ◸ Gráficos 4.1 TIPOS DE VARIÁVEIS CLASSIFICAÇÃO DE VARIÁVEIS De forma mais geral: quantitativa ou qualitativa. Ou mais especificamente: quantitativa discreta ou contínua, qualitativa nominal ou ordinal. Variável Qualitativa Quantitativa Nominal Ordinal Discreta Contínua Tipo de mída social Grau de uma doença Número de compras Diâmetro de uma peça Variável qualitativa nominal: atributo que não pode ser ordenado naturalmente. Variável qualitativa ordinal: atributo para o qual existe uma ordem. Variável quantitativa discreta: valores assumidos são discretos (conjunto finito de valores ou enumerável). Variável quantitativa contínua: valores assumidos são contínuos (intervalo de valores ou reunião de intervalos). NOTAS ● As variáveis qualitativas são não numéricas mas podem ser representadas por números. ○ Grau de escolaridade: 1 → EF; 2 → EM; 3 → ES; 4 → pós-graduação. ● As variáveis quantitativas são numéricas. POR QUE CLASSIFICAR AS VARIÁVEIS? ● Gráficos adequados. ● Modelos adequados. ○ Modelos para variáveis qualitativas ou quantitativas, discretas ou contínuas. TABELA O que é? É uma forma de apresentar informações que se assemelha a uma matriz, com a particularidade de que uma tabela deve ser autoexplicativa. Para que serve? Facilitar o entendimento do que é apresentado. Como? Colocar título que descreva a tabela. Nomear as colunas e linhas para que as informações sejam claras. Cores e linhas podem ser usadas para cumprir o objetivo. Exemplo Outra escala de cor Figura: Avaliação da intensidade da dor em um período pós-operatório considerando dois métodos de analgesia. TABELA versus GRÁFICO Figura: Avaliação da intensidade da dor em um período pós-operatório considerando dois métodos de analgesia. CONCLUSÃO:Tabela e gráfico podem ser complementares ou um gráfico pode substituir uma tabela. TABELA DE FREQUÊNCIAS O que é? Tabela com pelo menos um dos tipos de frequências. Para que serve? Apresentar as frequências das variáveis em estudo. Como? Calculando as frequências e as dispondo organizadamente em uma tabela. TIPOS DE FREQUÊNCIA Frequência absoluta: quantidade de vezes que um certo valor ou atributo aparece no conjunto de dados. Frequência relativa: proporção de certo valor, faixa de valores ou atributo no conjunto de dados. Frequência acumulada: quando o valor, faixa de valores ou atributo é uma variável quantitativa ou qualitativa ordinal, a frequência acumulada existe é e representa o acúmulo das quantidades de vezes que o valor, faixa de valores ou atributo juntamente com as quantidades dos valores ou atributos antecessores (ou sucessores). Frequência acumulada relativa: é a frequência acumulada em relação ao todo. Tipos de frequência: Notação É comum ser usada a seguinte notação ◸ Frequência absoluta: fj ◸ Frequência relativa: frj . ◸ Frequência acumulada: Fj . ◸ Frequência acumulada relativa: Frj . Nota: j indica o valor, faixa de valores ou atributo. Exemplo Dados: Resposta sobre hábitos alimentares (vegano, vegetariano, onívoro, outros) Exemplo: Tabela de frequências Tabela: Frequências absoluta e relativa dos hábitos alimentares de uma amostra de frequentadores da cantina. Pergunta: Faz sentido obtermos as frequências acumuladas? Resposta: Não, pois a variável hábito alimentar é qualitativa nominal. Qualitativa nominal Exemplo: Tabela de frequências Tabela: Frequências do número de refeições de uma amostra de frequentadores da cantina. Quantitativa discreta Exemplo: Tabela de frequências Massa corporal da amostra de frequentadores da cantina (kg) Quantitativa contínua É necessária a construção de classes para obter a tabela de frequências de uma variável contínua ou de uma variável discreta que tenha muitos diferentes valores observados. TABELA DE FREQUÊNCIA POR CLASSES Classes: faixa de valores. Nomenclatura: ◸ Número de classes: k ◸ Limite inferior da classe j: Ij ◸ Limite superior da classe j: Lj ◸ Amplitude dos dados: A = máximo - mínimo = x(n) - x(1) ◸ Ponto médio da classe j: Tabela de frequência por classes Número de classes Conveniência: Escolher um número, geralmente, entre 5 e 20 que seja conveniente. Regra do quadrado: Notas ◸ Ao invés de escolher o número de classes conveniente, pode-se escolher as classes por conveniência. ◸ Para análise da distribuição da variável, a escolha por conveniência pode não ser adequada. Construção da tabela de frequências por classes ◸ Ordenação dos dados: x(1), x(2), …, x(n). ◸ Amplitude dos dados: A = x(n) - x(1) ◸ Calcular o número de classes (arredondar conforme a conveniência) ◸ Calcular a amplitude das classes: Aj (arredondar conforme a conveniência) ◸ Calcular os limites inferiores e superiores das classes: Ij e Lj, j = 1, …, k. ◸ Verificar se é necessário aumentar Lk ou acrescentar uma classe. Também podemos arredondar I1. ◸ Contagem das observações em cada classe. Exemplo (continuação) Dados ordenados: Massa corporal da amostra de frequentadores da cantina (kg) Tamanho da amostra: n = 80 Regra do quadrado: Escolhemos: k = 8 Amplitude: x(80) - x(1) = 56,9 Amplitude de cada classe: Aj = A/k ≈ 7,11 Escolhemos: Aj = 7 Exemplo (continuação) Observações ◸ a ⊢ b equivale a [a,b) ◸ a ⊣ b equivale a (a,b] ◸ a ⊢⊣ b equivale a [a,b] ◸ O ponto médio de cada classe, xj * será útil para o cálculo de algumas medidas. 4.2 ANÁLISE DESCRITIVA DE VARIÁVEIS QUALITATIVAS GRÁFICO O que é? Representação visual de dados. Para que serve? Facilitar o entendimento do que é apresentado (e também para analisar os resultados). Como? Existem vários tipos de gráficos, e cada um é adequado a cada tipo de variável e situação. ELEMENTOS DE UM GRÁFICO ◸ Gráfico de barras (bar plot) ◸ Gráfico de Pareto ◸ Gráfico de setores (pizza - pie chart) TIPOS DE GRÁFICOS VARIÁVEIS QUALITATIVAS NOTA Muitas vezes mais de um gráfico é teoricamente adequado, mas apenas um deles é mais adequado na prática. É formado por retângulos na vertical (ou horizontal), cujas alturas (ou bases) são proporcionais às frequências dos atributos GRÁFICO DE BARRAS (OU COLUNAS) NOTAS ◸ As frequências usadas podem ser a absoluta ou a relativa (em porcentagem ou em decimal). ◸ A largura (ou altura) da barra deve ser a conveniente. ◸ Podemos usar barras agrupadas, barras lado a lado, barras com um eixo em comum (espelho), barras empilhadas. ◸ Não é possível representar por um gráfico de barras uma variável quantitativa contínua. Se estiver em classes, pode ser representada por um outro tipo de gráfico. Gráfico de barras para variável qualitativa Figura: Meio pelo o qual o consumidor teve conhecimento ao produto. Gráfico de barras com a frequência absoluta e barras decrescentes Figura: Meio pelo o qual o consumidor teve conhecimento ao produto. Gráfico de barras horizontais com a frequência relativa (%) Figura: Meio pelo o qual o consumidor teve conhecimento ao produto. Gráfico de barras empilhadas Figura: Meio pelo o qual o consumidor teve conhecimento ao produto para diferentes faixas etárias. Gráfico de barras empilhadas na horizontal (proporção) Figura: Números de atendimentos por faixa etária - UPA1 e UPA2. Fonte: NEA por Matheus Toshio Hisatugu. Gráfico de barras espelho Figura: Idade e gênero - 2016 - UPA1, UPA2 e UPA3. Fonte: NEA por Matheus Toshio Hisatugu. Gráfico de barras espelho Figura: Idade e gênero - 2016 - UPA1. Fonte: NEA por Matheus Toshio Hisatugu. Figura: Idade e gênero - 2016 - UPA2. Fonte: NEA por Matheus Toshio Hisatugu. Gráfico de barras horizontais ordenadas por frequência Figura: Motivos - 2016 - UPA1.3 Fonte: NEA por Matheus Toshio Hisatugu. GRÁFICO DE PARETO Gráfico de barras ordenadas de forma decrescente acrescido das frequências relativas acumuladas. NOTAS ◸ Um eixo representa a frequência absoluta dos atributos e o outro eixo representa a frequência relativa, normalmente em porcentagem. ◸ O Gráfico de Pareto ficou famoso pelo Princípio de Pareto: 80% da riqueza de uma população pertencia a 20% da população. ◸ O Princípio de Pareto também é conhecido como Regra do 80/20, Lei dos Poucos Vitais ou Princípio de escassez do fator. ◸ A regra 80/20 mostra-se válida em diversas áreas: consumo, confiabilidade, finanças, etc. Gráfico de Pareto Figura: Meio pelo o qual o consumidor teve conhecimento ao produto. Exemplo Exemplo Exemplo: Gráfico de Pareto Figura: Motivos das reclamações dos clientes de um restaurante. Exemplo Exemplo: Gráfico de Pareto Figura: Gastos mensais de um casal. NOTAS ◸ Quanto mais a curva da frequência acumulada está próxima do extremo superior esquerdo do gráfico, mais representativos são os atributos mais frequentes. ◸ Quanto mais a curva da frequência acumulada está próxima da reta identidade, mais igualmente frequentes são todos os atributos. Gráfico circular sendo os atributos representados por arcos cujos ângulos (centrais) são proporcionais às suas frequências. GRÁFICO DE SETORES Gráfico de setores Figura: Meio pelo o qual o consumidor teve conhecimento ao produto. NOTAS ◸ Em geral, é difícil transformarmos a informação de setor em quantidade. ◸ Há uma grande dificuldade quando queremos comparar dois grupos, ou seja, dois gráficos de setores. ◸ Os atributos de menores frequências ficam pouco visíveis. Gráfico de setores versus gráfico de barras Figura: Meio pelo o qual o consumidor teve conhecimento ao produto. Gráfico de setores versus gráfico de barras Figura: Meio pelo o qual o consumidor teve conhecimento ao produto. Figura: Proporções de atendimentos em 2015 e 2016 por dia da semana. Fonte: Dados do Núcleo de Estatística Aplicada (NEA). Gráfico de setores versus gráficode barras Figura: Proporções de atendimentos em 2015 e 2016 por dia da semana. Fonte: Dados do Núcleo de Estatística Aplicada (NEA). Gráfico de setores versus gráfico de barras Figura: Número de atendimentos - 2015 - Janeiro a março. Fonte: NEA por Matheus Toshio Hisatugu (adaptado). Cuidados com gráficos Figura: Número de atendimentos - 2015 - Janeiro a março. Fonte: NEA por Matheus Toshio Hisatugu (adaptado). Cuidados com gráficos Figura: Número de atendimentos - 2015 - Janeiro a março. Fonte: NEA por Matheus Toshio Hisatugu. Cuidados com gráficos Ƚɋȼ �p�fR¡.ɵ %.¡��RªRÆ�ɵ%.ɵ Æ��R�Æ.R¡ɵ �°�pªRª�ªRÆ�¡ n.%R%�ɵ%.ɵ�x¡R"�x 1�SWG�¦"���C�WOC�HQTOC�FG�TGUWOKT�Q�EQPLWPVQ�FG�FCFQU� EQO�WO�·PKEQ�XCNQT��QW�CNIWPU�XCNQTGU�� 3WCKU�U Q"�/ªPKOQ��O�ZKOQ��O¦FKC�CTKVO¦VKEC��QW�O¦FKC��� O¦FKC�RQPFGTCFC��O¦FKC�CRCTCFC��O¦FKC�IGQO¦VTKEC�� O¦FKC�JCTO±PKEC��OQFC��OGFKCPC�G�UGRCTCVTK\GU��SWCTVKU�� SWCPVKU��FGEKU��GVE�� 5 Q�Q�OGPQT�G�Q�OCKQT�XCNQTGU�FG�WO� EQPLWPVQ�FG�FCFQU��Z���Z���Ȁ��ZP��� TGURGEVKXCOGPVG�� 0QVC¤ Q��Z����G�Z�P�� nTpRnxɵ.ɵn�ÌRnx 'CFQU�DTWVQU��Z���Z���Ȁ��ZP 'CFQU�QTFGPCFQU�Z�����Z�����Ȁ��Z�P� ͲFGKC��$RTGUGPVCT�Q�XCNQT�OCKU�EQOWO�FG�UGT� QDUGTXCFQ� 'GȤPK¤ Q����Q�XCNQT�EQO�OCKQT�HTGSW§PEKC� nx%� pxª�¡ ွ 0GO�UGORTG�GZKUVG� ွ 2QFG�JCXGT�OCKU�FG�WOC�OQFC� ွ 8CTK�XGN�SWCNKVCVKXC�PQOKPCN����C�·PKEC�OGFKFC�FG�RQUK¤ Q�SWG�RQFG�UGT� ECNEWNCFC� ွ 8CTK�XGN�SWCPVKVCVKXC�GO�ENCUUGU��1�XCNQT�FC�OQFC�¦�CRTQZKOCFQ�QW�UG�QDV¦O� CRGPCU�C�ENCUUG�OQFCN� n/%R� ͲFGKC��1DVGT�WO�XCNQT�EWLC��UQOC�FCU� FKHGTGP¤CU�GO�TGNC¤ Q�C�GNG�¦�\GTQ��QW�WO� XCNQT�SWG�¦�Q�EGPVTQ�FG�ITCXKFCFG�FQ� EQPLWPVQ�FG�FCFQU��RQPVQ�FG�GSWKNªDTKQ�� &�NEWNQ��FGRGPFG�FG�EQOQ�QU�FCFQU�U Q� HQTPGEKFQU� ��f�°fxɵ%�ɵn/%R� ွ 'CFQU�DTWVQU ွ M�FKHGTGPVGU�XCNQTGU�G�HTGSW§PEKCU��Z���H����Ȁ��ZM��HM� ��f�°fxɵ%�ɵn/%R� ွ M�FKHGTGPVGU�XCNQTGU�G�HTGSW§PEKCU�TGNCVKXCU��Z���HT����Ȁ��ZM��HTM� ွ M�KPVGTXCNQU�FG�ENCUUGU�EQO�RQPVQU�O¦FKQU�ZL �G�HTGSW§PEKCU��Z ���H����Ȁ��Z M��HM� 0QVC��$�O¦FKC�GO�KPVGTXCNQU�FG�ENCUUG�¦�CRTQZKOCFC��RQKU�J��RGTFC�FG� KPHQTOC¤ Q�SWCPFQ�QU�FCFQU�GUV Q�FGUUC�HQTOC� Rpª.���.ª�"�xɵ%�ɵn/%R� )KIWTC��&QPLWPVQU�FG�FCFQU�EQO�FKHGTGPVGU�EQORQTVCOGPVQU�G�UWCU�O¦FKCU� .ƦąňűŁŒɵɛøŒŊƄĪŊƊÚûóŒɜ �O¦FKC�CRTQZKOCFC� 7UG�QU�FCFQU�DTWVQU�FC� 2CTVG�����RCTC�QDVGT�SWG�C� O¦FKC�COQUVTCN�¦������� ��WOC�OGFKFC�SWG�FKXKFG�Q�EQPLWPVQ�FG�FCFQU� GO�FWCU�RCTVGU�EQO�C�OGUOC�SWCPVKFCFG�FG� QDUGTXC¤²GU�ECFC� n.%R�p� ��f�°fxɵ%�ɵn.%R�p� ွ ွ 0QVC���=R?�FGPQVC�Q�OCKQT�KPVGKTQ�OGPQT�QW�KIWCN�C�R� Rpª.���.ª�"�xɵ%�ɵn.%R�p� )KIWTC��&QPLWPVQU�FG�FCFQU�EQO�FKHGTGPVGU�EQORQTVCOGPVQU�G�UWCU�OGFKCPCU� �xn����"�xɵ%�ɵn/%R�ɵ.ɵ%�ɵn.%R�p� )KIWTC��&QPLWPVQU�FG�FCFQU�EQO�FKHGTGPVGU�EQORQTVCOGPVQU�G�UWCU�O¦FKCU�G�OGFKCPCU� �xn����"�xɵ%�ɵn/%R�ɵ.ɵ%�ɵn.%R�p� )KIWTC��$OQUVTC���G�UWCU�O¦FKC�G�OGFKCPC� �xn����"�xɵ%�ɵn/%R�ɵ.ɵ%�ɵn.%R�p� )KIWTC��$OQUVTC���G�UWCU�O¦FKC�G�OGFKCPC� �xn����"�xɵ%�ɵn/%R�ɵ.ɵ%�ɵn.%R�p� )KIWTC��$OQUVTC���G�UWCU�O¦FKC�G�OGFKCPC� .Ì.n�fx .Ì.n�fx .Ì.n�fx .Ì.n�fx .Ì.n�fx .Ì.n�fx ��f�°fx 'CFQU�QTFGPCFQU��Z�����Z�����Ȁ��Z�P� �°��ªR¡ 4GRCTVGO�Q�EQPLWPVQ�FG�FCFQU�GO�SWCVTQ� RCTVGU��EQO�����FQU�FCFQU�GO�ECFC�WOC� 0QVC¤ Q��3���3��G�3�� .Ì.n�fx 0QVC��3���3��G�3��P Q�U Q�GNGOGPVQU�FQ�EQPLWPVQ�FG�FCFQU��PGUVG�GZGORNQ� ��f�°fx 0QVC���=R?�FGPQVC�Q�OCKQT�KPVGKTQ�OGPQT�QW�KIWCN�C�R� .Ì.n�fx n.%R%�¡ɵ%.ɵ%R¡�.�¡�x 1�SWG�U Q"�5 Q�XCNQTGU�SWG�SWCPVKȤECO�Q�GURCNJCOGPVQ� FQU�XCNQTGU�QDUGTXCFQU� 3WCKU�U Q"�$ORNKVWFG��CORNKVWFG�KPVGTSWCTVKN��FGUXKQ� O¦FKQ��FGUXKQ�OGFKCPQ��XCTK�PEKC��FGUXKQ�RCFT Q�� EQGȤEKGPVG�FG�XCTKC¤ Q��CORNKVWFG�UVWFGPVK\CFC� .Ì.n�fx )KIWTC��/GUOC�SWCPVKFCFG�FG�FCFQU�G�OGUOCU�O¦FKCU��OCU� EQORQTVCOGPVQU�FKHGTGPVGU� �n�fRª°%. ��C�FKHGTGP¤C�GPVTG�Q�OCKQT�G�Q�OGPQT�XCNQTGU� QDUGTXCFQU� $� �Z�P����Z��� pxª�¡ ွ 5°�¦�DCUGCFC�GO�FQKU�XCNQTGU�FQ�EQPLWPVQ�FG�FCFQU� ွ ��DCUVCPVG�UGPUªXGN�C�XCNQTGU�GZVTGOQU� ွ $�Ȣ�� ွ $� ���ᆽ�Z�� �Z�� �Ȁ� �ZP �n�fRª°%.ɵRpª.��°��ªRf ��C�FKHGTGP¤C�GPVTG�Q�VGTEGKTQ�G�Q�RTKOGKTQ�SWCTVKU� FS� �3����3� 0QVC����OCKU�TGUKUVGPVG�C�GZVTGOQU�FQ�SWG�C�CORNKVWFG� %.¡ÆRxɵn/%Rx ��C�O¦FKC�FQ�SWCPVQ�ECFC�QDUGTXC¤ Q�FKUVCPEKC�FC�O¦FKC� 0QVC����OCKU�TGUKUVGPVG�C�GZVTGOQU�FQ�SWG�C�CORNKVWFG� Æ��R p�R� ��C�UQOC�FQU�FGUXKQU�O¦FKQU�CQ�SWCFTCFQ�FKXKFKFC� RQT�P����QW�UGLC��Q�P·OGTQ�FG�QDUGTXC¤²GU�OGPQU��� pxª�¡ ွ $�WPKFCFG�FG�U��¦�C�WPKFCFG�FG�Z�� ွ 0 Q�¦�WOC�OGFKFC�TGUKUVGPVG� ွ +��SWGO�FKXKFC�RQT�P��G�P Q�RQT�P����OCU�GO�ͲPHGT§PEKC�(UVCVªUVKEC��UGT�� OQUVTCFQ�SWG�FKXKFKT�RQT�P����VGO�EGTVC�XCPVCIGO� ွ �5G�QU�FCFQU�P Q�HQTGO�DTWVQU��WO�TCEKQEªPKQ�¦�PGEGUU�TKQ�RCTC�UGW�E�NEWNQ�C� RCTVKT�FC�GZRTGUU Q�CEKOC� ွ /WKVCU�XG\GU�¦�OCKU�H�EKN�ECNEWNCT�WUCPFQ��RTQXG�KUUQ���SWG� %.¡ÆRxɵ��%��x ��C�TCK\�SWCFTCFC�FC�XCTK�PEKC� 0QVC��$�WPKFCFG�FG�U�¦�C�WPKFCFG�FG�Z�G�P Q�¦�WOC� OGFKFC�TGUKUVGPVG� .Ì.n�fx &QPLWPVQ�FG�FCFQU���������������������������������������������������������������������������� P� ��� ��/GFKFCU�FG�FKURGTU Q �x.DR�R.pª.ɵ%.ɵÆ��R�"�x ��WOC�OGFKFC�FG�XCTKCDKNKFCFG�SWG�P Q�VGO�FKOGPU Q�G� UGTXG�RCTC�EQORCTCT�C�XCTKCDKNKFCFG�FG�FWCU�QW�OCKU� XCTK�XGKU�FKHGTGPVGU�GO�GUECNC��QW�EQO�O¦FKCU�OWKVQ� FKHGTGPVGU� pxª�¡ ွ ��KPUV�XGN�UG�C�O¦FKC�HQT�RT°ZKOC�C�\GTQ� ွ �0 Q�¦�WOC�OGFKFC�TGUKUVGPVG� ွ �������������������������������������� .Ì.n�fx )QTCO�OGFKFCU�C�INKEGOKC�GO�LGLWO�G�C�SWCPVKFCFG�FG�JGOQINQDKPC�FG���� RCEKGPVGU�UGIWPFQ�C�VCDGNC� /¦FKC� 'GUXKQ�RCFT Q *NKEGOKC�GO�LGLWO �� ���� 3WCPVKFCFG�FG�JGOQINQDKPC ���� ��� %R�F��n�ɵ%.ɵ�xpªx¡ *T�ȤEQ�GO�SWG�ECFC�QDUGTXC¤ Q�¦�TGRTGUGPVCFC�RQT�WO�RQPVQ� G�UGTXG�RCTC�CPCNKUCT�Q�EQORQTVCOGPVQ�FCU�QDUGTXC¤²GU� &QOQ"�1U�RQPVQU�U Q�EQNQECFQU�CQ�NQPIQ�FQ�GKZQ�JQTK\QPVCN�� PQU�TGURGEVKXQU�XCNQTGU��G�UGPFQ�TGRGVKFQU�U Q�GORKNJCFQU� %R�F��n�ɵ%.ɵ�xpªx¡ )KIWTC��'CFQU�IGTCFQU�RCTC�UCN�TKQU�FG�VTCDCNJCFQTGU�GO�WOC�GORTGUC� 3WCPFQ�QU�FCFQU�U Q�EQPVªPWQU��Q� IT�ȤEQ�¦�RTGEKUQ��RQT¦O�P Q�¦�ENCTQ %R�F��n�ɵ%.ɵ�xpªx¡ )KIWTC��'CFQU�IGTCFQU�RCTC�UCN�TKQU�FG�VTCDCNJCFQTGU�GO�WOC�GORTGUC� 'GUEQPUKFGTCPFQ�WOC�FKHGTGP¤C�FG� CV¦���EGPVCXQU� %R�F��n�ɵ%.ɵ�xpªx¡ )KIWTC��'CFQU�IGTCFQU�RCTC�UCN�TKQU�FG�VTCDCNJCFQTGU�GO�WOC�GORTGUC� 'GUEQPUKFGTC¤ Q�FQU�EGPVCXQU� %R�F��n�ɵ%.ɵ�xpªx¡ )KIWTC��'CFQU�IGTCFQU�RCTC�UCN�TKQU�FG�VTCDCNJCFQTGU�GO�WOC�GORTGUC� 'GUEQPUKFGTC¤ Q�FQU�EGPVCXQU� NR¡ªxF��n� ��HQTOCFQ�RQT�DCTTCU�CFLCEGPVGU�EWLCU�CNVWTCU�U Q� RTQRQTEKQPCKU��U�FGPUKFCFGU�FCU�ENCUUGU�G�CU�NCTIWTCU� U Q�CU�CORNKVWFGU�FCU�ENCUUGU� 0QVC��&QOQ�QU�FCFQU�RTGEKUCO�GUVCT�GO�ENCUUGU�� RTGEKUCO�UGT�EQPVªPWQU��0Q�GPVCPVQ��J��SWGO�FGHGPFC� SWG�WO�JKUVQITCOC�RQFG�UGT�HGKVQ�RCTC�FCFQU�FKUETGVQU� CITWRCFQU�GO�ENCUUGU� NR¡ªxF��n� )KIWTC��+KUVQITCOC�IGTCN� 'GPUKFCFG�QW�FGPUKFCFG�FG�HTGSW§PEKC� �TGC�FQ�JKUVQITCOC� KIWCN�C�� .Ì.n�fx )KIWTC��'CFQU�IGTCFQU�RCTC�UCN�TKQU�FG�VTCDCNJCFQTGU�GO�WOC�GORTGUC� .Ì.n�fx )KIWTC��'CFQU�IGTCFQU�RCTC�UCN�TKQU�FG�VTCDCNJCFQTGU�GO�WOC�GORTGUC� p±n.�xɵ%.ɵ�f�¡¡.¡ ွ ��TGEQOGPFCFQ�SWG�Q� P·OGTQ�FG�ENCUUGU�UKIC�WOC� TGITC�EKGPVKȤECOGPVG� GODCUCFC�EQOQ�C�FQ� SWCFTCFQ�QW�ȤSWG�RT°ZKOQ� C�KUUQ� ွ ��TGEQOGPFCFQ�SWG�CU� ENCUUGU�VGPJCO�C�OGUOC� CORNKVWFG� n.%R%�¡ɵ%.¡��RªRÆ�¡ɵ�ɵ���ªR�ɵ%xɵNR¡ªxF��n� ွ /¦FKC� ွ /GFKCPC��$�ENCUUG�EWLC�HTGSW§PEKC� CEWOWNCFC�WNVTCRCUUC�RGNC�RTKOGKTC� XG\�QU�����¦�C�ENCUUG�SWG�EQPV¦O��Q� GNGOGPVQ�EGPVTCN��$�OGFKCPC�¦�Q� RQPVQ�EGPVTCN�FGUUC�ENCUUG��2QFG� VCOD¦O�UGT�CRTQZKOCFC�RQT� KPVGTRQNC¤ Q� ���� ���� ���� ���� ���� ������������ ����� /GFKCPC� ����� ���� ��� n.%R%�¡ɵ%.¡��RªRÆ�¡ɵ�ɵ���ªR�ɵ%xɵNR¡ªxF��n� ွ /GFKCPC�RQT�KPVGTRQNC¤ Q n.%R%�¡ɵ%.¡��RªRÆ�¡ɵ�ɵ���ªR�ɵ%xɵNR¡ªxF��n� ွ /QFC��7OC�CRTQZKOC¤ Q�GUV�� KNWUVTCFC�PC�ȤIWTC��1WVTC�RQFG�UGT�Q� RQPVQ�O¦FKQ�FC�ENCUUG�OQFCN� ���� ���� ���� ���� ���� �xÌɵ�fxª ��WO�IT�ȤEQ�GO�HQTOC�FG�ECKZC�SWG�WUC�QU�SWCTVKU�G�C� FKUV�PEKC�KPVGTSWCTVKN��WVKNK\CFQ�RCTC�EQPJGEGTOQU�C� FKUVTKDWK¤ Q�FQU�FCFQU��CUUKO�EQOQ�FGVGEVCTOQU� ECPFKFCVQU�C�RQPVQU�CVªRKEQU��QWVNKGTU�� �xÌɵ�fxª )KIWTC��(NGOGPVQU�FG�WO�IT�ȤEQ�FG�ECKZCU� �xÌɵ�fxª �xÌɵ�fxª )KIWTC��(NGOGPVQU�FG�WO�IT�ȤEQ�FG�ECKZCU��xÌɵ�fxª )KIWTC��(NGOGPVQU�FG�WO�IT�ȤEQ�FG�ECKZCU� 8$Ͳ��XCNQT�CFLCEGPVG�KPHGTKQT 8$5��XCNQT�CFLCEGPVG�UWRGTKQT ȽɋȽ �p�fR¡.ɵ %.¡��RªRÆ�ɵ �R%Rn.p¡Rxp�f �°�fRª�ªRÆ�ɵÌɵ�°�fRª�ªRÆ� 3WCPFQ�VGOQU�FWCU�XCTK�XGKU�SWCNKVCVKXCU�G�SWGTGOQU� CPCNKUCT�UG�GUVCU�XCTK�XGKU�U Q�TGNCEKQPCFCU�RQFGOQU� XKUWCNK\��NCU�WUCPFQ�WOC�VCDGNC�FG�EQPVKPI§PEKC� ��WOC�VCDGNC�EQO�C�EQPVCIGO�FG�QEQTT§PEKC�FG� FWCU�QW�OCKU�XCTK�XGKU�G�UGTXG�RCTC�CPCNKUCT� EQPLWPVCOGPVG�FWCU�QW�OCKU�XCTK�XGKU� 0QVC��(O�IGTCN�CU�XCTK�XGKU�GPXQNXKFCU�U Q� SWCNKVCVKXCU�QW�SWCPVKVCVKXCU�FKUETGVCU��OCU�RQFGO� VCOD¦O�UGT�XCTK�XGKU��FKUETGVK\CFCU��� ª��.f�ɵ%.ɵ�xpªRpF2p�R� .ƦąňűŁŒ 8CTK�XGN�:��/GNJQTC�FQ�RCEKGPVG��PGPJWOC��CNIWOC��CEGPVWCFC� 8CTK�XGN�;��6TCVCOGPVQ��CVKXQ��RNCEGDQ� )QPVG��*KQNQ��5��4����������ͰPVTQFW¤ Q���$P�NKUG�FG�'CFQU�&CVGI°TKEQU�EQO�$RNKEC¤²GU��5 Q� 2CWNQ��(FKVQTC�%NWEJGT��R������ .ƦąňűŁŒ 8CTK�XGN�:��ͲPVGPUKFCFG�FC�FQT��KPVQNGT�XGN��KPVGPUC��OQFGTCFC��HTCEC��CWUGPVG�� 8CTK�XGN�;��5GZQ��)��/� 8CTK�XGN�<��/¦VQFQ��$��%� )QPVG��*KQNQ��5��4����������ͰPVTQFW¤ Q���$P�NKUG�FG�'CFQU�&CVGI°TKEQU�EQO�$RNKEC¤²GU��5 Q� 2CWNQ��(FKVQTC�%NWEJGT��R������� �ŒŻŻĪöĪŁĪþÚþąŻɵþąɵĜŵąŴƊĉŊøĪÚŻ ွ )TGSW§PEKC�CDUQNWVC� ွ )TGSW§PEKC�TGNCVKXC�GO�TGNC¤ Q�CQ�VQVCN�IGTCN��)QTPGEG�C�FKUVTKDWK¤ Q�EQPLWPVC�FCU� XCTK�XGKU� ွ )TGSW§PEKC�TGNCVKXC�GO�TGNC¤ Q�CQ�VQVCN�FG�ECFC�NKPJC��)QTPGEG�CU�FKUVTKDWK¤²GU� EQPFKEKQPCKU�FC�XCTK�XGN�[�FCFQ�C�XCTK�XGN�Z� ွ )TGSW§PEKC�TGNCVKXC�GO�TGNC¤ Q�CQ�VQVCN�FG�ECFC�EQNWPC��)QTPGEG�CU�FKUVTKDWK¤²GU� EQPFKEKQPCKU�FC�XCTK�XGN�Z�FCFQ�C�XCTK�XGN�[� DŵąŴƊĉŊøĪÚɵŵąŁÚƄĪƠÚɵąňɵŵąŁÚûóŒɵÚɵŊ ɵ ɵ ɵ DŵąŴƊĉŊøĪÚɵŵąŁÚƄĪƠÚɵąňɵŵąŁÚûóŒɵÚŒɵƄŒƄÚŁɵþąɵøÚþÚɵŁĪŊĦÚ ɵ ɵ ɵ DŵąŴƊĉŊøĪÚɵŵąŁÚƄĪƠÚɵąňɵŵąŁÚûóŒɵÚŒɵƄŒƄÚŁɵþąɵøÚþÚɵøŒŁƊŊÚ �ƊÚŁɵĜŵąŴƊĉŊøĪÚɵƊƄĪŁĪưÚŵɒ 1DLGVKXQ ွ 4GNC¤ Q�ECWUCN�DKNCVGTCN��Z�ļ�[���GO�TGNC¤ Q�CQ�VQVCN�IGTCN� ွ 4GNC¤ Q�ECWUCN�WPKNCVGTCN�FG�Z�ĺ�[��GO�TGNC¤ Q�CQ�VQVCN�FG�ECFC�NKPJC�� ွ 4GNC¤ Q�ECWUCN�WPKNCVGTCN�FG�[�ĺ�Z��GO�TGNC¤ Q�CQ�VQVCN�FG�ECFC�EQNWPC�� &QOQ" ွ 2CTC�FGVGEVCT�WOC�TGNC¤ Q�ECWUCN�WPKNCVGTCN��CPCNKUCOQU�CU�FKUVTKDWK¤²GU� EQPFKEKQPCKU��SWCPVQ�OCKU�UGOGNJCPVGU��OCKU�HTCEC�¦�C�CUUQEKC¤ Q�GPVTG�CU� XCTK�XGKU�� ွ 7UCOQU�Q�EQPEGKVQ�FG�KPFGRGPF§PEKC�RCTC�FGVGEVCT�C�TGNC¤ Q�ECWUCN�DKNCVGTCN� �ąŁÚûóŒɵƊŊĪŁÚƄąŵÚŁ $PCNKUCOQU�Q�IT�ȤEQ�FCU�ECVGIQTKCU�FG�WOC�XCTK�XGN�FCFC�WOC�ECVGIQTKC� FC�QWVTC�XCTK�XGN�� 2QFGOQU�WUCT� QWVTQU�IT�ȤEQU� �°�pªRª�ªRÆ�ɵÌɵ�°�fRª�ªRÆ� 3WCPFQ�VGOQU�WOC�XCTK�XGN�SWCPVKVCVKXC�G�QWVTC�SWCNKVCVKXC� G�SWGTGOQU�CPCNKUCT�UG�GUVCU�XCTK�XGKU�U Q�TGNCEKQPCFCU� RQFGOQU�XKUWCNK\��NCU�WUCPFQ�X�TKQU�VKRQU�FG�IT�ȤEQU� EQPFKEKQPCFQU�C�ECFC�ECVGIQTKC�FC�XCTK�XGN�SWCNKVCVKXC� .ƦąňűŁŒ .ƦąňűŁŒ �°�pªRª�ªRÆ�ɵÌɵ�°�pªRª�ªRÆ� 3WCPFQ�CU�FWCU�XCTK�XGKU�U Q�SWCPVKVCVKXCU�G� SWGTGOQU�CPCNKUCT�C�TGNC¤ Q�GPVTG�GNCU� WUCOQU�WO�IT�ȤEQ�FG�FKURGTU Q�G�Q� EQGȤEKGPVG�NKPGCT�FG�2GCTUQP� ��WO�IT�ȤEQ�ECTVGUKCPQ�FQU�RCTGU��ZK��[K���K� �������P� F��DR�xɵ%.�%R¡�.�¡�x ွ �� ွ �� ွ �� ွ �� ွ �� ွ �� pŒƄÚŻ F��DR�xɵ%.�%R¡�.�¡�xɵ.ɵ�x.DR�R.pª.ɵ%.ɵ�x��.f�"�xɵfRp.�� F��DR�xɵ%.�%R¡�.�¡�xɵ.ɵ�x.DR�R.pª.ɵ%.ɵ�x��.f�"�xɵfRp.�� .ƦąňűŁŒ )KIWTC��'CFQU�YKPVGT�FQ�RCEQVG�VGZOGZ�FQ�4� Prática de Análise Descritiva Empregados da Companhia MB Conjunto de dados 1 Empregados da Companhia MB ◸ Informações sobre estado civil, grau de instrução, número de filhos, salário, idade e procedência de 36 empregados da seção de orçamentos da companhia MB. ◸ Conjunto de dados disponível em: https://www.ime.usp.br/~pam/EstBas.html (MORETTIN, Pedro Alberto; BUSSAB, Wilton Oliveira. Estatística básica. Saraiva Educação SA, 2017.) https://www.ime.usp.br/~pam/EstBas.html Veículos Conjunto de dados 2 Veículos ◸ Dados sobre 30 veículos novos, nacionais(N) e importados(I) em Março de 1999. Preço em dólares, comprimento em metros e motor em CV. ◸ Conjunto de dados disponível em: https://www.ime.usp.br/~pam/EstBas.html (MORETTIN, Pedro Alberto; BUSSAB, Wilton Oliveira. Estatística básica. Saraiva Educação SA, 2017.) https://www.ime.usp.br/~pam/EstBas.html Organizar dados em planilhas Primeiro passo: Como organizar dados em planilhas ◸ Uma variável por coluna, uma unidade amostral por linha. ◸ Cabeçalho com nomes informativos. ◹ Evite utilizar letras maiúsculas, caracteres especiais (acentos, barras, vírgulas). ◹ Evite espaços (use, por exemplo, underline ou hífen). ◹ Caso opte por usar siglas, adicione uma aba na planilha explicando o que é cada coluna (metadados). ◸ A aba dos metadados pode conter também as unidades de medida adotadas, informações do delineamento experimental, datas de atividades e todas as informações relevantes daqueles dados. ◸ ID geralmente é uma coluna inserida na planilha e representa a identificação da unidade amostral. Essa identificação não é utilizada para analisar os dados, mas é útil para sabermos a qual das unidades amostrais estamos nos referindo. Lembre-se... Devemos salvar o conjunto de dados em um formato adequado ao software em que será feita a análise! Análise Descritiva usando o R Commander Importanto o conjunto de dados Tabela de frequências e Medidas descritivas ◸ Estatísticas > Resumos > Distribuições de frequência… ◸ Estatísticas > Tabelas de Contingência > Tabela de dupla entrada… ◸ Estatísticas > Resumos > Conjunto de dados ativo ◸ Estatísticas > Resumos > Resumos numéricos... ◸ Estatísticas > Resumos > Matriz de correlação Gráficos Gráficos > “Escolher o gráfico desejado adequado ao tipo de variável” 5. Inferência estatística Problemas de inferência Inferir significa fazer afirmações sobre algo desconhecido. A inferência estatística tem como objetivo fazer afirmações sobre uma característica de uma população a partir do conhecimento de dados de uma parte desta população (isto é, uma amostra de n observações). A população é representada por uma distribuição de probabilidade com parâmetro(s) cujo(s) valor(es) é (são) desconhecido(s). Fazemos inferências sobre o(s) parâmetro(s). Definições Parâmetro: característica numérica (desconhecida) da distribuição dos elementos da população. Espaço paramétrico: conjunto de todos os valores possíveis que o parâmetro pode assumir. Estatística: qualquer função dos elementos de uma amostra aleatória, a qual não depende de parâmetros desconhecidos. Estimador: Função da amostra, construída com a finalidade de representar, ou estimar um parâmetro de interesse na população. Estimativa: Valor numérico que um estimador assume. Erro padrão: é o desvio padrão de sua distribuição amostral ou uma estimativa desse desvio padrão. Problemas de inferência Se 𝜃 é um parâmetro da distribuição de uma v. a. X e X1,X2,...,Xn é uma amostra aleatória desta distribuição, encontramos três problemas típicos: 1. Estimação pontual Apresentar um valor para 𝜃, que é uma função da amostra X1,X2,...,Xn (“cálculo” de 𝜃), chamada de estimador de 𝜃. Espera-se que o estimador tenha boas propriedades. Problemas de inferência 2. Estimação intervalar Apresentar um intervalo de possíveis valores para 𝜃, chamado de intervalo de confiança. Os limites do intervalo são funções da amostra X1,...,Xn (são aleatórios). A probabilidade de que o intervalo contenha 𝜃 deve ser alta. A amplitude do intervalo deve ser tão pequena quanto possível (intervalo mais preciso). Problemas de inferência 3. Teste de hipóteses Uma hipótese estatística (H) é uma afirmação sobre o valor de 𝜃. Pode ser verdadeira ou falsa. Por exemplo, se 𝜃 é a probabilidade de sucesso no modelo binomial, H: 𝜃 = ½, H: 𝜃 ≠ ½ e H: 𝜃 > ¾ são exemplos de hipóteses. Com base na amostra X1,...,Xn, formulamos uma regra de decisão que permita concluir pela rejeição ou não rejeição (aceitação) de H. A decisão pode ser correta ou errada. 5.1 PROPRIEDADES DOS ESTIMADORES Estimação pontual Como vimos, é importante que os estimadores possuam algumas características desejáveis. Consideremos uma amostra X1,X2,...,Xn de uma população X. Seja 𝜃 o parâmetro de interesse da população que desejamosestimar, como por exemplo 𝜇 = E(X) ou 𝜎² = Var(X). 1 - Estimador não viciado Um estimador = T(X1,X2,...,Xn) é dito não viciado (ou não viesado) para algum parâmetro populacional 𝜃 se E( ) = 𝜃, para todo 𝜃. Observação: Caso a igualdade acima não ocorra, dizemos que o estimador é um estimador viciado (viesado) e a diferença V( ,𝜃) =E( ) - 𝜃 é chamada de vício (viés) de . 2 - Estimador consistente Um estimador é chamado consistente se a probabilidade dele diferir do verdadeiro valor 𝜃 em menos do que c, onde c é um número arbitrário positivo e pequeno, tende a 1, quando o tamanho da amostra (n) aumenta; ou seja, se P(| - 𝜃|) = 1. ◸ Proposição: As condições suficientes para um estimador ser consistente são: E( ) = 𝜃 e Var( ) = 0. ◹ Observação: . Observe que, se for um estimador não viciado de 𝜃, então a primeira condição estará claramente satisfeita. . Esta é uma propriedade assintótica de um estimador. Ela é aplicada a amostras “suficientemente grandes”. 3 - Estimador eficiente Um estimador é eficiente se for não viesado e entre os estimadores não viesados, apresentar a menor variância. Ou seja, suponha que T e T' sejam dois estimadores não viciados de um mesmo parâmetro 𝜃. Se Var(T) < Var(T') então dizemos que T é um estimador mais eficiente do que T'. Observação: Quanto menor for a diferença entre o estimador T e o parâmetro 𝜃, menor será o erro cometido ao estimar o parâmetro 𝜃 pelo estimador T. Esta diferença e = T - 𝜃 é chamada de erro amostral. Estimação pontual – método de substituição Estimação pontual – método de substituição 1. Distribuição binomial. X ~ B(n, p). Vimos que E(X) = np. Um estimador para proporção amostral de sucessos. 2. Distribuição de Poisson. X ~ Po(𝜇). Vimos que E(X) = 𝜇. Um estimador para . 3. Distribuição exponencial. X ~ Ex(𝜆). Vimos que E(X) = 1 / 𝜆. Um estimador para . 4. Distribuição normal. X ~ N(𝜇,𝜎²). Vimos que E(X) = 𝜇 e Var(X) = 𝜎². Um estimador para Um estimador para Observação: Existem outros métodos de estimação. Resultado Seja X1,X2,...,Xn uma amostra aleatória independente e igualmente distribuída de uma população com média 𝜇 e variância 𝜎² < ∞. Então a) E( ) = 𝜇, b) E(s²) = 𝜎². Demonstração: Para a média amostral temos que De maneira similar, para a variância amostral, temos que ou seja, Desta forma, podemos concluir que e s² são estimadores não viciados da média populacional 𝜇 e da variância populacional 𝜎². Resultado A partir do resultado anterior, é evidente que a média amostral é estimador consistente da média populacional 𝜇. Resultado Seja X1,X2,...,Xn uma amostra aleatória de uma população com distribuição normal N(𝜇, 𝜎²). O estimador é viesado, pois E(s) . Logo, o vício é aproximandamente . Portanto, temos que o estimador s é viesado embora s² não seja, pois como sabemos E(s²) = 𝜎². Exemplo A quantidade de tempo, em minutos, que um passageiro gasta esperando na fila de check-in de um aeroporto é uma variável aleatória com média e variância desconhecidos e distribuição normal. Suponha que uma amostra aleatória de 10 passageiros foi observada, em que os tempos foram: 10; 9; 11; 8,5; 7,1; 9; 9,5; 8; 10; 7,8. a) Encontre a estimativa da média e variância. b) Essas estimativas são não viciadas? 5.2 Estimador de Máxima Verossimilhança Introdução ◸ Assuma que deseja-se conhecer um parâmetro de interesse 𝜃 de certa característica dos elementos de uma população que possa ser representada por uma variável aleatória X com função densidade f(x;𝜃), em que 𝜃 é desconhecido. ◸ Assuma também que os valores x1,x2,...,xn da amostra aleatória X1,X2,...,Xn de f(x;𝜃) foram observados. ◸ Baseado nos valores observados da amostra aleatória, queremos estimar o valor do parâmetro desconhecido 𝜃. ◸ Na estimação pontual, o valor de alguma estatística t(X1,X2,...,Xn) representa, ou estima, o parâmetro desconhecido 𝜃. Exemplo ◸ Suponha que uma urna contém bolas pretas e brancas e que a razão entre elas é de 3/1, mas não sabemos se há mais bolas pretas ou brancas. Assim, a probabilidade de retirar uma bola preta é 1/4 ou 3/4 . ◸ Se n bolas são retiradas da urna com reposição, a distribuição de X = número de bolas pretas é dada pela distribuição binomial em que p = 1/4 ou p = 3/4. ◸ Iremos retirar uma amostra de três bolas (n = 3) com reposição e tentar estimar o parâmetro desconhecido p da distribuição. ◸ Se encontrarmos x = 0 em uma amostra de 3, a estimativa 0,25 para p deve ser preferida sobre 0,75 porque a probabilidade 27/64 é maior que 1/64, isto é, porque uma amostra com x = 0 e mais verossímil (no sentido de ter maior probabilidade) ter surgido de uma população com p = 1/4 do que de uma com p = 3/4 . ◸ O estimador pode ser definido como ◸ O estimador então seleciona para cada possível x o valor de p, dito , de tal forma que em que p’ e o valor alternativa de p. Função de Verossimilhança Definição: A função de verossimilhança de n variáveis aleatórias X1,X2,...,Xn é definida como a densidade conjunta das n variáveis aleatórias, isto e, L(𝜃; x1,x2,...,xn) = f( x1,x2,...,xn ;𝜃), que é considerada ser uma função de 𝜃, com 𝜃 ∈ Θ, em que Θ é o espaço paramétrico. Em particular, se X1,X2,...,Xn é uma amostra aleatória da densidade f(x;𝜃), então a função de verossimilhança é L(𝜃; x1,x2,...,xn) = . Interpretação: A função de verossimilhança L(𝜃; x1,x2,...,xn) nos dá a verossimilhança relativa à um particular valor x1,x2,...,xn que a variável aleatória assume. Supondo 𝜃 conhecido, então um particular valor da variável aleatória é mais “provável que ocorra”, ou mais “verossímil”, quando o valor da função for o máximo. O Princípio da Verossimilhança postula que para fazer inferência sobre uma quantidade de interesse 𝜃 só importa aquilo que foi realmente observado e não aquilo que “poderia” ter ocorrido mas efetivamente não ocorreu. Estimador de Máxima Verossimilhança Definição: Seja L(𝜃) = L(𝜃; x1,x2,...,xn) a função de verossimilhança das variáveis aleatórias X1,X2,...,Xn. Se (em que é função das observações x1,x2,...,xn) é o valor de 𝜃 ∈ Θ que maximiza L(𝜃), então é o estimador de máxima verossimilhança (EMV) de 𝜃, ou seja, Se a função de verossimilhança conter k parâmetros, ou seja, então os estimadores de máxima verossimilhança de 𝜃1,𝜃2,...,𝜃k são variáveis aleatórias (que dependem da amostra), em que são valores em Θ que maximizam L(𝜃1,𝜃2,...,𝜃k). Procedimento usual ◸ O logaritmo natural da função de verossimilhança de 𝜃 é denotado por ◸ Como o logaritmo é uma função crescente e contínua, o valor de 𝜃 que maximiza L(𝜃) também maximiza . Se é variável, o estimador de máxima verossimilhança pode ser encontrado como a raiz da equação de verossimilhança ◸ Para se concluir que e um ponto de máximo, é necessário verificar se Outras formas de encontrar o estimador ◸ Nos casos em que o suporte da distribuição de X depende de 𝜃 ou o máximo ocorre na fronteira de Θ, o estimador de máxima verossimilhança é em geral obtido inspecionando o gráfico da função de verossimilhança. ◸ Quando não é possível encontrar analiticamente o ponto de máximo da função de verossimilhança, podemos utilizar métodos numéricos, como o método de Newton-Raphson. Computacionalmente, no R temos a rotina “mle” do pacote “stats4” ou o “optim” do pacote “stats”. Exemplo Exponencial Sejam X1,X2,...,Xn uma amostra aleatória da variável aleatória X ~Exp(𝜃) com densidade 𝜃 > 0 e x ≥ 0. Encontre o estimador de máxima verossimilhança para 𝜃. Exemplo Normal Sejam X1,X2,...,Xn uma amostra aleatória da variável aleatória X ~ N(𝜇,𝜎²), onde 𝜇 e 𝜎² são desconhecidos. Temos então que 𝜃 = (𝜇,𝜎²) e -∞ < x <
Compartilhar