Baixe o app para aproveitar ainda mais
Prévia do material em texto
7/8/2021 1 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 1 Paulo Canas Rodrigues possui graduação em Matemática pela Universidade Nova de Lisboa (2003), mestrado em Estatística pela Universidade Técnica de Lisboa (2007), Doutorado em Estatística pela Universidade Nova de Lisboa (2012), e Agregação (Habilitation) em Matemática, especialização em Estatística e Processos Estocásticos, pela Universidade de Lisboa (2019). É Estatístico e Cientista de Dados, atualmente Professor na Universidade Federal da Bahia. Publicou mais de 65 artigos científicos em revistas internacionais, em colaboração com mais de 90 coautores, de 20 países, e ministrou mais de 110 palestras e seminários por convite. É membro eleito do International Statistical Institute (ISI), foi o fundador, o Chairperson (2017-2019), e o Past-Chairperson (2019-2021) da Latin American Regional Section (LARS) of the International Association for Statistical Computing (IASC), foi Council Member do International Statistical Institute (2015 - 2019), e foi Vice-Presidente (2009- 2011; 2011-2013) e Council Member (2015-2019) da International Society for Business and Industrial Statistics. Entre 2015 e 2019 foi também o Research Director do Center for Applied Statistics and Data Analytics (CAST), da Universidade de Tampere, na Finlândia. Paulo Canas Rodrigues Email: paulocanas@gmail.com Web: www.paulocanas.org 2 7/8/2021 2 De entre outras atividades, Paulo Canas Rodrigues atualmente exerce as seguintes funções: • Professor da Universidade Federal da Bahia • Co-Editor do jornal científico Computational Statistics (01/2021 - 12/2023) • Co-Editor do jornal científico Brazilian Journal of Biometrics (01/2021 - 12/2022) • Co-Editor do jornal científico Biometrical Letters (desde 2013) • Managing Editor do jornal Statistics, Optimization and Information Computing (desde 213) • Co-fundador e Vice-Coordenador da Especialização em Ciência de Dados e Big Data (ECD) da UFBA (desde 2018) • Presidente da Região Brasileira da International Biometric Society (2018-2020; 2020-2022) • Membro do Conselho DIretor da Associação Brasileira de Estatística (2020-2024) • Membro do Comitê Executivo da International Association for Statistical Computing (2017- 2028; 2018-2021) • Membro do Representative Council da International Biometric Society (2021-2025) • Presidente-Eleito da International Society for Business and Industrial Statistics (2021- 2023; Presidente entre 2023 e 2025) • Co-fundador e (primeiro) Chair do Special Interest Group (SIG) on Data Science do International Statistical Institute (2021-2023) Paulo Canas Rodrigues Email: paulocanas@gmail.com Web: www.paulocanas.org 3 Time series analysis and forecasting • Classical time series models • Singular spectrum analysis • Artificial and recurrent neural networks (e.g. LSTM) • Clustering time series • Application to environment, economy, finances, energy, etc. Long range correlation • Application to electroencephalogram (EEG) signals and finances Alguns projetos em andamento 4 7/8/2021 3 Statistics in Sports • Supervised and unsupervised learning in NBA High dimension data analysis • new methodologies for regression, classification and clustering with high dimensional features Spatial-temporal modelling • Application to environmental data Alguns projetos em andamento Image analysis • Kernel robust singular value decomposition • Generative adversarial networks Public policy • High-dimensional and complex data from Brazilian social programs Music and signal analysis Statistical and machine learning 5 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 6 7/8/2021 4 Conteúdo programático 7 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35 – Estatística Aplicada 8 7/8/2021 5 Importância da Estatística em Ciência de Dados? 9 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 10 7/8/2021 6 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35 – Estatística Aplicada 11 Estatística 12 7/8/2021 7 O que é estatística? É um conjunto de métodos quantitativos que serve para estudar e medir os fenômenos acerca de uma população com base em uma amostra. É uma ciência que trata da coleta, da análise, da interpretação e da apresentação de massas de dados numéricos. É uma ciência baseada na Teoria das Probabilidades, cujo objetivo principal é nos auxiliar a tomar decisões ou obter conclusões em situação de incerteza, a partir de informações numéricas. 13 Por que estudar estatística? � Precisamos do conhecimento da estatística para tomar algumas de suas decisões e para evitar serem ludibriados por certos resultados errôneos ou viciados � Para saber como apresentar e descrever informações de forma apropriada � Para saber como tirar conclusões a partir de grandes populações, com base somente na informação obtida a partir de amostras � Para saber como melhorar os processos 14 7/8/2021 8 A estatística em várias áreas: � Na área médica: metodologia adequada que possibilita decidir sobre a eficiência de um novo tratamento. � Na pesquisa de mercado e de opinião pública: definição de novos produtos, lançamentos, vendas, etc. � Nas ciência sociais: estudo de diferentes indicadores sociais. 15 A estatística em várias áreas: A Estatística é empregada como ferramenta fundamental em várias áreas, praticamente todo campo de pesquisa se beneficia da utilização de métodos estatísticos. � Na industria : controle de qualidade de produto e processo. � Em computação : estudo do desempenho de sistemas, algoritmos para aumentar a eficiência, etc. 16 7/8/2021 9 Divisão da estatística � Estatística descritiva: se preocupa com a coleta, organização, apresentação, interpretação e análise dos dados � Estatística inferencial: consiste em inferir (deduzir ou tirar conclusões) a respeito das propriedades de um universo a partir de uma amostra. 17 Etapas de uma análise estatística 18 7/8/2021 10 Introdução à Estatística 19 Etapas de uma análise estatística 20 7/8/2021 11 � É o conjunto de todos os indivíduos, objetos ou informações que apresentam pelo menos uma característica comum cujo comportamento interessa-nos analisar Definições Básicas População � Deseja-se conhecer o número de funcionários de uma determinada empresa que foi ao teatro nos últimos 3 meses. População: todos os funcionários da empresa que foram ao teatro nos últimos 3 meses. Exemplo Característica de interesse: funcionários de uma determinada empresa. 21 População Tipos de população Finita: apresenta um número limitado de elementos. É possível enumerar todos os elementos. Exemplo � Idade dos universitários residentes em Salvador. � Empresas de mediano porte no estado da Bahia nesteano. � Número de nacidos no Brasil nos últimos cinco anos. 22 7/8/2021 12 População Tipos de população Infinita:apresenta um número ilimitado de elementos. Não é possível enumerar todos os elementos. Exemplo � Todas as bactérias existente no corpo humano. � As pressões atmosféricas ocorridas nos diversosn pontos do continente em determinado momento. 23 Definições Básicas Amostra � Representa qualquer subconjunto finito de elementos extraídos da população, sobre o qual se faz as observações. 24 7/8/2021 13 Estatística Descritiva 25 � Consiste na recolha, apresentação, análise e interpretação de dados numéricos, através da criação de instrumentos adequados: quadros, gráficos e indicadores numéricos. � A Estatística Descritiva visa somente descrever e analisar um certo grupo (amostra) sem daí retirar conclusões ou inferências sobre a população da qual foi retirado esse grupo. Estatística Descritiva 26 7/8/2021 14 A questão básica que se põe é: o Como resumir os aspectos essenciais dos dados? o Será que existem regularidades, tendências, ciclos, concentrações,..., padrões, dignos de nota nos dados? Estatística Descritiva Dada a enorme quantidade de dados disponíveis, a questão central é: o Como resumir os dados de forma que a informação neles contida possa ser facilmente comunicada e assimilada? Este é o papel da Estatística Descritiva! 27 Estatística Inferêncial 28 7/8/2021 15 É o conjunto de técnicas, que permitem construir proposições de carácter probabilístico acerca da população, partindo da observação de alguns dos seus elementos (amostra). Estatística Inferêncial Na Inferência Estatística ou Estatística Matemática a questão central é: como usar os dados para tentar obter conclusões acerca do todo ou população de onde são originários os dados. 29 Estatística Inferêncial Os métodos de inferência estatística envolvem o cálculo de estatísticas, a partir das quais se infere sobre os parâmetros da população, isto é, permitem com determinado grau de probabilidade, generalizar à população certas conclusões, por comparação com os resultados amostrais. 30 7/8/2021 16 Estatística Inferêncial Em suma, inferir significa, portanto, deduzir como consequência, conclusão ou probabilidade. Os processos de inferência estatística introduzem ordem em qualquer tentativa para tirar conclusões da evidência fornecida por amostras. A Estatística Inferencial aborda dois tipos de problemas fundamentais: a) a estimação de parâmetros de uma população, e b) o teste de hipóteses. 31 Variáveis Aleatórias 32 7/8/2021 17 Variável aleatória É a característica de interesse que é medida em cada elemento da amostra ou população. Variáveis são características que são medidas, controladas ou manipuladas em uma pesquisa. Diferem em muitos aspectos, principalmente no papel que a elas é dado em uma pesquisa e na forma como podem ser medidas. As variáveis podem ter valores numéricos ou não numéricos. 33 Variáveis aleatórias 34 7/8/2021 18 Variáveis aleatórias Variáveis Qualitativas (ou categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais. 35 Variáveis aleatórias Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: o sexo, o cor dos olhos, o fumante/não fumante, o doente/sadio. 36 7/8/2021 19 Variáveis aleatórias Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos: o escolaridade (1o, 2o, 3o graus), o estágio da doença (inicial, intermediário, terminal), o mês de observação (janeiro, fevereiro,..., dezembro).. 37 Variáveis aleatórias Variáveis Quantitativas: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos que fazem sentido. Podem ser contínuas ou discretas. 38 7/8/2021 20 Variáveis aleatórias Variáveis discretas características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente são o resultado de contagens. Exemplos: o número de filhos, o número de bactérias por litro de leite, o número de cigarros fumados por dia. 39 Variáveis aleatórias Variáveis contínuas características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: o peso (balança), o altura (régua), o tempo (relógio), o pressão arterial, o idade. 40 7/8/2021 21 Medidas de posição central 41 Medidas de posição � Máximo (max): a maior observação. � Mínimo (min): a menor observação. � Moda (mo): é o valor (ou atributo) que ocorre com maior frequência. Exemplo: Detectou-se que, em uma amostra formada por seis trabalhadores, seriam encontrados os seguintes salários semanais(em reais): 56, 42, 57, 61, 12, 56. � Ordenamos: 12, 42, 56, 56, 57 e 61. • max: 61. • min: 12. • moda: 56. 42 7/8/2021 22 Medidas de posição � Média ( �̅ ): É a média aritmética de uma distribuição de escores/dados. É a estatística mais usada nas pesquisas de ciências socias, médicas, etc. �̅ � �� � �� �⋯� �� � ∑ ������ Exemplo: Detectou-se que, em uma amostra formada por seis trabalhadores, seriam encontrados os seguintes salários semanais(em reais): 56, 42, 57, 61, 12, 56. �̅ � �� � �� �⋯� �� � ∑ ������ � 56 � 42 �⋯� 566 � 47,33. 43 Medidas de posição � Mediana (Md): É o valor da variável que ocupa a posição central de um conjunto de n dados ordenados. Posição da mediana: ���� � 0,50� � 1� Exemplo: Detectou-se que, em uma amostra formada por cinco trabalhadores, seriam encontrados os seguintes salários semanais(em reais): 56, 42, 57, 61, 12. � Ordenamos: 12, 42, 56, 57 e 61. Aqui n - impar Posição da mediana: ���� � 0,50 5 � 1 � 3 Md = 56 44 7/8/2021 23 Medidas de posição Exemplo: Detectou-se que, em uma amostra formada por seis trabalhadores, seriam encontrados os seguintes salários semanais(em reais): 55, 42, 57, 61, 12, 56. � Ordenamos: 12, 42, 55, 56, 57 e 61. Aqui n é par Posição da mediana: ���� � 0,50 6 � 1 � 3.5 Md = (55+56)/2=55.5 45 Medidas de posição Casos particulares: • Percentil 50: mediana ou segundo quartil. • Percentil 25: primeiro quartil (Q1). • Percentil 75: terceiro quartil (Q3). • Percentil 10: primeiro decil. � Percentis: É o valor da variável que ocupa a posição � � � 1 , 0 �� � 1 do conjunto de dados ordenados. 46 7/8/2021 24 Medidas de posição Exemplo: Detectou-se que, em uma amostra formada por seis trabalhadores, seriam encontrados os seguintes salários semanais(em reais): 56, 42, 57, 61, 12, 56.zz � Ordenamos: 12, 42, 56, 56, 57 e 61. Posição do percentil 50: 0,50 6 � 1 � 3.5 Posição do percentil 25: 0,25 6 � 1 � 1,75 Posição do percentil 75: 0,75 6 � 1 � 5,25 Q1 = (12+42)/2=27 Q3 = (57+61)/2=59 47 Medidas de dispersão 48 7/8/2021 25 Medidas de dispersão Têm como objetivo encontrar um valor que resuma a variabilidade de um conjunto de dados. Amplitude: � � � � ! �" Intervalo- Interquartil: #$ � $3 ! $1 � Ordenamos: 12, 42, 56, 56, 57 e 61. • A= 61-12 = 49. • IQ: Q3 – Q1 = 59 – 27 = 32. Exemplo: Detectou-se que, em uma amostra formada por seis trabalhadores, seriam encontrados os seguintes salários semanais(em reais): 56, 42, 57, 61, 12, 56. 49 Medidas de dispersão Variância: A variância é um dos indicadores de variabilidade mais conhecido e aparece citada, com frequência, em trabalhos científicos. Exemplo: Detectou-se que, em uma amostra formada por seis trabalhadores, seriam encontrados os seguintes salários semanais(em reais): 56, 42, 57, 61, 12, 56. % � �� ! �̅ � � �� ! �̅ � �⋯� �� ! �̅ � ! 1 � 1 & �� ! �̅ � � ��� %� � 56 ! 47,33 � � 42 ! 47,33 � �⋯� 56 ! 47,33 �6 ! 1 � 341,47 50 7/8/2021 26 Medidas de dispersão Desvio Padrão: Exemplo: Detectou-se que, em uma amostra formada por seistrabalhadores, seriam encontrados os seguintes salários semanais(em reais): 56, 42, 57, 61, 12, 56. %� � 56 ! 47,33 � � 42 ! 47,33 � �⋯� 56 ! 47,33 �6 ! 1 � 341,47 % � %�' � 341,47' � 18,47 % � %�' � ) *"â ," ' 51 Medidas de dispersão Coeficiente de Variação (VC): • É uma medida de dispersão relativa • Elimina o efeito da magnitude dos dados • Exprime a variabilidade em relação a média • Quanto menor o CV mais homogêneo é o conjunto de dados Exemplo: Detectou-se que, em uma amostra formada por seis trabalhadores, seriam encontrados os seguintes salários semanais (em reais): 56, 42, 57, 61, 12, 56. -) � %�̅ � 100% -) � 18,4747,33 � 100% � 39,04% 52 7/8/2021 27 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 53 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35 – Estatística Aplicada 54 7/8/2021 28 Probabilidade 55 Algumas definições importantes Probabilidade Experimento Aleatório 56 7/8/2021 29 Probabilidade Experimento Aleatório (E) Procedimento que, ao ser repetido sob as mesmas condições, pode fornecer resultados diferentes. Exemplos � Jogar um dado e observar o resultado; � Jogar uma moeda e observar o resultado; � Hábito de fumar de um aluno sortiado da turma; � Condições climáticas no próximo domingo; � Taxa de inflação do próximo mês. 57 Algumas definições importantes Probabilidade Experimento Aleatório Espaço Amostral (Ω) 58 7/8/2021 30 Probabilidade Espaço Amostral (Ω) Conjunto de todos os resultados possíveis de um experimento aleatório. Exemplos � Resultados no lançamento de uma moeda:Ω � 1, * , ,2*2 3; � Resultados no lançamento de um dado:Ω � 11, 2, 3, 4, 5, 63; � Hábito de fumar:Ω � 45� 67, 8ã2 :5� 67 . 59 Algumas definições importantes Probabilidade Experimento Aleatório Espaço Amostral (Ω) Evento (A) 60 7/8/2021 31 Probabilidade Evento (A) Subconjunto do espaço amostral Ω denotado, pelo geral, por: A, B, C, .... Exemplos � Lançamento de um dado:Ω � 11, 2, 3, 4, 5, 63; Vamos definir alguns evento: � A: Sair a face superior parA � 2, 4, 6 ⊂ Ω ; � B: Sair a face superior menor que trêsB � 1, 2, 3 ⊂ Ω ; 61 Probabilidade Operações com evento Suponhamos que A e B sejam dois eventos de um espaço amostral Ω. o A⋃B:união dos eventos A e B. Representa a ocorrência de pelo menos um dos eventos, A ou B. o A ∩ B: interseção dos eventos A e B. Representa a ocorrência simultanea dos eventos A e B. 62 7/8/2021 32 Probabilidade Operações com evento Suponhamos que A e B sejam dois eventos de um espaço amostral Ω. o Os eventos A e B são disjuntos ou mutuamente exclusivos quando não tem elementos em comum, isto é, A ∩ B � ∅. Vamos a representar o complemento do evento A como AC. o Os eventos A e B são complementares se suas interseções é vazia e sua união é o espaço amostral, isto é, A ∩ B � ∅ e A⋃B � Ω. 63 Probabilidade Operações com evento Exemplo Em uma pesquisa realizada com 200 alunos da Faculdade Pitagoras, foi obtido o resultado apresentado na tabela seguinte: Sexo Curso Comunicação Filosofia Direito Administração Homes 45 22 38 29 Mulheres 35 16 12 3 64 7/8/2021 33 Probabilidade Operações com evento Continuando o exemplo Dentre os 200 alunos, podemos selecionar um alunos ao acaso. Consideremos os eventos a seguir: H: O aluno escolhido é homem. M: O aluno escolhido é mulher C: O aluno escolhido é do curso de Comunicação. F: O aluno escolhido é do curso de Filosofia. D: O aluno escolhido é do curso de direito. A: O aluno escolhido é do curso de Administração. 65 Probabilidade Operações com evento Continuando o exemplo H ∪ A: Representa, o aluno escolhido é homem OU é do curso de Aministração. Podemos definir também: M ∩ D : Representa, o aluno escolhido é mulher E é do curso de Direito. HI : Representa, o aluno escolhido é mulher. 66 7/8/2021 34 Probabilidade Operações com evento 1. Comutatividade: A⋃B � B⋃A,A⋂B � B⋂A 2. Associatividade: A ∪ B ∪ C � A ∪ B UC 3. Lei distributiva: A ∩ B ∪ C � �A ∩ B� ∪ �A ∩ C� 4. Lei DeMorgan: �� ∪ M�I� �I ∩ MI , � ∩ M I � �I ∪ MI . Mais propriedades Sejam três eventos quaisquer, A, B e C, definidos em um espaço amostral Ω. Então, 67 Probabilidade Operações com evento Exemplo Consideremos os eventos: G: gostar de gatos A: gostar de cachorros Podemos definir: GC: não gostar de gatosGC ∩ AC: não gostar de gatos e não gostar de cachorros GC ∩ AC � �G ∪ A�C Complementar de gostar gatos ou cachorros 68 7/8/2021 35 Algumas definições importantes Probabilidade Experimento Aleatório Espaço Amostral (Ω) Evento (A) Probabilidade - P(A) 69 Probabilidade Probabilidade - P(A) Medida de incerteza associada aos resultados do experimento aleatório. Como atribuir probabilidades aos elementos do espaço amostral? Fornece a informação de quaã verossimil é a ocorrencia de um evento em particular. 70 7/8/2021 36 Probabilidade Probabilidade - P(A) Através das frequências de ocorrências 1. O experimento aleatório é repetido “n” vezes. 2. Calcula-se a frequência relativa com que cada resultado ocorre Observação: Para um número grande de realizações, a frequência relativa aproxima-se da probabilidade. 71 Probabilidade Probabilidade - P(A) Através de suposições teóricas 1. Dado um espaço amostral Ω � 1ω�, ω�, … 3. 2. A probabilidade P�ω� para cada ponto amostral satisfaz 0 R P ω R 1 P ω � P ω�, ω�, … � &P ωS � 1'S 72 7/8/2021 37 Probabilidade Probabilidade - P(A) o Se A é um evento, então P A � & P�ωT�'UV∈X Observação o Se Ω � ω�, ω�, … , ωY e P ωS � 1/N (pontos equiprováveis), então P A � ⋕ de elementos de A⋕ de elementos de Ω � ⋕ �A�⋕ �Ω� 73 Probabilidade Continuando com o exemplo Probabilidade - P(A) Sexo Curso TotalComunicação Filosofia Direito Administração Homes 45 22 38 29 134 Mulheres 35 16 12 3 66 Total 80 38 50 32 200 Qual a probabilidade de um aluno de esse grupo, escolhido ao acaso: a) Ser Mulher b) Ser homem e cursar Administração 74 7/8/2021 38 Probabilidade Continuando com o exemplo Sexo Curso TotalComunicação Filosofia Direito Administração Homes 45 22 38 29 134 Mulheres 35 16 12 3 66 Total 80 38 50 32 200 a) Ser Mulher M: O aluno escolhido é mulher. P M � ⋕ �M�⋕ �Ω� � 66200 � 0,33 e 33,0% Analogamente P M � P HC � 1 ! P H � 1 ! ⋕ H⋕ Ω � 1 ! 134200 � 0,33 e 33,0% Onde: H representa o evento do aluno escolhido é homem. 75 Probabilidade Continuando com o exemplo Sexo Curso TotalComunicação Filosofia Direito Administração Homes 45 22 38 29 134 Mulheres 35 16 12 3 66 Total 80 38 50 32 200 b) Ser homem e cursar Administração H: O aluno escolhido é homem. A: O aluno escolhido é do curso de Administração. P H ∩ A � ⋕ �H ∩ A�⋕ �Ω� � 29200 � 0,145 e 14,5% Conclusão: A probabilidade do aluno selecionado ser homem e este cursando administração é 29/200 ou 14,5%. 76 7/8/2021 39 Probabilidade Probabilidade - P(A) Regra da adição de probabilidades Sejam A e B eventos de Ω. Então P A ∪ B � P A � P B ! P A ∩ B . � Se A e B forem eventos disjuntos, entãoP A ∪ B � P A � P B � Para qualquer evento A de Ω,P A � 1 ! P AC 77 Probabilidade Continuando com o exemplo Sexo Curso TotalComunicação Filosofia Direito Administração Homes 45 22 38 29 134 Mulheres 35 16 12 3 66 Total 80 38 50 32 200 c)Ser Mulher ou cursar Comunicação M: O aluno escolhido é mulher. C: O aluno escolhido é do curso de Comunicação. P M ∪ C � P M � P C ! P M ∩ C � ⋕ �M�⋕ �Ω� � ⋕ �C�⋕ �Ω� ! ⋕ M ∩ -⋕ Ω Conclusão: A probabilidadedo aluno selecionado ser mulher ou estar cursando comunicação é 111/200 ou de 55.5%. � 66200 � 80200 ! 35200 � 111200 � 0,555 e 55,5% 78 7/8/2021 40 Probabilidade Probabilidade condicional - P(A|B) Dado dois eventos A e B, a probabilidade condicional de A dado que ocorreu B é denotado por P(A|B) e definida por P A|B � P�A ∩ B�P�B� , P B g 0. Regra do produto P A ∩ B � P A P�A|B� 79 Probabilidade Continuando com o exemplo Sexo Curso TotalComunicação Filosofia Direito Administração Homes 45 22 38 29 134 Mulheres 35 16 12 3 66 Total 80 38 50 32 200 d) Cursar comunicação dado que é mulher Sabemos que: C: O aluno escolhido é do curso de Comunicação. M: O aluno escolhido é mulher. P C|M � P�C ∩M�P�M� � 35/20066/200 � 3566 � 0,53 e 53%. 80 7/8/2021 41 Probabilidade Independência Dizemos que dois eventos são estatísticamente independentes quando a ocorrência de um não interfere na ocorrencia de outro. Dado dois eventos A e B, dizemos que o evento A é independente do evento B se P A B � P A ou P A ∩ B � P A P B . 81 Probabilidade Exemplo Independência A probabilidade de João resolver um problema de estatística é igual a 20%. A probabilidade de Lucas é igual a 25%. Se ambos tentarem resolver o problema de forma independente, qual a probabilidade de que o problema seja resolvido? Consideremos os eventos: J: João resolve o problema de estatística. L: Luca resolve o problema de estatística. R: O problema seja resolvido Como os eventos J e L são independentes e P J � 0,20 e P L � 0,25 . P R � P J ∗ P L � 0,20 ∗ 0,25 � 0,05 e 5% 82 7/8/2021 42 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 83 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35 – Estatística Aplicada 84 7/8/2021 43 Variáveis aleatórias 85 Na prática é, muitas vezes, mais interesante associarmos um número a um evento aleatório e calcularmos a probabilidade da ocorrência desse número do que a probabilidade do evento. Variável Aleatória Então, definamos uma função X que associa a cada elemento do espaço amostral Ω um valor x (do conjunto dos números reais) é denominada de variável aleatória. 86 7/8/2021 44 Variável Aleatória Exemplo Consideremos o experimento de lançar um dado duas vezes e observar a face superior se é par o impar. Assumindo P= face par e I=face impar, o espaço amostral é dado por: Ω � 1PP, PI, IP, II3 Definamos uma variável aleatória X que representa o número de vezes que saiu par nos dois lançamentos do dado. 87 Variável Aleatória Exemplo Ω PP PI IP II X X: número de vezes que saiu par nos dois lançamentos do dado X=0 II X=1 IP PIou X=2 PP 88 7/8/2021 45 Variável Aleatória Uma variável aleatória (v.a.) pode ser classificada em: � Variável aleatória discreta � Variável aleatória contínua Uma v.a. é discreta quando os valores que assume é finito ou infinito enumerável. Uma v.a. é contínua quando o conjunto de valores possíveis que ela assume for não enumerável. 89 Variável Aleatória Exemplo: Variável aleatória discreta Exemplo: Variável aleatória contínua Número de filhos, número de ligações recebidas, número de erros ortográficos, etc. 0 1 2 3 4 … Altura, peso, idade de um indivíduo. 0 90 7/8/2021 46 Variáveis aleatórias discretas 91 Variável Aleatória Discreta Exemplo Consideros o exemplo de observar o SEXO das criançãs dos funcionários da empresa “DataStat” com três filhos. Assumindo: M: criança do sexo masculino F: criança do sexo feminino Como seria o espaço amostral? Ω � 1MMM,MMF,MFM, FMM,MFF, FMF, FFM, FFF3 92 7/8/2021 47 Variável Aleatória Discreta Exemplo Defina X: Número de criança do sexo masculino, considerando três cianças MMM MMF MFM FMM MFF FMF FFM FFF x 3 2 2 2 1 1 1 0 Ω Como X assume valores no conjunto {0,1,2,3}, então X é uma variável aleatória discreta. Como atribuir probabilidades? P�X � 3�: Probabilidade de observar 3 crianças do sexo masculino. 93 Variável Aleatória Discreta Exemplo Defina Y: Número de criança do sexo feminino MMM MMF MFM FMM MFF FMF FFM FFF y 0 1 1 1 2 2 2 3 Ω Como Y assume valores no conjunto {0,1,2,3}, então Y é uma variável aleatória discreta. Como atribuir probabilidades? P�Y � 2�: Probabilidade de observar, dentre as 3 crianças, duas do sexo feminino. 94 7/8/2021 48 Variável Aleatória Discreta Função de probabilidade É a função que atribui a cada valor x da variável aleatória discreta X sua probabilidade de ocorrencia e pode ser representada pela tabela. x P(X=x) �� �� �p ... �� q�r � ��� q�r � ��� q�r � �p� q�r � ���... Toda função de probabilidade deve satisfazer: 0 R q r � �� R 1, i=1,2,…,n &q r � �� � 1���� 95 Variável Aleatória Discreta Exemplo O departamento de vendas de uma companhia de automóveis é formado por 35 funcionários, sendo 21 homes e 14 mulheres. Com objetivo de implantar uma nova estratégia de vendas serão formados grupos de 3 funcionários, sorteados aleatoriamente. Qual é a probabilidade do grupo estar formado: a) Por três mulheres? b) Pelo menos duas mulheres? c) No máximo uma mulher? 96 7/8/2021 49 Exemplo: Definamos X: Número de mulheres no grupo H M H H H H H H M M M M M M HHH HHM HMH HMM MHH MHM MMH MMM 21/35 14/35 20/34 14/34 21/34 13/34 19/33 14/33 20/33 13/33 20/33 13/33 21/33 12/33 Qual é a probabilidade do grupo estar formado por três mulheres? 97 Exemplo: Qual é a probabilidade do grupo estar formado por três mulheres? Como X é o número de mulheres no grupo, sua função de distribuição de probabilidade é dada por: x 0 1 2 3 P(X=x) 0,203 0,450 0,291 0,356 q r � 0 � q HHH � 0,203 q r � 1 � q HHs ∪HsH ∪sHH � q HHs � q HsH � q�sHH�q r � 1 � 0,450 q r � 2 � q Hss ∪sHs ∪ssH � q Hss � q sHs � q�ssH�q r � 2 � 0,291 q r � 3 � q sss � 0,056 98 7/8/2021 50 Exemplo: Variável Aleatória Discreta a) Qual é a probabilidade do grupo estar formado por três mulheres?q r � 3 � 0,056 b) Qual é a probabilidade do grupo estar com pelo menos duas mulheres? q r t 2 � q r � 2 � q�r � 3� � 0,291 � 0,056=0,347 c) Qual é a probabilidade do grupo estar com no máximo uma mulher?q r R 1 � q r � 0 � q r � 1 � 0,203 � 0,450 � 0,653 99 Variável Aleatória Discreta Exitem caracteristica numéricas que são muito importantes em uma distribuição de probabilidade de uma variável aleatória discreta: � Média (Valor esperado, esperança matemática). � Variância 100 7/8/2021 51 Variável Aleatória Discreta Valor Esperado (Média) E X � x� � P X � x� �⋯� xw � P X � xw � &xS � P�X � xS�wS�� Notação: μ � E�X� 101 Variável Aleatória Discreta Variância Notação: y� � Var�X� Representa o valor esperado da variável aleatória �X ! E�X���, isto é Var X � &�xS ! E�X��� � P�X � xS�wS�� Analogamente: Var X � E r� ! }~�r��� 102 7/8/2021 52 Variável Aleatória Discreta Desvio padrão Notação: y � DP(X) Definida como a razão quadrada positiva da variância, isto é, DP X � VAR�X�' 103 Variável Aleatória Discreta Exemplo Determinar a média, variância e desvio padrão da soma dos resultados no lançamento de dois dados calibrados. Experimento: Lançamento de dois dados calibrados e observar o resultado Variável aleatória: X - Soma dos resultados 104 7/8/2021 53 Variável Aleatória Discreta Exemplo Ω � 1 ", � : ", � � 1,2,3,4,5,63 x P(X=x) 2 1/36 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 5/36 9 4/36 10 3/36 11 3/36 12 1/36 105 Variável Aleatória Discreta Exemplo~ r � 2 � 136 � 3 � 236 �⋯� 12 � 136 � 25236 � 7 ) * r � �2 ! 7��� 136 � �3 ! 7��� 236 �⋯� 12 ! 7 � � 136 � 5,83 �q r � ) * r' � 5,83' � 2,41 106 7/8/2021 54 Variável Aleatória Discreta Propriedades � E k � k, k:constante � E k · X � k · E X � E aX � b � aE�X� � b � E X ! μ � 0 � Var aX � b � a�Var�X� � Var k � 0, k: constante 107 Variáveis aleatórias contínuas 108 7/8/2021 55 Variável Aleatória Contínua Consideremos a distribuição de probabilidade da variável aleatória discreta X: x 1 2 3 4 5 P(X=x) 0,1 0,2 0,4 0,2 0,1 Podemos construir o histograma da distribuição de probabilidade de X, construido com rectângulos de bases unitárias e alturas iguais as probabilidades de X. 109 Variável Aleatória Contínua A� A� Ap A� A� &q r � " � &������ � 1 � ��� Podemos calcular, por exemplo, q�1 R r R 3�, bastaria calcular a soma das areas 1, 2 e 3. &�� � 0,1 � 0,2 � 0,4 � 0,7p��� 110 7/8/2021 56 Variável Aleatória Contínua Se utilizamos os pontos médios das bases superiores dos rectângulos e os unimos por uma curva, teremos, se consideramos X uma variável aleatória contínua, uma função contínua f(X). q R r R � �? a b f(X) 111 Variável Aleatória Contínua Como dito, toda variável aleatória contínua é caracterizada por sua função de densidade de probabilidade, f(X), com as propriedades a seguir: � A área sob a função é 1. � :��� t 0. � A área sob a função e acima do eixo x, entre os pontos a e b é P a R X R b . � q R r R � � q R r � � � q� � r R�� � q � r � � . � q r � � 0 112 7/8/2021 57 Variável Aleatória Contínua Uma função de densidade de probabilidade, f(X), deve satisfazer: f x t 0 � f x dx � 1' ' Propriedades E X � �xf x dx' ' Var X � � x ! E X �' ' f x dx Var X � E X� ! �E�X��� DP X � Var�X�' 113 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 114 7/8/2021 58 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35 – Estatística Aplicada 115 Modelos probabilísticos discretos 116 7/8/2021 59 Modelo de Bernoulli ou Binário 117 � Um entrevistado concorda ou não com a afirmação feita. Modelo de Bernoulli Exemplos � O resultado de um exame médico para a detecção de uma doença é positivo ou negativo. � Uma peça eletrônica é classificada como boa ou defeituosa. Situações dicotômicos são representados, em muitas situações, como respostas do tipo sucesso – fracasso. 118 7/8/2021 60 Resposta do tipo sucesso – fracasso caracterizam experimentos de Bernoulli que origina uma variável aleatória, X, com distribuição de Bernoulli. Modelo de Bernoulli Variável aleatória de Bernoulli Caracterizada por assumir apenas dois valores: � 1 – quando representada como sucesso. � 0 – quando representada como fracasso. Por conveniência vamos assumir que a probabilidade de succeso é �, consequêntemente a probabilidade de fracasso é 1 ! �. 119 Modelo de Bernoulli Variável aleatória de Bernoulli r ~ M7* 25��"��� Denotaremos assim, para representar uma variável aleatória com distribuição de Bernoulli com parâmetro �. r � �1,0, Se ocorre “sucesso”.Se ocorre “fracasso”. A função de probabilidade é representada por: x 1 0 P(X=x) p 1-p Onde: ~ r � � ) * r � ��1 ! �� 120 7/8/2021 61 Modelo de Bernoulli Variável aleatória de Bernoulli r ~ M7* 25��"��� Quando repetimos, de forma independente, experimentos de bernoulli com mesma probabilidade de sucesso, origina uma variável aleatória, X, com distribuição binomial. 121 Distribuição Binomial 122 7/8/2021 62 Uma variável aleatória, X, é dita Binomial com parâmetros e �, quando corresponde a ensaios independente de bernoulli com mesma probabilidade � de sucesso. Distribuição binomial Variável aleatória Binomial Notação: r ~ �� ; �� A função de probabilidade é representada por: q r � � � � ���1 ! �����, � � 0,1,⋯ , . Onde: � � ! ! � ! �! sendo a! é fatorial a. 123 Distribuição binomial Exemplo: ! � � ! 1 � ! 2 � ⋯� 3 � 2 � 1 � ! ��! � � ! �� � ! � ! 1 � ! � ! 2 � ⋯� 3 � 2 � 1 5! � 5 � 4 � 3 � 2 � 1 � 120 103 � 10!10 ! 3 ! 3! � 10 � 9 � 8 � ⋯� 3 � 2 � 1�7 � 6 �⋯� 3 � 2 � 1� � �3 � 2 � 1� � 120 0! �1 124 7/8/2021 63 Distribuição binomial Variável aleatória Binomial r ~ �� ; �� q r � � � � ���1 ! ����� , � � 0,1,⋯ , . Resultados: � Média: � � ~ r � � � � Variância: y� � ) * r � � � � �1 ! �� 125 Distribuição binomial Exemplo: Vamos considerar uma prova de Estatística com 12 questões, cada uma com 4 alternativas. Suponhamos que um aluno escolha as respostas ao acas. Qual é a probabilidade de que o aluno acerte pelo menos 6 questões. Experimento de bernoulli: Selecionar uma questão e observar se: r � �1,0, acertou a resposta “sucesso”.não acertou a resposta “fracasso”. q r � 1 � 14 � 0,25 126 7/8/2021 64 Distribuição binomial Exemplo: Experimento binomial: Repetimos 12 vezes (número de questões da prova) o ensaio de bernolli e observamos o número de questões acertadas pelo aluno. Y ~ �� � 12; � � 0,25� Definamos a variável aleatória Y como o número de questões que o aluno acertará. Então, q � � � � 12� 0,25��1 ! 0,25�����, � � 0,1,⋯ , 12. Pergunta:q � t 6 � q r � 6 � q r � 7 �⋯� q r � 12 �? 127 Distribuição binomial Exemplo: q � � 6 � 126 0,25��1 ! 0,25������ 0,0401.q � � 7 � 127 0,25��1 ! 0,25������ 0,0115.q � � 8 � 128 0,25��1 ! 0,25������ 0,0024.q � � 9 � 129 0,25��1 ! 0,25������ 0,0004.q � � 10 � 1210 0,25���1 ! 0,25������� 0,0000.q � � 11 � 0,0000.q � � 12 � 0,0000. q � t 6 � 0,0401 � 0,0115 � 0,0024 � 0,0004 � 0.0544 Então: Muito cálculo? 128 7/8/2021 65 Distribuição binomial Tabela da distribuição binomial 129 Distribuição binomial Exemplo: q r � 2 � 0,1406 Suponhamos uma variável aleatória X ~ �� � 3; � � 0,25� Utilizando a tabela da distribuição binomial. 130 7/8/2021 66 Distribuição binomial Voltando ao exemplo: q � t 6 � 0,0401 � 0,0115 � 0,0024 � 0,0004�0,0000 � 0,0000 � 0,0000 � 0.0544 131 Distribuição binomial Exemplo: A probabilidade de um funcionário das metalúrgicas Bigorna Ltda. Ser promovido a gerente com menos de 5 anos de trabalho na empresa é igual a 5%. Cálcule a probabilidade de, em grupo de 6 funcionários novos: a) nenhum ser promovido a gerente b) pelo menos um ser promovido c) todos serem promovidos X ~ �� � 6; � � 5% � 0,05� Definamos a variável aleatória X como o número de funcionários promovidos. Então, 132 7/8/2021 67 Distribuição binomial Exemplo: X ~ �� � 6; � � 0,05� q r � � � 6� �0,05���1 ! 0,05����, � � 0,1,2,3,4,5,6. 133 Distribuição binomial Exemplo: a) nenhum ser promovido a gerente q r � 0 � 0,7351 b) pelo menos um ser promovido q r t 1 � q r � 1 �⋯� q�r � 6� �0,2648 c) todos serem promovidos q r � 6 � 0,000 134 7/8/2021 68 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 135 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35– Estatística Aplicada 136 7/8/2021 69 Modelos probabilísticos contínuos 137 Modelo normal 138 7/8/2021 70 Observamos a altura, em cm., de 1000 pessoas adultas selecionadas, aleatóriamente, de uma certa comunidade em Salvador. Modelo normal Exemplo O histograma mostra que a distribuição das alturas é simétrica em torno de 170 cm. 139 Muitos fenomenos aleatórios comportam-se de forma simétrica: Modelo normal Exemplo: De um certo grupo de indivíduos observa-se: � o peso � A pressão sanguínea � A idade � Etc… Podemos selecionar uma pessoa ao acaso, da população, e observar seu peso, ou sua idade, ou sua pressão sanguínea; caracterizando uma variável aleatória contínua, X. Qual é a distribuição de probabilidade de X? 140 7/8/2021 71 Uma variável aleatória X tem distribuição normal com parametro � e y� se sua função de densidade de probabilidade é Distribuição normal : � � 1y 2�' 7� ������� � ! ∞ � � � ∞ Notação: r ~ 8��; y�� Resultados: � Média: � � ~ r � Variância: y� � ) * r 141 Distribuição normal Propriedades: r ~ 8��; y�� � ~ r � �, ) * r � y� e �q r � σ � :��� → 0 quando � → �∞ � � � � ponto de máximo � � � y são pontos de inflexão de : � . 142 7/8/2021 72 Distribuição normal Exemplo Consideremos o evento: a pessoa selecionada aleatóriamente ter 180 cm ou menos, r R 180. Como encontrar a probabilidade do evento? q�r R 180� 143 Distribuição normal Exemplo Consideremos o evento: a pessoa selecionada aleatóriamente ter entre 160 cm e 180 cm.,160 � r R 180. Como encontrar a probabilidade do evento? q�160 R r R 180� 144 7/8/2021 73 Distribuição normal Exemplo Consideremos o evento: a pessoa selecionada aleatóriamente ter 180 cm. ou mais, r t 180. Como encontrar a probabilidade do evento? q�r t 180� 145 Distribuição normal padrão ¤ � r ! �y ~8�0,1� ~ ¤ � 0 ) * ¤ � 1 146 7/8/2021 74 Distribuição normal padrão Seja Z uma variável aleatória normal padrão, ¤~8�0,1�. Então, q � r � � � q ! �y � r ! �y � � ! �y ¤ q � r � � � q ! �y � ¤ � � ! �y Assim, Dada uma variável aleatória ¤~8 0,1 , podemos obter a variável aleatória X através da transformação inversa r � � � y¤ ¥� ¥� 147 Distribuição normal Exemplo Consideremos X uma variável aleatoria com distribuição normal com média 170 e desvio padrão 15. isto é, A probabilidade q r t 180 pode ser encontrada atraves: r ~ 8�� � 170;y� � 15�� q r t 180 � q r ! 17015 t 180 ! 17015 � q�¤ t 0,67� ¤ 148 7/8/2021 75 Distribuição normal Exemplo q r t 180 � q ¤ ! 17015 t 180 ! 17015 � q�¤ t 0,67� q r t 180 e q�¤ t 0,67� Como encontrar essa probabilidade? 149 Tabela da distribuição normal q r t 180 � q ¤ t 0,67 � 0,5 ! 0,2486 � 0.2514 150 7/8/2021 76 As vendas diárias de uma lanchonete seguem uma distribuição aproximadamente normal, com média R$400,00 e desvio padrão R$100,00. Cálcule a probabilidadede que em um determinado dia a lanchonete fature. Distribuição normal Exemplo � Entre R$450,00 e R$650,00. � Mais de R$500,00 � Menos que R$300,00 Seja X: vendas diarias da lanchonete r ~ 8�� � 400;y� � 100�� 151 Distribuição normal Exemplo � Entre R$450,00 e R$650,00. q 450 R r R 650 � q 450 ! 400100 R r ! 400100 R 650 ! 400100� q�0,50 R ¤ R 2,50�� q 0 R ¤ R 2,50 ! q 0 R ¤ R 0,5� 0,4946 ! 0,1915 � 0,3031 152 7/8/2021 77 Distribuição normal Exemplo q r g 500 � q r ! 400100 g 500 ! 400100� q ¤ g 1,0 � 0,5 ! q�0 � ¤ � 1,0� � Mais de R$500,00 � 0,5 ! 0,3413 � 0,1587 153 Distribuição normal Exemplo q r � 300 � q r ! 400100 � 300 ! 400100� q ¤ � !1,0 � q ¤ g 1,0 � 0,5 ! q�0 � ¤ � 1,0�� 0,5 ! 0,3413 � 0,1587 � Menos que R$300,00 154 7/8/2021 78 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 155 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35 – Estatística Aplicada 156 7/8/2021 79 Técnicas de amostragem 157 � População: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Congrega todas as observações que sejam relevantes para o estudo de uma ou mais características dos indivíduos (animados ou inanimados) � Amostra: um subconjunto de elementos extraídos de uma população � Censo: é uma coleção de dados relativos a todos os elementos de uma população � Parâmetro: qualquer medida estatística (e.g. média, mediana, moda, desvio padrão, variância, etc.) calculada com os dados da população � Estatística: medida estatística calculada com as informações obtidas a partir da amostra. Introdução Conceitos 158 7/8/2021 80 Introdução Etapas de uma análise estatística Reis et al. (2003) 159 � Métodos de Amostragem não Aleatória: Métodos ad-hoc de carácter pragmático ou intuitivo; possibilitam um estudo mais rápido e com menores custos; a inclusão de um elemento da população na amostra é determinada por um critério subjectivo. � Métodos de Amostragem Aleatória: todos os elementos da população poderem ser selecionados de acordo com uma probabilidade pré-definida. Técnicas de amostragem 160 7/8/2021 81 � Amostra intencional: os elementos da população são selecionados intencionalmente pelo investigador, porque este considera que esses elementos possuem características típicas ou representativas da população. Ex.: escolha de localidades “representativas” em tempo de eleições presidenciais � Amostra por conveniência: Os elementos são escolhidos por conveniência ou por facilidade. Um exemplo deste tipo de amostragem é o caso em que os espectadores de um determinado programa são convidados a responder a um questionário ou a votar em um concorrente preferido. As amostras obtidas desta forma não são representativas da população e, em geral, são enviesadas Técnicas de amostragem Métodos de Amostragem não Aleatória 161 � Amostra “snowball”: amostra intencional em que o pesquisador escolhe um grupo inicial de indivíduos e pede-lhes o nome de outros indivíduos pertencentes na mesma população. Ex.: fazer um questionário no facebook, aos amigos e amigos de amigos � Amostra por quotas: As amostras são obtidas dividindo a população por categorias ou estratos e selecionando um certo número (quota) de elementos de cada categoria de modo não aleatório. � Ex. Ao selecionar uma amostra de 20 pessoas de uma população com 60% mulheres e 40% homens, devem ser escolhidos 12 mulheres e 8 homens � Se durante a amostragem tivessem surgido 15 mulheres, 3 não seriam consideradas porque a quota era de 12 Técnicas de amostragem Métodos de Amostragem não Aleatória H H M H … M H M H H M 1º 2º 1ª 3º … 10ª 8º 11ª X X 12ª 162 7/8/2021 82 � Amostragem Aleatória Simples (com ou sem reposição): cada elemento da população tem igual probabilidade de pertencer à amostra � Exemplo: obter uma amostra, de 10%, representativa para a pesquisa da estatura de 90 alunos de uma escola. � 1º passo - Numerar os alunos de 1 a 90. � 2º passo - Escrever os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocar uma urna e, após mistura, retirar, um a um, os nove números que formarão a amostra. A seleção também pode ser realizada com a ajuda de um computador. � Resultado obtido (exemplo) = {aluno 20, aluno 27, aluno 15, aluno 56, aluno 81, aluno 12, aluno 66, aluno54, aluno 72} Técnicas de amostragem Métodos de Amostragem Aleatória – Amostragem Aleatória Simples 163 � Amostragem sistemática: selecionar os sujeitos a incluir na amostra utilizando um critério (um intervalo entre sujeitos selecionados)que é aplicado de forma sistemática a uma lista com os nomes dos sujeitos incluídos na população (por exemplo, uma lista telefónica, uma lista com o nome dos alunos de um curso, etc.) � Procedimento: � 1º) Considere “N” o tamanho da população e “n” o tamanho da amostra. Calcular o intervalo de amostragem, chamado “k”, através da fórmula “k = N/n”, sendo “k” igual ao número inteiro menor mais próximo ; Técnicas de amostragem Métodos de Amostragem Aleatória – Amostragem Sistemática � 2º) Sortear um número entre um e “k”, chamado “m”, sendo 0 < m ≤ k. Esse número “m” será o primeiro elemento da amostra. O segundo elemento da amostra será “m+k”; o terceiro elemento será “m+2k”; e assim sucessivamente, de forma sistemática. 164 7/8/2021 83 � Exemplo: Considere uma população constituída pelas 12 primeiras letras do alfabeto. Para obter uma amostra sistemática de 3 elementos/letras deve-se: � Considerar N=12 (dimensão da população), n=3 (dimensão da amostra) � Calcular k=N/n=12/3=4 (intervalo de amostragem � Sortear por amostragem aleatória simples uma das 4 primeiras letras, por exemplo m=2. Essa letra (a segunda) será o primeiro elemento da amostra � Depois, a partir dessa letra, contar k=4 e retirar a letra correspondente, a letra na posição m+k=2+4=6ª � Repetir o procedimento e retirar mais uma letra na posição m+2*k=2+2*4=10ª � A amostra, neste exemplo, terá as letras 2ª, 6ª e 10º, ou seja {B, F, J}. Técnicas de amostragem Métodos de Amostragem Aleatória – Amostragem Sistemática A B C D E F G H I J K L 165 � Amostragem Aleatória Estratificada: a população é dividida em estratos e, em cada estrato é realizada uma amostragem aleatória simples. Ex.: Intenção de voto antes das eleições. Técnicas de amostragem Métodos de Amostragem Aleatória – Amostragem Aleatória Estratificada Sexo População 10% Amostra Masc. 54 5.4 5 Fem. 36 3.6 4 Total 90 9.0 9 � Numerar os alunos de 01 a 90 (de 01 a 54 para os meninos e de 55 a 90 para as meninas) e proceder ao sorteio como na amostra aleatória simples. � Exemplo: obter uma amostra, de 10%, representativa para a pesquisa da estatura de 90 alunos de uma escola, supondo que 54 sejam meninos e 36 sejam meninas. São, portanto, dois estratos (sexo masculino e sexo feminino). 166 7/8/2021 84 � Amostragem Aleatória por Conglomerados: a população é dividida em grupos exaustivos e mutuamente exclusivos; uma amostra aleatória simples de grupos é realizada, e todos os elementos dos grupos selecionados são considerados na amostra. � Exemplo 1: escolher alguns municípios (grupos) e inquirir todos os habitantes desse município para reduzir custos de deslocação de uma amostragem aleatória simples � Exemplo 2: uma amostra de estudantes pode ser selecionada por uma amostra de escolas ou turmas Técnicas de amostragem Métodos de Amostragem Aleatória – Amostragem Aleatória por Conglomerados 167 � Amostras independentes � Não existe nenhum tipo de relação ou fator unificador entre os elementos das amostras, i.e. um determinado indivíduo não pode pertencer a mais do que uma amostra; � Exemplo: duas (ou mais) marcas comerciais; dois (ou mais) tratamentos clínicos; etc. � Amostras pareadas/emparelhadas � Quando as amostras são constituídas usando os mesmos sujeitos experimentais, e.g. quando uma variável é medida antes e depois de um determinado tratamento aos mesmos sujeitos; Técnicas de amostragem Métodos de Amostragem Aleatória � Exemplo: Medição da pressão arterial antes e depois de fazer exercício; Fazer o mesmo questionário aos mesmos indivíduos antes e depois de uma campanha publicitária; etc. 168 7/8/2021 85 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 169 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35 – Estatística Aplicada 170 7/8/2021 86 Inferência Estatística 171 � Estatística descritiva: consiste em um conjunto de métodos que ensinam a sumarizar uma quantidade de dados bastante numerosa em um número pequeno de medidas, substitutas e representantes daquela massa de dados � Estatística indutiva (ou inferência estatística): consiste em inferir (deduzir ou tirar conclusões a respeito das) propriedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida de incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria das Probabilidades. Introdução Áreas da Estatística 172 7/8/2021 87 Introdução Etapas de uma análise estatística Reis et al. (2003) Parâmetro População Amostra Média � r¦ Variância y� §� Desvio padrão y § 173 � Para amostras aleatórias simples (r�, r�, … , r�), retiradas de uma população com média � e variância y�, a distribuição amostral da média r¦ � r� � r� �⋯� r� � ∑ r����� aproxima-se de uma distribuição normal com média � e variância �� , quando tende ao infinito. � Desta forma, ~ r¦ � � e ) * r¦ � �� . � Assim, se r~8 �, y� , então r¦~̈8��, �� �, g 1. � Para padronizar a variável aleatória r¦, subtrai-se a média e divide-se pelo desvio padrão: ¤ � ©¦��ª «'¬ ~8 0,1 . Inferência Estatística Teorema Central do Limite – Distribuição amostral da média 174 7/8/2021 88 � Uma variável aleatória r tem distribuição normal com média 100 e desvio padrão 10. Se r¦ é a média de uma amostra de 16 elementos dessa população, calcule q�90 � r¦ � 110�. � Se r~8�100,100�, então r¦~8 �, �� ~8 100, ����� ~8 100, 6.25 � Assim, q 90 � r¦ � 110 � q ����ª «'¬ � ¤ � �����ª «'¬ � � q ������® ®®'¬ � ¤ � �������® ®®⁄ � q ����.� � ¤ � ���.� � � q�!4 � ¤ � 4� e 1.0 Inferência Estatística Distribuição amostral da média – Exemplo 175 � Consideremos que numa determinada população, a proporção de elementos que possuem uma determinada característica é �. � Sabemos então que a proporção de indivíduos que não possuem essa característica é 1 ! �. � Seja r a variável aleatória que conta o número de pessoas que possuem a característica de interesse. � Já vimos que essa variável aleatória tem uma distribuição Binomial, com média ~ r � � e variância ) * r � ��1 ! ��. � Definindo como �̂ a proporção de indivíduos portadores da característica na amostra, teremos que, para n suficientemente grande (teorema central do limite), a distribuição amostral da proporção �̂ será: �̂~8 �, ��1 ! �� Inferência Estatística Distribuição amostral da proporção 176 7/8/2021 89 � Sabe-se que 20% das peças de um lote são defeituosas. Sorteiam-se aleatoriamente 8 peças com reposição, e calcula-se a proporção �̂ de peças defeituosas na amostra. Qual será a distribuição de �̂? � Como vimos, �̂~8 �, ±���±�� , onde � � 20% � 0.20 e � 8. � Então, como ~ �̂ � � � 0.20 e ) * �̂ � ± ��±� � �.� ���.�� � 0.02, � Podemos dizer que �̂~8 0.20, 0.02 . Inferência Estatística Distribuição amostral da proporção – Exemplo 177 Inferência Estatística Estimação de parâmetros pontual (estatísticas) por intervalo (intervalos de confiança) Estimação População Amostra Distribuição da População Distribuição Amostral (valor fixo) (função da amostra) EstatísticaParâmetros Estimar � Estatística: é a variável aleatória que estima (pontualmente) um parâmetro (populacional). Por vezes é chamada simplesmente de estimador � Estimativa: é o valor do estimador obtido para uma amostra específica 178 7/8/2021 90 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data UniversidadeFederal da Bahia Paulo Canas Rodrigues 179 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35 – Estatística Aplicada 180 7/8/2021 91 Intervalos de Confiança 181 � Até ao momento calculámos uma estimativa do parâmetro desconhecido através de estimadores pontuais (as estatísticas), que especificam um único valor para o estimador � Por exemplo quando calculamos a média amostral �̅ da altura dos alunos de uma universidade considerando uma amostra de alunos, com o objetivo de estimar a média da altura da população � (todos os alunos dessa universidade) � Mas, este procedimento não nos permite julgar a possível magnitude do erro que estamos cometendo ao usar essa amostra e não outra. Pode assim, haver o interesse de se obter um indicador da precisão dessa estimativa. � Daí, surge a ideia de fazer a estimativa através de um intervalo de confiança, obtido através da amostra Intervalos de Confiança Introdução 182 7/8/2021 92 � O objetivo é construir o intervalo de confiança de tal forma que tenhamos uma probabilidade pequena de sortearmos amostras com erros não desejáveis � Ou seja, admitindo uma probabilidade de 10%, teremos 10% de amostras que gerarão estimativas cujo erro amostral superará o valor máximo admitido � Existirão, portanto, 90% de amostras cujas estimativas serão consideradas “boas”, isto é, cujos intervalos de confianças gerados a partir dessas amostras contenham o verdadeiro parâmetro populacional � Chama-se a esta probabilidade de nível de confiança, denotada de (1 ! ²) Intervalos de Confiança Introdução 183 � Usualmente considera-se um nível de confiança (1 ! ²) � 100% de 90%, 95% ou 99%, por exemplo � Considerando como interesse a estimação da média da população � através de um intervalo de confiança, ³# e ³§ os limites inferior e superior do intervalo de confiança, podemos dizer que � P LI � � � LS � 1 ! α � Ou seja, existe uma confiança de 1 ! α � 100% que a verdadeira média da população � está entre ³# e ³§ � E o intervalo }³#; ³§� é o intervalo aleatório com 1 ! α � 100% de confiança para a média populacional �. Intervalos de Confiança Introdução 184 7/8/2021 93 Intervalos de Confiança para a média ¶ 185 Passo 1: Variável aleatória de interesse � Pela distribuição amostral da média, se r~8 �, y� , entãor¦~̈8��, �� � � Padronizando a variável aleatória r¦ temos ¤ � ©¦��ª «'¬ ~8 0,1 � Esta é a variável aleatória que vamos usar para construir o intervalo de confiança Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) 186 7/8/2021 94 Passo 2: Quantis � Como a variável aleatória ¤~8 0,1 , vamos considerar o intervalo de valores de ¤, simétrico em torno da média, tal que a probabilidade de¤ assumir um valor nesse intervalo seja de (1 ! ² ), o nível de confiança, isto é q !¥� � ¤ � ¥� � 1 ! ² � A visualização no gráfico da distribuição de ¤~8 0,1 é a seguinte Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) -∞ +∞0 (0,1)N z0-z0 2 α 2 α 1 α− 187 Passo 3: Intervalo de confiança aleatório � Sabemos que q !¥� � ¤ � ¥� � 1 ! ² , e que ¤ � ©¦��ª «'¬ ~8 0,1 . Então: � q !¥� � ¤ � ¥� � 1 ! ² � �q !¥� � ©¦��ª «'¬ � ¥� � 1 ! ² � �q !¥� �' � r¦ ! � � ¥� �' � 1 ! ² � �q !r¦ ! ¥� �' � !� � !r¦ � ¥� �' � 1 ! ² � �q r¦ ! ¥� �' � � � r¦ � ¥� �' � 1 ! ² � Logo, #-��¹ � � r¦ ! ¥� � �' ; r¦ � ¥� � �' Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) Erro amostral 188 7/8/2021 95 Exemplo 1: Considere a variável aleatória r que representa a taxa de colesterol no plasma sanguíneo humano. Vamos supor que essa variável aleatória tem distribuição aproximadamente normal com média � e desvio padrão y � 20 �º/100�� de plasma. Com base em uma amostra de tamanho � 25, obteve-se uma média amostral �̅ � 198 �º/100��. Obtenha o intervalo de confiança para a média populacional �, considerando um nível de confiança 1 ! ² � 95%. � Passo 1: Como a variância populacional é conhecida, a variável aleatória de interesse é � ¤ � ©¦��ª «'¬ ~8 0,1 Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) 189 � Passo 2: Como ¤~8 0,1 , e 1 ! ² � 95%, Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) -∞ +∞0 (0,1)N z0-z0 1 ! ²� 0.95²2 � 0.052 � 0.025 ²2 � 0.052 � 0.025 � Considerando a tabela da distribuição normal (ou um software estatístico), podemos calcular ¥� � 1.96. � Portanto, os valores da distribuição 8 0,1 entre -1.96 e 1.96 correspondem a uma área de 0.95. 190 7/8/2021 96 Passo 3: Intervalo de confiança aleatório � Neste caso (variância populacional y� conhecida, o intervalo de confiança aleatório é #-��¹ � � r¦ ! ¥� � �' ; r¦ � ¥� � �' Passo 4: Intervalo de confiança � Substituindo os valores de �̅ � 198, y � 20, � 25 e ¥� � 1.96, obtemos: � #-�.�� � � �̅ ! ¥� � �' ; �̅ � ¥� � �' � � 198 ! 1.96 � ����' ; 198 � 1.96 � ����' � � 198 ! 7.84; 198 � 7.84 � � 190.16; 205.84 � Na prática, podemos que a verdadeira média populacional Está neste intervalo com 95% de confiança. Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) Erro amostral 191 Exemplo 2: Não se conhece o consumo médio de combustível de automóveis da marca T. Sabe-se, no entanto, que o desvio padrão do consumo de combustível de automóveis dessa marca é 10 km/l. Na análise de 100 automóveis da marca T, obteve-se consumo médio de combustível de 8 km/l. Encontre um intervalo de confiança para o consumo médio de combustível dessa marca de carro. Adote um coeficiente de confiança igual a 95%. � Passo 1: Como a variância populacional é conhecida, a variável aleatória de interesse é � ¤ � ©¦��ª «'¬ ~8 0,1 Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) 192 7/8/2021 97 � Passo 2: Como ¤~8 0,1 , e 1 ! ² � 95%, Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) -∞ +∞0 (0,1)N z0-z0 1 ! ²� 0.95²2 � 0.052 � 0.025 ²2 � 0.052 � 0.025 � Considerando a tabela da distribuição normal (ou um software estatístico), podemos calcular ¥� � 1.96. � Portanto, os valores da distribuição 8 0,1 entre -1.96 e 1.96 correspondem a uma área de 0.95. 193 Passo 3: Intervalo de confiança aleatório � Neste caso (variância populacional y� conhecida, o intervalo de confiança aleatório é #-��¹ � � r¦ ! ¥� � �' ; r¦ � ¥� � �' Passo 4: Intervalo de confiança � Substituindo os valores de �̅ � 8 , y � 10 , � 100 e ¥� � 1.96, obtemos: � #-�.�� � � �̅ ! ¥� � �' ; �̅ � ¥� � �' � � 8 ! 1.96 � �����' ; 8 � 1.96 � �����' � � 8 ! 1.96; 8 � 1.96 � � 6.04; 9.96 � Na prática, podemos que a verdadeira média populacional Está neste intervalo com 95% de confiança. Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) Erro amostral 194 7/8/2021 98 Exemplo 3: Deseja-se estimar o tempo médio de estudo (em anos) da população adulta de um município. Sabe-se que o tempo de estudo tem distribuição normal com desvio padrão y � 2.5 anos. Foram entrevistados � 25 indivíduos, obtendo-se para essa amostra, um tempo médio de estudo igual a 10,5 anos. Obter um intervalo de 90% de confiança para o tempo médio de estudo populacional. � Passo 1: Como a variância populacional é conhecida, a variável aleatória de interesse é � ¤ �©¦��ª «'¬ ~8 0,1 Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) 195 � Passo 2: Como ¤~8 0,1 , e 1 ! ² � 90%, Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) -∞ +∞0 (0,1)N z0-z0 1 ! ²� 0.90²2 � 0.102 � 0.05 ²2 � 0.102 � 0.05 � Considerando a tabela da distribuição normal (ou um software estatístico), podemos calcular ¥� � 1.65. � Portanto, os valores da distribuição 8 0,1 entre -1.65 e 1.65 correspondem a uma área de 0.90. 196 7/8/2021 99 Passo 3: Intervalo de confiança aleatório � Neste caso (variância populacional y� conhecida, o intervalo de confiança aleatório é #-��¹ � � r¦ ! ¥� � �' ; r¦ � ¥� � �' Passo 4: Intervalo de confiança � Substituindo os valores de �̅ � 10.5, y � 2.5, � 25 e ¥� � 1.65, obtemos: � #-�.�� � � �̅ ! ¥� � �' ; �̅ � ¥� � �' � � 10.5 ! 1.65 � �.���' ; 10.5 � 1.65 � �.��.�' � � 10.5 ! 0.825; 10.5 � 0.835 � � 9.675; 11.325 � Na prática, podemos que a verdadeira média populacional Está neste intervalo com 95% de confiança. Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸conhecida) Erro amostral 197 � A partir da relação ε � ¥� � �' , o tamanho da amostra pode ser calculado como � ¥�ε � y� � Para tal, é necessário conhecer o desvio padrão da população y, o erro amostral pretendido ¼ e o nível de confiança 1 ! ² para poder calcular¥�. Intervalos de Confiança para � Dimensionamento da amostra 198 7/8/2021 100 Exemplo 1: A renda per-capita domiciliar numa certa região tem distribuição normal com desvio padrão y � 250 reais e média � desconhecida. Se desejamos estimar a renda média � com erro ¼ � 50 reais e com uma confiança 1 ! ² � 95%, quantos domicílios devemos consultar? � Podemos calcular � � ½®¾ � y� � � � �.���� � 250� � � � 96.04 � Devem ser calculados � 97 domicílios. Intervalos de Confiança para � Dimensionamento da amostra - Exemplo 199 � No caso de não conhecermos a variância populacional y�, precisamos calcular a sua estimativa §� a partir da amostra, a variância amostral. � Sabemos que §� � ����∑ �� ! �̅ ����� � ����∑ ��� ! �̅����� � Também sabemos que se r~8 �, y� , então r¦~8��, �� � e, consequentemente, ¤ � ©¦��ª «'¬ ~8 0,1 . � Mas, como neste caso não conhecemos a variância populacional y�, a variável aleatória de interesse é ¤ � r¦ ! �§ '¬ ~6��� Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸ desconhecida e ¿ � ÀÁ) 200 7/8/2021 101 Distribuição t de Student � A distribuição 6 de Student tem apenas um parâmetro que representa o número de graus de liberdade � O gráfico desta distribuição é simétrico em torno do zero, e similar à curva da distribuição normal, mas um pouco mais “achatada” � De forma análoga à distribuição normal, as probabilidades da distribuição 6 de Student também podem ser calculadas através de uma tabela ou de um software estatístico. Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸ desconhecida e ¿ � ÀÁ) 201 Distribuição t de Student Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸ desconhecida e ¿ � ÀÁ) � Se Â~6�, q  g 2.306 � 0.025 � Se Â~6� e q  g 6� � 0.05, então 6� � 2.132 202 7/8/2021 102 Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸ desconhecida e ¿ � ÀÁ) Passo 3: Intervalo de confiança aleatório � Sabemos que q !6� � ¤ � 6� � 1 ! ², e que  � ©¦��à «'¬ ~6���. Então: � q !6� �  � 6� � 1 ! ² � �q !6� � ©¦��Ä «'¬ � 6� � 1 ! ² � �q !6� Å�' � r¦ ! � � 6� Å�' � 1 ! ² � �q !r¦ ! 6� Å�' � !� � !r¦ � 6� Å�' � 1 ! ² � �q r¦ ! 6� Å�' � � � r¦ � 6� Å�' � 1 ! ² � Logo, #-��¹ � � r¦ ! 6� � Å�' ; r¦ � 6� � Å�' Erro amostral 203 Exemplo 1: Considere a variável aleatória r que representa a taxa de colesterol no plasma sanguíneo humano. Suponhamos que, com base em uma amostra aleatória simples de � 25 indivíduos normais, um pesquisador obteve uma média amostral �̅ � 198 �º/100�� de plasma e um desvio padrão amostral % � 30 �º/100�� de plasma. Obtenha o intervalo de confiança para a média populacional �, considerando um nível de confiança 1 ! ² � 90%. � Passo 1: Como a variância populacional é desconhecida e � 30 , a variável aleatória de interesse é �  � ©¦��Ä «'¬ ~6��� Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸ desconhecida e ¿ � ÀÁ) 204 7/8/2021 103 � Passo 2: Como Â~6��� e 1 ! ² � 90%, Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸ desconhecida e ¿ � ÀÁ) � Considerando a tabela da distribuição 6 de Student (ou um software estatístico) com ! 1 � 25 ! 1 � 24, podemos calcular 6� � 1.711. � Portanto, os valores da distribuição 6 entre -1.711 e 1.711 correspondem a uma área de 0.90. -∞ +∞0 t0-t0 1 ! ²� 0.95²2 � 0.102 � 0.05 ²2 � 0.102 � 0.05 6��� 205 Passo 3: Intervalo de confiança aleatório � Neste caso (variância y� desconhecida e � 30 , o intervalo de confiança aleatório é #-��¹ � � r¦ ! 6� � Å�' ; r¦ � 6� � Å�' Passo 4: Intervalo de confiança � Substituindo os valores de �̅ � 198, y � 30, � 25 e 6� � 1.711, obtemos: � #-�.�� � � �̅ ! 6� � Æ�' ; �̅ � 6� � Æ�' � � 198 ! 1.711 � p���' ; 198 � 1.711 � p���' � � 198 ! 10.266; 198 � 10.266 � � 187.734; 208.266 � Na prática, podemos que a verdadeira média populacional Está neste intervalo com 90% de confiança. Intervalos de Confiança para � Intervalos de confiança para � (variância populacional ·¸ desconhecida e ¿ � ÀÁ) Erro amostral 206 7/8/2021 104 � Para �, variância conhecida: � ¤ � ©¦��ª «'¬ ~8�0,1�; � #-��¹ � � r¦ ! ¥Ç� � �' ; r¦ � ¥Ç� � �' � Para �, variância desconhecida e t 30: (pelo teorema central do limite) � ¤ � ©¦��Ä «'¬ ~̈8�0,1�; � #-��¹ � � r¦ ! ¥Ç� � Å�' ; r¦ � ¥Ç� � Å�' � Para �, variância desconhecida e � 30: �  � ©¦��Ä «'¬ ~6���; � #-��¹ � � r¦ ! 6Ç� � Å�' ; r¦ � 6Ç� � Å�' Intervalos de Confiança Intervalos de confiança para � – Resumo 207 Intervalos de Confiança para a diferença de médias ¶È ! ¶¸ 208 7/8/2021 105 � Para �� ! ��, variância conhecida: � ¤ � �©¦�©¦���������ª�« � ª��«�' ~8�0,1� � #-��¹ �� ! �� � �r¦�!r¦�� ! ¥Ç� � �� � ����' ; �r¦�!r¦�� � ¥Ç� � �� � ����' � Para �� ! ��, variância desconhecida: �  � �©¦�©¦���������«É Ä�Ê �«�É�Ä��«Ê«�É� �' « � «�' ~6������ � #-��¹ �� ! �� � Ë�r¦�!r¦�� ! 6Ç� � ��� Å�� ���� Å�������� �' �� � ���' ; �r¦�!r¦�� � 6Ç� � ��� Å�� ������Å�������� �' �� � ���' Ì Intervalos de Confiança para ¶È ! ¶¸ Intervalos de confiança para �È ! �¸ – Resumo 209 Intervalos de Confiança para a proporção Í 210 7/8/2021 106 � Já verificamos que �̂~8 �, ±���±�� � Padronizando a variável aleatória �̂ obtemos ¤ � ±Î�±Ï�ÉÏ�«' ~8 0,1 � Esta é a variável aleatória que vamos usar para construir o intervalo de confiança para a proporção populacional �. Intervalos de Confiança para Í Intervalos de confiança para Í 211 Passo 2: Quantis � Como a variável aleatória ¤~8 0,1 , vamos considerar o intervalo de valores de ¤, simétrico em torno da média, tal que a probabilidade de¤ assumir um valor nesse intervalo seja de (1 ! ² ), o nível de confiança, isto é q !¥� � ¤ � ¥� � 1 ! ² � A visualização no gráfico da distribuição de ¤~8 0,1 é a seguinte Intervalos de Confiança para Í Intervalos de confiança para Í -∞ +∞0 (0,1)N z0-z0 2 α 2 α 1 α− 212 7/8/2021 107 Passo 3: Intervalo de confiança aleatório � Sabemos que q !¥� � ¤ � ¥� � 1 ! ², e que ¤ � ±Î�±Ï�ÉÏ�«' ~8 0,1 . Então: � q !¥� � ¤ � ¥� � 1 ! ² � �q !¥� � ±Î�±Ï�ÉÏ�«' � ¥� � 1 ! ² � �q !¥� ±���±��' � �̂ ! � � ¥� ±���±��' � 1 ! ² � �q �̂ ! ¥� ±���±��' � � � �̂ � ¥� ±���±��' � 1 ! ² � Logo, #-��¹ � � �̂ ! ¥� � ±���±��' ; �̂ � ¥� � ±���±��' Intervalos de Confiança para Í Intervalos de confiança para Í Erro amostral 213 Exemplo: Entre 500 pessoas inquiridas sobre as suas preferências eleitorais, 260 mostraram-sefavoráveis ao candidato Y. Calcular um intervalo de confiança, com um nível de confiança de 90%, para a percentagem de eleitores favoráveis a Y. � Passo 1: Como a estamos interessados em um intervalo de confiança para a proporção populacional �, a variável aleatória de interesse é � ¤ � ±Î�±Ï�ÉÏ�«' ~8 0,1 Intervalos de Confiança para Í Intervalos de confiança para Í 214 7/8/2021 108 � Passo 2: Como ¤~8 0,1 , e 1 ! ² � 90%, Intervalos de Confiança para Í Intervalos de confiança para Í -∞ +∞0 (0,1)N z0-z0 1 ! ²� 0.90²2 � 0.102 � 0.05 ²2 � 0.102 � 0.05 � Considerando a tabela da distribuição normal (ou um software estatístico), podemos calcular ¥� � 1.64. � Portanto, os valores da distribuição 8 0,1 entre -1.64 e 1.64 correspondem a uma área de 0.90. 215 Passo 3: Intervalo de confiança aleatório � Neste caso, o intervalo de confiança aleatório é #-��¹ � � �̂ ! ¥� � ±���±��' ; �̂ � ¥� � ±���±��' Passo 4: Intervalo de confiança � Substituindo os valores de �̂ � ������ � 0.52, � 500 e ¥� � 1.54, obtemos: � #-�.�� � � �̂ ! ¥� � ±���±��' ; �̂ � ¥� � ±���±��' � � 0.52 ! 1.54 � �.�� ���.�����' ; 0.52 � 1.54 � �.������.������' � � 0.52 ! 0.034; 0.52 � 0.034 � � 0.486; 0.554 � Na prática, podemos que a verdadeira proporção populacional está neste intervalo com 90% de confiança. Intervalos de Confiança para Í Intervalos de confiança para Í Erro amostral 216 7/8/2021 109 � Para �: � ¤ � ±Î�±Ï�ÉÏ�«' ~8�0,1�; � #-��¹ � � �̂ ! ¥Ç� � ±���±��' ; �̂ � ¥Ç� � ±���±��' � Para �� ! ��: � ¤ � �±Î�±Î����±�±��±Î���±Î� « � «�' ~8�0,1�, �̂ � �±Î � ��±Î�� � �� ; � #-��¹ �� ! �� � Ë��̂� ! �̂�� ! ¥Ç� � �̂�1 ! �̂� �� � ���' ; ��̂� ! �̂�� � ¥¹� � �̂�1 ! �̂� 1 � � 1 �' Ð Intervalos de Confiança Intervalos de confiança para Í e para ÍÈ ! ͸ – Resumo 217 Relação entre nível de confiança, amplitude do intervalo de confiança e dimensão da amostra 218 7/8/2021 110 � Diminuindo o nível de confiança de 99% a 95%, aumentamos o risco de estar errados: de 1% de risco passamos a 5% de risco, ou seja temos mais possibilidades (5/100 em vez de 1/100) de que o intervalo de confiança não contenha a média populacional � Ao aumentar o risco (diminuir o nível de confiança), o intervalo deve ser mais preciso (menor amplitude) � Aumentar a dimensão da amostra resulta em um intervalo de confiança de menor amplitude Intervalos de Confiança Relações gerais 219 MATF35 – Estatística Aplicada Especialização em Ciência de Dados e Big Data Universidade Federal da Bahia Paulo Canas Rodrigues 220 7/8/2021 111 � 1. Análise Descritiva � 1.1. Medias de posição e dispersão � 1.2. Representação gráfica � 2. Probabilidade � 2.1. Conceitos de probabilidade e propriedades � 2.2. Variáveis aleatórias discretas e contínuas � 2.3. Principais modelos probabilísticos � 3. Inferência Estatística � 3.1. Estimação pontual � 3.2. Estimação intervalar � 3.3. Teste de hipóteses � 4. Noções de regressão linear � 4.1. Regressão linear simples � 4.2. Análise de variância � 5. Testes de hipóteses não paramétricos � 5.1. Teste qui-quadrado � 5.2. Teste de Mann-Whitney � 5.3. Teste de Kruskal Wallis MATF35 – Estatística Aplicada 221 Teste de Hipóteses 222 7/8/2021 112 � A inferência estatística inclui duas grandes áreas de interesse: � Estimação de parâmetros (pontual e intervalar) � Teste de hipóteses Teste de Hipóteses Introdução 223 � Exemplo: Considere que estamos interessados em estudar a duração de vida de uma população de componentes eletrônicas produzidas segundo determinada tecnologia. � Se pretendermos conhecer o tempo médio de duração de vida destas componentes eletrônicas, uma possível solução consistia em observar a duração de vida de componentes escolhidas ao acaso e calcular a media desses valores observados para estimar o verdadeiro valor do tempo médio de duração de vida destas componentes eletrônicas, ou obter um intervalo de confiança. � Se pretendermos testar se o tempo médio de duração de vida destas componentes eletrônicas ultrapassa um determinado valor de referência, tal pode ser feito através de testes de hipóteses, usando a amostra de n componentes escolhidas ao acaso. Teste de Hipóteses Introdução 224 7/8/2021 113 � Definição: Um Teste de Hipóteses é um procedimento que conduz a uma tomada de decisão, com base na informação fornecida pelos dados de uma amostra, sobre a aceitação ou a não aceitação de determinada hipótese estatística que se coloca sobre uma população. � É uma afirmação sobre uma população, e não sobre amostra! � Normalmente são formuladas duas hipóteses: � H�: (hipótese nula) que é a hipótese que que tem a igualdade � HÑ: (hipótese alternativa) que será aceita se não for possível provar que H� é verdadeira � Exemplo: � H�: mulheres vivem o mesmo ou mais que homens � HÑ: mulheres vivem menos que os homens Teste de Hipóteses Introdução 225 � As hipóteses podem ter várias formas: Teste de Hipóteses Introdução Teste 1. Bilateral 2. Unilateral H�: � � ��HÑ: � Ò �� 2.1. à esquerda 2.2. à direita H�: � t ��HÑ: � � �� H�: � R ��HÑ: � g �� � Onde �� é o valor numérico específico que está sendo considerado nas hipóteses nula e alternativa. 226 7/8/2021 114 � Ao nos decidirmos pela rejeição ou pela não rejeição de H0 podemos cometer dois tipos de erros: � Erro tipo I: rejeitar H0 quando H0 é verdadeira � Erro tipo II: não rejeitar H0 quando H0 é falsa Teste de Hipóteses Tipos de erros de decisão � A probabilidade de cometer o erro tipo I é denominada “nível de significância” e é denotada por ² � A probabilidade de cometer o erro tipo II é denotada por Ó Decisão H0 é verdadeira H0 é falsa Não rejeitar H0 Decisão Correta Erro tipo II Rejeitar H0 Erro tipo I Decisão Correta 227 � Regra de decisão ideal: conseguir que a probabilidade de cometermos estes erros seja nula � Problema: é impossível porque as probabilidades associadas a estes erros têm um sentido oposto de crescimento. Isto é, quando diminui uma das probabilidades de erro, aumenta a probabilidade do outro erro! � Objetivo: tentar manter o valor destas probabilidades num nível aceitavelmente pequeno. Teste de Hipóteses Tipos de erros de decisão � Procedimento: usualmente estabelece-se e fixa-se o valor da probabilidade do erro de tipo I num valor (pequeno) ² (0 � ² � 1) e então definir a regra de decisão que minimize a probabilidade do erro de tipo II. Usualmente ² � 0.05 �5%� ou ² � 0.01 �1%�. 228 7/8/2021 115 � Definição: A probabilidade de, sob a validade de H�, se observar um resultado amostral pelo menos tão extremo como o que foi observado é chamado de �-valor ou valor-� � O �-valor pode ser interpretado como o menor nível para o qual o valor observado da estatística de teste é significante � Regra de decisão: � Se �-valor g ², então não rejeitar H� � Se �-valor� ², então rejeitar H� Teste de Hipóteses p-valor 229 Teste de hipóteses para a média ¶ 230 7/8/2021 116 Exemplo 1 (teste de hipótese bilateral): Uma amostra de � 25 valores foi selecionada ao acaso, chegando-se a uma média amostral �̅ � 11,3. Poderia esta média amostral ter sido obtida de uma população com média � � 10 e variância y� � 16? Considere um nível de significância de 5%. � Passo 1: Hipóteses � H�: � � 10 (hipótese nula) � HÑ: � Ò 10 (hipótese alternativa) -> Teste bilateral � Passo 2: Estatística de teste � Como a variância populacional é conhecida, a estatística de teste é ¤ � ©¦��ª «'¬ ~8 0,1 Teste de hipóteses para � Teste de hipóteses para � (variância populacional ·¸ conhecida) 231 � Passo 3: Região crítica (ou região de rejeição, RR) � Como ¤~8(0,1), e ²=5%, Teste de hipóteses para � Teste de hipóteses para � (variância populacional ·¸ conhecida) -∞ +∞0 (0,1)N z0-z0 1 ! ²� 0.95²2 � 0.052 � 0.025 ²2 � 0.052 � 0.025 aceitação de H0 rejeição de H0 rejeição de H0 � ÔÔ �� !∞;!¥� ∪ ¥�; �∞} � ÔÔ �� !∞;!1.96 ∪ 1.96;�∞} � Considerando a tabela da distribuição normal (ou um software estatístico), podemos calcular¥� � 1.96. 232 7/8/2021 117
Compartilhar