Prévia do material em texto
ESTATÍSTICA PARA PROFESSORES UNIASSELVI-PÓS Autoria: Dionatan Miguel Fiorin Konageski Indaial - 2020 1ª Edição CENTRO UNIVERSITÁRIO LEONARDO DA VINCI Rodovia BR 470, Km 71, no 1.040, Bairro Benedito Cx. P. 191 - 89.130-000 – INDAIAL/SC Fone Fax: (47) 3281-9000/3281-9090 Reitor: Prof. Hermínio Kloch Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol Equipe Multidisciplinar da Pós-Graduação EAD: Carlos Fabiano Fistarol Ilana Gunilda Gerber Cavichioli Jóice Gadotti Consatti Norberto Siegel Julia dos Santos Ariana Monique Dalri Marcelo Bucci Revisão Gramatical: Equipe Produção de Materiais Diagramação e Capa: Centro Universitário Leonardo da Vinci – UNIASSELVI Copyright © UNIASSELVI 2020 Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri UNIASSELVI – Indaial. K82e Konageski, Dionatan Miguel Fiorin Estatística para professores. / Dionatan Miguel Fiorin Konageski. – Indaial: UNIASSELVI, 2020. 191 p.; il. ISBN 978-65-5646-148-9 ISBN Digital 978-65-5646-149-6 1. Estatística. - Brasil. Centro Universitário Leonardo Da Vinci. CDD 519.5 Impresso por: Sumário APRESENTAÇÃO ............................................................................5 CAPÍTULO 1 FUNDAMENTOS DA ESTATÍSTICA .................................................7 CAPÍTULO 2 PROBABILIDADE...........................................................................59 CAPÍTULO 3 AMOSTRAGEM E INFERÊNCIA ..................................................123 APRESENTAÇÃO A estatística surgiu com as necessidades do homem em registar o número de habitantes, nascimentos, óbitos, bens, animais, entre outros. Para Dugé de Bernonville podemos definir a Estatística como “um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos” (MARTINS; DONAIRE, 1990, p. 17). Com o passar dos anos esses processos foram ganhando uma maior ênfase, pois a partir do século XVII, tais fatos ganharam proporções científica, surgindo assim a Estatística. A principal importância da Estatística, está na coleta de informações que tem o objetivo de obter conclusões, assim como fazer uma inferência sobre futuros lançamentos, ou seja, a Estatística é muito mais do que uma construção de tabelas e gráficos, ela é um conjunto de técnicas que nos auxiliam a planejar experimentos, obter, organizar, analisar e interpretar dados. Quanto às aplicações da Estatística, podemos dizer que cobre todo a esfera do cotidiano, sendo as principais delas nas relações comerciais, financeiras, política, sociais. Sendo fundamental no campo da pesquisa e tomada de decisões. Assim, esse livro foi dividido em três capítulos. O primeiro capítulo fala sobre alguns conceitos básicos da Estatística, como os dados podem ser apresentados e as principais medidas estatísticas para a análise dos dados. O segundo capítulo trata sobre Probabilidade, uma valiosa ferramenta que mostra a possibilidade de ocorrer um determinado evento ou não. Isso aliado a estatística tem grande importância, pois ajuda na tomada de decisões., por exemplo, se um evento possui mais probabilidade de ocorrer as decisões tomadas em cima dele será diferente de um evento que tem menos probabilidade de acontecer. O terceiro capítulo aborda Amostragem e Inferência, ao qual veremos que amostragem é o processo que extrai elementos de uma população, através de cálculos de probabilidade ou não. Em seguida, é realizado um processo em que são tiradas conclusões em relação a toda uma população, porém os cálculos são realizados com uma amostra. Essa parte da estatística, denominamos de Inferência Estatística. CAPÍTULO 1 Fundamentos Da Estatística A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem: • Compreender as principais técnicas estatísticas utilizadas para análise de dados. • Construir uma distribuição de frequência, utilizando os principais métodos numéricos. • Analisar os dados através dos principais métodos numéricos. • Decidir sobre o tipo de teste estatístico mais adequado para o problema de pesquisa. 8 Estatística para professores 9 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 1 CONTEXTUALIZAÇÃO Neste capítulo abordaremos uma breve revisão, ou seja, os aspectos gerais para o entendimento da Estatística, que se obtém a partir da coleta de dados, organização dos dados, construção de tabela para organizar os dados, também chamada de distribuição de frequência. Organizado os dados estatísticos, devemos realizar a interpretação das tabelas, que exige cálculos além das medidas de tendência central (Média, Mediana e Moda). Esses, indicam o grau de variação dos valores com relação à sua média, ou seja, o distanciamento dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação. Outros cálculos importantes são chamados de medidas de dispersão ou medidas de variabilidade (Amplitude, Variância e Desvio Padrão). Portando, neste capítulo veremos as técnicas estatísticas usadas para extrair e retirar a maior quantidade de informações dos dados das organizações, a fim de ser realizado uma análise eficaz dos dados. Com isso teremos mais embasamento para decidir sobre que tipo de teste estatístico é mais adequando para resolver determinados problemas de pesquisa. 2 CONCEITOS ESTATÍSTICOS 2.1 PANORAMA HISTÓRICO DA ESTATÍSTICA A palavra Estatística vem da palavra “Estado”, pois é relacionada a expressões do latim statisticum collegium, que significa assuntos do Estado. Do alemão statistik, que é a análise de dados sobre o estado. Do italiano statista, que tem significado homem do Estado. A palavra foi proposta no século XVII por Schmeitzel na Universidade de Jena. E foi adotado pelo então acadêmico alemão Godofredo Achenwall em 1797 (SAMPAIO; DANELON, 2015). É difícil conhecer de fato as origens da estatística, mas estudiosos acreditam que existem desde o início da civilização, através de representações gráfica e símbolos usados em peles, pedras, paus, paredes para contar diferentes coisas como pessoas e animais (JUNIOR, 2015). Na Bíblia também existe relatos do início da Estatística, quando Deus manda Moisés numerar as tribos: “falou o Senhor a Moisés no deserto de Sinai, na tenda da congregação, no primeiro dia 10 Estatística para professores do segundo mês, no segundo ano da sua saída da terra do Egito, dizendo: tomai a soma de toda a congregação dos filhos de Israel, segundo as suas famílias, segundo a casa de seus pais, conforme o número dos nomes de todo o homem, cabeça por cabeça” (BÍBLIA, Números, 1:1-2). Por esses e outros fatos que a Estatística vem da palavra “Estado”, que tem a principal função de estabelecer registros de população, nascimento, óbitos, tributos, entre outros (JUNIOR, 2015). Na Tabela 1 a seguir podemos verificar como a história da estatística ocorreu a partir do século XVII: TABELA 1 – HISTÓRIA DA ESTATÍSTICA – LINHA DO TEMPO Contribuidor Período Contribuição John Graunt (1620 – 1674) Século XVII Estudou os registros de óbitos em Londres no início de 1600. Foi o primeiro a realizar observações estatísticas com base em quantidades massivas de dados; seu trabalho projetou a funda- ção para a estatística moderna. Blaise Pascal (1623 – 1662) Pierre de Fermat (1601 – 1665 Trocaram correspondências sobre problemas básicos de proba- bilidade, especialmente aqueles relacionados a apostas e jogos. Pierre Laplace (1749 – 1827) Século XVIII Estudou probabilidade e é creditada a ele a inserção da probabi- lidade em uma posição matemática. Carl Friedrich Gauss (1777 – 1855) Estudou regressão e método dos mínimos quadrados por meio da astronomia. Em sua honra, a distribuição normal, é às vezes, chamada de distribuição Gaussiana. Lambert Quete- let (1796 – 1874) Século XIX Usou estatísticadescritiva para analisar dados de crimes e mortalidade e estudou técnicas de censo. Descreveu distribuição normal em conexão com características humanas, como altura. Francis Galton (1822 – 1911) Usou regressão e correlação para estudar variação genética em humanos. A ele é creditada a descoberta do Teorema do Limite Central. 11 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Karl Person (1857 – 1936) Século XX (início) Estudou a seleção natural usando correlação. Formou o primeiro departamento acadêmico de estatística e ajudou a desenvolver a análise qui-quadrado. Willian Gosset (1876 – 1937) Estudou o processo de produção de cerveja e desenvolveu o tes- te-t para corrigir problemas relacionados a tamanhos pequenos de amostras. Charles Spe- arman (1836 – 1945) Psicólogo britânico que do um dos primeiros a desenvolver testes de inteligência usando análise de fatores. Ronald Fisher (1890 – 1962) Estudou biologia e seleção natural, desenvolveu a ANOVA, mos- trou a importância do planejamento experimental e foi o primeiro a identificar a hipóteses nula e alternativa. Frank Wilcoxon (1892 – 1965) Século XX Bioquímico que usou estatística para estudar patologias de plantas. Introduziu os testes de duas amostras, o que levou ao desenvolvimento de estatísticas não paramétricas. John Turkey (1915 – 2000) Trabalhou em Princenton durante a II Guerra Mundial. Apresen- tou técnicas de análise de dados exploratórias tais como diagra- mas ramo-e-folha. Também trabalhou nos Laboratórios Bell e é mais conhecido por seu trabalho com estatística inferencial. David Kendall (1918 - ) Trabalhou em Princenton e Cambridge. É a autoridade principal sobre probabilidade aplicada e análise de dados. FONTE: Adaptado de Larson e Farber (2010, p. 28) Completando o que a Tabela 1 nos diz, no século XIX a Estatística entra em uma nova fase do seu desenvolvimento com a generalização de métodos para estudar os fenômenos naturais e sociais. Francis Galton (século XIX) e Karl Pearson (século XX) podem ser considerados pais da Estatística, pois são eles que impulsionam mudanças da Estatística dedutiva para a Estatística indutiva. Os conceitos básicos, algumas das metodologias da Estatística e muitos dos métodos de inferência que conhecemos hoje são devidos a Ronald Fisher (início do século XX). Que seguindo os passos de Galton no século XIX, deu ênfase à pesquisa Estatística que culminaram na publicação do trabalho de Métodos Estatísticos para a pesquisa (CRUZ, 2016). Com o surgimento e popularização dos computadores, a partir do século XX, inicia um novo ciclo chamada de Estatística Moderna. As técnicas de computação aplicadas a grande quantidade de dados, e o método estatístico começam a ser considerado como um processo interativo de busca pelo modelo ideal (IGNÁCIO, 2010). 12 Estatística para professores 2.2 DEFINIÇÃO DE ESTATÍSTICA É o conjunto de métodos e procedimentos que envolvem coleta, apresentação, gerenciamento, análise e interpretação dos dados. A partir desses procedimentos é possível se tirar conclusões sobre os dados ou estimar futuras decisões. Podemos classificar a Estatística em dois ramos: descritiva e inferencial. Estatística Descritiva: é aquela usada na organização, resumo, representação e análise dos dados. Estatística Inferencial: é aquela que possibilita estimar uma característica de uma população através de uma amostra. Em outras palavras, consiste em testar hipóteses e tomar decisões com base nos resultados obtidos. Desta forma a probabilidade é uma ferramenta básica para o estudo deste ramo da Estatística. Agora daremos algumas definições formais de alguns termos básicos, que serão abordados no andamento do livro. População: é o grupo que abrange todos os elementos cujas características queremos estudar, ou seja, é todo o conjunto no qual se deseja tirar conclusões. As populações podem ser finitas, ou infinitas. Amostra: é um conjunto de elementos selecionados de uma população de acordo com um plano e ação previamente estabelecido por uma amostragem, para obter informações que podem ser estendidas para toda a população. Censo: é o estudo de todos os elementos de uma população. Essa condição significa que esses tipos de estudos não são muito frequentes, pois a coleta de todas as informações de uma população muito grande é um trabalho difícil e caro. 13 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Amostragem: é a técnica que nos permite selecionar amostras adequadas de uma população estudada. A amostragem deve levar à obtenção de uma amostra representativa da população de onde provém, essa condição estabelece que cada elemento da população tem a mesma probabilidade de ser incluído na amostra. Parâmetro: são as medidas numéricas que descrevem alguma característica de uma população. Normalmente são representadas pelas letras gregas. Exemplo: desvio padrão ( ) Variáveis: é, convencionalmente, o conjunto de resultados possíveis de um fenômeno de uma população ou amostra que será estudado. Esse conjunto de resultados obtidos no estudo estatístico vêm de variáveis que são determinadas com o interesse nos elementos das observações. E essas variáveis são classificadas em dois grupos: • Variáveis Qualitativas: consistem em uma classificação, imensuráveis, ou seja, não pode ser medido com números. São divididas e dois subgrupos: o Variável Qualitativos Nominal: Essa classificação independe da ordem. o Variável Qualitativos Ordinal: Essa classificação depende da ordem. • Variáveis Quantitativa: consiste em uma classificação que pode ser medida com números. As variáveis quantitativas também são divididas em dois subgrupos: o Variáveis Quantitativa Discreta: é uma variável que só assume valores inteiros. o Variáveis Quantitativa Contínua: é uma variável que só assume valores decimais. Na Figura 1, temos um esquema que sintetiza os tipos de variáveis. 14 Estatística para professores FIGURA 1 - VARIÁVEIS QUALITATIVAS E QUANTITATIVAS FONTE: O autor 2.3 FASES DO MÉTODO ESTATÍSTICO O método estatístico, parte da observação dos dados com o intuito de descobrir em forma de valores o que está acontecendo com eles, através de uma análise nas observações e nas suas variações. O método estatístico segue as seguintes etapas para o planejamento da investigação: i. Definição do problema: Definir o que se pretende investigar, além de fazer uma revisão bibliográfica do assunto a ser investigado; ii. Estabelecendo os objetivos: Definir onde queremos chegar; iii. Formulação de uma hipótese: Através de uma revisão bibliográfica, fazer uma explicação provisória dos fatos do objeto de estudo, ou seja, uma formulação do conhecimento de algum pesquisador que investigou a população de estudo; 15 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 iv. Planejamento: Determinar quais os processos necessários para resolver o problema, tais como: tipo de pesquisa, cronograma, custo, entre outros; v. Coleta dos dados: Consiste em obter os dados. Para isso existem duas maneiras: coletar os próprios dados (dados primários), e a segunda é usar dados de terceiros (dados secundários); vi. Classificação dos dados: Depois da coleta dos dados, é essencial classificar os dados a fim de detectar respostas falsas e incompreensão das perguntas. Para isso é importante ter conhecimento da população; vii. Tabulação dos dados: Consiste em um resumo das informações coletadas, através de contagem e agrupamento; viii. Apresentação dos dados: É a fase em que vamos mostrar os resultados obtidos, podendo ser de forma tabular e/ou gráfica. Sendo assim, as informações estatísticas adquirem mais clareza quando apresentadas de forma adequada; ix. Análise e interpretação dos dados: Esta é a fase de determinação dos parâmetros e da amostra, para estimativas e inferências sobre apopulação, ajuste de modelo e teste de hipóteses, a fim de estabelecer e escrever conclusões finais; x. Publicação: Toda pesquisa é digna de ser exposta a demais estudiosos do assunto, tanto para aqueles que buscam conhecimento, como para aqueles que possuem outro ponto de vista sobre o assunto. 2.4 DISTRIBUIÇÃO DE FREQUÊNCIA Distribuição de frequência pode ser apresentada em tabelas ou gráficos, ou seja, um resumo dos dados, para que de forma geral, seja possível visualizar de forma panorâmica os dados e assim estabelecer conclusões sobre o seu comportamento (valores centrais, variabilidade, simetria em relação aos valores centrais). Temos duas classificações de uma distribuição de frequência: 1º - Distribuição de Frequência sem intervalo de classes A frequência está relacionada com um número real, como podemos analisar na Tabela 2. 16 Estatística para professores TABELA 2 - DISTRIBUIÇÃO DA ESTATURA (CM) DOS ALUNOS FONTE: Disponível em: <https://pt.slideshare.net/DanielaGomes5/ resumo-aulas-daniela-gomes>. Acesso em: 15 fev. 2020. 2º - Distribuição de Frequência com intervalo de classes A frequência está relacionada com um intervalo de números. A representação por intervalo mais usada é do tipo fechado a esquerda e aberto na direita, ao qual representamos pelo símbolo |—. Na Tabela 3, por exemplo o intervalo 150 |— 154 é um intervalo fechado à esquerda e aberto à direita, ou seja: 150 ≤ x < 154. TABELA 3 - DISTRIBUIÇÃO DA ESTATURA (CM) DOS ALUNOS FONTE: Disponível em: <https://pt.slideshare.net/DanielaGomes5/ resumo-aulas-daniela-gomes>. Acesso em: 15 fev. 2020. 2.5 ARREDONDAMENTO DE NÚMEROS Uma importante ferramenta na estatística é o método de arredondamento dos números não inteiros. Para realizarmos o arredondamento, precisamos saber se o número será arredondado para um número inteiro, decimal, centesimal etc. 17 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Essa regra do arredondamento por ser conhecida e de fácil acesso, faremos seu estudo pelo texto de origem do Conselho Nacional de Estatística, no ano de 1967. Vamos lá! Quando o primeiro algarismo a ser abandonado for, 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer. Exemplo: 48,23 passa a 48,2. Quando o primeiro algarismo a ser abandonado for 6, 7, 8 ou 9, aumenta-se de uma unidade o último algarismo a permanecer. Exemplos: 23,07 passa a 23,1 34,99 passa a 35,0 Quando o primeiro algarismo a ser abandonado for 5, haverá duas soluções: a) como regra geral. Exemplo: 12,502.52 passa a 12,503 b) se ao 5 só se seguirem zeros, o último algarismo a ser conservado só será aumentado se for ímpar. Exemplos: 24,750000 passa a 24,8 24,650000 passa a 24,6 São de evitar os arredondamentos sucessivos, e fica recomendada a volta aos dados originais caso se proceda a novo arredondamento. Exemplo: 17,444 .52 para 17,4 ou para 17 e não para 17,445 para 17,45 para 17,5 para 18 Disponível em: <https://biblioteca.ibge.gov.br/biblioteca- catalogo?id=282497&view=detalhes>. Acesso em: 16 jan. 2020. 18 Estatística para professores 2.6 ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA Conceituaremos os elementos de uma distribuição de frequência no decorrer de um exemplo. Através de um levantamento de dados medimos às estaturas de 23 alunos de uma turma do 9º ano do ensino fundamental de uma escola do Vale do Itajaí em Santa Catarina, resultando assim, a Tabela 4 de valores em centímetros (cm). TABELA 4 - ESTATURA DE 23 ALUNOS 155 149 163 157 143 145 160 167 150 154 171 143 163 153 172 152 153 153 172 168 160 142 165 FONTE: O autor Essa Tabela 4, cujos dados não foram organizados numericamente, é chamado de tabela primitiva. A esse tipo de tabela percebemos a dificuldade que temos de averiguar os dados, como qual é a menor e maior valor. Uma maneira de organizar os dados é ordená-los em ordem crescente ou decrescente, podendo ser por meio da Tabela 5, ou simplesmente um ao lado do outro. TABELA 5 - ESTATURA DE 23 ALUNOS, ORGANIZADOS EM ORDEM CRESCENTE 142 143 143 145 149 150 152 153 153 153 154 155 157 160 160 163 163 165 167 168 171 171 171 FONTE: O autor 19 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Chamamos os dados com essa organização de ROL. Mesmo assim, percebemos que o processo é inconveniente, pois exige muito espaço. Assim, o agrupamento dos valores em intervalos é mais aceitável. Em Estatística, chamamos esses intervalos de classes, que são representadas por i, sendo i = 1 ,2,3, ...., k. Em que k é o número total de classes da distribuição. Para determinar o número de classes de uma distribuição de frequência, podemos utilizar, conforme Crespo (2009, p. 53): • Regra de Sturges: • Regra da raiz quadrada: Assim no nosso exemplo, utilizamos a regra de Sturges: Obtemos que a nossa distribuição de frequência terá 5 intervalos de classe (pela regra do arredondamento), ou seja, k = 5. Agora, resta-nos descobrir o tamanho desses intervalos de classes, também chamado de Amplitude de um intervalo de classe (ao qual veremos na sequência). Para isso, vamos definir alguns conceitos. • Limite inferior da classe (li): É o menor número da classe. • Limite superior da classe (Li): É o maior número da classe. Amplitude Total: é a diferença entre o limite superior da última classe e o limite inferior da primeira classe, Amplitude de um intervalo de classe (h): É a diferença entre os limites superior e inferior dessa classe, ou pode ser obtido dividindo a amplitude total pelo número de classes. 20 Estatística para professores Observação: Quando o resultado não for exato, devemos arredondá-lo para mais. Assim, a amplitude do intervalo de cada classe do nosso exemplo é: que conforme a observação será h = 6. • Frequência absoluta (fi): é a quantidade de ocorrência dos valores de um intervalo de classe. A soma das frequências simples é igual ao número total dos dados, ou seja, Agora, temos dados suficiente para construirmos nossa distribuição de frequência com intervalo de classes, conforme podemos visualizar na Tabela 6: TABELA 6 - DISTRIBUIÇÃO DE FREQUÊNCIA DA ESTATURA DE 23 ALUNOS i Estaturas (cm) Frequência (fi) 1 142 |— 148 4 2 148 |— 154 6 3 154 |— 160 3 4 160 |— 166 5 5 166 |— 171 5 FONTE: O autor Além dos elementos vistos anteriormente, temos: • Ponto médio de uma classe (xi): é a soma dos limites inferiores e superiores de um intervalo de classe, dividida por dois. Exemplo: no primeiro intervalo de classe da Tabela 5, temos que o ponto médio é: 21 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Frequências relativas (fri): é a porcentagem dos dados que estão em um intervalo de classe, ou seja, é a razão entre a frequência do intervalo de classe e o tamanho total da amostra. Exemplo: a frequência relativa no segundo intervalo de classe da Tabela 6 é: ou 26,08% Frequência acumulada (Fi): é a soma da frequência absoluta de uma classe com a frequência absoluta das classes anteriores. Assim no nosso exemplo da Tabela 6, temos que a Frequência acumulada do segundo intervalo é . Do terceiro intervalo é . E assim sucessivamente. • Frequência acumulada relativa (Fri): é a razão da frequência acumulada pelo tamanho total da amostra. Da Tabela 6, temos que a Frequência acumulada relativa do terceiro intervalo é . Considerando a Tabela 6, podemos montar a Tabela 7 com as frequências estudadas: TABELA 7 - DISTRIBUIÇÃO DE FREQUÊNCIA DA ESTATURA DE 23 ALUNOS i Estaturas (cm) fi x1 fri Fi Fri 1 142 |— 148 4 145 17,39% 4 17,39% 2 148 |— 154 6 151 26,09% 10 43,48% 3 154 |— 160 3 157 13,04% 13 56,52% 4 160 |— 166 5 163 21,74% 18 78,26% 5 166 |— 172 5 169 21,74% 23 100% FONTE: O autor 22 Estatística para professores Algumas análises das distribuições de frequências podem ser analisadas para ter certeza de que não existiriam erros nos cálculos:1º - 2º - 3º - O último valor do intervalo de classe da Frequência acumulada (Fi) é igual a 4º - O último valor do intervalo de classe da Frequência acumulada relativa (Fri) é igual a 100%. 1 Com base nas variáveis estatísticas, associe os itens utilizando o código a seguir: I- Variável quantitativa discreta. II- Variável quantitativa contínua. III- Variável qualitativa nominal. IV- Variável qualitativa ordinal. ( ) Número de alunos de uma turma. ( ) Estatura das pessoas. ( ) Peso das pessoas. ( ) Notas numéricas da disciplina de Estatística. ( ) Classificação em um processo seletivo. ( ) Sexo. ( ) Cor dos cabelos de uma mulher. ( ) Produção de soja no Rio Grande do Sul. ( ) Cor dos olhos das pessoas. ( ) Funcionários de uma empresa. ( ) Peças produzidas por uma máquina. ( ) Títulos de um clube de futebol. Assinale a alternativa que apresenta a sequência CORRETA: a) ( ) I – II – II – III – IV – I – II – IV – III – I – II – I. b) ( ) I – II – II – II – IV – III – III – II – III – I – I – IV. c) ( ) I – II – III – IV – IV – III – I – II – III – III – I – IV. d) ( ) II – I – II – II – III – III – III – II – IV – II – II – I. 23 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 2 Usando a regra do arredondamento, aproxime esses resultados para um número inteiro: a) 100,95 b) 28,5 c) 1,5 d) 7,88 e) 26,54 f) 23,4 g) 119,18 h) 16,391 i) 13,26 j) 15,92 3 Usando a regra do arredondamento, aproxime esses resultados para um número decimal: a) 10,835 b) 23,056 c) 123,6501 d) 48,850 e) 0,892 f) 78,95 g) 10,25 h) 199,973 4 Usando a regra do arredondamento, aproxime esses resultados para um número centesimal: a) 46,72 b) 253,4562 c) 0,862 d) 299,951 e) 37,419 f) 1,0835 g) 123,842 h) 9,51903 i) 28,235 j) 10,215 24 Estatística para professores 5 Arredonde os números, conforme estão sendo indicados: a) 47,8 (unidade) b) 37,257 (décimo) c) 37, 257 (centésimo) d) 7,314 (centésimo) e) 2,484 (décimo) f) 136,5 (unidade) g) 0,0435 (milésimo) h) 4,50001 (unidade) i) 5,56500 (centésimo) j) 5,56501 (centésimo) 6 Os pesos de 50 alunos de uma classe estão descritos abaixo em Kg: 69 ‘71 85 49 55 62 71 86 97 110 71 85 51 56 73 69 67 85 65 54 53 74 78 73 53 72 73 84 85 80 70 60 92 54 71 55 83 80 74 89 48 54 64 74 84 71 89 59 58 57 Pede-se: a) Dispor os dados em Rol. b) Construir uma distribuição de frequência utilizando a regra de Sturges, com as colunas do: ponto médio; frequência relativa; frequência acumulada; frequência acumulada relativa. 3 CONCEITOS ESTATÍSTICOS 3.1 SÉRIES ESTATÍSTICAS Vimos até agora como construir uma tabela, com ênfase em uma distribuição de frequência. Agora, vamos relembrar que existem tipos específicos de classificações de tabelas/distribuição de frequência. Essas tabelas são conhecidas como séries estatísticas. Denominamos série estatística toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. Daí, podemos inferir que numa 25 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 série estatística observamos a existência de três elementos ou fatores: o tempo, o espaço e a espécie. Conforme varie um dos elementos da série, podemos classificá-la em histórica, geográfica e específica (CRESPO, 2009, p. 18-19). 3.1.1 Séries Históricas, cronológicas ou temporais “Descrevem os valores da variável, em determinado local, discriminados segundo intervalos de tempo variável” (CRESPO, 2009, p. 19). 3.1.2 Séries Geográficas, espaciais, territoriais ou de Localização “Descrevem os valores da variável, em determinado instante, discriminados segundo regiões” (CRESPO, 2009, p. 19). 3.1.3 Séries específicas ou categóricas “Descrevem os valores da variável, em determinado tempo e local, discriminados segundo especificações ou categorias” (CRESPO, 2009, p. 20). 3.1.4 Séries conjugadas Consistem em uma combinação de duas séries (temporal, geográfica ou específica). 3.2 REPRESENTAÇÕES GRÁFICAS Depois de construir a tabela de distribuição de frequência, existem muitas formas gráficas de representar os dados. Essas representações permitem visualizar de forma rápida as informações coletadas. O tipo de representação depende da variável em estudo, vejamos os principais tipos de gráficos: 26 Estatística para professores • Gráfico em barras e em colunas: é um tipo de gráfico que consiste em dois eixos, dos quais um representa a variável discretas de estudo e o outro representa a frequência absoluta (com poucos valores) dessa variável. Assim, se as frequências são marcadas na vertical, o gráfico será de colunas, conforme podemos ver no Gráfico 1. Por outro lado, se a frequência estiver no eixo horizontal, o gráfico será de barras, conforme podemos visualizar no Gráfico 2. Lembrando que os espaços entre os retângulos deve ser uniforme. GRÁFICO 1 - EXEMPLO DE GRÁFICO DE COLUNAS GRÁFICO 2 - EXEMPLO DE GRÁFICO DE BARRAS FONTE: Disponível em: <https://educa.ibge.gov.br/professores/educa-recursos/20773- tipos-de-graficos-no-ensino.html#texto--single__section--2>. Acesso em: 9 fev. 2020. FONTE: Disponível em: <https://educa.ibge.gov.br/professores/educa-recursos/20773- tipos-de-graficos-no-ensino.html#texto--single__section--2>. Acesso em: 9 fev. 2020. 27 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 • Gráficos em setores: é um tipo de gráfico que é apresentado na forma de uma pizza (círculo), conforme podemos visualizar no Gráfico 3, ao qual existem divisões ou setores (proporcionais à frequência) que representam diferentes variáveis qualitativas ou quantitativas, que podem ser comparadas as fatias da pizza. São usados para mostrar o comportamento de frequência absolutas ou relativas. GRÁFICO 3 - EXEMPLO DE GRÁFICO DE BARRAS FONTE: Disponível em: <https://educa.ibge.gov.br/professores/educa-recursos/20773- tipos-de-graficos-no-ensino.html#texto--single__section--2>. Acesso em: 9 fev. 2020. • Gráfico em linhas ou em curva: é um gráfico que mostram tendência ou alterações ao longo de um período (localizado no eixo horizontal), e sua respectiva frequência absoluta (localizada no eixo vertical), ao qual forma uma série de pontos que são conectados por uma linha (reta ou curva), ao qual podemos visualizar no Gráfico 4. 28 Estatística para professores GRÁFICO 4 - EXEMPLO DE GRÁFICO DE LINHAS OU CURVA FONTE: Disponível em: <https://educa.ibge.gov.br/professores/educa-recursos/20773- tipos-de-graficos-no-ensino.html#texto--single__section--2>. Acesso em: 9 fev. 2020. • Gráficos de Pictograma: é um gráfico em que a frequência absoluta é representada por meio de uma figura ou desenho que identifique a variável em estudo, conforme o Gráfico 5. GRÁFICO 5 - EXEMPLO DE GRÁFICO DE PICTOGRAMA FONTE: Disponível em: < https://bloginformaticamicrocamp.com.br/excel/ como-criar-um-pictograma-no-excel/>. Acesso em: 9 fev. 2020. 29 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 • Cartograma: é um mapa no qual são representadas algumas variáveis sobre uma carta geográfica, conforme podemos ver no Gráfico 6. GRÁFICO 6 - EXEMPLO DE CARTOGRAMA FONTE: Disponível em: < https://docplayer.com.br/68231507-No- mundo-dos-graficos-ii.html>. Acesso em: 9 fev. 2020. • Gráfico Polar: é um método gráfico que exibe uma série de variáveis agrupadas por categoria em um círculo de 360º. Os valores são representados pela posição do ponto em relação ao centro do círculo e quanto mais distante o ponto do centro, maior será o seu valor, conforme o Gráfico 7. GRÁFICO 7 - EXEMPLO POLAR FONTE: Disponível em: < http://teresamariaiglesias.blogspot.com/2007/12/ grafico-polar-de-1960-1995.html>. Acesso em: 9 fev. 2020. 30 Estatística para professores • Ogiva: é um gráfico do tipo linear que forma uma linha poligonal aberta, representado por segmento retos que se unemsequencialmente nos pontos gerados, ao qual podemos visualizar no Gráfico 8. É um gráfico usado para mostrar como as frequências se acumulam, e é obtida juntando os pontos formados pelos limites superiores ou limites inferiores de cada intervalo com a frequência absoluta ou relativa acumulada do respectivo intervalo. GRÁFICO 8 - EXEMPLO DE OGIVA FONTE: Disponível em: < https://www.ensinoeinformacao.com/ estatist-prob-curso-distr-freq >. Acesso em: 9 fev. 2020. • Diagrama de dispersão: é um gráfico que permite visualizar a relação de duas variáveis de estudo, sendo a primeira independente (localizada no eixo horizontal) e a outra dependente da primeira (representada no eixo vertical). Os valores são apresentados por pontos no plano, ao qual não são unidos por retas, ao qual podemos visualizar no Gráfico 9. 31 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 GRÁFICO 9 - EXEMPLO DE DIAGRAMA DE DISPERSÃO FONTE: Disponível em: < https://www.gradusct.com.br/ grafico-de-dispersao/ >. Acesso em: 9 fev. 2020. • Diagrama de Ramo-e-Folha: É um gráfico que representa dados quantitativos, que são separados cada valor em duas partes: o ramo (as estradas dos dígitos na extremidade esquerda) e a folha (com o dígito mais à direita). Você deve ter tantas folhas quanto entradas no conjunto de dados originais, conforme podemos ver no Gráfico 10. A sua maior vantagem é que esse diagrama contém os valores originais dos dados, assim como fornece uma maneira rápida de classificar os dados. GRÁFICO 10 - EXEMPLO DE DIAGRAMA DE RAMO-E-FOLHA FONTE: Disponível em: <https://sabermatematica.com.br/exercicios- resolvidos-diagrama-de-ramos-e-folhas.html>. Acesso em: 9 fev. 2020. 32 Estatística para professores Vimos os principais tipos de gráficos utilizados para apresentar os dados estatísticos. Veremos agora, os gráficos mais frequentes e mais utilizados para representar uma distribuição de frequência. São eles: • Histograma: esse é um gráfico composto por uma sucessão de retângulos (próximos um do outro), onde cada um representa uma variável de estudo, com a condição de que a área de cada um deles seja igual ou proporcional a frequência de cada intervalo da variável de estudo, que está localizada no eixo horizontal e a frequência (absoluta ou relativa) está localizada no eixo vertical, conforme podemos visualizar no Gráfico 11. Quando os intervalos de classe são iguais para todas as categorias, a altura de cada retângulo será igual a frequência da classe. GRÁFICO 11 - EXEMPLO DE HISTOGRAMA FONTE: Disponível em: <https://certificacaoiso.com.br/o- que-e-histograma/>. Acesso em: 9 fev. 2020. • Polígono de frequência: é um gráfico que consiste em um diagrama de segmentos retos articulados nos pontos gerados pela variável de estudo (localizada no eixo horizontal) e sua respectiva frequência absoluta ou relativa (localizada no eixo vertical). O gráfico é concluído quando o polígono é fechado com o eixo horizontal e sua principal característica é que a área sob eles e o eixo horizontal é igual ou proporcional ao total da frequência absoluta, além de mostrar a tendência central da variável. Determinamos o seu gráfico juntando os pontos médios superiores de cada retângulo do histograma. Um exemplo de Polígono de Frequência, pode ser observado no Gráfico 12. 33 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 GRÁFICO 12 - EXEMPLO DE UM POLÍGONO DE FREQUÊNCIA FONTE: Disponível em: <http://alexandreprofessor.blogspot. com/p/graficos.html>. Acesso em: 9 fev. 2020. Vale a pena pesquisar como construir diferentes tipos de gráficos em softwares. Para isso recomendamos a leitura do material: “Estatística com Excel: Uma aplicação das noções” do autor Luís Miguel Cunha. Disponível em: <http://portaldoprofessor.mec.gov.br/ storage/materiais/0000012208.pdf>. Acesso em: 11 fev. de 2020. 1 Descreva o que é série estatística. R.:____________________________________________________ ____________________________________________________ ____________________________________________________ 2 Como são classificas as séries estatísticas? R.:____________________________________________________ ____________________________________________________ ____________________________________________________ 34 Estatística para professores 3 O que é um histograma? R.:____________________________________________________ ____________________________________________________ ____________________________________________________ 4 O que são diagramas? Defina o diagrama de ramo-e-folha e justifique a sua importância? R.:____________________________________________________ ___________________________________________________ ___________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 5 O que é um polígono de frequência? R.:_______________________________________________ _______________________________________________ _______________________________________________ _______________________________________________ _______________________________________________ _______________________________________________ _______________________________________________ _______________________________________________ _______________________________________________ _______________________________________________ _______________________________________________ _______________________________________________ 35 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 4 MEDIDAS ESTATÍSTICAS Vimos o surgimento da estatística através de sua história, como se inicia uma coleta de dados, e as maneiras como esses dados são agrupados com uma distribuição de frequência assim como a sua visualização. Agora o próximo passo é avaliar os dados e extrair a maior quantidade de informações possíveis. Em geral são chamados de métodos de estatística descritiva e são divididos em medidas da posição, medidas de variabilidade ou dispersão, medidas de assimetria e medidas de curtose. Estudaremos agora as medidas de posição, sendo as mais importantes, as medidas de tendência central (média aritmética, mediana e moda). As outras medidas de posição são as separatrizes (mediana, quartis e os percentis). 4.1 MEDIDAS DE POSIÇÃO 4.1.1 Média aritmética Média aritmética, é a medida da tendência central usada com maior frequência. Seu símbolo é , ela é calculada considerando que todos as observações participam com o mesmo peso. Seu cálculo se dá pela soma de todas as observações de um conjunto dado, dividindo esse total pelo número de elementos envolvidos. Assim, para um conjunto de n observações (x1, x2, ..., xn), a média aritmética simples é definida por: Usamos para média aritmética amostral (parte dos dados) e para média aritmética populacional (todos os dados). 36 Estatística para professores Exemplo: Calcule a média aritmética dos seguintes dados: 10, 15, 20 e 25. Solução: Chamaremos de dados agrupados, os dados ordenados em tabela de frequência com intervalos de classe. Assim, para esse caso, a média aritmética é obtida da seguinte maneira: Exemplo: Com base na Tabela 6, vamos calcular a média aritmética das alturas dos 23 alunos. Solução: para isso vamos acrescentar duas colunas a Tabela 6, uma do ponto médio das alturas (xi) e a outra do produto entre o ponto médio das alturas e a frequência de cada intervalo, formando, assim, a Tabela 8, que podemos visualizar logo a seguir: TABELA 8 - TABELA DA ESTATURA DE 23 ALUNOS, PARA CÁLCULO DA MÉDIA ARITMÉTICASIMPLES I Estaturas (cm) fi x1 x1fi 1 142 |— 148 4 145 580 2 148 |— 154 6 151 906 3 154 |— 160 3 157 471 4 160 |— 166 5 163 815 5 166 |— 172 5 169 845 FONTE: O autor Assim, da fórmula da média aritmética para dados agrupados, temos: A altura média dos 23 estudantes é de 157,26 cm. Utilizamos média aritmética, conforme afirma Crespo (2009, p. 83), quando: Desejamos obter a medida de posição que possui a maior estabilidade; Houver necessidade de um tratamento algébrico anterior. 37 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Além da média aritmética simples, conforme vimos acima, existe a média aritmética ponderada, que é representada pelo símbolo . Para calcularmos essa média, somamos os produtos entre os valores e os “pesos” e dividimos pelo somatório dos “pesos”. Genericamente a média aritmética ponderada para um conjunto de dados cujo “peso” é respectivamente é calculada pela expressão: Exemplo: Na disciplina de Estatística, a média semestral é calculada pela média ponderada de cada avaliação de peso 10. Sendo assim, calcule a nota final de Leonardo, sabendo que ele tirou na primeira avaliação 7,0, na segunda avaliação ele tirou 5,0 e na última avaliação ele tirou 7,5. Solução: Logo, a nota final de Leonardo na disciplina de Estatística foi de 6,5. 4.1.2 Moda Moda é o valor que aparece com maior frequência em um conjunto de dados. Diferente da média aritmética, a moda não é afetada pelos valores dos extremos. No entanto, apenas a moda é usada para fins descritivos, porque é mais variável para diferentes amostras, que as outras medidas de tendência central. O símbolo da moda é . A classe que apresenta a maior frequência é denominada de classe modal. Porém existe séries que não apresentam moda, chamamos essas séries 38 Estatística para professores de amodal. Já as séries que existem mais de uma moda, são chamadas de multimodal, bimodal para dois valores de modas e trimodal para três valores de moda. Exemplo: Encontre a moda dos seguintes dados: a) 2, 4, 5, 7, 7, 8, 9, 1, 7 → =7. b) 1, 1, 1, 2, 2, 3, 3, 3, 4, 5, 5, 6, 6, 4, 3, 1→ =1 e 3 (Bimodal) c) 0, 1, 2, 3, 4, 5, 6, 8, 7 → = Amodal Nesses casos, basta verificar qual valor ocorreu com maior frequência. Por outro lado, quando os dados estiverem agrupados em intervalos de classe, encontra-se a moda pelo cálculo da seguinte fórmula matemática: onde: d1= diferença entre a frequência da classe modal e a anterior; d2= diferença entre a frequência da classe modal e a posterior; li= limite inferior da classe modal; hi= amplitude da classe modal (Li – li). Exemplo: Com base na Tabela 6, vamos calcular a moda das alturas dos 23 alunos. Solução: 1º Passo: Identificar a classe modal da Tabela 6. TABELA 9 - DISTRIBUIÇÃO DE FREQUÊNCIA DA ESTATURA DE 23 ALUNOS, COM A CLASSE MODAL EM DESTAQUE i Estaturas (cm) Frequência (fi) 1 142 |— 148 4 2 148 |— 154 6 3 154 |— 160 3 4 160 |— 166 5 5 166 |— 171 5 FONTE: O autor Percebemos que a classe modal se encontra no segundo intervalo (i2) da distribuição, pois é nela que se encontra a maior frequência, que é 6. 2º Passo: definida a classe modal, aplicamos a fórmula para o cálculo da moda. 39 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Assim: d1= diferença entre a frequência da classe modal e a anterior → 6 - 4 = 2. d2= diferença entre a frequência da classe modal e a posterior → 6 - 3 = 3 li= limite inferior da classe modal = 148 hi= amplitude da classe modal (Li – li) → 154 - 148 = 6 Encontramos então o valor da moda, que é 150,4 cm. Utilizamos moda, conforme afirma Crespo (2009, p. 83): a) Quando desejamos obter uma medida rápida e aproximada de posição; b) Quando a medida de posição deve ser o valor mais típico da distribuição. A moda é muito importante em um gráfico, pois corresponde ao ponto de ordenada máxima. Observe a Figura 2, que simplifica as séries da moda. FIGURA 2 - EXPRESSÕES GRÁFICAS DA MODA FONTE: Crespo (2004, p. 92) 40 Estatística para professores 4.1.3 Mediana Mediana é o valor que está no centro de uma sequência ordenada de dados. Da mesma forma que a moda, a mediana não é afetada pelos valores dos extremos. Seu símbolo é . Para encontrar a mediana, os dados dever ser classificados de maneira crescente ou decrescente. Sendo que para um número par de dados, a mediana é o valor central. Por outro lado, se tivermos ímpar dados, a mediana será a média aritmética dos dois valores centrais. De modo geral, considere os dados: • Para um número ímpar de dados, usamos equação: • Para um número par de dados, usamos a equação: Exemplos: encontre a mediana dos dados: a) 1, 5, 2, 7, 8, 3, 1, 7 Solução: primeiramente vamos ordenar os dados em ordem crescente: 1, 1, 2, 3, 5, 7, 7, 8 Percebemos que , logo tem uma quantidade par de dados, assim usaremos a equação: Então, Encontramos então o valor da mediana dos dados 1, 5, 2, 7, 8, 3, 1, 7, que é 4. b) 101, 103, 97, 45, 115. Solução: primeiramente vamos ordenar os dados em ordem crescente: 45, 97, 101, 103, 115 Percebemos que , logo tem uma quantidade ímpar de dados, assim usaremos a equação: 41 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Então, Encontramos então o valor da mediana dos dados 101, 103, 97, 45, 115, que é 101. Já para os dados agrupados em intervalos de classe, vamos encontrar a mediana, pela seguinte fórmula matemática: onde: li = limite inferior da classe da mediana; Fi(anterior) = frequência acumulada da classe anterior à mediana; hi= amplitude da classe modal (Li – li); fi = frequência simples da classe mediana. Exemplo: vamos calcular a mediana das alturas dos 23 alunos da Tabela 6. Solução: 1º Passo: determinar as frequências acumuladas da distribuição de frequência; Realizamos esse passo na Tabela 7. 2º Passo: calcular ; Que tem como solução: 3º Passo: o intervalo que se encontra a mediana (classe da mediana), nada mais é que à frequência acumulada imediatamente superior à . Ou seja, o terceiro intervalo , que podemos visualizar na Tabela 10. TABELA 10 - DISTRIBUIÇÃO DE FREQUÊNCIA, COM DESTAQUE NO INTERVALO DA CLASSE MEDIANA i Estaturas (cm) fi x1 fri Fi Fri 1 142 |— 148 4 145 17,39% 4 17,39% 2 148 |— 154 6 151 26,09% 10 43,48% 3 154 |— 160 3 157 13,04% 13 56,52% 4 160 |— 166 5 163 21,74% 18 78,26% 5 166 |— 172 5 169 21,74% 23 100% FONTE: O autor 42 Estatística para professores 4º Passo: calcular a mediana, empregando a fórmula: Assim: li = limite inferior da classe da mediana = 154 Fi(anterior) = frequência acumulada da classe anterior à mediana = 10 hi= amplitude da classe da mediana (Li – li) → 160 – 154 = 6 fi = frequência simples da classe da mediana = 3 Então o valor da mediana é 157 cm. Empregamos a mediana, conforme afirma Crespo (2009, p. 94), quando: a) Desejamos obter o ponto que divide a distribuição em partes iguais; b) Há valores extremos que afetam de uma maneira acentuada a média; c) A variável em estudo é salário. 4.2 MEDIDAS DE ASSIMETRIA Podemos analisar a posição relativa da média, mediana e moda. Sendo que se as três medidas coincidem , a curva da distribuição é considerada simétrica e pode ser vista na Figura 3. FIGURA 3 - CURVA SIMÉTRICA FONTE: Crespo (2004, p. 100) 43 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Quando a moda é menor que a mediana, e a mediana menor que a média aritmética , a curva da distribuição é assimétrica à esquerda ou positiva . Por outro lado, quando a média é menor que a mediana, e a mediana é menor que a moda , a curva da distribuição é assimétrica à direita ou negativa. Observe a Figura 4: FIGURA 4 - CURVA ASSIMÉTRICA FONTE: Crespo (2004, p. 100) No nosso exemplo das alturas dos 23 alunos, temos que a = 157,26 e Md = 157, então: logo essa distribuição de frequência apresenta assimetria à esquerda ou positiva. Vimos até agoraas principais medidas de posição e o seu significado em relação as medidas de assimetria, agora veremos as separatrizes. 4.3 SEPARATRIZES São medidas que separam a distribuição de frequências em grupos. A mediana é um exemplo de separatriz que separa a distribuição ao meio, por isso é classificada como medida de tendência central. Além da mediana, temos outras separatrizes, denominadas de quartis, quintis, decis e o percentis. “Denominados quartis os valores de uma série que a dividem em quatro partes iguais, assim existem três tipos de quartis” (CRESPO, 2009, p. 95). O primeiro quartil, que representa 25% da série. O segundo quartil, que representa 50% da série (ou seja, a mediana da série), e o terceiro quartil, que representa 75% da série. Já os quintis, é a divisão da série em cinco partes iguais. O decis é 44 Estatística para professores a divisão da série em dez partes iguais, sendo que a divisão dessas separatrizes segue a mesma lógica do quartis. E por fim, “Denominamos percentis os 99 valores que separa uma série em 100 partes iguais” (CRESPO, 2009, p. 97). Vamos generalizar o cálculo das separatrizes para distribuições de frequências de dados agrupados, cuja sua fórmula é: onde: k = porcentagem que você quer na distribuição de frequência; Ck = separatriz que você quer na porcentagem k; li = limite inferior da classe da separatriz; Fi(anterior) = frequência acumulada do primeiro maior valor do resultado , chamada de classe da separatriz; hi= amplitude da classe da separatriz (Li – li); fi = frequência simples da classe da separatriz. Assim, se você quiser dividir a distribuição 17% abaixo e 83% acima, você utilizará a separatriz C17, ou seja, k = 17. Outro passo, antes de resolver a fórmula acima, é determinar a classe em que a separatriz estará. Para isso calculamos: , sendo o primeiro maior valor desse resultado na coluna de Fi, a classe da separatriz. Exemplo: Qual é o valor que separa a distribuição da Tabela 6, para 25% para baixo e 75% para cima, das alturas dos 23 alunos. Solução: Sendo a porcentagem que queremos na distribuição de frequência igual a 25%, então k = 25, assim: , assim o intervalo que se encontra a classe da separatriz que queremos é a segunda, pois 10 é o valor imediatamente superior à 5,75. Para calcularmos a separatriz com a fórmula , precisamos encontrar: li = limite inferior da classe da separatriz, que é igual a 148; 45 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 Fi(anterior) = frequência acumulada da classe anterior à separatriz que é 4; hi= amplitude da classe da separatriz (Li – li), que tem como resultado o 6; fi = frequência simples da classe da separatriz, que é igual à 6. Substituindo na fórmula temos Ou seja, 25% das alturas dos alunos são menores ou iguais que 149,75 cm e 75% das alturas dos alunos são maiores que 149,75 cm. Observe que acabamos encontrando o primeiro quartil, da distribuição. Então podemos dizer que essa fórmula pode ser usada para qualquer tipo de separatriz, para isso basta variar o valor de k na fórmula. Outra maneira de encontrar a mediana é atribuído k = 50 (que representa a medida de tendência central) na fórmula da separatriz. Assim: , e o intervalo que se encontra a classe da separatriz que queremos é a terceira classe, e nela temos li = 154; Fi(anterior) = 10; hi = 6 e fi = 3. Substituindo esses valores na fórmula temos: Sendo esse resultado igual ao resultado encontrado no exemplo da mediana, no item 4.1.3. 4.4 MEDIDAS DE DISPERSÃO Vimos até agora, as medidas de posição central que reduzem as informações coletadas da amostra para um único valor. Agora nosso objetivo é analisar a representatividade das medidas de centralização, que são chamadas de medidas de dispersão. As medidas de dispersão, indicam a variabilidade dos dados em torno de seu valor médio, por isso também são conhecidas como medidas de variabilidade. 46 Estatística para professores Essa variabilidade ou dispersões indicam se os valores estão relativamente próximos uns dos outros, ou seja, se é a maior ou menor distância (diversificação) dos valores de uma variável, tomando como ponto de comparação um valor central (média ou mediana). Para uma maior compreensão, vamos analisar os três conjuntos a seguir: A = {10, 10, 10, 10, 10} B = {08, 09, 10, 11, 12} C = {01, 05, 10, 15, 19} Calculando a média aritmética simples de cada um desses três conjuntos, obtemos: Observamos que a média aritmética simples dos três conjuntos é igual. Entretanto, notamos que o conjunto A é mais homogêneo que os outros dois conjuntos, visto que todos os elementos desse conjunto são iguais a média. Por outro lado, o conjunto B é mais homogêneo que o conjunto C, pois entre cada elemento há uma menor diversificação entre seus valores e a média representada. Assim, podemos concluir que o conjunto A apresenta dispersão nula e o conjunto B apresenta uma dispersão menor que o conjunto C. Com isso, definimos o objetivo desse tópico que é determinar as dispersões existentes em uma distribuição de frequência, a fim de compreender e avaliar melhor os fenômenos que estão acontecendo com os dados. Iremos dividir esse tópico em três assuntos: amplitude total, desvio padrão e coeficiente de variação. 4.4.1 Amplitude Total É a medida de dispersão mais simples, pois é obtida pela diferença entre o limite superior da última classe e o limite inferior da primeira classe. Ou seja, a diferença entre o maior e o menor valor do conjunto de dados. Genericamente: 47 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 onde: AT = Amplitude Total que se quer; Lmax = Limite superior da última classe; lmin= Limite inferior da primeira classe. Exemplo: Considere a distribuição de frequência da Tabela 6, temos que a amplitude total é: AT = Lmax - lmin = 171 - 142 = 29. Dizemos que a amplitude total das alturas dos 23 alunos é igual a 29. No exemplo dos três conjuntos (A, B e C), mencionados no início deste tópico, temos que: ATA = 10 - 10 = 0 ATB = 12 - 08 = 2 ATC = 19 - 01 = 18 Assim, a amplitude total do conjunto A tem dispersão nula, assim como a amplitude total do conjunto B é menor que a amplitude total do conjunto C. Logo, podemos dizer que quanto maior a amplitude total, maior será a dispersão ou a variabilidade dos dados (heterogêneo) e quanto menor a amplitude total, menor será a dispersão ou a variabilidade dos dados (homogêneo). 4.4.2 Desvio Padrão A medida de dispersão mais utilizada é o desvio padrão, que quanto menor for o seu valor em relação à média, maior será a homogeneidade da distribuição, ou seja, mais agrupados os dados estarão em torno da média. Por outro lado, se o valor do desvio padrão for grande, significa que os dados da distribuição estão muito dispersos, ou seja, longe da média. Temos duas simbologias para o desvio padrão: S para o desvio padrão amostral (quando pegamos alguns dados de uma população). E (letra grega minúscula: sigma) para desvio padrão populacional (quando pegamos todos os dados da população). A fórmula para o desvio padrão amostral é: 48 Estatística para professores O que muda na fórmula do desvio padrão populacional, é que em vez de dividir por , dividimos pelo tamanho total da amostra . onde: xi = ponto médio da classe; = média aritmética simples dos dados; fi = frequência da classe. Para um melhor entendimento, vamos encontrar o desvio padrão do exemplo das alturas dos 23 alunos, da Tabela 6. Resolução: 1º passo: Calcular a média aritmética; 2º passo: subtrair a média das alturas, por cada ponto médio do intervalo e elevar ao quadrado, ou seja: , podemos analisar esses cálculos na Tabela 11. TABELA 11 - TABELA DA ESTATURA DE 23 ALUNOS, COM A COLUNA i Estaturas (cm) fi x1 1 142 |— 148 4 145 (145-157,26)² = 150,31 2 148 |— 154 6 151 (151-157,26)² = 39,19 3 154 |— 160 3 157 (157-157,26)² = 0,07 4 160 |— 1665 163 (163-157,26)² = 32,95 5 166 |— 172 5 169 (169-157,26)² = 137,83 FONTE: O autor 3º passo: Multiplicar o resultado pela frequência de cada classe, ou seja , podemos analisar esses resultados na Tabela 12. 49 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 TABELA 12 - TABELA DA ESTATURA DE 23 ALUNOS, COM A COLUNA i Estaturas (cm) fi x1 1 142 |— 148 4 145 (145-157,26)² = 150,31 150,31 .4 = 601,24 2 148 |— 154 6 151 (151-157,26)² = 39,19 39,19 . 6 = 235,14 3 154 |— 160 3 157 (157-157,26)² = 0,07 0,07 . 3 = 0,21 4 160 |— 166 5 163 (163-157,26)² = 32,95 32,95 . 5 = 164,75 5 166 |— 172 5 169 (169-157,26)² = 137,83 137,83 . 5 = 689,15 1690,49 FONTE: O autor 4º passo: Resolver: , por ser desvio padrão populacional. 5º passo: extrair a raiz quadrada do resultado do passo anterior, para encontrar o valor do desvio padrão dos dados: = 8,57 4.4.3 Coeficiente de Variação Vimos anteriormente o desvio padrão, que por si só apresenta grandes limitações, pois pense em uma distribuição de frequência de valor médio igual a 1000 e desvio padrão igual a 5, percebemos que esse desvio padrão pode ser considerado pequeno. Por outro lado, para uma distribuição de frequência de valor médio igual a 15, o mesmo não pode ser dito. Outro fato que limita o desvio padrão é que seu resultado é expresso na mesma unidade dos dados da distribuição de frequência, dificultando a comparação de duas ou mais distribuições de frequência em relação à sua dispersão ou variabilidade, quando são expressas em unidades diferentes. Assim, para melhorarmos a análise dos dados, usamos a medida de dispersão que tem como objetivo expressar a variabilidade da distribuição em porcentagem. Chamamos essa medida de coeficiente de variação, cujo símbolo é CV. E seu cálculo se dá pela razão do desvio padrão e a média aritmética da distribuição de frequência, multiplicada por 100. Genericamente, temos que: 50 Estatística para professores para o cálculo do coeficiente de variação quando o desvio padrão for amostral e, para o cálculo do coeficiente de variação quando o desvio padrão for populacional. Exemplo: Com base na Tabela 6, encontre o coeficiente de variação da distribuição de frequência da altura dos 23 alunos. Solução: Sabendo que o desvio padrão populacional calculado anteriormente é igual a 8,57 e a média aritmética simples dos dados foi de 157,26 cm. Então aplicando a fórmula: temos que o coeficiente de variação é igual a: Logo o coeficiente de variação das alturas dos 23 alunos é de 5,45%, ou seja, a dispersão das alturas dos 23 alunos é de 5,45%, o que pode ser considerada uma dispersão pequena. Tanto o desvio padrão como a variância são usados como medidas de dispersão ou variabilidade. O uso de uma ou de outra dependerá da finalidade que se tenha em vista. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras (CRESPO, 2009, p. 106). 51 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 4.5 MEDIDAS DE CURTOSE Denominamos curtose o grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (CRESPO, 2009, p. 119). Sendo que uma curtose apresenta três classificação: Mesocúrtose, para uma curva normal; Leptocúrtica, para uma curva mais fechada ou aguda na parte superior; e Platicúrtica, para uma curva mais aberta ou achatada na parte superior (CRESPO, 2009, p. 119). O que pode ser observado na Figura 5. FIGURA 5 - CLASSIFICAÇÃO DA CURTOSE FONTE: Crespo (2004, p. 125) Para classificarmos a curtose em Leptocúrtica, Platicúrtica e Mesocúrtica, usamos a fórmula: onde Ck são os as separatrizes para um k dado. Assim, devemos analisar o resultado da fórmula Ccurtose, sendo que: Se Ccurtose = 0,263, a curva é mesocúrtica; Se Ccurtose < 0,263, a curva é leptocúrtica; Se Ccurtose > 0,263, a curva é platicúrtica. 4.6 ESCORES Z Um escore z (ou valor padronizado) é uma medida de posição relativa, ou seja, números que mostram a posição dos valores de dados em comparação 52 Estatística para professores a outros valores, em um conjunto de dados. Para encontrarmos esse valor, convertemos um dos valores para uma escala padronizada. Com isso podemos definir escore z ou valor padronizado, como o número de desvios-padrão que se situa algum valor dos dados, acima ou abaixo da média (a distância que esse valor está da média) (LARSON; FARBER, 2010, p. 88-89). Para encontrarmos o valor do escore z: Quando o desvio padrão é amostral, usamos a expressão: E quando o desvio padrão é populacional, usamos a expressão: Exemplo: Vamos calcular o escore z da altura 142cm de um aluno dos 23 alunos da Tabela 6. Solução: Sabendo que a média aritmética simples e o desvio padrão populacional desse problema já foi calculado, temos então que: Esse resultado mostra que essa altura de 142 cm está -1,78 desvios-padrão abaixo da altura média, pois como visto os escores z tem sentido de descrever a localização de um valor (em termos de desvios-padrão) em relação à média. 1 Considerando a autoatividade anterior, do peso dos 50 alunos de uma classe. Calcule: a) Calcule a média. b) Calcule a mediana. c) Calcule a moda. d) Calcule o primeiro quartil. e) Calcule o terceiro quartil. 2 Considerando a autoatividade anterior, do peso dos 50 alunos de uma classe. Calcule: 53 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 a) A amplitude total. b) O desvio padrão. c) O coeficiente de variação. 3 Considerando a autoatividade anterior, do peso dos 50 alunos de uma classe. Classifique essa distribuição de frequência, em relação ao tipo de curva: mesocúrtica, leptocúrtica e platicúrtica. 4 Considerando a autoatividade anterior, do peso dos 50 alunos de uma classe. Calcule o escore z do peso de 70Kg de um dos 50 alunos da Tabela 6. A IMPORTÂNCIA DA ESTATÍSTICA NAS QUATRO ÁREAS DA EMPRESA A área financeira possui uma grande aplicabilidade das pesquisas estatísticas, pois se dedica aos lucros, aos custos, aos gastos, às avaliações, às análises dos processos, entre outras considerações. É fundamental para um gestor ter uma ampla visão da empresa para que ele possa tomar atitudes. Os números lhe fornecem interpretações com mais exatidão e permite maior confiabilidade na ação. Nos estudos pioneiros de Taylor (1970), o trabalho do gerente começa a ser moldado pelas suas responsabilidades pela concepção e andamento do processo produtivo. Corroborando, Fayol (1990) identifica que além de ter autoridade e responsabilidade pelo andamento do processo produtivo, o gerente precisa ter iniciativa e colaborar com o alcance de objetivos organizacionais mais amplos, exercendo a função de controlador. Assim, Braverman (1987) afirma que o controle é, de fato, o conceito fundamental de todos os sistemas gerenciais. A área de produção lida com métodos utilizados para verificação de dados relacionados aos produtos ou aos processos ou aos funcionários. É nesta área que há a necessidade de monitoramento, como por exemplo, no controle de qualidade dos produtos. Existem gráficos que demonstram a cada processo o avanço e as falhas de 54 Estatística para professores cada produto, permitindo parar a produção e fazer a manutenção, ou mesmo descobrir novas maneiras de realizar cada tarefa (VOTTO & FERNANDES, 2014; GREJO et al, 2015). Na área de marketing que é vista como propaganda de uma empresa pelos leigos, mas trata-se de um ramo fundamental e que engloba todas as outras, também se pode usar a estatística. O marketing mantém uma empresa em atividade, ela é a imagem que a empresa quer passar aos clientes e, portanto, é essencial. Mas como os resultados quantitativos podem auxiliar o Marketing? Sendo a propaganda a parte visual do marketing onde o cliente vai analisaro produto e decidir se gostou ou não, faz-se necessário um método para verificar a aceitação do produto. A estatística pode analisar a população através de amostra para avaliar a média ou aceitação do produto através da propaganda ou mesmo analisar a aceitação por parte da amostra de sua propaganda (MALHOTRA, 2012; MATTAR & MOTTA, 2012). A área de recursos humanos é de extrema importância para a empresa se executada corretamente, pois cuida das pessoas, do ser humano. O RH como é também chamado, é responsável por intermediar as relações entre empregado e empregador, visando manter harmonia na empresa e agregando potenciais na mesma a fim de fazê-la crescer e desenvolver, assim como em seus funcionários também. Como o RH ocupa-se com questões humanas, dados quantitativos são pouco usados na área. Usam-se testes, dinâmicas e avaliações qualitativas em suas atribuições, deixando os valores quantitativos de lado. Porém, ao analisar os resultados das pessoas dentro da empresa é possível verificar problemas com os funcionários. Por exemplo, um funcionário que em média produz x peças e de repente passa a produzir menos ou mais do que costume, através deste resultado estatístico pode-se intervir e verificar o porquê deste resultado podendo melhorar não só seu bem-estar no serviço, mas também de todos na empresa (ULRICH, 2013). O USO DAS FERRAMENTAS ESTATÍSTICAS NA EMPRESA Em uma empresa é possível utilizar do método de distribuição de frequências para analisar cada recurso de acordo com sua quantidade e classe. Exemplo: quantidade de funcionários que frequentaram a empresa no mês analisado. Assim é construída a frequência de funcionários mensal. Outra análise que se pode fazer é através de índices. Eles são instrumentos de decisão que mostram o 55 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 comportamento geral das variáveis ao longo do tempo e permite que se façam comparações significativas. Para que haja análises da população, são analisadas amostras quando forem em grandes proporções. E mesmo assim, ainda existe grande dificuldade em se estabelecer quais dados analisar. De acordo com Tavares (2007, p.90), “um dos principais objetivos da estatística inferencial consiste em estimar os valores de parâmetros populacionais desconhecidos (estimação de parâmetros) utilizando dados amostrais”. Mesmo seguindo essa linha de raciocínio, a amostra é uma ferramenta fundamental e se bem aplicada permite que o administrador tome as decisões com confiança. As escolhas somente apresentarão resultados eficientes se tiverem como base dados de exatidão ou de alguma forma comprovada pelo uso adequado dessas amostras. A média, que é outro dado estatístico garante à empresa uma situação real do quanto ela se situa em relação ao mercado. Por exemplo, ao analisar a quantidade de peças vendidas semestralmente em uma autopeças, há como ela ter um controle maior do estoque. Assim também a mediana, a moda, a média ponderada e a média geométrica são responsáveis por análises das observações procurando um número central estratégico. Exemplo de moda segundo Tavares (2007, p. 28) No caso do número de reclamações no Serviço de Atendimento ao Consumidor, verifica-se que o que mais ocorre é zero, ou seja, em vários dias não ocorre nenhuma reclamação. Assim, podemos, então, definir a moda (Mo) como sendo o valor em um conjunto de dados que ocorre com maior frequência. A variância e o desvio padrão visam medir o distanciamento de seus dados ou observações em relação à média. Através destas análises a empresa pode identificar quando seus parâmetros estão saindo do eixo, ou seja, quando um produto está produzido além do que precisa. Um exemplo de variância: numa linha de produção de pneus pode ocorrer uma falha da máquina que molda a borracha do pneu. Assim, terá uma variação do formato do pneu, que modificará o resultado final esperado. Através do uso do gráfico de controle isso poderia ser evitado, ou mesmo na manutenção da máquina, ou seja, 56 Estatística para professores na fiscalização, na gestão da qualidade. Porém, focando no exemplo variância, através do resultado final que só se tornou perceptível por análise desta variância que foi feita na circunferência, por exemplo, da borracha, que pode se tomar alguma atitude para não prejudicar a empresa. Já na produção, a estatística colabora junto aos sistemas implantados na empresa, na obtenção de materiais, controle de estoque, compras, entre outros. De acordo com Ignácio (2011, p.184) Na indústria, o Controle Estatístico de Processos (CEP) é uma ferramenta que utiliza a estatística com o objetivo de fornecer informações para um diagnóstico mais eficaz na prevenção e detecção de falhas/defeitos, identificando suas causas em tempo real, o que, consequentemente, auxilia no aumento da produtividade/resultados da empresa, evitando desperdícios de matéria-prima, insumos, produtos, entre outros. Cabe à estatística interpretar dados para análises de resultados e com isso minimizam-se os riscos dentro da empresa, principalmente em relação ao financeiro. O mesmo autor afirma que no mercado financeiro e nas instituições bancárias os métodos estatísticos são empregados para modelagem financeira e econômica, visando modelar o comportamento do crédito, da inadimplência, a movimentação de ações e previsões de taxas de juros, possibilitando estabelecer estratégias para a concessão de empréstimos que maximizem os lucros. A gestão deve procurar softwares que facilitam na utilização das ferramentas estatísticas e assim também ampliar a qualificação de pessoas para trabalhar na área sabendo analisar os dados. Ainda conforme Ignácio (2011, p.185) Na administração, os métodos estatísticos podem ser empregados para o planejamento e controle da produção, visando à implantação de técnicas administrativas eficientes que garantam menores custos e maiores lucros, na estimação de receitas, previsão de estoques e demandas e, principalmente, conhecimento do mercado e do seu cliente. 57 Fundamentos Da EstatísticaFundamentos Da Estatística Capítulo 1 A probabilidade é uma importante ferramenta estatística visto que é utilizada na maioria das empresas. Ela proporciona maior assertividade nas escolhas feitas pela empresa, já que mostra quantitativamente a chance de acontecer ou não um evento, que seria o resultado esperado. Um exemplo de probabilidade: numa empresa de ensino de informática será desenvolvido um projeto para ensinar pessoas com mais de 60 anos. E para saber se haverá interesse destes, é preciso fazer uma pesquisa de campo, a fim de verificar a viabilidade do projeto funcionar. FONTE: SIMPÓSIO DE EXCELÊLENCIA EM GESTÃO E TECNOLOGIA. Rezende, RJ. A importância e o uso da estatística na área empresarial: uma pesquisa de campo com empresas do município de Elói Mendes – MG. Rio de Janeiro: outubro e novembro de 2018. ALGUMAS CONSIDERAÇÕES Abordamos neste capítulo o panorâmico histórico do surgimento da estatística e sua classificação entre estatística descritiva e inferencial (que veremos mais para frente), assim com os conceitos fundamentais para o entendimento dos estudos ao longo deste livro. Depois discutimos as formas de coletar os dados e como os representar tanto por meio de tabelas como por gráficos, que nos fornece uma forma de analisar de forma mais simples o comportamento das informações. Assim, o objetivo principal do capítulo foi a Estatística Descritiva, ao qual abordamos as medidas de posição: Média, Mediana e Moda; as medidas de dispersão: Amplitude Total, Desvio Padrão e o Coeficiente de Variação; as medidas de simetria e assimetria, que nos ajudam a verificar as posições das medidas de posição; a curtose, que nos dá o grau de achatamento da distribuição; e o escore z , que mostra a posição de um dado em relação à média. Esses estudos nos forneceram técnicas para analisar,extrair informações e gerar relatórios confiáveis dos dados apresentados, pois ao usar essas técnicas estatística como a média por exemplo, é possível comparar dados, e com a variância já é possível verificar se os dados estão de acordo com o esperado. No próximo capítulo aprenderemos Probabilidade, que nos ensinara a analisar as chances de um determinado evento ocorrer, sendo indispensável para o ensino da estatística inferencial que veremos no último capítulo deste livro. Até lá! 58 Estatística para professores REFERÊNCIAS BÍBLIA. Bíblia Sagrada. Tradução: João Ferreira Almeida. Disponível em: https://bible.knowing-jesus.com/Portuguese/N%C3%BAmeros/1/type/Sagrada. Acesso em: 1 mar. 2020. CRESPO, Antônio Arnot. Estatística: Fácil. São Paulo: Saraiva, 2004. CRESPO, Antônio Arnot. Estatística: Fácil. São Paulo: Saraiva, 2009. CRUZ, Rodrigo Andrade da. Ronald Fisher e a eugenia: estatística, evolução e genética na busca da civilização permanente. 2016. 148 f. Tese (Doutorado em História da Ciência) - Programa de Estudos Pós-Graduados em História da Ciência, Pontifícia Universidade Católica de São Paulo, São Paulo, 2016. Disponível em: https://tede2.pucsp.br/bitstream/handle/19448/2/Rodrigo%20 Andrade%20da%20Cruz.pdf. Acesso em: 1 mar. 2020. IGNÁCIO, Sérgio Aparecido. Importância da estatística para o processo de conhecimento e tomada de decisão. Revista Paranaense de Desenvolvimento, Curitiba, 2010. JUNIOR. Jorge Matos da Silva. Estatística: História e práticas didáticas no ensino contextualizado. Dissertação (PROFMAT) — Universidade Estadual do Norte Fluminense, 2015. Disponível em: https://sca.profmat-sbm.org.br/sca_v2/ get_tcc3.php?id=82105. Acesso em: 1 de mar. 2020. LARSON, Ron; FARBER, Betsy; FERREIRA, Luciane (Tradução); VIANNA, Pauleti (Tradução). Estatística Aplicada. São Paulo: Pearson Prentice Hall, 2010. MARTINS, Gilberto de Andrade; DONAIRE, Denis; Princípios de Estatística. 4ed. São Paulo: Atlas,1990. SAMPAIO, Nilo Antonio de Souza; DANELON, Maria Cristina Tavares de Moraes. Aplicações da Estatística nas Ciências. 2015. Disponível em: https://www. aedb.br/wp-content/uploads/2015/05/64.pdf. Acesso: 1 mar. 2020. CAPÍTULO 2 Probabilidade A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem: • Realizar análise exploratória e descritiva de conjuntos de dados. • Relacionar probabilidade com a teoria dos conjuntos. • Solucionar problemas que envolvam fatores aleatórios empregando conceitos de probabilidade. • Encontrar probabilidades de diferentes eventos e de diferentes maneiras. • Compreender o que é uma variável aleatória. • Encontrar distribuições para variáveis aleatórias discretas e contínuas. • Interpretar gráficos de algumas distribuições. 60 Estatística para professores 61 ProbabilidadeProbabilidade Capítulo 2 1 CONTEXTUALIZAÇÃO Iniciamos este capítulo abordando o assunto de probabilidade, que tem o objetivo de nos auxiliar a fazer previsões sobre acontecimentos aleatórios. Assim, vamos conhecer os conceitos básicos de probabilidade para podermos aplicar criticamente as suas regras e estabelecer claramente a abordagem de probabilidade em situações reais. Abordaremos os assuntos de probabilidade relacionando com a teoria de conjuntos (união, intersecção, diferença e complementar), com isso podemos ter uma visão diferenciada dos conceitos de probabilidade. Para o estudo da probabilidade condicionada, iremos desenvolver um método bastante eficaz, chamado de árvore de probabilidade. Abordaremos também o Teorema de Bayes, que relaciona a probabilidade de ocorrer um evento posterior à probabilidade de um evento anterior ter ocorrido. Dominando as definições de probabilidade veremos o que são as variáveis aleatória e o que elas têm em comum com a probabilidade (através da função para distribuição de probabilidade). Identificaremos o que é uma variável aleatória (discreta e continua), que serão estudadas as principais distribuições no final desta unidade por meio de distribuições de probabilidade. Esse Capítulo será muito abordado no capítulo seguinte, por isso preste muito atenção nos conceitos e definições das distribuições de probabilidades, assunto requisitado para o conteúdo de Estatística Inferencial. Então, vamos lá! 2 PROBABILIDADE Nesse capítulo dedicaremos os estudos para os cálculos de probabilidade, cujo surgimento/estudo foi motivado pela possibilidade de sucesso ou fracasso em jogos de azar, pois é um mecanismo através do qual esses eventos podem ser estudados através de experimentos. Assim, classificamos os experimentos em dois tipos: os não aleatórios ou determinísticos, em que o resultado é conhecido, ou seja, são sempre os mesmos. E os aleatórios ou casuais, cujo resultados não são previsíveis. Por exemplo: o lançamento de uma moeda honesta; o lançamento de um dado; a retirada de uma carta de um baralho completo de 52 cartas, entre outros. Iremos estudar esse último tipo de experimento, dos quais não sabemos o resultado. 62 Estatística para professores Probabilidade é a base para a Estatística, ciência utilizada nas mais diversas atividades humanas, sendo fundamental em várias áreas, como Ciências Humanas, Ciências da Saúde, Economia e Finanças, Ecologia e Teoria dos Jogos, entre muitos outros. Do ponto de vista teórico, atualmente, a Teoria de Probabilidade é utilizada como ferramenta em algumas áreas da Física e, cada vez mais, em áreas da própria Matemática (CARVALHO; MORGADO, 2012, p. 199). O conhecimento dos cálculos da probabilidade é de extrema importância para a Estatística Inferencial, que será vista no próximo capítulo. Assim, vamos iniciar nosso estudo definindo alguns conceitos básico da probabilidade: 2.1 DEFINIÇÕES E PROPRIEDADES DA PROBABILIDADE Espaço Amostral: representamos um espaço amostral por S, e é o conjunto de todos os resultados possíveis associados a um experimento. Exemplo: Lançamento de um dado. Resposta: S = {1,2,3,4,5,6} Evento: Representamos um evento por uma letra maiúscula (A, B, C), e é qualquer subconjunto do espaço amostral, ou seja, é qualquer conjunto de resultados de um experimento. Exemplo: Obter número primo, no lançamento de um dado. Resposta: A = {2,3,5} Probabilidade: definimos probabilidade (P), o valor numérico compreendido entre 0 e 1, que ocorrerá um evento. Sendo que se o valor se aproxima de 1, há mais probabilidade de ocorrer o evento. Por outro lado, se o valor se aproxima de zero, a probabilidade de o evento ocorrer é quase nula. Por outro lado, se o valor da probabilidade for igual a 1, concluímos que o evento vai ocorrer e chamamos de evento certo. Da mesma forma que, se o valor da probabilidade for zero, estaremos com um evento impossível de acontecer, e chamamos de evento impossível. Assim, chamamos de probabilidade de um evento A, a razão entre o número de elementos do evento e o número de elementos do espaço amostral. Ou seja: 63 ProbabilidadeProbabilidade Capítulo 2 onde: P(A) é a probabilidade do evento A; n(A) é o número de elementos do evento A; n(S) é o número de elementos do espaço amostral S. Exemplo 1: No lançamento de um dado, calcule a probabilidade de obter um número par na face superior? Solução: Temos que S = {1,2,3,4,5,6} e A = {2,4,6}, assim n(S) = 6 e n(A) = 3. Logo: Logo, a probabilidade de obter um número par na face superior no lançamento de um dado é = 0,5. Sendo os eventos subconjuntos do espaço amostral, podemos aplicar a teoria dos conjuntos para os cálculos das probabilidades. Assim, considere o evento A e o evento B do conjunto S: - Se ocorrer o evento A ou o evento B, ou ambos os eventos temos A união B, ou simbolicamente A B. Vamos observar na Figura 1 a representação por Diagrama de Venn1: 1 O Diagrama de Venn, leva esse nome em homenagem ao seu criador John Venn no século XIX, e sua principal função é representar graficamenteum conjunto. FIGURA 1 - REPRESENTAÇÃO DE UNIÃO DE CONJUNTOS FONTE: O autor 64 Estatística para professores - Se ocorrer o evento A e o evento B, temos A intersecção B, ou simbolicamente A B. Observando na Figura 2 a representação por diagrama de Venn, temos: FIGURA 2 - REPRESENTAÇÃO DA INTERSECÇÃO DE CONJUNTOS FONTE: O autor Em outras palavras, consideramos somente os elementos que pertencem a ambos os eventos. Na lógica matemática o conectivo “e” representa a intersecção. Enquanto o conectivo “ou” representa a união. Exemplo 2: Qual a probabilidade de sair um número maior que 5 ou um número par no lançamento de um dado? Solução: Temos que: S = {1,2,3,4,5,6}, então: n(S) = 6; Chamaremos de A o evento de sair um número maior que 5, ou seja, A = {6}, então: n(A) = 1; Chamaremos de B o evento de sair um número par, ou seja, B = {2,4,6}, que nos dá: n(B) = 3. 65 ProbabilidadeProbabilidade Capítulo 2 Temos então que: Assim, a probabilidade de sair um número maior que 5 é e a probabilidade de sair um número par é , como queremos a probabilidade de um evento ou de outro, podemos resolver a união dos dois eventos, ou seja: , logo: E se assim o fizéssemos, estaríamos contando duas vezes o número 6 (número maior que 5 e um número par). Portanto, devemos subtrair esse elemento que nada mais é que a intersecção dos eventos. Assim, concluímos que: Logo, sendo , temos que n = 1. E a probabilidade do exemplo é: Portanto, a probabilidade de sair um número maior que 5 ou um número par é de . Chamamos esse evento de não mutuamente exclusivo, pois a intersecção entre os eventos é diferente de zero Exemplo 3: Qual é a probabilidade de sair um número maior que 5 ou um número ímpar? Solução: Temos que: S = {1,2,3,4,5,6}, então: n(S) = 6; Chamaremos de A o evento de sair um número maior que 5, ou seja, A = {6}, então: n(A) = 1; Chamaremos de B o evento de sair um número ímpar, ou seja, B = {1,3,5}, que nos dá: n(B) = 3. Temos que 66 Estatística para professores Logo: A probabilidade de sair um número maior que 5 ou um número ímpar é de . Chamamos esse evento de mutuamente exclusivo, pois a realização de um, exclui a realização do outro. Uma característica desse evento é: os elementos não se repetirem, logo a intersecção entre os eventos é um conjunto vazio Exemplo 4: Em dois lançamentos sucessivos de um dado, qual é a probabilidade de sair um número primo e o número 6? Solução: Como o conectivo “e”, significa intersecção, então queremos: que é o produto das probabilidades do evento A com o evento B. Ou seja: Assim, temos que: S = {1,2,3,4,5,6}, então: n(S) = 6; Chamaremos de A o evento de sair um número primo, ou seja, A = {2,3,5}, que nos dá: n(A) = 3. Chamaremos de B o evento de sair o número 6, ou seja, B = {6}, então: n(B) = 1; Logo: O que nos dá: 67 ProbabilidadeProbabilidade Capítulo 2 Concluímos que probabilidade de sair um número primo e o número 6 é de Chamamos esses eventos de independentes. Conforme Crespo (2009, p. 126). Dizemos que dois eventos são independentes quando a realização ou a não realização de um dos eventos não afeta probabilidade da realização do outro e vice-versa. - Se ocorrer o evento A, mas não ocorrer o evento B, temos a diferença do evento A e o evento B, ou simbolicamente temos A – B. Podemos visualizar a diferença de conjuntos na Figura 3: FIGURA 3 - REPRESENTAÇÃO DA DIFERENÇA DE CONJUNTOS FONTE: O autor Em outras palavras, consideramos somente os elementos que pertencem ao evento A. - O evento que ocorrerá se, e somente se A não ocorrer, temos então A complementar de S, ou simbolicamente . Vamos observar na Figura 4 a representação por diagrama de Venn: 68 Estatística para professores FIGURA 4 - O COMPLEMENTAR DE CONJUNTOS FONTE: O autor Em outras palavras, consideramos somente os elementos que pertencem ao espaço amostral diferentes do evento(subconjunto) A. Exemplo 5: No lançamento de um dado, qual é a probabilidade de não sair o número 2? Solução: Sabemos que S = {1,2,3,4,5,6}, então n(S) = 6. Chamaremos de A o evento de sair o número 2 no lançamento de um dado. Logo A = {2}, que nos dá: n(A) = 1. Assim, a probabilidade de sair o número 2, no lançamento de um dado é . Sabendo que o espaço amostral possui probabilidade igual a 1, pois e que a probabilidade de sair o número 2 no lançamento de um dado é , temos que a probabilidade de não sair o número 2 no lançamento de um dado é: 69 ProbabilidadeProbabilidade Capítulo 2 Como visto acima, chamamos esse evento de complementar. 2.2 PROBABILIDADE CONDICIONAL Abordaremos agora uma importante técnica para o cálculo das probabilidades, denominada de Probabilidade Condicional. Usa-se essa técnica quando se quer calcular a probabilidade de um evento, na presença de uma informação “privilegiada”. Mais precisamente, é uma maneira de calcular a probabilidade de ocorrer um evento B, sabendo que ocorreu o evento A, ambos do mesmo espaço amostral (CARVALHO; MORGADO, 2012). Assim, definirmos o cálculo da probabilidade condicional, sendo a razão da probabilidade da intersecção do evento A e o evento B, com a probabilidade do evento A. Ou seja: com , e a probabilidade do evento B na certeza do evento A. Exemplo 1: 1) Os aeroportos fizeram uma pesquisa em relação ao horário dos aviões, e chegaram no seguinte resultado: a probabilidade de um avião decolar no horário previsto é P(A) = 0,83; a probabilidade do avião chegar no horário é P(B) = 0,82; e a probabilidade do avião decolar e chegar no horário é de = 0,78. Responda: a) Encontre a probabilidade de o avião chegar a tempo, sabendo que ele decolou no horário. Solução: Sabendo que o avião decolou no horário, vamos utilizar a fórmula da probabilidade condicional, pois temos certeza de um evento. Assim, sendo: = 0,78; , evento certo que ocorrerá. Assim: 70 Estatística para professores Portanto, a probabilidade de o avião chegar a tempo, sabendo que o avião decolou no horário é de 0,94. b) Encontre a probabilidade de o avião decolar a tempo, sabendo que ele chegou no horário. Solução: Sabendo que o avião chegou no horário, vamos utilizar a fórmula da probabilidade condicional, pois temos certeza de um evento. Assim, sendo: = 0,78; , evento certo que ocorrerá. Assim: Logo, a probabilidade de o avião decolar no horário, sabendo que ele chegou no horário é de 0,95. Exemplo 2: Um grupo de 500 alunos, são classificados de acordo com o peso (IMC = Índice de Massa Corporal) e de acordo com a incidência da hipertensão. Podemos analisar os dados através da Tabela 1: TABELA 1 - ALUNOS CLASSIFICADOS EM RELAÇÃO AO PESO E A INCIDÊNCIA DE HIPERTENSÃO Acima do peso (SP) Peso normal (PN) Abaixo do peso (BP) Total Hipertenso (H) 50 40 10 100 Não-Hipertenso (NH) 75 225 100 400 Total 125 265 110 500 FONTE: O autor Responda: a) Qual é a probabilidade de um aluno escolhido aleatoriamente ser hipertenso? Solução: Sabendo que: n(S) = 500 e n(H) = 100 Então: Logo, a probabilidade de uma pessoa ser hipertensa é de 71 ProbabilidadeProbabilidade Capítulo 2 b) Sabendo que um aluno escolhido aleatoriamente está acima do peso, qual é a probabilidade de que ele também seja hipertenso? Solução: Sabendo que um aluno escolhido está acima do peso, vamos utilizar a fórmula da probabilidade condicional, pois temos certeza de um evento, então: . Por outro lado, queremos saber qual é a intersecção entre os alunos acima do peso e os hipertensos , analisando a tabela temos que 50 alunos estão acima do peso e são hipertensos ao mesmo tempo, assim: Aplicando a fórmula da probabilidade condicional, para encontrarmos a probabilidade de que o aluno seja hipertenso, sabendo que ele está acima do peso é: Logo, a probabilidade de o aluno estar acima do peso e ser hipertenso é de c) Um aluno escolhidoaleatoriamente não é hipertenso. Qual é a probabilidade de ter peso normal? Sabendo que um aluno escolhido não é hipertenso, vamos utilizar a fórmula da probabilidade condicional, pois temos certeza de um evento, então: . Por outro lado, queremos saber qual é a intersecção entre os alunos com peso normal e os que não são hipertensos , analisando a tabela temos que 225 alunos estão com peso normal e não são hipertensos ao mesmo tempo, assim: Aplicando a fórmula da probabilidade condicional, para encontrarmos a probabilidade de que o aluno tenha peso normal, sabendo que ele não é hipertenso: 72 Estatística para professores Logo, a probabilidade de o aluno ter peso normal e não ser hipertenso é de Um dos recursos mais frequentes da probabilidade condicional é fornecer um procedimento para descobrir a probabilidade da intersecção de eventos. A esse procedimento denominados de regra do produto, que é: Exemplo 3: Uma urna contém 4 bolas brancas e 8 bolas pretas. Sacam-se, sucessivamente e sem reposição, duas bolas dessa urna. Determine a probabilidade de: a) ambas as bolas serem brancas. b) a segunda bola ser branca. Solução: Chamando o evento de sacar bolas brancas de B e o evento de sacar bolas pretas de P, temos que: n(S) = 12; n(B) = 4 e n(P) = 8 Sejam ainda B1= {a primeira bola sacada ser branca}, B2= {a segunda bola sacada ser branca} e P1= {a primeira bola sacada ser preta}. a) Como queremos a probabilidade de ambas as bolas serem brancas, então queremos a interseção de B1 e B2, assim: E na certeza de que a primeira bola foi branca, encontramos o valor de , ou seja, o valor da segunda bola ser branca, pois, para a segunda extração, a urna teria 3 bolas brancas e 8 bolas pretas, nos dando assim a probabilidade Logo: Portanto a probabilidade de ambas as bolas serem brancas é de Analisando esse exemplo, podemos perceber como afirmam Carvalho e Morgado (2012) “De modo mais geral, é fácil calcular probabilidades condicionais quando as coisas estão na ordem certa, isto é, é fácil calcular probabilidades de coisas futuras na certeza de coisas passadas.” 73 ProbabilidadeProbabilidade Capítulo 2 b) Observamos que essa é uma probabilidade que depende da primeira extração, visto que a primeira extração pode ser branca ou pode ser preta. Assim, se a primeira bola for branca, usamos o item a) que calculou a probabilidade da primeira e segunda bola serem brancas, ou seja: Por outro lado, se a primeira bola é preta e a segunda bola é branca, temos que calcular a probabilidade de: , que é igual a: Observe neste caso que B2 é , pois temos 4 possibilidades de bola branca entre 11 bolas, pois uma bola preta foi extraída anteriormente. Assim como temos duas opções, ou a primeira ou a segunda: usaremos a união das duas intersecções, ou seja: Portanto, probabilidade da segunda bola ser branca é de . Uma maneira de calcular a probabilidade de eventos que possuem vários estágios é através do uso das árvores de probabilidade. Vamos resolver o exemplo acima por meio dessa eficiente técnica, que pode ser visualizada na Figura 5: FIGURA 5 - ÁRVORE DE PROBABILIDADE FONTE: O autor 74 Estatística para professores Nesses diagramas colocamos as probabilidades condicionais da extremidade de cada galho na certeza da origem do galho. Para determinar uma probabilidade usando esse diagrama, basta percorrer todos os caminhos que levam ao evento cuja probabilidade é procurada, multiplicando as probabilidades em cada caminho e somando os produtos ao longo dos vários caminhos (CARVALHO; MORGADO, 2012, p. 211). Assim: a) Seguindo a árvore de probabilidade o caminho B1 → B2, temos: Portanto a probabilidade de ambas as bolas serem brancas é de b) Seguindo a árvore de probabilidade o caminho B1 → B2 ou P1→ B2, temos: Portanto, probabilidade da segunda ficha ser branca é de . Exemplo 4: Uma caixa de lâmpadas contém 20 unidades, das quais 5 são defeituosas. Sacam-se, sucessivamente e sem reposição, três lâmpadas dessa caixa. Determine: a) Qual é a probabilidade de as três lâmpadas estarem defeituosas? b) Se nas duas primeiras extrações retiramos duas lâmpadas defeituosas, qual é a probabilidade de que na terceira extração a lâmpada não seja defeituosa? c) Se nas duas primeiras extrações as lâmpadas não eram defeituosas, qual é a probabilidade de que na terceira extração a lâmpada a ser extraída seja defeituosa? d) Qual é a probabilidade de nas duas primeiras extrações as lâmpadas não terem defeito e na terceira extração a lâmpada ter defeito? Solução: Chamando o evento de lâmpadas defeituosa de D e o evento de lâmpadas não defeituosas de ND, temos que: n(S) = 20; n(D) = 5 e n(ND) = 15 Sejam ainda ND1= {a primeira extração de lâmpada ser não defeituosa}, ND2= {a segunda extração de lâmpada ser não defeituosa}, ND3= {a terceira extração de lâmpada ser não defeituosa}, D1= {a primeira extração de lâmpada 75 ProbabilidadeProbabilidade Capítulo 2 ser defeituosa}, D2= {a segunda extração de lâmpada ser defeituosa } e D3= {a terceira extração de lâmpada ser defeituosa}. Assim, podemos construímos a árvore de probabilidade, conforme a Figura 6: FIGURA 6 - ÁRVORE DE PROBABILIDADE FONTE: O autor Respondendo às perguntas: a) Seguindo a árvore de probabilidade o caminho D1 → D2 → D3, temos: Portanto, a probabilidade de as três lâmpadas serem defeituosas é . b) Tendo certeza da primeira e segunda extração que são lâmpadas defeituosas, seguindo a árvore de probabilidade o caminho D1 → D2 → ND3, temos que a terceira extração é . Logo a probabilidade da terceira lâmpada a ser extraída não ter defeito, sabendo que as duas primeira tem defeito é de = 0,83. 76 Estatística para professores c) Da mesma forma que o item anterior (b), seguindo o caminho na árvore de probabilidade ND1 → ND2 → D3, temos que a probabilidade da terceira lâmpada extraída ser defeituosa, na certeza que as duas primeiras lâmpadas não são defeituosas é de = 0,27. d) Seguindo a árvore de probabilidade: ND1 → ND2 → D3, ou seja, queremos a descobrir a probabilidade de . Logo, a probabilidade de nas duas primeiras extrações as lâmpadas não terem defeito e na terceira extração a lâmpada ter defeito é de 2.3 TEOREMA DE BAYES Vimos anteriormente que probabilidade está presente em diversas situações do cotidiano e existem diferentes maneiras de calcular e prever os eventos que ocorrerão. Uma dessas maneiras de se calcular probabilidade, foi desenvolvida no século XVIII por Thomas Bayes (1702-1761) e ficou conhecida como Teorema de Bayes. Thomas Bayes, nascido em Londres, em 1702, pastor presbiteriano, inconformista, que deixou um legado importante para a matemática, em apenas dois trabalhos, só publicados postumamente. Um desses trabalhos, Essay towards solving a problem in the doutrine of chances, foi uma obra que o imortalizou entre os estatísticos, economistas e cientistas sociais.[...] O Teorema de Bayes é particularmente importante para o estudo de probabilidade. Após a publicação do artigo de Bayes, em 1764, no Philosophical Transactions, o trabalho caiu no esquecimento, sendo resgatado mais tarde pelo matemático francês Pierre-Simon de Laplace (1749-1827), que o revelou ao mundo. Os fundamentos da teoria de probabilidade foram então colocados por Laplace em uma forma (hoje dita clássica) que se manteve praticamente inalterada até o início do século 20. Nesse tratado Laplace fez novas contribuições e reuniu, sistematizou e ampliou resultados desenvolvidos por seus predecessores. Uma das contribuições é quando define a probabilidade a priori (que originou grandes controvérsias) para o cálculo da chamada probabilidade inversa (ou probabilidade de causas ou a posteriori), conceito este sugerido pelo trabalho de Bayes em 1764. A solução de Bayes para um problema de "probabilidade inversa" foi apresentada naquele seu ensaio, com a declaração de umcaso especial do teorema de Bayes. Vale recordar que, nas primeiras décadas do século XVIII, foram resolvidos muitos problemas, relativos à probabilidade de certos eventos, dadas as condições especificadas, a 77 ProbabilidadeProbabilidade Capítulo 2 chamada probabilidade condicional. Por exemplo, dado um determinado número de bolas brancas e pretas em uma urna, quando se quer saber qual é a probabilidade de se tirar uma bola preta, é o tipo de questão que se enquadra nos chamados problemas de probabilidade a posteriori. Mas a atenção logo se voltou para o inverso deste tipo de problema: uma vez que já se retirou uma ou mais bolas da urna, o que pode ser dito sobre o número de bolas brancas e pretas na urna? O Ensaio de Bayes contém a solução para um problema similar, de Abraham de Moivre, autor da Doutrina das Chances, de 1718 (JUNQUEIRA, 2015, p. 8-9). Antes de definirmos a fórmula do Teorema de Bayes, precisamos entender o Teorema da probabilidade total, que como o nome já diz, estabelece a probabilidade total de um resultado por meio de vários eventos disjuntos. Assim, considere que queremos encontrar a probabilidade de um evento E, que se encontra em um espaço amostral S, conforme podemos visualizar na Figura 7. FIGURA 7 - ESPAÇO AMOSTRAL COM O EVENTO FONTE: O autor Agora, consideramos que é possível particionar o espaço amostral em partes, (no nosso caso em cinco parte: E1, E2, E3, E4 e E5), conforme podemos ver na Figura 8. 78 Estatística para professores FIGURA 8 - ESPAÇO AMOSTRAL EM PARTES FONTE: O autor Observe que E a probabilidade do evento pode ser determinada pela intersecção do evento com cada , ou seja: , que podemos analisar na Figura 9. FIGURA 9 - EVENTO E EM PARTES FONTE: O autor Assim, como então: Generalizando a fórmula do Teorema da Probabilidade Total, seguindo a lógica acima, temos que: , para qualquer n natural. 79 ProbabilidadeProbabilidade Capítulo 2 Dessa forma a probabilidade do evento E, repartido em partes, pode ser representada por: Exemplo 1: Um piloto de Fórmula 1, tem 50% de probabilidade de vencer determinada corrida quando está chovendo. Caso não chova durante a corrida, sua probabilidade de vitória é de 25%. Se o serviço de Meteorologia estimar em 30% a probabilidade de que chova durante a corrida, qual é a probabilidade deste piloto ganhar a corrida? (BERTOLDO, 2012). Solução: Vamos definir os eventos como: P(G) = Probabilidade de ganhar a corrida; P(C) = Probabilidade de chover; P(NC) = Probabilidade de não chover. Assim, temos que: P(G) = 50% = 0,5; P(C) = 30% = 0,3; P(NC) = 100% - 30% = 70% = 0,7; P(G|NC) = 25% = 0,25. Como queremos a probabilidade de o piloto ganhar a corrida, com ou sem chuva, então queremos a união das intersecções de ganhar com chuva e de ganhar sem chuva, ou seja: Logo, a probabilidade de o piloto ganhar a corrida, com chuva ou sem chuva é de 0,325 ou 32,5%. Agora, temos conhecimento para definir o Teorema de Bayes. Assim, sejam eventos mutuamente excludentes cuja união representa o espaço amostral e seja um subconjunto de . Considere também que, e 80 Estatística para professores sejam conhecidas. Então: com O Teorema de Bayles é também chamado de Teorema da Probabilidade a Posteriori e revela o Teorema da Probabilidade Total, no denominador. Ele relaciona uma das parcelas da probabilidade total com a própria probabilidade total. Esse teorema permite determinar as probabilidades dos vários eventos , que podem ser a causa da ocorrência do evento . Exemplo 2: Um técnico em aparelhos elétricos faz consertos em domicílio e deve consertar um ferro elétrico na casa de um cliente. Ele avalia que o defeito deve estar na tomada de força da área de serviço, no cabo de força da alimentação ou na resistência do ferro. Por experiência, ele sabe que as probabilidades do defeito estar na tomada, no cabo ou na resistência são de 20%, 50% e 30%, respectivamente. Pensando em termos de ferramentas e peças de reposição do estoque que ele carrega, ele imagina que se o defeito for na tomada a probabilidade de conserto é de 95%. Se for no cabo de força a probabilidade de conserto é de 70% e se for na resistência a probabilidade de conserto é de 20% (BERTOLDO, 2012). a) Qual é a probabilidade de o técnico consertar o ferro no local com os seus recursos? b) Qual a probabilidade de o defeito ter sido no cabo de força, se o técnico conseguiu realizar o conserto? c) O técnico chama o cliente e apresenta e apresenta o ferro consertado. Perguntando do defeito, ele diz que teve que trocar a resistência (conserto mais caro). Qual a probabilidade de ele estar sendo sincero? Solução: Vamos definir os eventos como: P(CS) = Probabilidade de consertar o ferro; P(C) = Probabilidade de o defeito ser no cabo; P(T) = Probabilidade de o defeito ser na tomada; P(R) = Probabilidade de o defeito ser na resistência. Assim, temos que: P(C) = 50% = 0,5; P(T) = 20% = 0,2; 81 ProbabilidadeProbabilidade Capítulo 2 P(R) =30% = 0,3; P(CS|T) = 95% = 0,95; P(CS|C) = 70% = 0,7; P(CS|R) = 20% = 0,2. Respondendo às perguntas: a) A probabilidade de consertar, qualquer que seja o defeito é resolvido pelo Teorema da probabilidade total, ou seja, pela união das intersecções. Assim: Logo, a probabilidade de conserto é de 0,6 ou 60%. b) Agora, temos que o ferro foi consertado, sabendo que o problema era no cabo. Por isso, calculamos a probabilidade condicional (Teorema de Bayes) de o defeito ser no cabo. Assim: Portanto, a probabilidade de o defeito ter sido no cabo é de 0,583333... ou 58,33...%. c) Agora, queremos a probabilidade de o defeito estar na resistência, sabendo (certeza) que o ferro foi concertado. Por isso, calculamos a probabilidade condicional (Teorema de Bayes) de o defeito ser na resistência. Assim: Logo, a probabilidade de a informação estar correta e o defeito ser na resistência é de 0,1 ou 10%. 82 Estatística para professores Exemplo 3: Ambientalistas de uma organização, após um levantamento de dados, constataram, em uma cidade, a existência de três indústrias, ao qual chamaremos de A, B e C. Cada indústria participa com 40%, 35% e 25%, respectivamente, da produção industrial da cidade. A proporção de gases poluentes lançados na atmosfera é de 2% pela indústria A, 1% pela indústria B e 3% pela indústria C. Uma análise da emissão de gases poluentes ou de partículas sólidas na atmosfera é realizada ao acaso nesta cidade, o que permitiu aos ambientalistas verificar a existência de poluição atmosférica. Qual a probabilidade dos gases considerados poluentes terem sidos lançados pela indústria B? (BERTOLDO, 2012). Solução: Vamos definir os eventos como: P(A) = Probabilidade de produção da indústria I; P(B) = Probabilidade de produção da indústria II; P(C) = Probabilidade de produção da indústria III; P(G|A) = Probabilidade do lançamento dos gases da indústria I; P(G|B) = Probabilidade do lançamento dos gases da indústria II; P(G|C) = Probabilidade do lançamento dos gases da indústria III; Assim, temos que: P(A) = 40% = 0,4; P(B) = 35% = 0,35; P(C) = 25% = 0,25; P(G|A) = 2% = 0,02; P(G|B) =1% = 0,01; P(G|C) = 3% = 0,03. Queremos a probabilidade condicional dos gases lançados pela indústria B. Assim: Portanto, a probabilidade dos gases, considerados poluentes, terem sido lançados pela indústria B é de aproximadamente 0,1842 ou 18,42%. 83 ProbabilidadeProbabilidade Capítulo 2 1 Em um baralho completo de 52 cartas, retira-se por acaso uma carta. Qual é a probabilidade de sair um rei ou uma carta de espada? (Adaptado de: MORETTIN, 2010). Obs.: um baralho possui quatro naipes, cada naipe possui um rei. E espadas é um dos naipes do baralho. FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 2 Em um cursinho pré-vestibular, temos:5 alunos com mais de 18 anos, 4 alunos com menos de 18 anos, 6 alunas com mais de 18 anos e 3 alunas com menos de 18 anos. Um dos alunos é escolhido ao acaso, determine a probabilidade de o aluno ter menos de 18 anos ou ser uma aluna? (Adaptado de: MORETTIN, 2010). FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 3 Duas bolas vão ser retiradas de uma urna que contém 2 bolas brancas, 3 pretas e 4 verdes. Qual a probabilidade de que ambas: a) Sejam verdes? b) Sejam da mesma cor? FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 4 A probabilidade de que um homem esteja vivo daqui a 30 anos é a de sua mulher é de . Determinar a probabilidade de que daqui a 30 anos: a) Ambos estejam vivos; b) Somente o homem esteja vivo; c) Somente a mulher esteja viva; d) Nenhum esteja vivo; e) Pelo menos um esteja vivo. FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 84 Estatística para professores 5 Uma urna contém 3 bolas brancas e 2 amarelas. Uma segunda urna contém 4 bolas brancas e 2 amarelas. Escolhe-se, ao acaso, uma urna dela retira-se, também ao acaso, uma bola. Qual a probabilidade de que seja branca? FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 6 A urna A contém três fichas vermelhas e 2 azuis, e a urna B contém 2 vermelhas e 8 azuis. Joga-se uma moeda “honesta”. Se a moeda der cara, extrai-se uma ficha da urna A; se der coroa, extrai-se uma ficha da urna B. Uma ficha vermelha é extraída. Qual é a probabilidade de ter saído cara no lançamento? FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 7 Da produção de carros, verifica-se que a 5% deles tem defeito no amortecedor (A), 7% tem defeito na bateria (B) e 2% tem ambos os defeitos. Um carro é escolhido aleatoriamente. Qual é a probabilidade de que: a) Tenha pelo menos um dos defeitos? b) Tenha apenas o defeito no amortecedor? c) Possui apenas um dos dois defeitos? d) Não tenha defeito? 8 Uma classe tem 15 meninas (A) e 19 meninos (B). Se três alunos são escolhidos por acaso, qual é a probabilidade de que: a) Todos serem meninos; b) Todas serem meninas; c) Ao menos um é menino; d) Dois ser menina; e) Ao menos dois ser meninos. 9 Três máquinas A, B e C produzem respectivamente 60%, 30% e 10% do número total de peças da fábrica. As porcentagens de defeito de produção dessas máquinas são respectivamente 2%, 3% e 4%. Ao selecionarmos uma peça aleatoriamente, 85 ProbabilidadeProbabilidade Capítulo 2 identificamos que ela era defeituosa. Encontre a probabilidade dessa peça ter sido produzida pela máquina C. 10 Uma empresa precisa tomar a decisão de patrocinar um dos seguintes programas de televisão: jogos de futebol (F), uma série de drama (D), ou um programa de música (M). As chances de decidirem é respectivamente 40%, 35% e 25%. As probabilidades de ganhos aumentam 50%, 40% e 30%, se você escolher respectivamente um dos programas. Sabendo que os ganhos iram aumentar, encontre a probabilidade de a empresa ter escolhido a série de drama. 2.4 VARIÁVEIS ALEATÓRIAS Chamamos uma variável de aleatória quando o seu valor é obtido através de observações ou experimentos, sendo que cada um desses valores está associado a uma probabilidade. Esse conceito é fundamental em estatística e em outros métodos quantitativos para representar fenômenos incertos. Usaremos as letras maiúsculas para denotar uma variável aleatória e uma letra minúscula para denotar valores que ela adquire. Conforme afirma Morettin (2010, p. 46), “então podemos dar a seguinte definição: variável aleatória é a função que associa a todo evento pertencente a uma partição do espaço amostral um único número real”. Em outras palavras, uma variável aleatória satisfaz a função , que associa cada elemento do espaço amostral a um valor (O que pode ser visualizado na Figura 12). Para facilitar a compreensão do conceito de variável aleatória, vamos abordar um exemplo de um experimento. Exemplo: Quais são os possíveis valores de X, tal que X representa a variável que representa o número de caras ocorridos nos três lançamentos de uma moeda honesta? Solução: Seja S o espaço amostral dos resultados possíveis de três lançamentos de uma moeda honesta, conforme podemos visualizar na Figura 10. Considere: k = para a face cara da moeda virada para cima e c = para a face coroa da moeda virada para cima. 86 Estatística para professores FIGURA 10 - ÁRVORE DE PROBABILIDADE NO LANÇAMENTO DE TRÊS MOEDAS FONTE: O autor. Assim, o espaço amostral do experimento é: S = {k1k2k3, k1k2c3, k1c2k3, k1c2c3, c1k2k3, c1k2c3, c1c2k3, c1c2c3} Assim, percebemos que a probabilidade de ocorrer cara é igual a probabilidade de ocorrer coroa em todos os casos: Observe que para que ocorra o resultado de três caras (k1k2k3), calculamos a intersecção desses três eventos, ou seja, o produto das probabilidades de ocorrer cara em cada lançamento: De maneira análoga, de todas as combinações possíveis: 87 ProbabilidadeProbabilidade Capítulo 2 Assim, temos que o espaço amostral é formado pela união de todos os oito eventos, que são mutuamente exclusivos. Logo a probabilidade do espaço amostral (S) é dada pela soma das probabilidades desses eventos: Temos que os possíveis valores de X, são {0, 1, 2,3}, pois podem sair desde zero (nenhum) cara, até três caras. Calculando cada caso, temos: X (k1k2k3) = 3 (pois há três possibilidades de aparecer cara nos três lançamentos); X (k1k2c3) = 2 (pois há duas possibilidades de aparecer cara nos três lançamentos); X (k1c2k3) = 2 (pois há duas possibilidades de aparecer cara nos três lançamentos); X (k1c2c3) = 1 (pois há uma possibilidade de aparecer cara nos três lançamentos); X (c1k2k3) = 2 (pois há duas possibilidades de aparecer cara nos três lançamentos); X (c1k2c3) = 1 (pois há uma possibilidade de aparecer cara nos três lançamentos); X (c1c2k3) = 1 (pois há uma possibilidade de aparecer cara nos três lançamentos); X (c1c2c3) = 0 (pois não há possibilidade de aparecer cara nos três lançamentos). Podemos ainda, representar uma variável aleatória por diagrama de Venn, observe a figura 11: FIGURA 11 - DIAGRAMA VENN DE UMA VARIÁVEL ALEATÓRIA FONTE: O autor. De maneira geral, podemos representar uma variável aleatória pelo esquema, conforme a Figura 12, ao qual X é a função que transforma a variável s. 88 Estatística para professores FIGURA 12 - REPRESENTAÇÃO DE UMA VARIÁVEL ALEATÓRIA FONTE: O autor Podemos ainda classificar uma variável aleatória em discretas e contínuas. 2.4.1 Discretas Uma variável aleatória discreta tem ou um número finito de valores ou uma quantidade enumerável de valores, todavia “enumerável” se refere ao fato de que podem existir infinitos valores, mas eles podem ser associados a um processo de contagem, de modo que o número de valores é 0, ou 1, ou 2, ou 3 etc. (TRIOLA; FARIAS; FLORES, 2013, p. 169). Ou seja, uma variável aleatória discreta assume um número de valores finito ou infinito enumeráveis. Como exemplo, podemos dizer o número total de acadêmicos de uma turma, o número de moradores de uma cidade, entre outros. 2.4.2 Contínuas Uma variável aleatória contínua tem infinitos valores, e esses valores podem ser associados a medidas em uma escala contínua, de modo que não há pulos ou interrupções. (TRIOLA, 2013, p. 169). Quando assumem valores infinitos e não enumerável em um intervalo. Exemplos: são a altura, peso, tempo, temperatura, entre outros. Com base nisso, podemos definir função de probabilidade. 89 ProbabilidadeProbabilidade Capítulo 2 2.4.3 Função para distribuição deprobabilidade Vamos definir função de probabilidade conforme Morettin (2010, p.46) a “função de probabilidade é a função que associa a cada valor assumido pela variável aleatório a probabilidade do evento correspondente”, ou seja, associa cada elemento de de uma variável aleatória X a probabilidade de acontecer p( ), isto é: Sendo que: Além de que a distribuição de uma variável aleatória X é dada por pares ordenados , podendo assim ser apresentada por meios gráficos no sistema cartesiano. Vamos visualizar isso, pegando o exemplo anterior, do lançamento das três moedas. Exemplo: No lançamento de três moedas honestas, qual é a probabilidade de sair exatamente duas caras. Solução: Sabendo que o espaço amostral é: S = {k1k2k3, k1k2c3, k1c2k3, k1c2c3, c1k2k3, c1k2c3, c1c2k3, c1c2c3} E definindo X, como sendo a quantidade de caras (k) nos três lançamentos, temos que: X = {3, 2 ,2 ,1 ,2 ,1 ,1, 0} Agora, sendo que cada evento de S acima tem probabilidade igual de acontecer , tem-se a distribuição de probabilidade, que pode ser visualizada na Tabela 2: 90 Estatística para professores TABELA 2 - TABELA DE DISTRIBUIÇÃO DE PROBABILIDADE X 0 1 2 3 FONTE: O autor Ou por meio de um gráfico, que pode ser visto na Figura 13: FIGURA 13 - GRÁFICO DE UMA DISTRIBUIÇÃO DE PROBABILIDADE FONTE: O autor Portanto, no lançamento de três moedas honestas, a probabilidade de sair exatamente duas caras é de . 2.4.4 Esperança ou Valor Esperado A esperança matemática é a média, por isso também podemos chamar de valor médio ou valor esperado. Assim: Considere a variável aleatória X, que assume os valores temos que: sendo, E(X) para representar a esperança matemática da variável aleatória X, e como o símbolo da média é (mi), podemos afirmar que: 91 ProbabilidadeProbabilidade Capítulo 2 Exemplo: Qual é a esperança de no lançamento de três moedas honestas, sair exatamente duas caras? Solução: Neste caso a variável aleatória X é os três lançamentos de uma moeda, com a distribuição de probabilidade já conhecida, então: Portanto, no lançamento de três moedas honestas, o valor médio de sair exatamente duas caras é de 1,5. 2.4.5 Variância A variância de uma variável aleatória X que assumiu os valores é dada por: sendo que o símbolo da variância da variável aleatória X é Var(X) ou (sigma ao quadrado). Calculamos a variância segundo Morettin (2010, p. 52), pois ela é “a medida que dá o grau de dispersão (ou de concentração) de probabilidade em torno da média”. A variância sendo um quadrado, muitas vezes possui o resultado meio esquisito, como por exemplo, a altura média dos acadêmicos de uma universidade é 1,70m, e a variância é 25cm2, resultado não desejado para uma medida de comprimento. Assim, faremos um exemplo de variância, depois de definirmos desvio padrão, ao qual abordaremos na sequência. 2.4.6 Desvio Padrão O desvio padrão, é denominado DP(X), e é a raiz quadrada da variância, ou seja: 92 Estatística para professores Como visto no Capítulo 1, o desvio padrão representa uma medida de variabilidade, sendo que os seus elementos estão mais próximos dos elementos da variável aleatória X, ou seja, quanto menor o valor do desvio padrão, mais próximo da média estão os valores da variável aleatória. Exemplo: Calcule o desvio padrão de no lançamento de três moedas honestas, sair exatamente duas caras? Solução: Vamos calcular a variância, pela fórmula: , então: X P(X) X.(P(X) X². (PX) 0 0 0 1 2 3 1 Substituindo na fórmula: Observem agora o cálculo da variância pela fórmula: Ou seja, a variância desse evento é E para determinar o desvio padrão, basta calcular a raiz quadrada dessa variância, ou seja: Portanto, o desvio padrão é aproximadamente 0,87. 93 ProbabilidadeProbabilidade Capítulo 2 1 Uma concessionária de veículos faz a seguinte promoção: o cliente ao passar pelo caixa, lança um dado. Se sair a face 6, 5 ou 4, terá direito a um desconto de 30%, 20% e 10% respectivamente. E se saírem as faces 1,2 ou 3 o desconto será de 5% (Adaptado de: MORETTIN, 2010) FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. a) Calcule a probabilidade de que num grupo de 5 clientes, pelo menos um consiga um desconto maior que 10%. b) Calcule a probabilidade de que o 4º cliente seja o primeiro a conseguir 30%. c) Calcule o desconto médio concedido. 2 Sabendo-se que uma moeda mostra a face cara quatro vezes mais do que a face coroa, quando lançada. Essa moeda é lançada 4 vezes. Seja X o número de caras que aparece, determine: FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. a) Qual é o valor esperado do número de cara após os quatros lançamentos? b) Qual é a variância desse evento? c) Calcule a probabilidade de aparecer duas ou mais caras nesse evento. d) Calcule a probabilidade de aparecer uma ou duas caras nesse evento. 3 A fabricação de parafuso por hora de uma máquina são: 20, 21 ou 22, com probabilidade de parafuso defeituosos de 30%, 50% e 20% respectivamente. Qual é a fabricação esperada para esta máquina? Qual é a variância de fabricação de parafusos por hora? 4 Ao investir no mercado de ações e em uma ação específica, uma pessoa pode ganhar R$ 4000,00 com a probabilidade de 30% de 94 Estatística para professores perda; ou ter uma perda de R$ 1000,00 com uma probabilidade de 70%. Qual é o valor do lucro que à pessoa espera com esse investimento? 5 Suponha que um negociante de relógios antigos está negociando um, cujas probabilidade são de 22%, 36%, 28% e 14% respectivamente de que o negociante venda o relógio o por R$ 250.000,00 de lucro, R$ 150.000,00 de lucro, R$ 100.000,00 (valor do custo) ou com uma perda de R$ 150.000,00. O que podemos esperar com está negociação? 3 DISTRIBUIÇÃO DE PROBABILIDADE Estudamos até aqui as noções sobre as funções de probabilidade, agora abordaremos o conceito e a definição matemática das principais distribuições de probabilidade. Dividiremos as distribuições de probabilidade para variáveis discretas, que são: Distribuição de Bernoulli, Distribuição Binomial e Distribuição de Poisson e para variáveis contínuas, que são: a Distribuição Normal, Distribuição do Qui-Quadrado, Distribuição T-Student e Distribuição F. 3.1 DISTRIBUIÇÃO DE BERNOULLI Usamos a distribuição de Bernoulli em um experimento aleatório quando ele admite duas respostas (sucesso ou fracasso). Assim, consideramos a probabilidade de a resposta ser afirmativa (sucesso). Por outra lado, se a resposta for negativa (fracasso) a probabilidade será , pois é o complemente do sucesso. Denominamos, . Definimos a distribuição de Bernoulli, como uma distribuição discreta, onde o espaço amostral é {0 ,1}, tal que se X for igual à 0, a probabilidade corresponde a um fracasso (q). Já se X for igual à 1, a probabilidade corresponde ao sucesso (p). Ou seja, Assim, se existe Distribuição de Bernoulli na variável aleatória X, sua função será: 95 ProbabilidadeProbabilidade Capítulo 2 Podemos calcular o valor da esperança/média E(X) e da variância Var(X) com a distribuição de Bernoulli. Sendo: Exemplo: Um inspetor de qualidade extrai uma amostra aleatória de tubos armazenados num depósito onde, de acordo com os padrões de produção se espera um total de 20% de tubos defeituosos. Determine a função P(X=x), o valor esperado E(X) e a variância Var(X). Solução: Seja X a variável de “número de tubos defeituosos”. Temos ainda o valor esperado é 20%, ou seja, p = 0,20, assim como , então q = 0,80. Logo: 3.2 DISTRIBUIÇÃO BINOMIAL Quando queremos repetir n vezes os casos da distribuição de Bernoulli, fazemos a sua generalização ao qual chamaremos de distribuição Binomial. A probabilidade da distribuição binomial é dada pela fórmula: onde: n éa quantidade de vezes que o evento ocorre; x é o número de vezes que queremos que o experimento ocorra; p é a probabilidade do sucesso; q é a probabilidade do fracasso. 96 Estatística para professores Em análise combinatória é o mesmo que . Neste tipo de distribuição, temos que o valor esperado E(X) e a variância Var(X) são: Exemplo: 1) Um inspetor de qualidade extrai uma amostra aleatória de 10 tubos armazenados num depósito onde, de acordo com os padrões de produção se espera um total de 20% de tubos defeituosos. Qual é a probabilidade de que não mais do que 2 tubos extraídos sejam defeituosos? Calcule também o valor esperado E(X) e a variância Var(X). Solução: Seja X a variável de “número de tubos defeituosos em 10 extrações aleatórias”. Temos ainda que n = 10 e o valor esperado é 20%, ou seja, p = 0,20, assim como , então q = 0,80. Logo: Como queremos a probabilidade de que não mais do que 2 tubos extraídos sejam defeituosos, temos que calcular o evento para , ou seja, a união das probabilidades para: X=0, X=1 e X=2. Assim: Portanto a probabilidade de que não mais do que 2 tubos extraídos sejam defeituosos é de 0,677 ou 67,7%. Nesta distribuição, temos que o valor esperado E(X) e a variância Var(X) são: 97 ProbabilidadeProbabilidade Capítulo 2 2) Uma moeda é lançada 30 vezes. Qual é a probabilidade de saírem 12 coroas? Solução: Queremos calcular P(X=12), sendo X o número de coroas. Sabendo que , temos que: A probabilidade de sair 12 coroas em trinta lançamentos de uma moeda é de aproximadamente 8%. 3.3 DISTRIBUIÇÃO DE POISSON Iremos utilizar a distribuição de Poisson, quando o número de termos (n) da distribuição binomial for muito grande, e p for muito pequeno. Ou seja, quando n tender ao infinito positivo e p tender a zero. Pois como afirma Morettin (2010, p. 105) “nesses casos, não encontramos o valor em tabelas, ou então o cálculo torna- se muito difícil, sendo necessário o uso de máquinas de calcular sofisticadíssimas ou o uso de computador.” Assim, considerando X o número de sucessos em um intervalo qualquer, a probabilidade de ocorrência de X é: onde: e é o número de Euler; é a média de ocorrência de x num determinado intervalo; x é o número de vezes que queremos que o sucesso ocorra. O número de Euler, é um número irracional e surge com limite, para valores muito grandes. Sendo 98 Estatística para professores Neste tipo de distribuição, como é difícil determinar o número de fracassos ou o total de elementos (sucessos mais fracasso), temos que a variância é igual a média que é igual ao produto do número de elementos pela probabilidade de sucesso, ou seja: Exemplo: Sabendo que 5% das televisões fabricadas são defeituosas. Calcule a probabilidade de duas em cem televisões (escolhidas aleatoriamente) terem defeitos? Solução: Temos que: n é igual ao total de televisões, ou seja, n = 100; p é a probabilidade dos defeitos (sucesso), então p = 5% = 0,05. Assim: a média de televisões defeituosas é de 5 a cada 100 televisões. Calculando agora a probabilidade, temos que: Portanto, a probabilidade de duas em cada cem televisões (escolhidas aleatoriamente) terem defeitos é de aproximadamente 8,42%. Estudamos até aqui as distribuições de probabilidade discretas, que como definimos são variáveis finitas e numeráveis. Agora abordaremos as distribuições de probabilidade para variáveis contínuas, que é quando nos deparamos com populações infinitas ou enorme amostras. Por isso, se construiu a ideia de continuidade, pois agora temos uma infinidade não enumerável de dados. Então vamos ao trabalho! 3.4 DISTRIBUIÇÃO NORMAL Conforme Triola (2013, p. 204), definimos distribuição normal “se uma variável aleatória contínua tem uma distribuição com um gráfico simétrico e em forma de sino, 99 ProbabilidadeProbabilidade Capítulo 2 [...], e que pode ser descrito pela equação dada como , dizemos que ela tem uma distribuição normal”. Ou seja, a distribuição normal é definida pelos parâmetros de média e desvio padrão populacional ( )e a sua função de probabilidade é definida por: . Os parâmetros da média ( ) e do desvio padrão populacional ( ) seguem as seguintes condições: Pela afirmação de Triola, a curva normal tem sempre o aspecto de um sino, e podemos visualizar isso na Figura 14. FIGURA 14 - VARIÁVEL ALEATÓRIA COM MÉDIA ( ) E DESVIO PADRÃO ( ) FONTE: (BUSSAB; MORETTIN, 2010) Pelo fato das distribuições normais ocorrem com maior frequências em aplicações do cotidiano, vai desempenhar um importante papel em alguns assuntos futuros. Com isso, podemos generalizar algumas características da distribuição normal padrão: - O gráfico é semelhante à um sino, unimodal e simétrico em relação à média ( ); - O ponto máximo de f(x) é o ponto ; - Os pontos de inflexão da função são: ; - A área da total (inferior) da curva equivale a 100%; - A média é igual a zero e a variância é igual a 1 . 100 Estatística para professores Veremos como determinar a área da curva (ou as probabilidades) correspondentes as regiões do gráfico, sendo que abordaremos a transformação de qualquer distribuição normal para uma distribuição normal padrão. Para isso basta aplicar a fórmula: O resultado (arredondado para duas casas decimais) será procurado na Tabela Z (disponível no Apêndice A e B). Esse resultado será a transformação da distribuição normal qualquer para a distribuição normal padrão, que é a probabilidade procurada. Exemplo: A propagação do Coronavírus (Convid-19) em crianças recém-nascidas no ano de 2020, está relacionado ao peso delas, sendo que são distribuídos normalmente, com média de 3420g e desvio padrão de 495g. Os hospitais exigem tratamento especial para bebês que nasçam com menos de 2450g ou mais de 4390g, visto que as crianças que nascem com pesos entre 2450g e4390g são imunes ao vírus. Qual é a porcentagem de bebês que não requerem tratamento especial do Coronavírus por terem pesos ao nascer entre 2450g e 4390g? Sob essas condições, muitos bebês precisam de cuidados especiais? (Obs.: dados fictícios). FIGURA 15 - ÁREA DO PESO DAS CRIANÇAS ENTRE 2450G E 4390G FONTE: O autor Observando a Figura 15 a porcentagem de bebês que não requerem tratamento especial do Coronavírus por terem pesos ao nascer entre 2450g e 4390g está representado pela área pintada. Assim: Queremos a área acumulada à esquerda, ou seja: 101 ProbabilidadeProbabilidade Capítulo 2 Usando a tabela do Apêndice B, vemos que z = -1,96 corresponde à uma área de 0,0250. Por outro lado, precisamos encontrar a área acumulada à esquerda de 4390, então: E pela tabela do Apêndice A, vemos que z = 1,96 corresponde à área de 0,9750. Logo a área entre 2450g e 4390g é: 0,9750 - 0,0250 = 0,950 Portanto, a porcentagem de bebês que não requerem tratamento especial do Coronavírus por terem pesos ao nascer entre 2450g e 4390g é de (em porcentagem) 95%. Assim, podemos dizer também que 5% das crianças precisam de tratamento especial para a coronavírus, por terem peso abaixo de 2450g ou acima de 4390g. Introduziremos agora alguns modelos de variáveis aleatórias contínuas, que assumem valores positivo, ou seja, tendem a ter uma distribuição assimétrica à direita. E assim como a distribuição normal, serão bastante utilizados no próximo capítulo que trata sobre inferência. Então vamos lá! 3.5 DISTRIBUIÇÃO QUI-QUADRADO A distribuição Qui-Quadrado tem grande importância em testes não paramétricos2,além de possuir importantes aplicações em Inferência Estatística, cuja variável aleatória, de valores positivos possui uma distribuição qui-quadrado com graus de liberdade. Essa distribuição é representada por , que possui a função densidade: ² Teste paramétricos faz inferências sobre a população, com base nas observações da amostra (ou seja, testa os parâmetros como média, variância e desvio padrão). Por outro lado, os testes não paramétriostestam outras situações que não são os parâmetros, como modelos, dependência ou independência e aleatoriedade (VIALI, 2020). 102 Estatística para professores para x > 0 e n >0. Sendo, para w > 0. Dependendo do número de graus de liberdade, existe uma família de distribuições qui-quadrado, conforme podemos visualizar na Figura 16. Para termos ideia do que é graus de liberdades, considere um conjunto qualquer, denominados graus de liberdade o número de valores desse conjunto que podem variar após ser implantadas restrições a todos os valores. Por exemplo, considere um grupo de 30 estudantes que obtiveram nota média 8,0 em uma avaliação. Assim, a soma das 30 notas é (30x8) 240. Logo, temos que o grau de liberdade é 30-1 = 29, pois a soma das vinte e nove primeiras notas podem ser escolhidas aleatoriamente, porém a 30º nota tem que ser igual a [240 – (a soma das 29 primeiras notas)]. FIGURA 16 - GRÁFICO DA DISTRIBUIÇÃO (QUI-QUADRADO) PARA DE 1, 2 E 3 FONTE: Disponível em : <http://www.mat.ufrgs.br/~viali/exatas/material/ apostilas/Probabilidade_2.pdf>. Acesso em: 17 mar. 2020. Podemos interpretar a distribuição qui-quadrado, como a soma de distribuições normais ao quadrado, ou seja, seja então . Essa distribuição é assimétrica, e à medida que os graus de liberdade aumentam ela se torna “menos” assimétrica, tendendo para uma distribuição normal. Pelo grau de dificuldade da função densidade da distribuição Qui-quadrado, as probabilidades serão obtidas pela tabela do Apêndice C, que apresenta os valores de acordo com os graus de liberdade ( ) e o nível de significância ( ), tal que os graus de liberdade se encontram na primeira coluna e os níveis 103 ProbabilidadeProbabilidade Capítulo 2 de confiança na primeira linha da tabela. O cruzamento da coluna com a linha apresenta o valor tabelado como . Exemplo: Encontre o valor de para uma distribuição com . Solução: Temos que, os graus de liberdade é igual a 1 e o nível de significância é 5/100 = 0,05, na tabela do Apêndice C, temos que . Que significa que em uma distribuição com = 1 há uma probabilidade de 5% de ocorrer um valor maior ou igual a 3,841. 3.6 DISTRIBUIÇÃO T-STUDENT Segundo Bussab e Morettin (2010), “o nome Student vem do pseudônimo usado pelo estatístico inglês W. S. Gosset, que introduziu essa distribuição no início do século passado”. E é usada quando para análise com amostras pequenas, ou seja, amostras enumeráveis. Suponha que Z seja uma distribuição normal padrão e que V tenha uma distribuição Qui-Quadrada (X²), com graus de liberdade, ou seja diremos que a variável tem uma distribuição T-Student (t), cuja função para descobrir a densidade é: E com essa função verificamos que quando V é grande, o gráfico da densidade de t aproxima-se de N (0,1), conforme podemos visualizar na Figura 17: FIGURA 17 - DISTRIBUIÇÃO T-STUDENT E A DISTRIBUIÇÃO NORMAL PADRÃO FONTE: Adaptado de Bussab e Morettin (2010) 104 Estatística para professores Assim, percebemos que essa distribuição é simétrica e similar à distribuição normal só que com caudas mais largas, gerando assim uma probabilidade maior para valores mais afastados da média. Encontramos os valores dessa distribuição pela tabela de distribuição T-Student (Apêndice D), que apresenta os valores t de acordo com os graus de liberdade ( ) que estão na primeira coluna e os níveis de confiança, que estão na primeira linha da tabela. Assim o cruzamento da coluna com a linha apresenta o valor t tabelado (ttab). Exemplo: Encontre o valor de (ttab) para uma distribuição com = 6, para 2,5% < t(6) < 5%. Solução: Temos que, os graus de liberdade são iguais a 6 e o nível de significância é 2,5/100 = 0,025, na tabela do Apêndice D, temos que ttab = 2,4469. Por outro lado, para o nível de significância de 0,05, temos que ttab = 1,9432. Logo t(6) = 2,4469 – 1,9432 = 0,5037. 3.7 DISTRIBUIÇÃO F A distribuição F, também conhecida por alguns de distribuição F de Snedecor, depende de dois parâmetros também denominados de graus de liberdade. Sendo, 1 o grau de liberdade do numerador e 2 o grau de liberdade do denominador. Essa distribuição é usada para verificar se as variâncias de duas populações distintas são estatisticamente idênticas, caracterizada assim como o quociente de duas variâncias e, portanto, de duas distribuições qui-quadradas. Desta forma, se uma variável aleatória contínua X tem distribuição F, com 1 e 2 graus de liberdade, denotamos por , se sua função densidade for dada por: para 0 < x < , 1, 2 = 1, 2, 3, ... 105 ProbabilidadeProbabilidade Capítulo 2 Essa função é “assustadora”, e para resolvermos sem o uso de algum software demandaria muito tempo. Por isso os valores da distribuição F serão obtidos pelas tabelas de distribuição F (Apêndice E, F, G, H e I). Esses valores dependem dos dois graus de liberdade ( 1, 2), assim para cada par de graus de liberdade há uma curva de distribuição F. No Apêndice E, F, G, H e I apresentaremos as tabelas de Distribuição F, para respectivamente, que apresenta o valor Ftab que delimita a região sob a curva na cauda direita (pois os valores são sempre maiores ou iguais a zero), com graus de liberdade 1 e 2. O cruzamento da primeira linha (que possui os graus de liberdade 1) com a primeira coluna (que possui os graus de liberdade 2), apresentará o valor de Ftab no nível de significância adotado. Exemplo: Suponha duas amostras independentes, a primeira com 1 = 20 e a segunda com 2 = 14, calcule o valor de Ftab e significância de 5%. Solução: Pela tabela de distribuição F ao nível de 5% de significância (Apêndice F), temos que Ftab = 2,3888. Esse valor significa que em uma distribuição com 1 = 20 e 2 = 14 e probabilidade de 5%, delimita a região sob a curva na cauda direita maiores ou iguais a 2,388. 1 No lançamento de 30 moedas honestas, qual a probabilidade de saírem: a) Exatamente 12 caras? b) Mais de 20 caras? 2 Uma urna tem 30 bolas brancas e 20 verdes. Retiram-se uma bola dessa urna. Seja X o número de bolas verdes. FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. a) Calcule a esperança E(X) desse evento. b) Calcule a variância Var(X) desse evento. c) Determine a função da probabilidade P(X). Dica: Use a distribuição de Bernoulli. 106 Estatística para professores 3 Num livro de 800 páginas há 800 erros de impressão. Qual a probabilidade de que uma página contenha pelo menos 3 erros? FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 4 Numa central telefônica chegam 300 telefonemas por hora. Qual a probabilidade de que: FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. a) Num minuto não haja nenhum chamado? b) Em dois minutos haja dois chamados? c) Em t minutos não haja chamados? 5 Uma moeda é lançada 20 vezes. Qual a probabilidade de saírem 8 caras? FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 6 Numa criação de coelhos, 40% são machos. Qual a probabilidade de que nasçam pelo menos 2 coelhos machos num dia em que nasceram 20 coelhos? 7 Uma prova tipo teste tem 50 questões independentes. Cada questão tem 5 alternativas. Apenas uma das alternativas é correta. Se um aluno resolve a prova respondendo a esmo as questões, qual a probabilidade de tirar nota 5? FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 8 Seja X: N(100,25). Calcular: FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 107 ProbabilidadeProbabilidade Capítulo 2 a) b) c) d) 9 Um fabricante de baterias sabe, porexperiência passada, que as baterias de sua fabricação têm vida média de 600 dias e desvio padrão de 100 dias, sendo que a duração tem aproximadamente distribuição normal. Oferece uma garantia de 312 dias, isto é, troca as baterias que apresentarem falhas nesse período. Fabrica 10.000 baterias mensalmente. Quantas deverá trocar pelo uso da garantia, mensalmente? FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. 10 Uma fábrica de carros sabe que os motores e sua fabricação têm duração normal com média de 150.000 km e desvio padrão de 5.000 km. Qual a probabilidade de que um carro, escolhido ao acaso, dos fabricados por essa firma, tenha um motor que dure? FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. a) Menos de 170.000 km? b) Entre 140.000 km e 165.000 km? c) Se a fábrica substitui o motor que apresenta duração inferior à garantia, qual deve ser esta garantia para que a porcentagem de motores substituídos seja inferior a 0,2%? O modelo econômico da empresa em condições de incerteza aplicação do método de simulação de Monte Carlo Luiz João Corrar Introdução A maior parte das empresas ainda utiliza o modelo econômico tradicional no seu processo de planejamento. Denominamos de 108 Estatística para professores modelo tradicional aquele em cuja concepção não se leva em conta o fator incerteza. Utilizam-se modelos determinísticas como instrumentos auxiliares ao processo decisório embora o ambiente em que as decisões são tomadas seja o de incerteza. O administrador, normalmente, não tem condições de avaliar as probabilidades inerentes aos diversos estados da natureza que influenciam nas decisões. Entretanto, pode se basear na experiência adquirida e no bom senso para a obtenção de probabilidades subjetivas relacionadas com os referidos estados da natureza. Este trabalho tem por objetivo mostrar como o Modelo de Simulação de Monte Carlo pode ser útil ao processo de tomada de decisões em condições de incerteza. O Modelo Econômico Tradicional O modelo econômico tradicionalmente utilizado pelas empresas é dado pela expressão: L = (P - V). X – F onde: L = lucro total P = preço unitário de venda do produto V = custo variável por unidade X = volume de vendas F = custo fixo total Normalmente, as empresas consideram que todas as variáveis de entrada deste modelo, ou sejam: preços de venda, custos e volumes de produção, são conhecidas com certeza. Entretanto, como vivemos num mundo de incertezas tal modelo fica desatrelado da realidade, perdendo parte de sua utilidade como instrumento de planejamento das empresas. Na realidade todas as variáveis do modelo podem apresentar um comportamento aleatório. O termo aleatório é utilizado para indicar que o valor que tal variável assume num experimento depende da ocorrência do experimento que, por sua vez, depende do acaso (HOEL, 1963) O fato, por exemplo, de o volume de vendas se comportar 109 ProbabilidadeProbabilidade Capítulo 2 como uma variável aleatória significa que as previsões relativas às unidades a serem vendidas de cada produto não se constituem num dado único , mas podem assumir uma série de valores, que por sua vez, dependem do acaso. Modelo Econômico em Condições de Incerteza O primeiro trabalho que levou em conta o fator incerteza no modelo em análise se deve a (JAEDICKE; ROBICHEI, 1964). Os referidos autores assumiram que as variáveis de entrada do modelo se comportavam como variáveis aleatórias contínuas. A variável aleatória é denominada continua quando pode assumir um conjunto contínuo de valores (SPIEGEL, 1967). Um dos mais importantes exemplos de distribuição contínua de probabilidades é a distribuição normal. A distribuição normal de probabilidades é uma curva uniforme, simétrica, continua e configurada sob a forma de sino, como mostra a figura a seguir. No eixo dos X são colocados os pontos relativos & variável contínua que pode ser por exemplo o volume de vendas. Nesse eixo, o ponto /L representa a média aritmética da distribuição. Verifica- se que 11 está escrito no ponto de simetria do eixo dos X. A curva alcança o valor máximo nesse ponto, e metade da área fica & esquerda de p e a outra metade à direita. Ainda nesse eixo, σ representa o desvio padrão em relação & média µ, ou seja, representa o grau de dispersão dos dados em relação à média. 110 Estatística para professores Uma propriedade da curva normal é que a sua localização e forma ficam completamente determinadas pelos respectivos valores da média do desvio padrão o. O valor de µ, centra a curva, quanto o valor de o determina a extensão da dispersão. Virtude de se poder determinar, completamente, a forma da curva normal a partir do conhecimento do seu desvio padrão, é possível reduzir todas as curvas normais a uma curva- padrão através de uma simples mudança de variável. Torna-se muito mais simples trabalhar com uma curva que tem média igual a zero e desvio padrão igual a 1, que são as características dessa curva padrão. Assim, qualquer curva normal pode ser reduzida a essa curva padrão, denominada curva normal reduzida. De maneira geral, se um determinado ponto X localizado sobre o eixo de uma curva normal com média e desvio padrão o corresponde a um ponto Z sobre a curva normal-padrão, então o ponto X está a Z desvios padrão para a direita de p. A relação entre pontos correspondentes é dada pela expressão: x = µ, + z σ se Z for expresso em termos de X, Esta expressão permite que se ache o ponto Z sobre a curva normal o que corresponde a qualquer ponto X sobre a curva normal não-padrão. Desta forma ao expressar todos os valores de uma curva normal, termos dos valores de urna curva-padrão normal, todas as curvas normais podem ficar reduzidas a uma curva-padrão única. Os valores de Z, por sua vez, são tabelados e podem ser encontrados em qualquer livro de estatística. Conhecido o valor de Z, consulta-se essa tabela que informa sobre o valor da área da distribuição normal-padrão. Essa área representa a probabilidade de uma variável ser igual a Z desvios padrões da média. 111 ProbabilidadeProbabilidade Capítulo 2 Como exemplo, considere o caso em que a média da distribuição das e uma empresa é de 20.000 unidades. Suponha que a sua distribuição apresente um desvio padrão de 4.000 unidades. Poder- se calcular a probabilidade de as vendas se situarem entre 20.000 e 22.000 unidades. Como: µ = 20.000, σ = 4.000 e X = 22.000, o valor de Z é dado por: Consultando a tabela de distribuição normal, verifica-se que o valor de Z = 0,50 corresponde à 0,1915. Isso significa que a probabilidade de as vendas se situarem entre 20.000 e 22.000 unidades é de 19,15%. Desenvolvidos alguns conceitos fundamentais da distribuição normal, e dado seu aspecto prático, diversos autores passaram a utilizá-la na resolução de problemas relacionados com o modelo econômico em condições de incerteza, para cálculo das probabilidades de atingir diversos níveis de lucros ou de prejuízos. A Validade da Distribuição Normal do Lucro Mesmo sabendo que as variáveis de entrada do modelo são normalmente distribuídas, não se pode inferir que a variável resultante lucro (L) é normalmente distribuída. Isso porque a soma ou a diferença entre duas ou mais variáveis aleatórias independentes e normalmente distribuídas resulta em outra variável aleatória independente e normalmente distribuída. Entretanto, o produto de duas ou mais variáveis aleatórias independentes e normalmente distribuídas não resulta, necessariamente, em outra variável aleatória normalmente distribuída. Portanto, a expressão (P - V). X pode não apresentar uma distribuição normal, mesmo considerando que a distribuição de cada uma dessas variáveis seja normal. Um teorema de CRAIG E AROIAN (AROIAN, 1974 E CRAIG, 1936),estabelece que o produto de duas variáveis aleatórias 112 Estatística para professores normalmente distribuídas e estatisticamente independentes se aproxima de uma distribuição normal somente quando seus coeficientes de variação se aproximam de zero. Portanto, devido a esse teorema, recomenda-se abandonar o uso da distribuição normal do lucro, apesar da praticidade de sua utilização, nas situações em que todas as variáveis envolvidas têm comportamento aleatório. Modelos de Simulação O modelo tradicional pode ser classificado como determinístico porque dado um valor para cada urna das variáveis de entrada, o lucro é determinado de forma inequívoca. Por outro lado, quando para cada valor das variáveis de entrada existe uma distribuição de probabilidades dos valores a serem assumidos pela variável dependente, o modelo é denominado probabilístico ou estocástico (ACKOFF, 1962). Os modelos probabilísticos são os mais adequados à realidade porque levam em conta o fator incerteza, bem como as relações entre as variáveis que o compõem. A simulação é uma técnica que possibilita representar uma determinada situação traduzindo-a em termos matemáticos. A técnica de simulação é um instrumento poderoso que possibilita trabalhar com as mais diversas formas de distribuição de probabilidades e de dependência entre as variáveis. Tem também o poder de resolver problemas de diferentes níveis de complexidade. A técnica de simulação também pode ser utilizada na resolução de modelos determinísticos complexos, caso em que busca a solução através de um processo de aproximações sucessivas. Quando utilizada na solução de modelos probabilísticos, a simulação utiliza os dados amostrais das distribuições de probabilidades das variáveis de entrada, processa essas informações dentro do modelo específico, e obtém como saída as distribuições de probabilidades da variável resultante (lucro). O Método de Monte Carlo O método de Monte Carlo é um tipo especial de simulação utilizada em modelos envolvendo eventos probabilísticos. Esse método é denominado de Monte Carlo porque utiliza um processo aleatório, tal como um lançamento de dados ou o girar de uma roleta, para selecionar os valores de cada variável em cada tentativa (MORSE, 1986). Este método permite, essencialmente, simular o 113 ProbabilidadeProbabilidade Capítulo 2 comportamento de processos que dependem de fatores aleatórios (SOBOL, 1983). O método de Monte Carlo originou-se do trabalho de VON NEUNANN e ULAN desenvolvido em 1.940, e consistia numa técnica que foi utilizada para solucionar problemas de blindagem em reatores nucleares (NAYLOR et al., 1966). Para que se possa entender como esse método funciona será apresentado um exemplo bastante simplificado envolvendo apenas uma variável aleatória. Suponha que determinado produto apresente a distribuição para o volume de vendas dos últimos dias conforme Quadro 1, coluna 2. A empresa deseja prever a distribuição do volume de vendas para os próximos 10 dias. O passo inicial, é determinar a denominada função de distribuição acumulada, que está demonstrada na coluna 3 do Quadro 1, e que é representada pela soma das distribuições de probabilidades simples de forma cumulativa ao longo do período. Tomando-se por base a função de distribuição acumulada é montada a coluna 4 do Quadro 1. Os valores ali constantes representam os intervalos de classe da função de distribuição acumulada e refletem as probabilidades dos vários volumes de vendas. Aos valores assim obtidos dá-se o nome de números de rótulo, e mostram o limite inferior e o superior, respectivamente, de cada intervalo de classe. Verifica-se que representam números que variam de O a 99. O passo seguinte é gerar números aleatoriamente a partir de um conjunto de números compreendidos entre os valores O e 99. Esses números poderiam ser obtidos através do girar de uma roleta, ou a partir de tabelas de números aleatórios, ou mesmo através de computador. Suponha que tenham sido gerados os números aleatórios de acordo com a ordem apresentada no Quadro 2: Verifica-se que o primeiro número gerado, ou seja 14, corresponde ao número de rótulo 05-14 (Quadro 1, coluna 4) que se refere por sua vez ao volume de vendas de 1 unidade por dia (coluna 2 do mesmo Quadro). Assim, através desse processo é possível estimar os volumes de vendas dos próximos 10 dias, representados no Quadro 3. 114 Estatística para professores Cabe salientar que, ao montar os números de rótulo (Quadro 1, coluna 4), foram considerados valores que variaram entre 00 e 99. Como se viu, esses números representam as probabilidades dos diversos valores da variável, sendo que sua sequência deve estar sempre fechada. O importante a salientar é que o número de dígitos usados nos números de rótulo deve ser o mesmo que o número de casas decimais nas probabilidades dos diversos valores da variável. Assim, também, o número de dígitos usado nos números aleatórios deve ser o mesmo que o número de dígitos usados nos números de rótulo (SHAMBLIN et al., 1979). A Determinação das Distribuições de Probabilidade As decisões gerenciais, geralmente, necessitam de estimativas dos valores das variáveis envolvidas. Quando se dispõe de dados passados relacionados a essas variáveis, podem ser usadas certas técnicas estatísticas, como por exemplo a análise de regressão, para a estimativa de seus comportamentos futuros. Entretanto, em muitos casos ou os dados passados não estão disponíveis ou apresentam muita deficiência. Nesses casos, o dirigente necessita elaborar estimativas subjetivas que refletem suas expectativas quanto ao comportamento futuro dessas variáveis. As estimativas subjetivas podem ser obtidas a partir da experiência do próprio dirigente ou de um grupo de especialistas. Obtidas as informações relativas às probabilidades subjetivas por parte de um grupo de especialistas é possível efetuar o tratamento desses dados de forma a se poder trabalhar com estimativas que poderão ser formuladas em três níveis, a saber: estimativa otimista, estimativa mais provável e estimativa pessimista. A estimativa mais provável corresponde à média das opiniões dos especialistas. As estimativas otimistas e pessimistas poderão ser obtidas considerando-se um desvio padrão acima ou um desvio padrão abaixo da média, respectivamente (BOUCINHAS, 1972). Aplicação da Técnica de Simulação de Monte Carlo Considerando a Incerteza em Todas as Variáveis Neste tópico apresenta-se um caso em que todas as variáveis do modelo econômico (1) serão consideradas como aleatórias. Será 115 ProbabilidadeProbabilidade Capítulo 2 utilizado o método de Monte Carlo para simular as distribuições de cada variável e computar o lucro para cada combinação simulada do preço de venda, custo variável, custo fixo e volume de vendas. Suponha os seguintes dados de entrada: No caso, as probabilidades são subjetivas e representam as médias das opiniões de urna equipe de especialistas da empresa. Os dados são introduzidos num programa de computador que utiliza números aleatórios para simular as distribuições e calcular o lucro esperado, as distribuições de probabilidades do lucro e O respectivo desvio padrão. A saída do programa apresenta os resultados apresentados no Quadro 4. Outros parâmetros obtidos: 116 Estatística para professores Lucro Esperado = $ 357.400 Lucro Máximo = $ 5.050.000 Prejuízo Máximo = $ 3.800.000 Desvio Padrão = $ 1.952.230 Os resultados do Quadro 4 foram obtidos utilizando-se 100 tentativas e 50 iterações para cada tentativa o que resulta em 5.000 simulações. Analisando-se os resultados verifica-se por exemplo, que: - há 40% de probabilidade de se obter prejuízo - há 60% de probabilidade de se atingir pelo menos O ponto de equilíbrio; - a probabilidade de o lucro se situar entre $ O e $ 1.000.000 é de 29%. A vantagem do método apresentado,é que não é necessário conhecer a forma de distribuição do lucro. Esse método permite ainda, que se incorpore a relação de dependência entre as variáveis envolvidas. Apesar de se adotar como exemplo um caso relativamente simples, ainda assim, foi possível mostrar os conceitos gerais, como se aplica e sua utilidade para o administrador como instrumento auxiliar no processo de tomada de decisões em condições de incerteza. O Gráfico 1 apresenta a distribuição do lucro por simulação. Conclusões O modelo econômico tradicional ainda tem sido muito útil como instrumento gerencial, ajudando a administração da empresa a tomar decisões como por exemplo: na determinação do nível ótimo de produção para uma empresa de um único produto; no cálculo do melhor "mix" de produção para urna empresa com multiprodutos etc. Entretanto, o modelo tradicional considera que as variáveis do modelo são conhecidas com certeza, ignorando dessa forma o fator incerteza que é inerente ao processo de tomada de decisões. Porém, para a construção de modelos mais adaptáveis à realidade é necessário considerar que as variáveis componentes podem assumir um comportamento aleatório. 117 ProbabilidadeProbabilidade Capítulo 2 Os modelos determinísticos continuam a apresentar grande utilidade. Entretanto, os modelos probabilísticos, por serem mais ajustados à realidade, dotam a administração de instrumentos mais úteis ao processo de tomada de decisões porque permitem conhecer: para o caso de urna empresa com um único produto (que foi a situação tomada como exemplo) - qual a probabilidade que apresenta o produto de atingir o ponto de equilíbrio; - qual a probabilidade que apresenta o produto de atingir prejuízo, ou de alcançar determinada faixa de lucro; para o caso de uma empresa com multiprodutos - qual o produto que apresenta a maior probabilidade de atingir o ponto de equilíbrio; - qual o produto que apresenta a menor probabilidade de atingir prejuízo, ou a maior probabilidade de alcançar determinada faixa de lucro. Um problema inicial que se apresenta para o desenvolvimento de modelos probabilísticos é que, estes requerem o conhecimento da forma de distribuição não só das variáveis de entrada, ou sejam: preço unitário de venda, custo unitário variável, volume de vendas e custo fixo total, como também da variável resultante, ou seja, o lucro total. A vantagem da adoção da distribuição normal é que, conhecendo-se sua média e desvio padrão, é possível determinar a probabilidade de se atingir pelo menos determinado ponto qualquer da distribuição praticamente através de simples consulta à Tabela de Distribuição Normal Reduzida. Por outro lado, verificou-se que embora a hipótese da distribuição normal seja bastante simplificadora, só é válida em termos restritos. A distribuição normal para os modelos econômicos em condições de incerteza é rigorosamente justificável somente para os casos em que as variáveis de entrada possuam pequenos coeficientes de variação, ou quando as variáveis: preço unitário o e custo variável unitário são determinísticas. A simulação é uma técnica que usa um processo estocástico para determinar, através de múltiplas tentativas, a natureza das distribuições de probabilidades que seriam difíceis de se determinar pelos procedimentos estatísticos padrões. 118 Estatística para professores Uma das grandes vantagens da técnica de simulação é que os modelos que a utilizam podem acomodar diferentes graus de complexidade. Além disso, essa técnica permite que se incorpore a relação de dependência entre as variáveis envolvidas. Por outro lado, com adoção dessa técnica não é necessário conhecer a forma de distribuição da variável resultante (o lucro). Como exemplo, apresentou-se um modelo em que se aplica o método de Monte Carlo, e se considera a incerteza em todas as variáveis de entrada. A utilização das técnicas de simulação fica bastante facilitada com o auxílio dos microcomputadores. Entretanto, é preciso salientar que devido ao atual estágio de desenvolvimento técnico e de disponibilidade de recursos materiais e humanos por parte da maior parcela das empresas. brasileiras, torna-se difícil o uso disseminado das técnicas de simulação no Brasil. Finalizando, parece ter ficado demonstrado neste trabalho que a técnica de simulação pode ser de grande utilidade como instrumento auxiliar no processo de planejamento e tomada de decisões por parte da administração. 119 ProbabilidadeProbabilidade Capítulo 2 120 Estatística para professores REFERÊNCIAS ACKOFF, Russel L. "A Concept of Corporate Planning" New York. John Wiley & Sons, mc., 1970. AROIAN, Leo A. "The Probability Function of The Product of Two Normaly Distributed Variables' The Annals of Mathematical Statistics, 1974. BOUCINHAS, J. F. da Costa "A Aplicação de Modelos ao Processo de Planejamento na Empresa" Tese de Doutoramento. Faculdade de Economia, Administração e Contabilidade, 1972. CORRAR, Luiz J. "Análise das Relações Custo-Volume-Lucro para Multiprodutos em Condições de Incerteza" Tese de Doutoramento. Universidade de São Paulo, Faculdade de Economia, Administração e Contabilidade, 1990. 121 ProbabilidadeProbabilidade Capítulo 2 GRAIG, Cecil C. "On the Frequency Function of XY" Annals of Mathematical Statistics, Vol.7, 1936. HOEL, P. G. "Estatística Elementar" Rio de Janeiro. Editora Fundo de Cultura, 1963 JAEDICKE, R. K., e ROBICHEC, A. A. "Cost-Volume-Profit Analysis under Conditions of Uncertainty" , The Accounting Review October, 1964). MORSE, Wayne J. e ROTH, Harold P. "Cost Accounting: Processing, Evaluating, and Using Cost Data". Third Edition. Addison Wesley Publishing Company, 1986. NAYLOR, T. E.; BALINTFY, J.L.; BURDICK, D. S. e CRU, K. "Computer Simulation Techniques". Wiley & Sons, 1966. SHAMBLIN, James E. STEVENS Jr., G. T. Editora Atlas, 1.979. "Pesquisa Operacional". 1."O Método de Monte Carlo". Editora Mir, 1983. SOBOL I. "O método de Monte Carlo". Editora Mir, 1983. SPIECEL, M. R. "Probabilidade e Estatística". São Paulo, McGraw Hill do Brasil, 1967. FONTE: Disponível em: <http://www.scielo.br/scielo.php?script=sci_ arttext&pid=S1413-92511993000100004>. Acesso em: 20 mar. 2020. ALGUMAS CONSIDERAÇÕES Abordamos nesta unidade, de forma sistemática e aprofundada a Teoria das Probabilidades, com construções do espaço amostral de eventos equiprováveis, utilizando a árvore de probabilidade e princípio multiplicativo, para estimar a probabilidade de sucesso de um evento. Além de nos fornecer um sólido conhecimento para uma compreensão dos métodos estatísticos, e de permitir que o indivíduo forme uma opinião própria que permite expressar-se criticamente sobre problemas, além de facilitar a tomada de decisões. 122 Estatística para professores Estudamos ainda assuntos sobre a Teoria das Probabilidades e partimos para as Distribuições de Probabilidade Discretas e Contínuas, cujo objetivo é fornecer conhecimentos para uma compreensão adequada dos métodos estatísticos, pois como visto, é um modelo matemático que estabelece a forma como os valores de uma variável aleatória se distribuem no respectivo espaço amostral, possibilitando a obtenção de probabilidade associadas a valores ou intervalos de valores do espaço amostral. Abordamos com bastante ênfase esses assuntos, pois o conteúdo de Inferência Estatística é baseado nessas considerações probabilísticas. Assim, vamos para a última unidade do livro, ao qual relacionaremos mais ainda a estatística com a probabilidade. REFERÊNCIAS BERTOLDO. Estatística Aplicada à Contabilidade. 2012. Disponível em: http:// www.bertolo.pro.br/AdminFin/AnalInvest/Aula040912Revisao.pdf. Acesso em: 5 mar. 2020. BUSSAB, Wilton; MORETTIN, Pedro A. Estatística Básica. São Paulo: Saraiva, 2010. CARVALO, Paulo Cezar Pinto; MORGADO, Augusto Cezar de Oliveira. Matemática Discreta. Rio de Janeiro:SBM, 2012. CRESPO, Antônio Arnot. Estatística: Fácil. São Paulo: Saraiva, 2009. JUNQUEIRA. Ana Lucia Nogueira. A probabilidade que a história nos conta. México: XIV CIAEM-IACME, 2015. MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. TRIOLA, Mario F; FARIAS, Ana Maria Lima de (Tradução); FLORES, Vera Regina Lima de Farias e (Tradução). Introdução à estatística: atualização da tecnologia. Rio de Janeiro: LTC, 2013. VIALI, Lorí. Testes de Hipóteses. PUCRS. Disponível em: http://www.pucrs.br/ ciencias/viali/. Acesso em: 25 mar. 2020. CAPÍTULO 3 Amostragem E Inferência A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem: • Entender conceitos e tipos de amostragem. • Encontrar estimativas. • Construir e interpretar intervalos de confiança para médias e proporção. • Determinar o tamanho mínimo da amostra. • Testar hipóteses para amostras (pequenas e grandes). 124 Estatística para professores 125 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 1 CONTEXTUALIZAÇÃO Um dos objetivos principais da estatística é tirar conclusões e informações sobre determinada população, que definimos no Capítulo 1, como um grupo que abrange todos os elementos cujas características queremos estudar, ou seja, é todo o conjunto no qual se deseja tirar conclusões. Lógico que a maneira mais direta de atingir esse objetivo seria estudar cada um de todos os elementos da população. Contudo, em muitos casos isso é impossível de ser realizado, pois o tamanho da população pode ser muito grande ou até mesmo infinito e em alguns caso pelo alto custo de analisar todos os elementos da população. Neste caso, é necessário trabalhar com uma parte dos elementos da população, ou seja, uma amostra, que definimos no Capítulo 1, como um conjunto de elementos selecionados de uma população de acordo com um plano e ação previamente estabelecido por uma amostragem, para obter informações que podem ser estendidas para toda a população. Assim, iniciaremos esse capítulo com o conteúdo de amostragem. Em seguida, abordaremos a parte da inferência estatística. Ela trata do estudo dos métodos necessários para extrair ou inferir conclusões e informações sobre uma população. Os métodos utilizados na inferência estatística dependem das informações colhidas anteriormente da população, ao qual, encontramos dificuldades em determinar os parâmetros, como média, variância, desvio padrão e proporção, para a análise das distribuições das probabilidades. Por isso, abordaremos os principais métodos para se encontrar a estimativas dos parâmetros, além de realizar os testes estatísticos, que são necessários, pois em alguns casos não é possível reunir todos os dados da população para aferir o parâmetro desejado. Por isso, os testes de hipóteses são realizados com base na amostra da população. 2 AMOSTRAGEM Amostragem é a técnica para recolher amostras, possibilitando assim o estudo das características de uma população. Desta forma, cada elemento da população passa a ter a mesma chance de ser escolhido, o que garante à amostra o caráter de representatividade, e isto é muito importante, pois como vimos, nossas conclusões relativas à população vão estar baseadas nos resultados obtidos nas amostras dessa população (CRESPO, 2009, p. 11). 126 Estatística para professores No primeiro capítulo, já definimos População e Amostra. E para um melhor entendimento dessa unidade vamos conceitualizar mais algumas palavras. 2.1 CONCEITOS As definições a seguir, foram retiradas de Morettin (2010, p. 183). • Erro amostral: é o que ocorre justamente pelo uso da amostra. • Parâmetro: é a medida usada para descrever uma característica numérica populacional. • Estimador: também denominada estatística de um parâmetro populacional; é uma característica numérica determinada na amostra, uma função de seus elementos. • Estimativa: é o valor numérico determinado pelo estimador. Definido população, amostra, amostragem, erro amostral, parâmetro, estimador e estimativa, vamos pensar, mas porque usar amostragem? Essa pergunta pode ser respondida por quatro fatores: Economia de custos; Tempo para o levantamento dos dados; Confiabilidade nos dados e Facilidade em realizar as operações. Além de que a dimensão da amostra é importante na realização de inferência estatística e probabilidade para as médias e proporções, que veremos mais adiante. Vamos agora definir alguns tipos de amostragem, ao qual existem dois grupos da amostragem: a probabilística e a não probabilística. 2.2 TIPOS DE AMOSTRAGEM Estudamos até aqui o que é amostragem e quais vantagens ela oferece quando queremos estudar uma população. Agora veremos as duas técnicas de amostragem existentes: amostragem probabilística e a amostragem não probabilística. 2.2.1 Amostragem probabilística É aquela em que cada elemento da população tem uma chance conhecida e diferente de zero de ser selecionado para compor a amostra. As amostragens probabilísticas geram amostras probabilísticas (MATTAR, 1996). 127 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 Ocorre amostragem probabilística quando duas condições ocorrem. São elas: 1. Os elementos da população possuem probabilidade maior que zero de serem selecionados na amostra; 2. Conhecemos a probabilidade de incluir cada elemento na amostra. Podemos concluir que só podemos fazer amostragem probabilística se tivermos toda a população que queremos estudar e do qual a amostra é retirada. Chamamos isso de quadro de amostragem, que pode ser exemplificado: suponha que queiramos medir a satisfação dos clientes de uma empresa X. Geramos o quadro de amostragem, acessando o sistema do computador e extraindo a lista de todos os clientes da empresa. Assim, cada cliente seria uma unidade de amostra e ao selecionarmos um conjunto desses clientes, obteríamos uma amostra. A amostra definirá as diferentes técnicas de amostragem probabilísticas, que são: Amostragem Aleatória simples ou casual: todos os elementos da população possuem a mesma probabilidade de serem escolhidos. Sendo assim, esse processo emprega uma técnica parecida com um sorteio, onde cada elemento da população “sorteia em uma urna” um número aleatoriamente. Para realizar o sorteio dos elementos da população usam-se Tabelas de Números Aleatórios ou Softwares Computacionais. Ainda, conforme Crespo (2009, p. 11-12): Na prática, a amostragem casual ou aleatória simples pode ser realizada numerando-se a população de 1 a n e sorteando- se, a seguir, por meio de um dispositivo aleatório qualquer, k números dessa sequência, os quais corresponderão aos elementos pertencentes à amostra (grifo do autor). Amostragem estratificada: é o processo de amostragem que divide a população (conjunto) em subpopulações (subconjuntos), chamados de estratos. De modo que cada elemento pertença a um estrato. Assim, definidos os estratos, criamos a amostra “pegando” cada elemento aleatoriamente de cada estrato (e isso pode ser feito por qualquer técnica de amostragem), ou seja, definimos os estratos de acordo com uma característica, em seguida podemos juntar as amostras de cada característica para ser realizado as análises necessárias. A amostragem estratificada pode ser: proporcional ou uniforme. Vejamos: 128 Estatística para professores Amostragem estratificada proporcional: seleciona-se a mesma proporção de cada estrato. Por exemplo: Selecionam-se 10% dos elementos de cada estrato. Amostragem estratificada uniforme: seleciona-se o mesmo número de elementos de cada estrato. Por exemplo: Selecionam-se 50 elementos de cada estrato. Amostragem sistemática: consiste em escolher um elemento inicial e aleatório da população e depois manter um padrão sistêmico. Como afirma Crespo (2009, p. 14) “a seleção dos elementos que constituirão a amostrapode ser feita por um sistema imposto pelo pesquisador”. Por exemplo: Escolher todos os elementos múltiplos de 5 da população. Amostragem por agrupamento ou conglomerado: suponha que a população, tenha uma área total divididas em seções (chamadas de conglomerados). Assim, a amostragem por agrupamento ou conglomerados é a seleção de algumas dessas seções (conglomerados), para depois ser escolhidos todos os elementos desses conglomerados selecionados. E diferente da amostragem estratificada que é dividido em estratos com a mesma característica, os conglomerados dessa amostragem são mais heterogêneos, ou seja, não possuem sempre a mesma característica, gerando assim resultado menos precisos. 2.2.2 Amostragem não probabilística Quando não é possível “chegar” a todos os indivíduos da população, e consequentemente não podendo determinar a sua dimensão, recorremos a outras técnicas de amostragem, conhecidas como amostragem não probabilísticas. Nesse tipo de amostragem, é usual selecionar elementos para a amostra com base em hipóteses sobre a população, conhecida como critério de seleção. “É aquela em que a seleção dos elementos da população para compor a amostra depende ao menos em parte do julgamento do pesquisador ou do entrevistador no campo” (MATTAR, 1996, p. 132). O resultado de um processo de amostragem probabilístico “a priori” pode resultar em um estudo não probabilístico devido a erros que os entrevistadores podem cometer quando não seguem corretamente as instruções. Outro motivo pode ser a obtenção de uma amostra de dados que reflitam precisamente a população não seja o propósito principal da pesquisa. [...]Se não houver intenção de generalizar os dados obtidos na amostra para a população, então não haverá preocupações quanto à amostra ser mais ou menos representativa da população. A última razão para usar amostragem não probabilística se 129 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 refere às limitações de tempo, recursos financeiros, materiais e "pessoas". necessários para a realização de uma pesquisa com amostragem probabilística (MATTAR, 1996, p. 157) Como nesses casos a seleção das unidades amostrais não é aleatória, não incluímos estimativas de erro. Em outras palavras, uma amostra não probabilística nos informa como é uma população, mas não nos dá uma precisão. Além de não estabelecer margens de erro e níveis de confiança. Veremos agora, alguns tipos de amostragem não probabilística mais comuns: • Amostragem de conveniência: é uma técnica que consiste em selecionar uma amostra da população pelo simples fato de ser mais acessível, ou seja, pelo falo dos elementos a serem escolhidos estarem mais disponíveis ou serem mais convenientes que os outros. Como a seleção da amostra não possui critérios estatísticos, não podemos tirar conclusões com rigor estatístico sobre a população. • Amostragem intencional ou por julgamento: é uma técnica em que requer conhecimento da população e da amostra a ser selecionada com base nas informações disponíveis, em outras palavras, o pesquisador escolhe a amostra da população dirigindo-se a um grupo específico (elementos que são representativos de uma população). Por exemplo, quando de um estudo sobre campanha eleitoral, o pesquisador procura apenas eleitores de um partido político. • Amostragem por quotas: dentre as amostragens não probabilísticas é a mais utilizada pois apresenta o maior rigor dentre as amostragens não probabilísticas. Sendo que neste tipo de amostragem a população é dividida em subconjuntos (características distintas), de tal forma que os elementos desses subconjuntos são escolhidos de acordo com quotas e/ou critérios estabelecidos pelo pesquisador. Por exemplo, entrevistar os indivíduos da classe alta que representa 15% (quota) de toda a população. 2.3 TAMANHO DE UMA AMOSTRA De modo a obter resultados com mais confiabilidade nos resultados esperados, devemos encontrar a quantidade exata de elementos de uma amostra. Para isso, podemos usar a fórmula que nos dá o número de elementos da amostra: 130 Estatística para professores onde, n é o tamanho da amostra (o que queremos); N é o tamanho da população; é o tamanho da amostra ideal, dado por ; é o erro amostral admissível. Veremos agora as fórmulas, de acordo com Lopes (2018), para determinar o tamanho de uma amostra, de populações finitas e infinitas, para alguns casos específicos de variáveis quantitativas e qualitativas. 2.3.1 Para variáveis quantitativas, tendo a variância populacional conhecida Para população infinita, temos: Para população finita, temos: 2.3.2 Para variáveis quantitativas, tendo a variância populacional desconhecida Para população infinita, temos: 131 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 Para população finita, temos: 2.3.3 Para variáveis qualitativas, usando a proporção populacional Para população infinita, temos: Para população finita, temos: onde, Z é a abscissa da curva normal padrão, fixada a um nível de confiança (1 - ); é o desvio padrão da população; e é o erro amostral, expresso na unidade da variável, obtemos através da diferença entre a média aritmética populacional e a amostral, isto é ; N é o tamanho da população; é a estimativa da verdadeira proporção de um dos níveis da variável escolhida, expresso em decimais; corresponde ao valor de 1 - ; = n – 1 graus de liberdade. Veremos, agora, como se distribuem por amostragem a média e as proporções populacionais. 132 Estatística para professores 2.4 DISTRIBUIÇÃO AMOSTRAL 2.4.1 Distribuição amostral da média A média da amostra é uma nova variável aleatória e por isso tem uma distribuição de probabilidade associada a ela. Em outras palavras, considere uma população X, da qual amostras de tamanho n são coletadas, da qual chamaremos esses elementos de . Calculando a média ( ) de cada amostra, cujo estimador da média µ população na amostra é: Se tirarmos k amostras diferentes, obteremos valores de k (geralmente diferentes), ou seja, encontraremos as medias amostrais . Fazendo isso k tende ao infinito, e os valores terão uma distribuição chamada distribuição amostral da média. Agora suponha que temos uma população com distribuição de probabilidade p(x), caracterizada por parâmetros populacionais µ da média e da variância e consequentemente σ do desvio padrão e que temos uma amostra com n elementos, representada por variáveis aleatória . Como cada variável aleatória Xi, possui a mesma distribuição de probabilidade p(x) da população, com média µ, então a esperança de cada variável aleatória será: . Assim, podemos calcular a média, ou a esperança da distribuição amostral, da seguinte maneira: . Que nos leva que a esperança da média da amostra é a média da população. Em outras palavras, como afirma Morettin (2010, p. 208) “a média das médias amostrais, ou , é igual à média µ populacional, ou .” Da mesma forma, a variância da distribuição amostral da média será calculada pela variação de cada variável aleatória coincidente com a variância da população . Assim: 133 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 Por outro lado, podemos calcular a variação da distribuição média usando a expressão para a variância de uma combinação linear de variáveis aleatórias. Para isso, supomos que a amostragem é por substituição e possui uma população infinita, ou seja, cada Xi é independente. Após o desenvolvimento, temos que: Logo, “a variância da média amostral é igual à variância populacional dividida pelo tamanho da amostra” (MORETTIN, 2010, p. 209). Essa expressão acima é válida apenas para o caso de população infinita ou amostragem de substituição. Ou podemos calcular o desvio padrão por: Isto é: a distribuição da variável por amostragem casual simples será sempre normal com a mesma média da população X e variância n vezes menor. Issosignifica que, quanto maior o tamanho da amostra, menor será a variância de , ou o estimador será mais preciso à medida que o tamanho da amostra aumentar. (MORETTIN, 2010, p. 209). Ainda, podemos nos perguntar qual é a distribuição amostral de se a população X não é normal? A população X seguirá uma distribuição “aproximadamente” normal, isto é, se é a média da amostra aleatória de tamanho n, retirada de uma população com qualquer tipo de distribuição, então ela tenderá a uma distribuição normal padrão, ou seja, de média populacional igual a zero (µ = 0) e variância igual a um para quando n tende ao infinito. Assim podemos aplicar a fórmula: Portanto, se X é uma população não normal, ao qual retiramos uma amostra com n elementos, tal que n é um número suficientemente grande, então: . Por outro lado, se tivermos uma população finita de tamanho N conhecido, em que a amostragem é sem substituição, a expressão para a média de a distribuição ainda é válida, mas a variação deve ser substituída por: 134 Estatística para professores Exemplo 1: Temos uma população de 5000 pessoas, sabendo que a média das suas alturas é de 175 cm e o desvio padrão é igual a 5 cm. Calcule o desvio padrão da média, sabendo que só temos condições financeiras de analisar os dados para 100 pessoas. Solução: Temos que: µ = 175, σ = 5 e consequentemente a variância é σ² = 25cm. Exemplo 2: Em uma população com N elementos, retiramos uma amostra de 25 elementos. Sabendo que a média da população é de 80 e variância é 26. Calcule: a) b) c) Solução: Pelo enunciado temos que: σ² = 26; n = 25. Assim: a) Como queremos então: Assim, e pela Tabela Z (Apêndice A), temos que 2,94 = 0,4984. Temos: 0,5 – 0,4984 = 0,0016. Então, se retirarmos dessa população normal uma amostra de 25 elementos, a média da amostra que é maior que 83 é de 0,16% de confiança. 135 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 b) Como queremos então: Assim, e pela Tabela Z (Apêndice A), temos que 2,94 = 0,4750. O que nos dá: 0,5 + 0,4750 = 0,009750. Logo, se retirarmos dessa população normal uma amostra de 25 elementos, a média da amostra que é menor e igual a 82 é de 0,975% de confiança. c) Queremos , ao qual temos que: Pela Tabela Z, temos que 0,4772 – 0,0183 = 0,4589. Ou seja: 0,5+0,4589 = 0,9589. Portanto, se retirarmos dessa população normal uma amostra de 25 elementos, a média da amostra estará no intervalo de 77,96 e 82,04 é de 95,89% de confiança. 2.4.2 Distribuição amostral das proporções Veremos a distribuição amostral das proporções, supondo que temos uma população, onde n ensaios são realizados e o resultado de cada um dele é um sucesso ou um fracasso (do Capítulo 2, vemos a semelhança com a distribuição de Bernoulli). Chamamos a probabilidade de sucesso de p e de q a probabilidade de insucesso, ou seja, q = 1 – p. Assim, para cada n tentativas pode-se considerar 136 Estatística para professores uma amostra do tamanho n e para cada amostra, definiremos o estimador como a proporção de sucessos da amostra, que consideramos como a média amostral de uma variável de Bernoulli. Podemos então dizer que segue a distribuição de probabilidade, ao qual denominamos de distribuição amostral das proporções. Calculamos os parâmetros populacionais dessa distribuição, lembrando que a média e a variação de uma variável de Bernoulli é dada por: Sendo como a proporção de sucessos da amostra, , sendo x o número de sucessos da amostra, ou seja, o número de elementos da amostra que se quer estudar. Então, a média e variância da distribuição amostral de proporções podem ser calculadas aplicando as fórmulas: Portanto, como afirma Morettin (2010) “a variância da proporção amostral é a variância da população dividida pelo número de elementos da amostra”. A distribuição amostral de uma proporção, pode ser aproximada a uma distribuição normal, ou seja, para muitas tentativas ou grandes valores de n, ou ainda, para n tendendo ao infinito. Para isso, usamos: Ainda, se a amostra com repetição tiver um grande número de elementos e p for desconhecido, temos que a estimativa de p é , então: Exemplo 3: Em uma população com N pessoas, a proporção de que essas pessoas tenham alguma doença respiratória é de 8%. Fazendo uma amostragem aleatória 137 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 em 150 pessoas dessa população, qual é a probabilidade de pessoas dessa amostra possuírem probabilidade menor que 15% de problemas respiratórios? Solução: esse problema poderia ser resolvido usando a distribuição binomial (que tal tentar!?!?). Iremos resolver usando as propriedades da distribuição amostral da proporção, ao qual chamaremos a proporção da população de p e a proporção da amostra de . Pelo enunciado temos que: n = 150; p = 8% = 0,08; = 15% = 0,15. Neste caso, podemos dizer que é aproximadamente normal distribuído com média e desvio padrão: Logo, P ( < 0,15) = P(z < Z), onde: Pela tabela de distribuição normal (Apêndice A), temos que a probabilidade pedida é de 0,5 + 0,4992 = 0,9992. Portanto, a probabilidade de se encontrar uma proporção de pessoas com problemas respiratórios abaixo de 15% em uma amostra aleatória de 150 pessoas é de 99,92%, ou seja, quase 100% de chances de isso acontecer. Exemplo 4: Em uma população de pessoas, a proporção de usuários de drogas é de 50%. Enquanto a proporção em outra população é de 33%. Calcule a probabilidade de que amostras de tamanho igual a 100 pessoas das duas populações, tenha um valor 1 - 2 maior que 30%. Solução: A distribuição amostral de 1 - 2 é aproximadamente normal com média e desvio padrão: 138 Estatística para professores Logo, Pela tabela de distribuição normal (Apêndice A), temos que a probabilidade (área sob a curva normal padrão à direita) pedida é de 0,5 - 0,4706 = 0,0294. Portanto, a probabilidade de que amostras de tamanho igual a 100 pessoas das duas populações, tenha um valor 1 - 2 maior que 30% é de 2,94%. 1 Suponha que você tenha 500 cadastros arquivados em sua loja e você quer uma amostra de 2% desses cadastros. Diga, como você obteria uma amostra sistemática. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 2 Suponha uma população constituída pelas 12 primeiras letras do alfabeto. Diga, como poderia ser obtido uma amostra sistemática de três elementos. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 139 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 3 Amostragem é a técnica para recolher amostras, possibilitando assim o estudo das características de uma população, onde cada elemento da população passa a ter a mesma chance de ser escolhido, fazendo com que as conclusões obtidas da amostra sejam validas para toda a população. Com base no exposto, associe os itens utilizando o código a seguir: I- Um subconjunto da população. II- Censo. III- Inferência. IV- Amostragem estratificada. V- Amostragem aleatória. VI- Amostragem sistemática. ( ) Processo de tomada de decisões sobre a população baseado nos dados das amostras. ( ) Amostra. ( ) Análise de todos os elementos da população. ( ) Divide a população emsubpopulações. ( ) É uma casualidade, dá a mesma chance a todos os membros de uma população de ser selecionado ( ) É um processo em que se selecionam os sujeitos a incluir na amostra utilizando um cálculo. Assinale a alternativa que apresenta a sequência CORRETA: a) ( ) III – I – II – IV – V – VI. b) ( ) II – III – I – V – IV – VI. c) ( ) I – III – II – VI – V – IV. d) ( ) III – II – I – V – VI – IV. 4 Uma operadora de tele marketing deseja saber a opinião de seus clientes acerca dos seus serviços na cidade de Blumenau/SC. Supondo que haja 36.000 clientes – sendo 12.000 na categoria pequenas empresas, 15.000 clientes na categoria médias empresas e 9.000 na categoria empresas de grande porte – e que a amostra precise ser composta de no mínimo 800 elementos, analise as afirmativas a seguir: I- Se a técnica escolhida para seleção das amostras for sistemática, o intervalo de seleção será de 45. II- Se os 800 primeiros clientes que entrarem em contato com a 140 Estatística para professores atendente da operado forem selecionados para participar da pesquisa, é indício de que a técnica de amostragem utilizada foi a aleatória simples. III- Considerando a técnica sistemática, se aleatoriamente selecionarmos o cliente de registro 22 para ser o primeiro a participar do estudo, o próximo selecionado será o cliente 67. IV- Para uma amostragem estratificada, teremos 25% da amostra composta por assinantes comerciais da categoria empresas de grande porte. Assinale a alternativa CORRETA: a) ( ) Somente a afirmativa I está correta. b) ( ) As afirmativas I e II estão corretas. c) ( ) As afirmativas I, III e IV estão corretas. d) ( ) As afirmativas II e IV estão corretas. 5 Os salários dos funcionários de uma empresa de grande porte, tem média de 6 salários mínimos e desvio padrão de 1 salário mínimo. Qual a probabilidade de a média dos salários de trinta e seis funcionários dessa empresa ser inferior a 6,5 salários mínimos? R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 6 Em uma turma de Estatística, a nota média dos alunos é 5,5, com desvio padrão 1,0. Qual é a probabilidade de uma amostra de cinquenta alunos dessa turma apresentar nota média entre 5,0 e 6,0? R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 141 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 7 Podemos moldar como normal a quantidade de cópias que um “tonner” de uma máquina de fotocópias realiza, tal que, essa máquina faz uma média 15 mil cópias e desvio padrão de 2 mil cópias. Supondo que são vendidos 200 desses “tonners” e é observado uma amostra de 12 “tonners”. Calcule a probabilidade de a média dessa amostra ser: a) Menor que 16 mil cópias. b) Maior que 13 mil cópias. c) Entre 14 e 16 mil cópias. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 8 Em uma máquina de encher cafés costuma produzir 5% dos cafés com quantidade fora do limite estabelecido. Se escolhermos uma amostra de 64 cafés, qual a probabilidade de a proporção amostral dos cafés com quantidade fora do limite estabelecido ser superior a 6%? R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 9 Através de uma avaliação institucional, uma empresa concluiu que 30% dos funcionários estão insatisfeitos com seus rendimentos. Qual a probabilidade de encontrarmos no máximo 32% de funcionários insatisfeitos com seus rendimentos numa amostra de 200 funcionários? R.: ____________________________________________________ ____________________________________________________ 142 Estatística para professores ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 10 Suponha uma população com N elementos, ao qual a proporção de elementos favoráveis a uma determinada lei é 40%. Retiramos uma amostra de 300 elementos de N. Determine: a) A probabilidade da proporção de elementos favoráveis a lei na amostra ser maior que 35%? R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ b) A probabilidade da proporção de elementos favoráveis a lei nessa amostra estar entre 36% e 44%? R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 3 INFERÊNCIA ESTATÍSTICA Suponha uma população extremamente grande ao qual deseja-se obter uma determinada conclusão sobre alguma característica dessa população. Não é uma tarefa muito simples de ser realizada, além de consumir muito tempo e poder ser extremamente caro de alcançar a todos os elementos dessa população. Por isso, um dos principais objetivos da Estatística é inferir ou estimar características de uma população, através de uma amostra, sendo que se essa amostra 143 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 proporcionar confiança, os resultados obtidos poderão ser generalizados para toda a população. Conforme afirma Morettin (2010, p. 2019) “ao conjunto de técnicas e procedimentos que permitem dar ao pesquisador um grau de confiabilidade, de confiança, nas afirmações que faz para a população, baseados nos resultados das amostras, damos o nome de inferência estatística”. O que é feito então é analisar a amostra e dela deduzir conclusões da amostra para a população. Das conclusões obtidas da amostra, serão válidas para toda a população. Por isso, a seleção da amostra é de extrema importância e existem vários métodos de amostragem (como vimos no início desse capítulo). Entretanto, da conclusão da amostra, podemos ter algum tipo de receio ou uma conclusão duvidosa, como afirma Morettin (2010, p. 219), “toda conclusão tirada por uma amostragem, quando generalizada para a população, virá acompanhada de um grau de incerteza ou risco”. Assim podemos dizer conforme Morettin (2010, p. 2019) que “o problema fundamental da inferência estatística, portanto, é medir o grau de incerteza ou risco dessas generalizações. Osinstrumentos da inferência estatística permitem a viabilidade das conclusões por meio de afirmações estatísticas”. Assim, a teoria da inferência estatística consiste nos métodos com os quais você pode executar inferências, conclusões ou generalizações sobre uma população. E pode ser dividida em duas áreas: Estimação e Testes de hipóteses. 3.1 PROCESSO DE ESTIMAÇÃO Há dois tipos fundamentais de estimação: por ponto e por intervalo. 3.1.1 Estimação por ponto Definimos estimação por ponto, conforme Larson e Farber (2010, p. 251), “uma estimativa pontual é um valor único estimado para um parâmetro populacional. A estimativa pontual menos tendenciosa de uma média populacional µ é a média amostral ”. Exemplo 5: Considere uma amostra aleatória do salário de 10 funcionários de uma empresa: 144 Estatística para professores R$ 1100,00 R$ 1150,00 R$ 1200,00 R$ 1100,00 R$ 2000,00 R$ 1500,00 R$ 1750,00 R$ 3500,00 R$ 1000,00 R$ 1350,00 Encontre a estimativa pontual da média populacional µ dessa amostra aleatória. Solução: A média amostral dos dados é: Então a estimativa pontual dos salários dos 10 funcionários dessa empresa é R$ 1565,00. Observe que a probabilidade de que a média populacional dos salários dessa empresa, seja exatamente R$ 1565,00 é praticamente zero. Assim, em vez de estimar µ como sendo exatamente R$ 1565,00 usando a estimativa pontual, podemos estimar µ como estando em um intervalo, ou seja, fazendo uma estimação por intervalo. 3.1.2 Estimação por Intervalo ou estimativa intervalar Definimos estimação por intervalo, conforme Triola (2013, p. 267), “é uma faixa (ou intervalo) de valores usada para se estimar o verdadeiro valor de um parâmetro populacional”. Para formar uma estimativa intervalar, iremos usar como centro do intervalo a estimativa pontual e depois adicionar e subtrair a margem do erro, com base no nível de confiança. Segundo Triola (2013, p. 267), definimos nível de confiança como: O nível de confiança é a probabilidade 1 - (em geral, expressa como o valor equivalente em porcentagem) de que o intervalo de confiança realmente contenha o parâmetro populacional, supondo que o processo de estimação seja repetido um grande número de vezes. (O nível de confiança é também chamado grau de confiança, ou coeficiente de confiança.) 145 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 Definido o nível de confiança, determinaremos a margem do erro sendo a maior distância possível entre o ponto de estimativa e o valor estimado do parâmetro e usamos a seguinte fórmula para determinar essa margem do erro: onde: E é a margem do erro; Zc é z-escore que corresponde ao nível de confiança; c é o nível de confiança (1 - ); é o desvio padrão; n é o número de elementos da amostra. Iremos usar normalmente níveis de confiança de 90%, 95% e 99%, ao qual os z-escores correspondem respectivamente à 1,645, 1,96 e 2,575. Encontramos os níveis de confiança de z-escores, pela tabela de distribuição normal padrão (disponível no Apêndice A, deste livro). E como esse nível de confiança é simétrico em relação ao ponto central, temos que o nível de confiança multiplicado por 2 mais próximo das porcentagens, corresponde ao z-escordes em questão. Assim, por exemplo: 2.0,4750 = 0,95 = 95%, corresponde ao z-escordes de 1,96, conforme mencionamos acima, verifique os demais z-escordes como um exercício de fixação. Exemplo 6: Com base no exemplo 5, calcule a margem de erro, para um nível de confiança igual a 99%, da média dos salários dos 10 funcionários da empresa. Considere, o desvio padrão da amostra igual a 15. Solução: Sabendo que: 146 Estatística para professores Zc = 2,575; = 15; n = 10. Então: Portanto, para 99% de confiança, temos que a margem de erro para a média dos salários da população é de aproximadamente de R$12,21. Então a estimativa intervalar do nosso exemplo é dada por R$ 1565,00 R$ 12,21, ou seja, Observe na Figura 1, a seguir: FIGURA 1 - ESTIMATIVA INTERVALAR FONTE: O autor Podemos chamar uma estimativa intervalar como um intervalo de confiança para média. 3.1.3 Intervalo de confiança para proporções populacionais Suponha que uma população siga uma distribuição binomial com parâmetro desconhecido p (probabilidade de sucesso em uma tentativa de um experimento binomial). Como já foi visto, essa probabilidade é uma proporção populacional, que denotaremos por p. Assim, para construir um intervalo de confiança para uma proporção populacional usamos um método similar ao método usado para construir um intervalo de confiança para média, ou seja, se estima um ponto central (que 147 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 chamaremos de estimativa pontual, denominada pela letra ) e o limite inferior será a diferença da estimativa pontual e a margem de erro, denotando por E ( - E), e o limite superior será a soma da estimativa pontual com a margem de erro ( + E), ou seja, o intervalo de confiança para uma proporção populacional p é: - E < < + E onde: é a estimativa pontual, dada pela proporção de sucessos de uma amostra, tal que , sendo x o número de sucessos em uma amostra com n elementos; E é a margem de erro, tal que , sendo e Zc é z-escore que corresponde ao nível de confiança c dado. Exemplo 7: Suponha uma população com N elementos, ao qual retiramos uma amostra com 100 elementos e encontramos 20 sucessos. Construa um intervalo de confiança para a proporção real de sucessos na população, com um nível de confiança de 1%. Solução: Pelo enunciado, temos: n = 100; x = 20; = 1% = 0,01 c é o nível de confiança (1 - ) = 0,99 Zc = 2,575 Então: e consequentemente ou seja, 148 Estatística para professores Portanto, a confiança de que p pertença ao intervalo de confiança 9,7% < < 30,3% é de 99%. Ou em outras palavras, corremos um risco de 1% de que a verdadeira proporção populacional não pertença a esse intervalo de confiança. 3.2 TESTE DE HIPÓTESE Vimos no tópico anterior a estimativa de parâmetros populacionais, mas as aplicações da estatística na pesquisa científica vai muito além disso. Normalmente, o método científico se caracteriza na construção de hipóteses ou modelos, a maneira mais simples de determinar como um aspecto funciona, ou seja, a maneira de descobrir características através de hipóteses por meio de uma experimentação. Através de teste de hipóteses, a estatística fornece procedimentos ideais para decidir a aceitação ou a rejeição de afirmações ou hipóteses sobre a população que está sendo estudada. Conforme Triola (2013, p. 316) “em estatística, uma hipótese é uma afirmativa sobre uma propriedade da população. Um teste de hipótese (ou teste de significância) é um procedimento para se testar uma afirmativa sobre uma propriedade da população”. Podemos dizer que o teste de hipótese é a comparação das precisões com os dados experimentais. Assim, dependendo da margem de erro, a hipótese é mantida, caso contrário a hipótese é rejeitada e devemos procurar hipóteses ou modelos alternativos que expliquem os dados que queremos saber. Por isso, podemos perceber, que os testes de hipóteses desempenham um papel fundamental no avanço de qualquer disciplina científica. 3.2.1 Hipótese Para realizar um teste de hipóteses você deve formular duas hipóteses a respeito da afirmação: • Hipótese nula, é quando anula o teste, e é denotada por H0. Consiste em uma hipótese estatística que especifica um valor exato do parâmetro, ou seja, que contém uma afirmação de igualdade, tal como <,> ou =. • Hipótese alternativa, é o que o teste quer provar, e é denotado por H1. Consiste no complemento da hipótese nula, ou seja, se a hipótese nula for falsa, a hipótese alternativa deve ser verdadeira, assim contém uma afirmação de desigualdade, tal como >,<ou . 149 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 Exemplo 8:Identifique as hipóteses nula e alternativa e diga qual representa a afirmação. 1 Em Minas Gerais, que tem desempenho superior à média nacional em todas Identifique as hipóteses nula e alternativa e diga qual representa a afirmação as etapas avaliadas, 82% dos alunos dos 5º anos têm conhecimento insuficiente ou básico em matemática. FONTE: Adaptado de: <https://www.em.com.br/app/noticia/especiais/ educacao/2018/09/03/internas_educacao,985523/modelo-de-ensino-basica- fracassa-nas-escolas-do-brasil.shtml>. Acesso em: 8 abr. 2020. Solução: A probabilidade de os alunos terem desempenho insuficiente ou básico em matemática é 82%. Podemos escrever como p = 0,82 (hipótese nula). Seu complemento é (hipótese alternativa). Assim: H0 : = 0,82(afirmação) H1: 0,82 2 A caixa de um determinado chuveiro anuncia que a vazão média de água é menor que 10 litros por minuto. Solução: Pelo enunciado temos que µ < 10 (hipótese alternativa), assim seu complemento é µ > 10 (hipótese nula). Assim: H0 : µ > 10 H1: µ < 0,82(afirmação) 3.2.2 Tipos de Testes de Hipóteses Podemos classificar os testes de hipóteses em três tipos diferentes. Para isso vamos considerar uma população e uma hipótese sobre a proporção p de indivíduos com certa característica. Esta hipótese irá afirmar que a proporção é igual a um valor 0, ou seja, a hipótese nula é fixa H0 : = 0), e o que muda é a hipótese alternativa (H1). Vejamos as três variações para a hipótese alternativa: 150 Estatística para professores 3.2.2.1 Teste bilateral ou bicaudal: Possui a região crítica localizada nas duas regiões extremas (cauda direita e cauda esquerda) sob a curva. Conforme podemos visualizar na Figura 2, a seguir: FIGURA 2 - REGIÃO CRÍTICA PARA O TESTE BILATERAL FONTE: Bussab e Morettin (2010) Assim, percebemos o teste unilateral à direita tem a região crítica para hipóteses: Iremos aplicar esses resultados na resolução de exemplos, depois do próximo tópico. 3.3 ERROS DE DECISÃO Vimos anteriormente, que um teste de hipótese estatística nem sempre é preciso, pois sempre existe uma probabilidade de se cometer um erro nas conclusões. Esse erro é basicamente devido as informações limitadas que a amostra nos dá. Veremos agora, que existem dois tipos de erros que podem ser cometidos ao se realizar um teste de hipóteses. Denominaremos esses erros como: 151 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 Erro do tipo I e Erro do tipo II 3.3.1 Erro do tipo I Comentemos esse tipo de erro, se a hipótese H0 for verdadeira, e acabamos rejeitando essa hipótese, quando na verdade deveríamos ter lhe aceitado. 3.3.2 Erro do tipo II Cometemos esse tipo de erro, se a hipótese H0 for falsa, e acabamos aceitando essa hipótese, quando na verdade deveríamos ter a rejeitada. Assim, ao testar qualquer hipótese estatística, existem quatro situações possíveis que determinam se a decisão está certa ou errada, veja: TABELA 1 - RESUMO DOS DOIS TIPOS DE ERRO H0 é verdadeiro H0 é falso Decisão de aceitar H0 Não há erro Erro do tipo II Decisão de rejeitar H0 Erro do tipo I Não há erro FONTE: Adaptado de Morettin (2010) A probabilidade de cometer um erro do tipo I, ou seja, rejeitar H0 quando na verdade deveria ter sido aceito, é chamado de nível de significância, e é denotado por , ou seja, P(erro do tipo I) = . Assim chamamos 1 - a probabilidade de aceitar uma hipótese verdadeira quando ela é verdadeira. Em outras palavras, 1 - é a probabilidade de não cometer um erro do tipo I. Já a probabilidade de cometer um erro do tipo II, ou seja, aceitar H0 quando na verdade deveria ter sido rejeitado, é representado por , ou seja, P(erro do tipo II) = . Segundo Guerra e Donaire (1991) a probabilidade de não cometer um erro do tipo II, ou seja, de rejeitar H0, pois ela é falsa, é denotado por 1 - , é chamado de poder do teste. Com isso, podemos reescrever a Tabela 1, tendo como resultado a Tabela 2, a seguir: 152 Estatística para professores TABELA 2 - RESUMO DOS DOIS TIPOS DE ERRO H0 é verdadeiro H0 é falso Decisão de aceitar H0 Decisão correta (1 - ) Erro do tipo II ( ) Decisão de rejeitar H0 Erro do tipo I ( ) Decisão correta (1 - ) FONTE: Adaptado de Morettin (2010) A Figura 5, compara o poder de cada teste, para os erros do tipo I e tipo II, observe: FIGURA 5 - PODER DO TESTE, ERROS I E II FONTE: <https://www.inf.ufsc.br/~andre.zibetti/probabilidade/ teste-de-hipoteses.html>. Acesso em: 9 abr. 2020. Conforme Morettin (2010), podemos analisar o comportamento da função em relação ao poder de um teste quando µ1, µ0, e n variam individualmente, fixados os outros. • µ1 varia, fixos µ0, e n Conclusão: Quanto mais distante estiver µ1 de µ0 maior o poder do teste para rejeitar H0 : µ = µ0 e inversamente. • varia, fixos µ0 e n Conclusão: Quanto maior o nosso nível de desconfiança , maior será a probabilidade de rejeitarmos H0 falsa, isto é, maior é o poder do teste. • N varia, fixos µ0 e Conclusão: Quanto maior for o tamanho da amostra, mais representatividade será, e, portanto, maior será o poder do teste, isto é, maior será a probabilidade de rejeitarmos H0 falso. 153 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 ou Quanto maior o tamanho da amostra, maior o poder do teste. Agora, veremos os principais testes de hipóteses existente para uma e duas amostras, ao qual colocaremos em prática alguns conceitos estudados até aqui. Mas antes vamos definir conforme Morettin (2010), o procedimento padrão para a realização de um teste de hipótese, tal que e H1 varia para diferentes intervalos, vejamos: • definem-se as hipóteses do teste: nula e alternativa; • fixa-se um nível de significância ; • levanta-se uma amostra de tamanho n e calcula-se uma estimativa do parâmetro ; • usa-se para cada tipo de teste uma variável cuja distribuição amostral do estimador do parâmetro seja a mais concentrada em torno do verdadeiro valor do parâmetro; • calcula-se com o valor do parâmetro , dado por H0, o valor crítico, valor observado na amostra ou valor calculado ( ); • fixam-se duas regiões: uma de não rejeição de H0 (rnr) e uma de rejeição de H0 ou crítica (rc) para o valor calculado, ao nível de risco dado; • se o valor observado ( ) região de não rejeição, a decisão é a de não rejeitar H0; • se região crítica, a decisão é a de rejeitar H0 Uma região de rejeição (ou região crítica) da distribuição amostral é a amplitude de valores para a qual a hipótese nula não é provável. Se uma estatística de teste está nessa região, a hipótese nula é rejeitada. Um valor crítico Z0 separa a região de rejeição da região de não rejeição (LARSON; FARBER, 2010). Vamos, então, para os testes de hipóteses para uma amostra. 154 Estatística para professores 3.4 TESTE DE HIPÓTESES COM UMA AMOSTRA Abordaremos neste tópico os testes de hipóteses para diferentes parâmetros populacionais de uma população. Depois de afirmar as hipóteses nula e alternativa e especificar o nível de significância, o próximo passo no teste de hipótese é obter uma amostra aleatória de uma população e calcular as estatísticas amostrais como média e desvio padrão. A estatística que é comparada com o parâmetro hipótese nula é chamada de estatística do teste. O tipo de teste usado e a distribuição de amostragem são baseados na estatística do teste (LARSON; FARBER, 2010, p. 298). Assim, suponha que exista uma população normal com uma amostra aleatória descrita por . A média da amostra é definida por , que em uma amostra particular assumirá valor de . Dividiremos os testes de hipóteses para a média populacional em alguns casos, vejamos: 3.4.1 Teste de hipóteses para média, quando o desvio padrão é conhecido Neste caso testamos se a média da população tem um certo valor µ0, e se H0 for verdadeiro, sabemos que a distribuição amostral das médias é normal com média igual e . Portanto, podemos definir que o testede hipótese adequado segue uma distribuição normal padrão, de fórmula: Exemplo 9: Teste bilateral Considere a hipótese nula de que o peso médio dos estudantes do sexo masculino de uma determinada turma seja de 68 Kg, contra a hipótese alternativa de que é diferente de 68 Kg. Suponha que os pesos sejam distribuídos normalmente com um desvio padrão de 3,6 Kg. Uma amostra aleatória é escolhida 155 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 por acaso com 36 estudantes e é obtido o peso médio de 67,5 Kg. Verifique se o teste de hipótese é valido, considerando um nível de significância de 5%. Solução: Pelo enunciado, temos: A região não crítica é dada por: Sabendo que o nível de confiança de 95%, corresponde ao z-escore de 1,96, temos: -1,96 < z < 1,96 Logo: Observe que o valor de , pertence ao intervalo -1,96 < z < 1,96, portanto H0 é aceito, o que significa que não é possível decidir se o peso médio dos alunos da turma é diferente de 68 Kg. Exemplo 10: Teste unilateral à direita Uma amostra aleatória de 100 mortes registrados em um determinado país no ano passado, mostrou uma vida média de 71,8 anos. Assumindo um desvio padrão populacional de 8,9 anos e um nível de significância de 5%, responda: A vida média hoje, dessa população, pode ser superior a 70 anos? 156 Estatística para professores Solução: Pelo enunciado, temos: A região crítica é dada por: Sabendo que o nível de confiança de 95%, corresponde ao z-escore de 1,96, temos: z > 1,96 Logo: Observe que o valor de 2,022 é maior que z > 1,96, portanto H0 é rejeitado (pois pertence a região crítica), o que significa que é verdade que a vida média hoje passe dos 70 anos. Para o teste unilateral à esquerda, seguimos esse padrão de interpretação. 3.4.2 Teste de hipóteses para média, quando o desvio padrão é desconhecido Para os testes de hipóteses para média, cujo desvio padrão é desconhecido e a amostra for grande (n > 30), usaremos o teste de hipótese adequado segue uma distribuição normal padrão, no entanto, sendo a amostra grande, a variância da amostra é definida por , que pode ser considerada como um estimador preciso. Logo, o teste de hipótese da média neste caso, segue a fórmula: 157 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 e a interpretação de Ho e H1, seguem o mesmo processo dos exemplos acima. Lembre-se que o desvio padrão é a raiz quadrada da variância, ou seja, sendo a variância , o desvio padrão será . Por outro lado, para os testes de hipóteses para média, cujo desvio padrão é desconhecido e a amostra for pequena (n < 30). Suponha que a amostra siga uma distribuição normal, ou aproximadamente normal, você ainda pode testar a média populacional µ. Neste caso, usaremos a distribuição de amostragem T-Student com n – 1 graus de liberdade. Exemplo 11: Teste unilateral à esquerda Um concessionaria de energia elétrica, divulgou os números anuais de quilowatts-hora consumido por vários aparelhos domésticos. Os estudos afirmaram que um aparelho de som consome uma média de 46 quilowatts-hora por ano. Se em uma amostra aleatória de 12 aparelhos, foi constatado que os aparelhos de som consomem uma média de 42 quilowatts-hora por ano, com um desvio padrão de 11,9 quilowatts-hora. Suponha que a população de quilowatts- hora seja normal e o nível de significância seja de 5%. Determine, se a amostra escolhida de aparelhos de som consome menos que 46 quilowatts-hora. Solução: Pelo enunciado, temos: 158 Estatística para professores A região crítica é dada por: Sabendo que o nível de confiança de 95%, para desvio padrão 11, corresponde ao T-Student de -1,796, pela tabela de distribuição T-Student (Apêndice D). Logo: Observe que o valor de -1,164 é maior que -T0,05(11) = -1,796, portanto H0 é aceito (não pertence a região critica), o que significa que o consumo de quilowatts-hora por ano do aparelho de som é inferior a 46 quilowatts-hora. 3.5 TESTE DE HIPÓTESES COM UMA AMOSTRA PARA VARIÂNCIA E DESVIO PADRÃO Agora testaremos hipóteses para uma amostra sobre o desvio padrão populacional , ou variância populacional . Esses métodos são usados para testar a uniformidade de uma população. Para isso, é utilizado a distribuição qui- 159 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 quadrado, que introduzimos no capítulo anterior, a fórmula para esse tipo de teste é: onde: n é o tamanho da amostra; s é o desvio padrão amostral; s² é a variância amostral; valor suposto do desvio padrão populacional; valor suposto da variância populacional. Exemplo 11: Uma determinada marca de lâmpadas, garante que a vida útil de suas lâmpadas tem uma distribuição aproximadamente normal com desvio padrão igual a 0,9 anos. Se uma amostra aleatória de 10 lâmpadas tem desvio padrão de 1,2 anos e considerando um nível de significância de 5%, será que é possível aceitar essa amostra para um desvio padrão maior que 0,9 anos? Solução: Pelo enunciado, temos: A região crítica é dada por: Sabendo que o nível de confiança de 95%, e os graus de liberdade (n-1) é igual a 9, pela tabela de Distribuição do Qui-Quadrado (Apêndice C), temos que X² 0,05(9) = 16,919. 160 Estatística para professores Logo: Observe que o valor de 16 é menor que X² 0,05(9) = 16,919., portanto, não é possível rejeitar H0, pois não pertence a região crítica. 3.6 TESTE DE HIPÓTESES COM UMA AMOSTRA PARA PROPORÇÃO Para encerrar os testes de hipóteses para uma amostra, apresentaremos agora os procedimentos para o teste de uma hipótese feita sobre uma população populacional, ao qual “usaremos a distribuição normal como uma aproximação para a distribuição binomial” (TRIOLA, 2013, p. 333). A fórmula para esse tipo de método que usa a aproximação normal é: onde: n é o tamanho amostral ou o número de tentativas; é a proporção populacional (valor da hipótese nula); q = 1 - ; é a proporção amostral. Exemplo 12: Foi realizado uma pesquisa ao qual foi constatado que existe uma taxa de reprovação igual a 20% dos alunos da disciplina de Estatística. Selecionando aleatoriamente 320 alunos dessa disciplina, verificou-se que 40 reprovaram. Verifique se a taxa de reprovação é diferente, considerando um nível de significância de 5%. Solução: Pelo enunciado, temos: 161 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 A região não crítica é dada por: Sabendo que o nível de confiança de 95%, corresponde ao z-escore de 1,96, temos: -1,96 < z < 1,96 Logo: Observe que o valor de -3,354 não pertence ao intervalo -1,96 < z < 1,96, portanto Ho não é aceito, pois pertence a região crítica. A seguir, apresentaremos os testes de hipóteses para diferentes parâmetros populacionais de duas populações. Devido a relação entre os testes de hipóteses e os intervalos de confiança, usaremos as expressões vistas nos capítulos anteriores para descrever os acontecimentos. Assim, encerraremos nosso estudo sobre a estatística inferencial testando hipóteses para duas amostras. Vamos lá. 162 Estatística para professores 3.7 TESTE DE HIPÓTESES PARA DUAS MÉDIAS (DUAS AMOSTRAS INDEPENDENTES) Antes de definir o método de duas amostras independentes, vamos definir o que são amostras independentes e dependentes. Duas amostras são independentes se a amostra selecionada de uma das populações não é relacionada à amostra selecionada da segunda população. Duas amostras são dependentes se cada membro de uma amostra corresponde a um membro da outra amostra. Amostras dependentes também são chamadas de amostras emparelhadas ou amostras relacionadas (LARSON; FARBER, 2013, p. 352, grifo do autor). Sabendo, então, que duas amostras são independentes, quando os valores amostrais de uma população não estão relacionados com os valores amostrais da outra população. Vamos agora, testar a hipótese para duas médias populacionaisindependentes, ao qual os valores críticos se determinam a partir de uma distribuição T-Student (Apêndice D) e é determinada pela fórmula: onde: µ1 é a média populacional da população 1; 1 é a média amostral da população 1; 1 é o desvio padrão populacional da população 1; s1 é o desvio padrão amostral da população 1; n1 é o tamanho da amostra da população 1. As notações correspondentes µ2, 1, 2, s2 e n2 são referentes à população 2. Para construir uma estimativa do intervalo de confiança para a diferença entre as duas médias populacionais, para amostras independentes, usaremos a desigualdade: em que E é a margem de erro, definida por: 163 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 Exemplo: Uma organização financeira decidiu pesquisar os dados dos consumidores mais endividados no cartão de crédito, para concluir que existe uma diferença entre a dívida do cartão de crédito dos homens e das mulheres. A pesquisa se deu com a escolha aleatória de 500 homens e 500 mulheres, e foi constatado que a média da dívida dos homens é de R$ 1970,00 e desvio padrão de R$ 800,00, enquanto a média da dívida das mulheres é de R$ 2690,00 e desvio padrão de 750,00. Sabendo que as amostras são independentes e o nível de significância é igual a 5%. Diga se os resultados apoiam a conclusão da organização financeira. Solução: Pelo enunciado, temos: O teste é bicaudal, então a região não crítica é dada por: - z0 < z < z0 Sabendo que o nível de confiança de 95%, corresponde ao z-escore de 1,96, temos: -1,96 < z < 1,96 Logo: 164 Estatística para professores Supõe, em geral, que µ1 - µ2 = 0. Observe que o valor de -14,68 não pertence ao intervalo -1,96 < z < 1,96, portanto H0 não é aceito, pois pertence a região crítica. Portanto, não é suficiente a conclusão da organização financeira que existe diferença entre na média da dívida do cartão de crédito entre homens e mulheres. Usamos esse tipo de teste para amostras grandes (n>30). Para testes com amostras pequenas (n<30), usamos o teste da distribuição T-Student, dado pela fórmula: sendo que, ambas as populações são normais, os desvios padrões não são conhecidos, as variâncias da população são iguais e o desvio padrão é igual a n1 + n2 - 2. 3.8 TESTE DE HIPÓTESES PARA DUAS MÉDIAS (DUAS AMOSTRAS DEPENDENTES) Agora, apresentaremos métodos para o teste de hipótese e a construção de intervalos de confiança que envolvam a média das populações dependentes, ou seja, cada valor de uma amostra está emparelhado com um valor da outra amostra. Como afirma Triola (2013, p. 392) “não há procedimentos exatos para se lidar com amostras dependentes, mas a distribuição t serve como aproximação razoavelmente boa”. Desta forma, para realizar esse tipo de teste usaremos a seguinte fórmula: 165 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 onde: d é a diferença entre vários pares de valores da amostra; µd é valor médio das diferenças de todos os pares da amostra; é a média das diferenças dos dados amostrais; sd é o desvio padrão da amostra das diferenças; n é o tamanho da amostra das diferenças. A construção da estimativa do intervalo de confiança para as amostras dependentes é dada pela desigualdade: em que E é a margem de erro, definida por: Exemplo 13: Um grupo com 8 homens é submetido a método experimental de dieta, a Tabela 3, abaixo nos dá o peso inicial do homem (Xi) e o peso no final da dieta (yi). Considerando um nível de significância de 10%, podemos concluir que houve diminuição do peso médio com a dieta? TABELA 3 - RESULTADOS DA DIETA Homem Xi yi Homem A 89 83 Homem B 84 83 Homem C 96 92 Homem D 82 84 Homem E 74 76 Homem F 92 91 Homem G 85 80 Homem H 91 91 Fonte: O autor Solução: Pelo enunciado, temos: 166 Estatística para professores (assumiremos) Pelas hipóteses, o teste é unicaudal à direita, e sendo os graus de liberdade igual a n-1, que nos dá 8-1 =7 e nível de significância igual a 0,10, pela tabela de distribuição T-Student, o valor crítico t0,10(7) = 1,415 e a região crítica é dada por: t > 1,415 Vamos determinar a diferença entre os pares de valores da amostra (d), conforme podemos visualizar na Tabela 4: TABELA 4 - RESULTADOS DA DIETA COM AS DIFERENÇAS ENTRE OS PARES DA AMOSTRA Homem d d² Homem A 6 36 Homem B 1 1 Homem C 4 16 Homem D -2 4 Homem E -2 4 Homem F 1 1 Homem G 5 25 Homem H 0 0 13 87 FONTE: O autor Calculando a média das diferenças dos dados amostrais, temos: 167 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 Calculando o desvio padrão da amostra das diferenças, encontramos: assim: Como t = 1,498 pertence a região crítica, devemos rejeitar H0, ou seja, há evidências suficientes que nos dizem que os homens diminuem de peso com a dieta experimental. 3.9 TESTE DE HIPÓTESES PARA DUAS PROPORÇÕES Veremos, agora, os métodos para testar uma afirmativa feita sobre duas proporções populacionais e construir uma estimativa de intervalo de confiança para a diferença entre duas proporções populacionais. Podemos relacionar os métodos para testar uma afirmativa feita sobre duas proporções populacionais com probabilidades ou com os equivalentes decimais de porcentagem. A fórmula para o teste entre duas proporções, com H0 > p1 = p2, é: onde: 168 Estatística para professores p1 é a proporção populacional da população 1; n1 é o tamanho da amostra da população 1; x1 é o número de sucesso na amostra da população 1; é a proporção amostral; = 1- ; As notações correspondentes p2, n2, x2, 2 e 2 são referentes à população 2; é a proporção amostral combinada; . Para encontrar x1 e x2, usamos as equações: x1 = n1 . e x2 = n2 . respectivamente. 2 Para construir uma estimativa do intervalo de confiança para a diferença entre duas proporções populacionais, usaremos a desigualdade: onde E é a margem de erro, dada por: Exemplo 14: Uma pesquisa com 200 alunos de uma escola A e 250 alunos de uma escola B, ambos selecionados aleatoriamente, foi constatado que 30% dos alunos da escola A e 38% dos alunos da escola B possuem acesso à internet para realizar estudos na modalidade EAD. Considerando um nível de significância de 10%, teste a afirmação de que há diferença entre a proporção de alunos da escola A e a proporção de alunos na escola B, que tem acesso a internet para realizar seus estudos na modalidade on-line. Solução: Pelo enunciado, temos: 169 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 A região não crítica é dada por: Sabendo que o nível de confiança de 90%, corresponde ao z-escore de 1,645, temos: -1,645 < z < 1,645 Temos então que a proporção amostral combinada é , então Assim: Como z = -1,77 não pertence a região não critica, ou seja, pertence a região crítica, devemos rejeitar H0, ou seja, há evidencia suficientes que apoie a afirmativa de que a proporção dos alunos com acesso a internet da escola A é menor que a proporção dos alunos com acesso à internet da escola B. Calculando agora a margem de erro para encontrar a estimativa do intervalo de confiança, temos: Temos que a estimativa do intervalo de confiança para a diferença entre duas proporções populacionais é: 170 Estatística para professores Como não contém zero nos limites do intervalo de confiança, existe uma diferença significante entre as duas proporções populacionais. Por isso o intervalo de confiança sugere que o percentual de alunos da escola A que poderão realizar atividades on-line é menor do que da escola B. Assim, como o intervalo de confiança também fornece uma estimativa do tamanho da diferença entre o acesso dos alunos a internet das duas escolas. Sugerimos a leitura do seguinte artigo, disponível no link: <https:// ourworldindata.org/covid-mortality-risk>. Para ler, recomendamos a tradução utilizando o Google Tradutor. Esse artigo trata dealguns conceitos estudados neste livro em uma aplicação direta do cotidiano, mais especificamente sobre a pandemia do Coronavírus (COVID-19), que afetou o mundo no ano de 2020. 1 Em uma turma de estatística é realizado um teste, cuja pontuação média em uma amostra de 100 alunos é de 75 pontos. Suponha que a variância desse teste seja de 2500 pontos. Encontre: a) O intervalo de confiança de 98% para µ. b) O limite superior do intervalo de confiança de 95% para µ c) O limite inferior do intervalo de confiança de 90% para µ R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 171 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ___________________________________________________ 2 Uma fabrica de cigarros afirma que o teor médio de nicotina não excede 3,5 miligramas, com um desvio padrão de 1,4 miligramas. Para uma amostra de 8 cigarros, foi testado um teor médio de nicotina de 4,2 miligramas. Usando um nivel de significancia de 5%, esse teoer de nicotina esta de acordo com o que o fabricante afirma? R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 3 A tensão de ruptura dos cabos fabricados por uma empresa tem uma média de 1800 lb (libra internacional, unidade de massa equivalente a exatamente 0,45359237 quilogramas) e um desvio padrão de 100 lb. Verifique se um novo processo de fabricação aumenta a tensão média, para um nivel de significancia de 1%. Para isso, é analisado uma amostra com 50 cabos e constata-se uma tensão média de 1850 lb. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 172 Estatística para professores ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 4 O gerente de produção de uma empresa cujo processo consiste em encher caixas de cereal, deseja saber as caixas estão sendo enchidas com as 368 gramas conforme prometido na embalagem. Para isso, é selecionado uma amostra aleatória de 25 caixas, ao qual se obtém uma média de 364,1 gramas e um desvio padrão de 17,3 gramas. Considerando uma distribuição normal para os pesos das caixas e um nível de significância de 5%, o gerente de produção pode continuar afirmando o prometido na embalagem das caixas? R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ __________________________________________________ 5 Observações passadas indicam que o tempo para que alunos de uma turma realizam uma questão de estatística, considerando uma distribuição aproximadamente normal, com um desvio 173 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 padrão de 6 minutos. Teste a hipótese, para um desvio padrão menor que 6 minutos, sabendo que foi extraído uma amostra aleatória de 20 alunos, e desvio padrão de 4,51 minutos ao realizar uma questão. Utilize um nível de significância igual a 1%. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ __________________________________________________ 6 Uma máquina de produzir parafuso, produz 5% dos parafusos defeituosos. Uma nova máquina é adquirida, ela produz 600 parafusos, do qual 82 parafusos são defeituosos. Considerando um nível de significância de 5%, verifique se a nova máquina produz parafusos com maior índice de defeito que a atual máquina. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 174 Estatística para professores ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ __________________________________________________ 7 Uma turma de 10 alunos é separada dos demais para ser testada.Aplica-se uma prova de matemática e as notas são: 4,5 5,0 5,5 6,0 3,5 4,0 5,0 6,5 7,0 8,0 Um novo processo de aprendizagem de matemática é introduzido, e a turma é ensina por esse novo método. No final, aplica-se uma prova de mesmo nível de dificuldade, e as notas obtidas pelos alunos, na ordem das primeiras, são respectivamente: 5,0 5,0 6,0 7,0 3,0 4,5 4,0 7,0 7,5 9,0 Há razões para crer que o novo processo aumentou o nível de aprendizado da turma em matemática, a 5%? FONTE: MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 175 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 8 A distância de frenagem de 8 Volkswagen GTIs e 10 Ford Focus foram testadas enquanto viajavam a 60 milhas por hora em pista seca. Os resultados são mostrados na tabela abaixo. Você pode concluir que existe uma diferença na média da distância de frenagem dos dois carros? Use = 0,01. Assuma que as populações são distribuídas normalmente e as variâncias da população não são iguais. Os dados da frenagem de cada carro estão na tabela a seguir: ESTATÍSTICA AMOSTRAL PARA DISTÂNCIA DE FRENAGEM EM PISTA SECA FONTE: LARSON, Ron; FARBER, Betsy. Estatística aplicada. Tradução Luciane Ferreira Pauleti Vianna. 4. ed. São Paulo: Pearson Prentice Hall, 2010. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 9 A tabela a seguir lista resultados de uma amostra aleatória simples de ocupantes de bancos dianteiros envolvidos em acidentes de carro. Use o nível de significância de 0,05 para o teste da afirmativa de que a taxa de mortalidade de ocupantes de bancos dianteiros é menor em carros equipados com airbags. 176 Estatística para professores ESTATÍSTICA AMOSTRAL PARA DISTÂNCIA DE FRENAGEM EM PISTA SECA Airbag disponível Airbag não disponível Mortes de ocupantes 41 52 Número total de ocupantes 11541 9853 FONTE: Triola (2013) FONTE: TRIOLA, Mario F;. Introdução à estatística: atualização da tecnologia. Tradução de Ana Maria Lima de Farias. Revisão técnica de Vera Regina Lima de Farias e Flores. 11 ed. Rio de Janeiro: LTC, 2013. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ 10 Use os dados amostrais apresentados no Exercício 9 para construir um intervalo de confiança de 90% para a diferença entre as duas proporções populacionais. O que o resultado sugere sobre a eficácia dos airbags em um acidente? FONTE: TRIOLA, Mario F;. Introdução à estatística: atualização da tecnologia. Tradução de Ana Maria Lima de Farias. Revisão técnica de Vera Regina Lima de Farias e Flores. 11 ed. Rio de Janeiro: LTC, 2013. R.: ____________________________________________________ ____________________________________________________ ____________________________________________________ 177 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ ____________________________________________________ Matemática prevê cenários para covid-19 e muda rumo de governos Por Silvana Salles Os modelos matemáticos ganharam a atenção de governantes e da opinião pública durante a pandemia de covid-19. Um exemplo relevante é do estudo de um grupo influente do Imperial College London, no Reino Unido, que provocou uma mudança de postura dos governos britânicos e norte-americano em relação à crise causada pelo novo coronavírus. Apesar de ainda faltarem alguns dados, os resultados obtidos com modelagem epidemiológica foram assustadores o suficiente para que ambos os governos anunciassem medidas mais rigorosas contra a doença. Na avaliação do professor Marcos Amaku, especialista em modelagem do Departamento de Patologia da Faculdade de Medicina da USP (FMUSP), os modelos matemáticos em epidemiologia ajudam a compreender a dinâmica de espalhamento de doenças infecciosas e os efeitos das estratégias de controle. “Por exemplo, se tivermos os dados de uma série temporal de casos observados de uma doença, podemos tentar entender quais fatores podem ter influenciado na dinâmica de espalhamento”, explica ele. Além disso, os modelos podem ajudar a fazer predições. “Eles permitem comparar, por exemplo, diferentes estratégias de controle de doenças sem que seja necessária a implementação real de cada 178 Estatística para professores estratégia. Auxiliam, dessa forma, na tomada de decisões na área de saúde pública”, afirma o professor. Esse é o caso do estudo do Imperial College London. Os pesquisadores avaliaram o impacto de diferentes intervenções sobre a mortalidade por covid-19 e a demanda por atendimento médico. Para isso, construíram um modelo matemático que inclui dados como o período estimado de incubação do vírus SARS-CoV-2 e a capacidade hospitalar do ReinoUnido e dos Estados Unidos. A partir dos números, eles concluem que a melhor opção para os países que têm esta possibilidade é optar por uma estratégia de supressão, em vez de voltar os esforços apenas à mitigação da pandemia, utilizando medidas semelhantes ao que tem sido chamado de “isolamento vertical” no Brasil. “Eles tentaram quantificar o efeito dessas estratégias que eles chamaram de mitigação e supressão. Conseguiram simular uma série de curvas, mas os resultados quantitativos são dependentes dos pressupostos e dos números que eles utilizaram para alimentar o modelo. Então, eu diria que a contribuição deles é ainda qualitativa, testando qual a melhor combinação dessas estratégias”, avalia Amaku. Demanda por leitos de UTI 30 vezes maior que a oferta máxima nos dois países 179 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 E quando sair da quarentena? Se o início da adoção de medidas de distanciamento social causa apreensão em muitos países, a decisão do melhor momento para relaxá-las também não é fácil. No trabalho do Imperial College, os pesquisadores alertam que a estratégia de supressão teria de ser mantida, idealmente, até que uma vacina do novo coronavírus esteja disponível. O problema é que a vacina pode demorar cerca de um ano e meio para chegar ao mercado. “O argumento deles é que se são tomadas medidas como as de supressão, que diminuem mais intensamente a taxa de contato, está sendo mantida uma proporção de suscetíveis. Quando essas medidas forem retiradas, esses suscetíveis vão entrar em contato com pessoas infectadas e vão se infectar. Então, se não quisermos que isso aconteça, teríamos que manter (as medidas de supressão) por um período mais longo”, explica Marcos Amaku. “Só que aí eles fazem uma simulação que eu acho que, na prática, não parece ser muito viável: suspendendo as medidas os suscetíveis voltam ao trabalho, para a escola, e se infectam. E aí, voltaria a ter um aumento de casos e as pessoas voltariam para as UTIs. Aí, suspende-se de novo as atividades. E vai se fazendo isso periodicamente. A logística disso não parece ser muito viável e a adesão também pode ser difícil. Parece uma estimativa mais teórica”, completa. Trabalhando com dados da cidade de Wuhan, capital da província de Hubei, na China, um grupo da London School of Hygiene & Tropical Diseases propõe outra linha do tempo. Em artigo publicado nessa quarta-feira no Lancet Public Health, os pesquisadores apresentam estimativas dos efeitos das medidas de distanciamento físico adotadas pelo governo sobre a progressão da epidemia e de quando seria o melhor momento para suspender essas medidas. As projeções do grupo sugerem que seria mais prudente manter as medidas de distanciamento em vigor em Wuhan até o começo de abril, na comparação com uma hipotética interrupção no começo de março. No modelo dos pesquisadores, um mês a mais de manutenção do distanciamento social reduziria o número de infecções no resto do ano e atrasaria em alguns meses a ocorrência de um segundo pico da epidemia. Na prática, a previsão não ficou muito distante do que o governo chinês de fato decidiu – na mesma quarta-feira em que o estudo foi publicado, as autoridades suspenderam muitas restrições e Hubei foi reconectada ao resto da China. Os cenários considerados se relacionam a uma preocupação imediata dos chineses na época em que os cientistas planejaram o estudo. “A China colocou em prática medidas de contenção e distanciamento social sem precedentes, e fez um notável trabalho 180 Estatística para professores na instituição dessas medidas de controle na província de Hubei, retardando o pico da epidemia e dando ao sistema de saúde tempo e oportunidade para aumentar e responder à demanda. Nós discutimos que o distanciamento físico pode funcionar e que há perigos em relaxar as intervenções prematuramente”, afirma a pesquisadora Kiesha Prem, primeira autora do artigo. Padrões de contato para diferentes cenários durante o período de medidas estritas de controle na China Os paineis de A E apresentam os padrões de contato por local, em circunstâncias normais, ou seja, sem intervenção do governo para que houvesse isolamento. Já os paineis de F a T mostram os padrões de contato por localização sob as várias intervenções feitas para distanciamento social. Cores mais escuras indicam maior tendência de haver contato Modelos têm limitações Apesar de úteis, os modelos matemáticos também possuem limitações. Segundo Marcos Amaku, tanto o modelo do Imperial 181 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 College quanto o da London School usam simulações para lidar com a incerteza relacionada a alguns dados sobre a covid-19. Um deles é a duração do período de infecção. “Nesse trabalho da London School, os pesquisadores fizeram dois grupos de simulações, um supondo que o período infeccioso seria de três dias e um supondo que era de sete dias”, comenta o professor. A própria duração da doença ainda é uma questão em aberto. Em geral, se o paciente não precisar de internação, a síndrome causada pelo SARS-CoV-2 dura de 18 a 20 dias. No entanto, “colegas estão relatando casos de pacientes que chegam no hospital depois da fase febril e passam três, quatro semanas no hospital. São 33 a 48 dias, se você acabar na UTI”, disse o médico imunologista Luiz Vicente Rizzo, diretor de pesquisa do Hospital Israelita Albert Einstein, em uma live com jornalistas na última quinta-feira. Dados do período de incubação, do período infeccioso e da velocidade com que a curva epidêmica sobe também interferem na definição de outro parâmetro sobre o qual os cientistas ainda não têm muita certeza, o R₀. Trata-se de uma constante que indica, dentro de uma população totalmente suscetível, quantas pessoas são infectadas pela primeira pessoa que foi infectada com o vírus. “Significa que para R₀ diferentes, você vai ter diferentes predições do modelo e isso pode ser bastante sensível. Os períodos podem ser diferentes, os impactos podem ser diferentes. No grupo da London School eles estão entendendo isso como uma limitação do trabalho, porque assumiram uma certa condição, mas se os valores forem diferentes – e já há uma suspeita de que o R₀ seja maior do que eles estão estimando – isso interferiria nas predições”, diz Amaku, que atualmente está trabalhando em um modelo para o R₀ da covid-19 a partir de dados de São Paulo. FONTE: Disponível em: <https://jornal.usp.br/ciencias/ciencias- exatas-e-da-terra/matematica-preve-cenarios-para-covid-19-e- muda-rumo-de-governos/>. Acesso em: 30 mar. 2020. ALGUMAS CONSIDERAÇÕES Neste último capítulo, abordamos os assuntos de amostragem e inferência estatística. Vimos que o conteúdo de amostragem nos ajuda a escolhermos a melhor amostra, com relação a tamanho e características de uma população, para assim podermos inferir sobre ela. 182 Estatística para professores A inferência estatística sobre uma amostra de uma determinada população, nos permite apresentar argumentos estatísticos para fazermos afirmações sobre as características de uma população, com base nas informações dadas pela amostra. O uso das informações da amostra permite fazer com que tiramos conclusões sobre a população. Assim, foi abordado diferentes métodos estatísticos para diferentes tipos de situações a fim de criar uma estimativa a partir de uma amostra e verificar se as afirmações podem ser aceitas ou se devemos rejeitá-las. Além de tudo, percebemos a necessidade do domínio de vários conceitos estatísticos, que estudamos nas unidades anteriores, para ao desenvolvimento do tema e uma análise crítica dos dados abordados. A partir do estudo realizado ao longo do capítulo, podemos tirar conclusões sobre uma população, através de uma análise de uma amostra, essa conclusão nos permite tomar decisões, pois ela nos diz o que pode ou não pode acontecer coma população. REFERÊNCIAS BUSSAB, Wilton O.; MORETTIN, Pedro A. Estatística Básica. São Paulo: Saraiva, 2010. CRESPO, Antônio Arnot. Estatística: Fácil. São Paulo: Saraiva, 2009. GUERRA, Mauri José; DONAIRE, Denis. Estatística indutiva: teoria e aplicações. São Paulo: LCTE, 1991. LARSON, Ron; FARBER, Betsy. Estatística aplicada. Tradução Luciane Ferreira Pauleti Vianna. 4. ed. São Paulo: Pearson Prentice Hall, 2010. LOPES, Luis Felipe Dias. Métodos quantitativos aplicados ao comportamento organizacional. Santa Maria: Voix, 2018 MORETTIN, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. São Paulo: Pearson Prentice Hall, 2010. MATTAR, Fauze Najib. Pesquisa de marketing. São Paulo: Atlas. 1996. TRIOLA, Mario F;. Introdução à estatística: atualização da tecnologia. Tradução de Ana Maria Lima de Farias. Revisão técnica de Vera Regina Lima de Farias e Flores. 11 ed. Rio de Janeiro: LTC, 2013. 183 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 APÊNDICES APÊNDICE A Tabela de Distribuição Normal Padrão - Valores Positivos FONTE: Disponível em :<https://www.docsity.com/pt/184-tabelad adistribuicaonormal/4806063/>. Acesso em: 16 mar. 2020. 184 Estatística para professores APÊNDICE B Tabela de Distribuição Normal Padrão - Valores Negativos FONTE: Disponível em: <https://www.blogdobezerra.com.br/wp-content/ uploads/2017/01/Tabela-z-para-%C3%A1rea.pdf>. Acesso em: 16 mar. 2020. 185 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 APÊNDICE C Tabela de Distribuição Qui-Quadrado FONTE: Adaptado de: <https://www.ime.unicamp.br/~cnaber/Tabela%20 da%20Qui-quadrado.pdf>. Acesso em: 17 mar. 2020. 186 Estatística para professores APÊNDICE D Tabela de Distribuição T-Student FONTE: Adaptado de: <https://edisciplinas.usp.br/pluginfile.php/1786946/ mod_resource/content/1/Tabelat-student.pdf>. Acesso em: 17 mar. 2020. 187 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 A PÊ N D IC E E Ta be la d e D is tri bu iç ão F a o ní ve l d e 10 % d e pr ob ab ilid ad e FO N TE : A da pt ad o de : < ht tp :// w w w. es t.u fm g. br /~ ed na /T ab el a- F. pd f> . A ce ss o em : 1 8 m ar . 2 02 0. 188 Estatística para professores A PÊ N D IC E F Ta be la d e D is tri bu iç ão F a o ní ve l d e 5% d e pr ob ab ilid ad e FO N TE : A da pt ad o de : < ht tp :// w w w. es t.u fm g. br /~ ed na /T ab el a- F. pd f> . A ce ss o em : 1 8 m ar . 2 02 0. 189 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 A PÊ N D IC E G Ta be la d e D is tri bu iç ão F a o ní ve l d e 2, 5% d e pr ob ab ilid ad e FO N TE : A da pt ad o de : < ht tp :// w w w. es t.u fm g. br /~ ed na /T ab el a- F. pd f> . A ce ss o em : 1 8 m ar . 2 02 0. 190 Estatística para professores A PÊ N D IC E H Ta be la d e D is tri bu iç ão F a o ní ve l d e 1% d e pr ob ab ilid ad e FO N TE : A da pt ad o de : < ht tp :// w w w. es t.u fm g. br /~ ed na /T ab el a- F. pd f> . A ce ss o em : 1 8 m ar . 2 02 0. 191 Amostragem E InferênciaAmostragem E Inferência Capítulo 3 A PÊ N D IC E I Ta be la d e D is tri bu iç ão F a o ní ve l d e 0, 5% d e pr ob ab ilid ad e FO N TE : A da pt ad o de : < ht tp :// w w w. es t.u fm g. br /~ ed na /T ab el a- F. pd f> . A ce ss o em : 1 8 m ar . 2 02 0.