Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central Estatística Descritiva Unidade 1 - Conceitos iniciais e medidas de tendência central Rafaela Rodrigues Oliveira Amaro Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central Introdução É interessante observarmos que nossa vida é cercada por números e em diversas situações somos defrontados com grande quantidade de informações em formato numérico, ou seja, muitos dados. Contudo, sua disposição e a forma no qual estes dados são organizados interfere na eficiência da interpretação de tais informações. Seria possível encontrar uma maneira de organizar estes dados de um modo melhor? Visando facilitar a leitura e identificação da possível relação entre eles? Você já ouviu falar sobre medidas de tendência central? Conhece média, moda e mediana? Se não, esta será a oportunidade de aprender sobre estes importantes conceitos que permeiam o estudo da estatística descritiva, permitindo entender as tendências ou padrões a partir de um conjunto de dados. As respostas às indagações feitas serão respondidas ao decorrer deste capítulo. Vamos começar? Ótimo estudo para você! 1. Introdução à Estatística A estatística está presente em nossa vida em diversas situações, mas você pode se perguntar, onde? O que a estatística agrega para mim? Em quais contextos os conhecimentos que propõe e sistematiza serão úteis em minha vida? Para começar nossa familiarização com os conceitos relacionados à estatística, considere as afirmativas abaixo, muito recorrentes em nosso cotidiano: ❏ [...] 29,8% dos brasileiros consomem refrigerantes pelo menos cinco vezes por semana. Fonte: Ministério da Saúde/jun 2019. ❏ [...] as mulheres têm rendimento habitual médio mensal de todos os trabalhos no valor de R$ 1.764, enquanto os homens, R$ 2.306. Fonte: IBGE/ jun 2019. ❏ [...] a cobertura vacinal na população com 65 e mais anos é de 54,8%. Fonte: IA SAÚDE. IP-RAM/jun 2019. Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central Outra maneira de encontrar dados estatísticos são em formato de tabelas e/ou gráficos, como os apresentados a seguir: Tabela 1- Peso médio e altura média de meninos e meninas de um a doze anos. Fonte: OMS. Figura 1: Gráfico da proporção de alunos do nível médio por turno. Fonte: ABRES. Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central E agora? Reconhece discursos semelhantes a estes? Com certeza a sua resposta será sim, pois é comum encontrar estas informações em relatórios, reportagens jornalísticas, informativos contidos em jornais e/ou revistas entre outras situações. Essa larga utilização estatística é justificável, pois, por intermédio da coleta de dados, é possível obter e relacionar informações como as acima ou no contexto desejado, de maneira a facilitar a leitura e interpretação. Para conceituarmos, de maneira formal, tem-se, conforme Larson e Farber (2016), que a estatística consiste na ciência que coleta, organiza e interpreta dados para a tomada de decisões. Neste contexto, dado é conceituado como qualquer informação obtida por meio de observações, contagens medições ou respostas. A estatística pode ser classificada como descritiva ou indutiva. A primeira, que é objeto de estudo deste curso também recebe o nome de dedutiva e trabalha com o objetivo de coletar e tabular dados. Assim, as informações são reduzidas de maneira a possibilitar uma clara interpretação dos dados. Já a estatística indutiva ou inferência estatística baseia-se em resultados encontrados a partir do estudo de uma amostra da população, buscando induzir, inferir ou ponderar as normas habituais da população da qual a amostra pertence (CASTANHEIRA, 2013). A quantidade de dados analisados para um estudo estatístico varia conforme o contexto, assim, é possível trabalhar com todas as informações ou com parte delas. Desta forma, somos apresentados a dois conceitos fundamentais em nosso estudo: população e amostra. População é o conjunto de todos os dados, medições, respostas ou contagens que se deseja informações. Já amostra é um subconjunto da população, ou seja, uma parte do conjunto de todos os dados a serem analisados (LARSON E FARBER, 2016). 1.1. Variáveis qualitativas e quantitativas Quando uma pesquisa estatística se inicia, normalmente, o pesquisar se encontrará cercado de informações obtidas pela coleta de dados. Assim, é necessário organizar esse material, para, então, conseguir elaborar um resumo e, consequentemente, ser possível analisar e interpretar as informações. Um fator importante a ser considerado é a natureza dos dados a serem estudados, pois é o que determinará a adoção da metodologia estatística mais adequada. A coleção de dados ou, simplesmente, as variáveis podem ser qualitativas quando estão associadas a situações como cor dos olhos, marca de biscoito, preferência artística, entre outros exemplos, logo, representam entradas não numéricas. Já, as variáveis quantitativas consistem em contagens ou medidas Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central numéricas e são traduzidas por valores numéricos. Variáveis quantitativas são subdivididas em discretas ou contínuas sendo ditas discretas quando as informações são limitadas e contínuas, quando pertencem a um intervalo definido por infinitos valores (MORETIM, 2010). Você sabia? No Brasil, os dados oficiais sobre informações do país são encontrados no Instituto Brasileiro de Geografia e Estatística (IBGE), assim basta acessar o endereço eletrônico <http:www.ibge.gov.br> e pesquisar os dados desejados. Existem também dados em órgãos internacionais como a Organização das Nações Unidas (ONU) que podem ser encontrados no site: <https://nacoesunidas.org/>. 1.2. Distribuição de frequência De maneira a tornar os dados mais fáceis de serem interpretados, é necessário aplicar técnicas para organizar um conjunto de informações de maneira a encontrar possíveis padrões. Agora, imagine que foi pesquisado em uma autoescola, durante uma semana, as idades das pessoas que conseguiram obter sua carteira de habilitação (sem distinguir a categoria). Observe a seguir o resultado da coleta de dados: 18, 23, 60, 20, 19, 35, 43, 20, 20, 21, 34, 54, 18, 24, 23, 28, 24, 25, 43, 19, 20, 28, 40, 31, 31, 39, 29, 23, 22, 22, 30, 29, 21, 34, 25, 19, 20, 23, 20, 29, 34, 30, 24, 22, 40. O que podemos concluir sobre estas informações? O que tais dados podem agregar para um possível estudo acercada relação entre a idade e obtenção da habilitação? Bem, em uma rápida observação destes números, pequena ou nenhuma informação é transmitida, logo, se torna necessária a organização deste conteúdo, de forma a prover um entendimento possível a tais dados. Inicialmente, vamos ordenar estes valores, ou seja, colocá-los em ordem crescente ou decrescente para melhorar nossa percepção acerca destas informações: 18, 18, 19, 19, 19, 20, 20, 20, 20, 20, 20, 21,21, 22, 22, 22, 23, 23, 23, 23, 24, 24, 24, 25, 25, 28, 28, 29, 29, 29, 30, 30, 31, 31, 34, 34, 34, 35, 39, 40, 40, 43, 43, 54, 60. http://www.ibge.gov.br/ https://nacoesunidas.org/ Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central Houve melhora! Porém, ainda não é possível elaborar conclusões. O que mais seria possível fazer? Uma alternativa seria agrupar os valores iguais e, para isso, verificaremos em nosso conjunto de dados tal possibilidade. A quantidade de vezes que se repete um número é chamada de frequência (f). De acordo com Larson e Farber (2016, p.32), a frequência ou frequência absoluta de uma classe é o número de entrada de dados em uma classe. Assim, de acordo com os dados que estamos estudando, foi possível construir a Tabela 2. Ela é um típico exemplo de distribuição de frequência, ou seja, é uma tabela na qual uma de suas colunas é apresentada a frequência de cada entrada, que equivale a contagem respectiva a ocorrência de cada resultado (MORETIM, 2010). Idade (anos) Frequência (f) 18 2 19 3 20 6 21 2 22 3 23 4 24 3 25 2 28 2 29 3 30 2 31 2 34 3 35 1 39 1 40 2 Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central 43 2 54 1 60 1 Total 45 Tabela 2: Frequência de alunos que obtiveram habilitação. Fonte: Elaborada pelo autor (2019). Neste momento, é possível tirar conclusões, como: a menor idade foi de 18 anos, a maior idade foi de 60 anos, a idade de maior frequência, ou seja, a idade mais comum entre os alunos que obtiveram a habilitação foi de 20 anos. O somatório das frequências dos valores inferiores ou iguais ao valor dado é uma informação importante a ser adicionada na composição de uma tabela. Recebe o nome de frequência absoluta e será designada por F (maiúscula), pois permite identificar a soma da frequência para a classe e todas as anteriores (VIEIRA, 2012). A tabela 3 apresenta tal informação. Idade (anos) Frequência (f) Frequência Absoluta (F) 18 2 2 19 3 3 +2 = 5 20 6 6+ 5 = 11 21 2 2 +11=13 22 3 3 +13 =16 23 4 4 +16 = 20 24 3 3 +20 = 23 25 2 2 + 23 = 25 28 2 2 + 25 = 27 29 3 3 + 27 = 30 30 2 2 + 30 = 32 Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central 31 2 2 + 32 = 34 34 3 3 + 34 = 37 35 1 1 + 37 = 38 39 1 1 + 38 = 39 40 2 2 + 39 = 41 43 2 2 + 41 = 43 54 1 1 + 43 = 44 60 1 1 + 44 = 45 Total 45 Tabela 3: Frequência acumulada dos alunos que obtiveram habilitação. Fonte: Elaborada pelo autor, 2019. Por meio da frequência acumulada, é possível obter conclusões como: entre 18 e 21 anos, 13 pessoas obtiveram habilitação ou, que de 18 a 34 anos, 37 alunos possuem sua licença. O percentual referente a cada resultado perante ao todo recebe o nome de frequência relativa e é mais uma importante informação a ser acrescentada na tabela. Assim, para encontrar esta apuração, basta dividir a frequência da categoria pelo total de elementos, em seguida, multiplicar esse resultado por 100, dado que essa informação deve ser em percentagem. É importante salientar que o resultado, fruto das somas entre as frequências relativas, deve ser equivalente a 100% ou valor aproximado (VIEIRA, 2012). Teremos, na tabela 4, esta informação disponível: Idade (anos) Frequência (f) Frequência relativa (fr %) 18 2 00 , 4245 · 1 = 4 4 19 3 00 , 7345 · 1 = 6 6 20 6 00 3, 3645 · 1 = 1 3 21 2 00 , 4245 · 1 = 4 4 Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central 22 3 00 , 7345 · 1 = 6 6 23 4 00 , 9445 · 1 = 8 8 24 3 00 , 7345 · 1 = 6 6 25 2 00 , 4245 · 1 = 4 4 28 2 00 , 4245 · 1 = 4 4 29 3 00 , 7345 · 1 = 6 6 30 2 00 , 4245 · 1 = 4 4 31 2 00 , 4245 · 1 = 4 4 34 3 00 , 7345 · 1 = 6 6 35 1 00 , 2145 · 1 = 2 2 39 1 00 , 2145 · 1 = 2 2 40 2 00 , 4245 · 1 = 4 4 43 2 00 , 4245 · 1 = 4 4 54 1 00 , 2145 · 1 = 2 2 60 1 00 , 2145 · 1 = 2 2 Total 45 100 Tabela 4: Frequência relativa dos alunos que obtiveram habilitação. Fonte: Elaborada pelo autor, 2019. Por intermédio da frequência é relativa, é possível obter implicações como: 8,89% dos alunos que obtiveram sua habilitação tem 23 anos, ou a porcentagem de alunos que alcançaram a carta de habilitação com 43 e 60 anos foi igual e equivalente a aproximadamente 2,22%. 1.3. Distribuição de frequência intervalos por intervalos de classe Ainda explorando o exemplo anterior, vamos tentar reduzir o tamanho da tabela, agrupando os resultados em faixas de valores. Estas recebem o nome de classes ou intervalos e, para realizar tal arranjo, utilizaremos o conceito de Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central intervalos de classes, ou seja, iremos agrupar os dados dentro de um intervalo pré determinado. Larson e Farber (2016) listam as etapas a serem executadas, de modo a construir uma distribuição de frequência, com base em um conjunto de dados. Segundo postulam, faz-se necessário determinar o número de classes e a amplitude ou largura de cada uma, obtida por meio da diferença entre o limite superior (maior número que pertence a classe) e o limite inferior (menor valor da classe). Vamos começar? Mãos à obra! ❏ Determine o número de classes (k), pelo método de Sturges, em que: , sendo n o tamanho do conjunto a ser estudado., og nk = 1 + 3 3 · l ❏ Encontre a largura da classe, realizando a razão entre a amplitude total dos dados (maior valor - menor valor) e a quantidade de classes que foi encontrada anteriormente. ❏ Encontre os limites de classe, para isso, basta usar o menor número como limite inferior da primeira classe e adicionar a ele a largura de classe encontrada, as subsequentes serão encontradas partindo do maior valor da classe anterior e sempre adicionando a largura da classe. ❏ Realize a contagem referente aos dados que pertencem a cada classe. Para a tabela sobre a relação entre idade e obtenção da habilitação, estamos trabalhando com 45 dados, logo o número de classes será encontrado por: , ou seja, aproximadamente 7 classes. Agora,.3 og 45 , 6 k = 1 + 3 · l = 6 4 encontraremos a amplitude total:60 - 18 = 42, este valor deve ser dividido por 7, que representa o número de classes, logo , ou seja, cada classe terá uma 24 ÷ 7 = 6 largura de 7. Agora aplicando estas informações e contando os dados pertencentes a cada classe, obtemos a tabela 5. Idade Frequência l--2481 20 24 l--30 10 30 l--36 8 36 l--42 3 Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central 42 l--48 2 48 l--54 0 54 l--60 2 Total 45 Tabela 5: Distribuição de frequência dos alunos que obtiveram habilitação. Fonte: Elaborada pelo autor, 2019. Você sabia? O símbolo l-- indica intervalo fechado para o limite superior da classe e aberto para o limite inferior, assim, por exemplo, na primeira linha, serão agrupados idades entre 18 e 24 anos. No entanto, na prática, esse intervalo equivale a 18, 19, 20, 21, 22 e 23 anos, logo, 24 anos não está presente neste intervalo e sim, no próximo. De posse de uma distribuição de frequência com intervalos de classe, é possível ver os dados mais compactados, o que facilita a leitura e formulação de conclusões acerca das classes mais ou menos frequentes dentro da situação estudada. No exemplo explorado, inferimos que a classe mais comum das idades que conseguiram a habilitação é de 18 a 24 anos e a menos frequente foi de 48 a 54 anos, com nenhuma entrada. 2. Histograma e polígonos de frequência A representação gráfica integra a representação de dados em tabelas, uma vez que facilita e concede uma imediata visualização dos dados estudados. Existe uma infinidade de gráficos que se distinguem de acordo com suas características, no entanto, os mais comuns no estudo da estatística são o histograma e o polígono de frequência. 2.1. Histograma Larson e Farber (2016) definem como um diagrama de barras aquele que representa a distribuição de frequência de um conjunto de dados. Estipulam a ele as seguintes características: ❏ A escala horizontal é quantitativa e mede os valores dos dados; Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central ❏ A escala vertical indica as frequências das classes; ❏ As barras consecutivas devem estar unidas umas às outras. E como converteremos uma tabela em um histograma? Transformaremos a tabela 2, que dispõe das frequências de idades no gráfico 2, ou seja, em um histograma. Figura 2: Histograma de frequência. Fonte: Elaborado pelo autor, 2019. A leitura de um histograma consiste em identificar a frequência que será representada pela altura, leitura no eixo vertical de certo dado, que está disposto na linha horizontal. 2.2. Polígonos de frequência Outra forma de representar uma distribuição de frequência é utilizando um polígono que une por segmentos de reta os pontos médios das bases superiores dos retângulos de um histograma, Larson e Farber (2016) ainda conceituam polígono de frequência como um gráfico de linhas que valoriza as alterações contínuas de frequência. Baseado na figura 2, que é um histograma, será construído um polígono de frequência, observe que as informações são as mesmas, o que diferencia é a linha poligonal. Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central Figura 3: Polígono de frequência. Fonte: Elaborado pelo autor, 2019. É possível construir histogramas e, consequentemente, polígonos de frequência manualmente ou por intermédio de softwares adequados, como o Excel, que será utilizado como ferramenta para elaborar os histogramas que serão apresentados a seguir. Você quer ler? Para aprender mais sobre o passo a passo de como elaborar histogramas e outros gráficos no excel, acesse o link <https://www.guiadoexcel.com.br/como-criar-um-histograma-no-excel/>, este site apresenta o passo a passo para elaborar tal estrutura. 3. Medidas de tendência central para dados não agrupados Já somos capazes de sintetizar dados provenientes de pesquisas e representá-los graficamente, permitindo interpretar e descrever padrões estatísticos; agora vamos resumir ainda mais estes dados, descobrindo um ou mais valores que sejam significativos para o estudo das informações estudadas. Denominam-se medidas de tendência central ou medidas de posição, os valores que representam uma entrada comum ou central do conjunto de dados (LARSON e FARBER, 2016). https://www.guiadoexcel.com.br/como-criar-um-histograma-no-excel/ Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central As medidas de tendência central mais comumente utilizadas e que serão abordadas neste capítulo serão a média aritmética, a moda e a mediana; os métodos para obtenção de tais resultados diferenciam-se de acordo com a maneira em que as informações estão dispostas, ou seja, quando os dados não estão agrupados e quando são agrupados em tabelas de distribuição de frequência com classes. Castanheira (2013) define média aritmética como a soma dos resultados x )( obtidos dividida pela quantidade de resultados; mediana como o valor que Md )( ocupa a posição central de um conjunto de dados ordenados e moda como a M )( o entrada de maior frequência. 3.1. Cálculo da média, moda e mediana Para exemplificar os conceitos apresentados anteriormente, suponha que você esteja gerenciando uma lanchonete e que mantenha controle das vendas dos diversos tipos de pastéis diariamente; assim foram contabilizados os seguintes valores referentes às vendas diárias do pastel de carne, durante 8 dias: 41 57 39 61 59 50 50 49 Observe que esta é uma situação em que os dados não estão agrupados, e agora? Como encontrar a média aritmética, a moda e a mediana? Bem, iniciaremos pelo cálculo da média, que compreende o resultado do somatório dos dados dividido pelo total de elementos, assim, a relação é dada por: logo, neste estabelecimento vende-se, em1x = n Σx = 8 41 + 57 + 39 + 61 + 59 + 50 + 50 +49 ≃ 5 média, 51 pastéis de carne diariamente. A moda é indicada pelo valor que mais se repete, ou seja, tem maior frequência. Como podemos observar, a moda é 50, pois aparece no conjunto de dados duas vezes. A mediana representa o valor central, a maneira para encontrá-la se distingue se o tamanho do conjunto for par ou ímpar. O procedimento para um resultado par consiste em encontrar os números referentes às posições e P 1 = ( )2 n ° e, em seguida, calcular a média aritmética entre os valoresP 2 = ( )2 n + 1 ° encontrados; é importante salientar que as posições permitem encontrar as posições dos números, uma vez que estes devem, obrigatoriamente, estar ordenados(ordem crescente ou decrescente). Após identificar posição, devemos encontrar qual número pertence a tal lugar e assim realizar a média. Para conjunto de dados de tamanho ímpar, basta encontrar a posição , associá-lo ao P = ( )2 n + 1 ° número que pertence a tal lugar, e pronto! Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central No cenário da lanchonete e do número de pastéis vendidos, inicialmente, é sempre necessário ordenar tais números, que ficarão da seguinte forma: 39, 41, 49, 50, 50, 57, 59, 61, após ordenação, vamos identificar a quantidade de elementos; observemos que são 8, logo, um algarismo par, assim, vamos encontrar as posições: e ; a quarta posição equivale ao número 50 P 1 = ( )2 8 ° = 4° P 2 = ( )2 8 + 1 ° = 5° e a quinta também, assim, concluímos que a mediana é 50. Observação: como os valores respectivos as posições das medianas foram iguais, não foi necessário calcular a média aritmética, uma vez que seria encontrado o mesmo número. Já em caso contrário, é obrigatória a realização de tal procedimento. Podemos sintetizar os métodos para encontrar as medidas de tendência central para dados não agrupados em: ❏ Média: x = n Σx ❏ Moda: número de maior frequência, que mais se repete; ❏ Mediana: se tamanho do conjunto ímpar: posições e ; P 1 = ( )2 n ° P 2 = ( )2 n + 1 ° se tamanho do conjunto par: P = ( )2 n + 1 ° 4. Medidas de tendência central para dados agrupados Dados são agrupados em tabelas de distribuição de frequência em que há intervalos ou classes. Em situações como essa, geralmente, são estudadas grandes quantidades de informações, por isso, fica inviável determinar a média, moda e mediana do conjunto pelo método de dados agrupados, assim, recorreremos a outras fórmulas que serão utilizadas para tal objetivo. 4.1. Cálculo da média, moda e mediana para dados agrupados Considere a situação hipotética de que uma construtora iniciará as obras de um condomínio e, para iniciar as obras, fez o levantamento das áreas dos 400 lotes que irão compor o empreendimento, esses valores estão dispostos na tabela 6. Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central Área ( metros quadrados) Frequência (f) 200 l---300 20 300 l---400 46 400 l---500 57 500 l---600 68 600 l---700 76 700 l---800 62 800l---900 48 900 l---1000 23 Total 400 Tabela 6: Frequência de áreas em um loteamento. Fonte:Elaborado pelo autor, 2019. Como agora será possível calcular as medidas de tendência central? Os métodos continuam os mesmos? A resposta é simples, não. Devido a quantidade de dados e por estes estarem agrupados em intervalos, as fórmulas para se obter tais resultados são diferentes. Para facilitar o cálculo destas medidas serão acrescentadas três colunas adicionais a tabela original, uma constará a frequência acumulada, outra o ponto médio de cada classe e a terceira corresponderá ao resultado do produto entre o ponto médio e sua respectiva frequência. Observe a tabela 7, já com as novas colunas e seus respectivos resultados. Área (metros quadrados) Frequência (f) Frequência acumulada (F) Ponto médio ( )xi xi · f 200 l---300 20 20 250 5000 300 l---400 46 66 350 16100 400 l---500 57 123 450 26650 500 l---600 68 191 550 37400 600 l---700 76 267 650 49400 Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central 700 l---800 62 329 750 46500 800l---900 48 377 850 40800 900 l---100 23 400 950 21850 Total 400 243700 Tabela 7: Frequência de áreas em um loteamento. Fonte: Elaborado pelo autor, 2019. A média é encontrada agora pelo somatório entre o ponto médio e sua respectiva frequência, dividido pelo total de elementos, logo: .09, 5mx = n Σx ·fi = 400 243700 = 6 2 2 Existem várias relações que permitem encontrar a moda. Aqui, adotaremos o método de King, que é expresso pela seguinte relação: ,o iM = L + fpost f + fant post · h Onde é o limite inferior que contém moda; a frequência da classe iL f post posterior à classe que contém a moda e a frequência a classe anterior a classe f ant que contém a moda. Desta forma, é muito importante identificar a classe que possui maior frequência, no caso desta tabela, o intervalo de maior frequência é entre 600 e 700 metros quadrados, com 76 entradas, logo , e i 00L = 6 2f post = 6 ; substituindo os valores na relação: onde é o limite inferior que contém8f ant = 6 iL moda, a frequência a classe posterior a classe que contém a moda, a f post f ant frequência da classe anterior à classe que contém a moda e h representa a amplitude da classe (maior valor - menor valor). . o 00 00 47, 9M = 6 + 6268 + 62 · 1 = 6 6 Observe que o valor encontrado deve estar compreendido no intervalo de maior frequência. A mediana será determinada pela igualdade: , onde é d iM = L + f ( −Faca)2 n · h iL o limite inferior que contém a mediana, n é o tamanho do conjunto, é a acaF frequência acumulada anterior à classe que contém a mediana, a amplitude da h classe e a frequência da classe. Alerte-se ao fato de que é fundamental encontrar f a classe que abriga a mediana; como o tamanho do conjunto é 400, basta calcular e (fórmulas para cálculo de mediana para00°P 1 = ( )2 400 ° = 2 01°P 2 = ( )2 400 + 1 ° = 2 dados não agrupados), agora, basta identificar onde estas posições são abrigadas. Por auxílio da frequência acumulada, é possível encontrar a classe; observe que a classe de 600 a 700m² contém tais posições, logo, será o intervalo de referência. Portanto, , n = 400, e , agora, basta substituir: i 00L = 6 aca 91F = 1 00h = 1 .d 00 00 11, 4M = 6 + 76 ( −191)2 400 · 1 = 6 8 Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central Tenha o hábito de conferir se o número encontrado se aloja no intervalo que serviu de base para o cálculo, isso permite conferir se o resultado encontrado pode estar correto ou não. Recapitulando os métodos para encontrar as medidas de tendência central para dados agrupados em: ❏ Média: x = n Σx ·fi ❏ Moda: o iM = L + fpost f + fant post · h ❏ Mediana: d iM = L + f ( −Faca)2 n · h Síntese Neste primeiro capítulo, você teve a oportunidade de ser apresentado aos principais conceitos que norteiam a estatística descritiva, e verificar a necessidade de organizar um conjunto de dados, de modo a facilitar a leitura e posterior interpretação. De modo geral, foi possível: ● Compreender os conceitos que fundamentam a estatística descritiva; ● Entender o processo de coleta e organização de dados; ● Conhecer e diferenciar as variáveis qualitativas e quantitativas; ● Conheceras definições de frequência absoluta, frequência acumulada e frequência relativa; ● Representar e interpretar dados em tabelas de distribuição de frequência com dados agrupados ou não; e em gráficos estatísticos; ● Construir e interpretar histogramas e polígonos de frequência; ● Definir as medidas de tendência central (média, moda e mediana), para dados agrupados e dados não agrupados. Estatística Descritiva - Unidade 1 - Conceitos iniciais e medidas de tendência central Bibliografia CASTANHEIRA, Nelson Pereira. Estatística aplicada a todos os níveis. Curitiba: Intersaberes, 2013. COSTA, Giovani Glaucio de Oliveira. Curso de estatística básica - Teoria e Prática. 2ªedição. São Paulo: Atlas, 2015. Disponível em: Minha Biblioteca. LARSON, Ron; FARBER, Betsy. Estatística Aplicada. 6. ed. São Paulo: Pearson, 2016. 654 p. v. único. Disponível em: Biblioteca Virtual Universitária. MORETIM, Luiz Gonzaga. Estatística Básica: probabilidade e inferência. 1. ed. São Paulo: Pearson, 2010. 376 p. v. único. Disponível em: Biblioteca Virtual Universitária MORAES, Fabíola Eugênio Arrabaça. Estatística Descritiva. 1. ed. São Paulo: Pearson, 2010. 142 p. v. único. Disponível em: Biblioteca Virtual Universitária. VIEIRA, Sônia. Elementos de Estatística. São Paulo: Atlas, 2012. Referências imagéticas: Tabela 1- Peso médio e altura média de meninos e meninas de um a doze anos. BEBÊS E CRIANÇAS. Tabela de Peso e Altura de 1 a 12 anos Meninos e Meninas. Organização Mundial da Saúde. Disponível em: <https://www.bebesecriancas.com.br/de-1-12-anos/?cn-reloaded=1>. Acesso em: 13.jun.2019. Figura 1- Gráfico da proporção de alunos do nível médio por turno. ABRES-Associação Brasileira de Estágios. Matrículas na Educação. Disponível em: <http://www.abres.org.br/v01/dados-estagiarios-estudantes-no-brasil/>. Acesso em: 13.jun.2019. https://www.bebesecriancas.com.br/de-1-12-anos/?cn-reloaded=1 http://www.abres.org.br/v01/dados-estagiarios-estudantes-no-brasil/ Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Estatística Descritiva Unidade 2 Medidas de Dispersão e Análise Bidimensional. Rafaela Rodrigues Oliveira Amaro Introdução Inicialmente, você sabe que este não é o capítulo inicial. Alguns conceitos já foram apresentados até aqui, não é mesmo? Aprendemos a construir tabelas de modo a agrupar diversos dados e seus respectivos gráficos (histograma e polígono de frequência). Também foi possível anunciar sobre as medidas de Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. tendência central (média aritmética, moda e mediana), bem como utilizar de tais conceitos para interpretar informações. Neste segundo capítulo, dando continuidade ao estudo da estatística descritiva, veremos a necessidade de medir a variabilidade dos dados. Afinal, com que grau de confiança as medidas de tendência central retratam fielmente as informações providas de uma pesquisa? Questionamentos semelhantes a estes serão respondidos pela fundamentação teórica que compreende as medidas de dispersão. A chance de relacionar duas variáveis, ou seja, determinar até qual ponto a manipulação de uma interfere na relação da outra, embasa o estudo da análise bidimensional. Neste contexto, você será apresentado a técnicas de como avaliar por métodos numéricos a qualidade de tal vínculo. Vamos em frente! 1. Medidas de dispersão Imagine que em uma escola há quatro professores de matemática, de idades: 24, 32, 39 e 57 anos. E que, em outra escola, com essa mesma quantidade de docentes, as idades sejam de 35, 36, 39, 42 anos. Observe que a idade média entre as duas escolas é a mesma, de 38 anos; mas se atente às distintas variabilidades entre os dois grupos, ou seja, no quanto os números distam entre si. No primeiro grupo, as idades são mais heterogêneas, enquanto que, no segundo, estes dados são homogêneos. Desta maneira, avaliar a média somente, sem estabelecer uma relação entre os outros dados pertencentes a um grupo não permite elaborar uma afirmação precisa acerca das particularidades do conjunto. Martins e Domingues (2017) definem medidas de dispersão como sendo os parâmetros que avaliam o grau de variabilidade ou dispersão, dos valores em torno da média. Logo, possuem a capacidade de mensurar a representatividade da média. Assim, neste capítulo, você conhecerá o conceito, a maneira de calcular e a interpretação algumas medidas de dispersão. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. 2. Variância e desvio padrão Utilizando todas as entradas de um conjunto de dados, temos a variância e desvio padrão como medidas de dispersão. É importante salientar que estes indicadores podem contemplar uma amostra ou uma população. De acordo com Castanheira (2013), variância é o resultado da média aritmética dos quadrados dos desvios; e permite medir a variabilidade dos dados em torno da média. A medida de dispersão mais utilizada em estatística é o desvio padrão, ele é o resultado da raiz quadrada da variância, logo o cálculo da variância é um passo intermediário para obter o desvio padrão. Para interpretação desta medida vale relembrar que este indicador avalia o quanto uma entrada típica se desvia da média. Quanto mais espalhados estiverem os dados, maior será o desvio padrão. Desta forma, ele é considerado pequeno, se os valores estão bem concentrados em torno da média, ou grande, se estão muito espalhados ao redor da média. 2.1. Variância e desvio padrão para dados não agrupados. Uma pesquisa ao ser realizada com uma população ou amostra e, em seguida, contabilizada pequena quantidade de dados, podemos utilizar as fórmulas direcionadas a dados não agrupados, visto que não exista repetição de mesmos dados, não sendo necessário organizar tais informações em tabelas de distribuição de frequência. Outra ressalva deve ser considerada na identificação do método para encontrar a variância e o desvio padrão, assim, há diferença se for utilizada uma amostra ou população, como pode ser observado na tabela 1 abaixo. Essa distinção é encontrada a partir do enunciado e contexto do exercício a ser resolvido. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. População Amostra Variância 𝜎2 = 𝛴(𝑥 − 𝜇 )2 𝑁 𝑠2 = 𝛴(𝑥 − 𝑥 )2 𝑛−1 Desvio Padrão 𝜎 = √ 𝛴(𝑥 − 𝜇 )2 𝑁 𝑠 = √ 𝛴(𝑥 − 𝑥 )2 𝑛−1 Média 𝜇 𝑥 Tamanho do conjunto 𝑁 𝑛 Tabela 1: Fórmulas para variância e desvio padrão de dados não agrupados. Elaborada pela autora, 2019. Voltando ao contexto das idades dos professores de matemática de diferentes escolas no início do capítulo, é necessário identificar que se trata de uma população. Calculando sua variância, obtemos, para o primeiro grupo: 𝜎2 = (24− 38 )2+ (32−38 )2 + (39−38 )2 + (57−38 )2 4 = 594 4 = 148,5 e, para o segundo grupo: 𝜎2 = (35− 38 )2+ (36−38 )2 + (39−38 )2 + (42−38 )2 4 = 30 4 = 7,5 “anos ao quadrado”. Mas que medida de unidade é essa? Parece sem sentido, porém, com o resultado do cálculo da variância, obtemos respostas como esta. Essa é uma desvantagem em utilizar este parâmetro, pois suas unidades de medida, geralmente, não possuem sentido físico. Assim, devemos calcular a raiz quadrada desses valores, para, deste modo, conseguir interpretar tais resultados, uma vez que o desvio padrão é uma medida de variabilidade com idêntica unidade de medida dos dados. Agorasim, retornando a proposta inicial, concluímos que as idades variaram, em relação à média, 12,2 anos para o primeiro grupo e 2,7 anos para o segundo grupo. Logo, é possível concluir que, apesar da média aritmética ser a mesma, na primeira escola há mais variabilidade em relação às idades dos professores de matemática, tendo assim uma diferença maior em relação a média de 38 anos. Enquanto que a segunda escola possui profissionais com idades mais próximas em relação a média, logo variaram menos. 2.2. Variância e desvio amostral para dados agrupados. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Quando trabalhamos com uma grande quantidade de dados é mais viável interligar tais informações a tabelas de distribuição de frequências, assim, consequentemente, a variável frequência estará presente. Por isso, a fórmula que permite calcular a variância e o desvio padrão não são mantidas. O que diferencia a fórmula utilizada é estabelecer se os dados são referentes a uma amostra ou a uma população, assim como as relações para dados não agrupados. Observe que, na variância populacional, o numerador é dividido por N, enquanto que, na variância amostral, é fracionado por n - 1. População Amostra Variância 𝜎2 = 𝛴(𝑥 − 𝜇 )2⋅𝑓 𝑁 𝑠2 = 𝛴(𝑥 − 𝑥 )2⋅𝑓 𝑛−1 Desvio Padrão 𝜎 = √ 𝛴(𝑥 − 𝜇 )2⋅𝑓 𝑁 𝑠 = √ 𝛴(𝑥 − 𝑥 )2⋅𝑓 𝑛−1 Média 𝜇 𝑥 Tamanho do conjunto 𝑁 𝑛 Tabela 2: Fórmulas de variância e desvio padrão para dados agrupados. Elaborada pela autora, 2019. Agora, considere que, após um teste de proficiência de língua estrangeira foram contabilizados os erros cometidos por 50 alunos que realizaram tal prova. Estes números foram alocados na tabela de distribuição de frequência 3, disposta a seguir: Quantidade de erros Frequência 0 I--- 4 10 4 I--- 8 7 8 I--- 12 21 12 I--- 16 9 Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. 16 I--- 20 3 Total 50 Tabela 3: Distribuição de frequência de quantidade de erros por alunos. Fonte: Elaborada pela autora, 2019. Bem, esse conjunto de dados retrata uma amostra ou uma população? Qual sua variância e seu desvio o padrão? Como podemos interpretar tais resultados? Começaremos respondendo a primeira pergunta: no enunciado está explícito que a pesquisa foi realizada com 50 alunos, logo, trata-se de uma população e utilizaremos as fórmulas destinadas a tal conjunto de dados. Para retornamos quanto à segunda pergunta, neste momento, adicionaremos uma nova coluna à tabela para cálculo da média, que é uma variável necessária para encontrar a variância e o desvio padrão; e outra coluna para facilitar as demais operações. Assim, a tabela 4 apresenta esses resultados (lembrando que, por se tratar de uma tabela de distribuição de frequência, também é necessário calcular o ponto médio (𝑥𝑖)). Quantidade de erros Frequência (f) Ponto médio (𝑥𝑖) (𝑥𝑖 ⋅ 𝑓) (𝑥𝑖 − 𝑥) 2 ⋅ 𝑓 0 I--- 4 10 2 20 (2 − 9,04)2 ⋅ 10 = 495,61 4 I--- 8 7 6 42 (6 − 9,04)2 ⋅ 7 = 64,69 8 I--- 12 21 10 210 (10 − 9,04)2 ⋅ 21 = 8,29 12 I--- 16 9 14 126 (14 − 9,04)2 ⋅ 9 = 221,41 16 I--- 20 3 18 54 (18 − 9,04)2 ⋅ 3 = 240,84 Total 50 𝛴(𝑥𝑖 ⋅ 𝑓) = 452 𝛴(𝑥𝑖 − 𝑥) 2 ⋅ 𝑓 = 1030,84 Tabela 4: Distribuição de frequência de quantidade de erros por alunos. Fonte: Elaborada pela autora, 2019. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Logo, para a média, obtemos: 𝑥 = 𝛴𝑥⋅𝑓 𝑛 = 452 50 = 9,04, observe que este valor interfere diretamente no cálculo da variância e do desvio padrão, já que: 𝜎2 = 𝛴(𝑥 − 𝜇 )2⋅𝑓 𝑁 = 1030,84 50 = 20,62 erros ao quadrado e 𝜎 = √ 𝛴(𝑥 − 𝜇 )2⋅𝑓 𝑁 = √ 1030,84 50 = 4,54 erros. Assim, a interpretação de tais resultados compreende que, cerca de 21 erros ao quadrado, corresponde à variabilidade dos erros e que estes variaram em relação à média, aproximadamente, 4,5 erros. 3. Análise bidimensional 1ª parte Frequentemente, nos deparamos com a necessidade de realizar estimativas ou previsões sobre ocorrências futuras, tal processo pode ser realizado quando conhecemos as variáveis e o modo como se relacionam. Nesta conjuntura, existem técnicas estatísticas que possibilitam elaborar modelos e avaliar sua qualidade, estas são chamadas de análise de regressão e correlação. Essas técnicas possuem atributos próprios. Enquanto a regressão descreve, por meio de equações algébricas, a previsão acerca dos comportamentos da situação, a correlação avalia a qualidade da relação entre as variáveis (MILONE, 2006). Correlações e regressões podem ser classificadas quanto ao número de variáveis, assim, são ditas simples, quando uma variável for conveniente para explicar o contexto, ou múltipla, quando necessitar de mais de uma. Também são diferenciadas quanto à sua complexidade, logo, recebem o nome de lineares, quando se enquadram em funções de 1° grau, ou não lineares, quando sua modelagem matemática exige funções de ordem superior (MILONE, 2006). Nesta primeira parte, dedicada à análise bidimensional, o foco será o estudo acerca da qualidade entre as relações, ou seja, a correlação linear e a covariância. Você sabia? Galton Francis (1822 - 1911), matemático e estatístico francês publicou no século XIV o resultado de uma pesquisa onde coletou a altura de Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. homens adultos e a de seus pais. Assim, concluiu, por intermédio na análise bidimensional, que a variação da altura dos homens é, em parte, explicada pela variação da altura de seus pais. 3.1. Correlação linear Suponha que um médico queira avaliar o tempo que uma pessoa pratica exercícios físicos em relação à manutenção de seu peso. Ou que um professor queira avaliar o tempo dedicado aos estudos com as notas obtidas na etapa. Como seria possível avaliar a relação existente entre tais variáveis? Correlação é descrita por Larson e Farber (2016) como uma relação entre duas variáveis, onde as informações são identificadas por pares ordenados (x, y). X é a variável independente (ou explanatória) e y representa a variável dependente (ou resposta). Inúmeras vezes, dados bidimensionais são coletados, simultaneamente, para determinar se a variação de uma interfere na variação da outra. Assim, duas variáveis quantitativas podem aumentar ou diminuir juntas, aumentar quando uma diminui ou vice-versa. Uma importante ferramenta para visualizar tal comportamento é o diagrama de dispersão, que, de acordo com Larson e Farber (2016), consiste em uma representação gráfica de dois conjuntos de dados que possuem mesmo tamanho e, para cada entrada do primeiro conjunto, existe um correspondente no segundo conjunto. Este formato é utilizado para exibir a relação entre duas variáveis quantitativas. No diagrama de dispersão, os pontos (x, y) são plotados em um plano coordenado, a variável independente (x) é medida no eixo horizontal e a variável dependente (y), no eixo vertical. Com diagrama, é possível determinar se existe uma correlação linear, assim como diferenciar o tipo de correlação. Quando duas variáveis crescem no mesmo sentido, existe correlação positiva, já em sentidos contrários há correlação negativa, e, caso a variável independente cresça e a dependente varie ao acaso, a correlação é nula, ou seja, não existe. Também existe a situação da correlação não ser linear. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Observe na figura 1 os gráficos de dispersão da correlação linear negativa e positiva, respectivamente, e a figura 2 apresenta os casos de não existir correlação ou desta não serlinear. Figura 1: Gráfico de dispersão de correlação linear negativa e positiva. Fonte: LARSON; FARBER, 2016, p. 394. Figura 2: Gráfico de dispersão quando inexiste correlação e quando esta não é linear. Fonte: LARSON; FARBER, 2016, p. 394. 3.2. Coeficiente de correlação linear O coeficiente de correlação linear permite determinar o quanto duas variáveis se relacionam. É possível encontrá-lo por meio da igualdade: 𝑟 = 𝛴𝑥𝑦 − 1 𝑛 𝛴𝑥𝛴𝑦 √[𝛴𝑥2− 1 𝑛 (𝛴𝑥)2][𝛴𝑦2− 1 𝑛 (𝛴𝑦)2] Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. O resultado encontrado por intermédio desta operação varia entre -1 e +1, assim, se a correlação for negativa, o sinal do coeficiente será negativo e, se a correlação for positiva, o sinal deste coeficiente também será positivo. Vamos considerar a seguinte situação: dez alunos tiveram suas notas em Português e Matemática estudadas, de modo a identificar uma possível relação entre ambas. Estes valores compõem a tabela 5 abaixo. Português Matemática 50 75 68 70 70 90 95 93 53 61 70 75 93 90 60 54 72 69 54 63 Tabela 5: Notas de dez alunos nas disciplinas de português e matemática. Fonte: Elaborado pela autora, 2019 Neste contexto, que tipo de correlação existe entre tais conjuntos de dados? Positiva ou negativa? Qual interpretação é viável, de acordo com o valor de coeficiente de correlação? Bem, estas são as indagações possíveis de realizar acerca de tais entradas. Vamos em frente! Encontrar estas respostas. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Para facilitar o cálculo do coeficiente de correlação, inserimos três novas colunas à tabela 5, que relacionam os dados do problema a ser resolvido. Estas colunas contém o produto entre e xy, x² e y², uma vez que necessitamos dos somatórios destes valores. Portanto, geramos a tabela 6 abaixo. Português (x) Matemática (y) 𝑥𝑦 𝑥2 𝑦2 50 75 50 ⋅ 75 = 3750 502 = 2500 752 = 5625 68 70 68 ⋅ 70 = 4760 682 = 4624 702 = 4900 70 90 70 ⋅ 90 = 6300 702 = 4900 902 = 8100 95 93 95 ⋅ 93 = 8835 952 = 9025 932 = 8649 53 61 53 ⋅ 61 = 3233 532 = 2809 612 = 3701 70 75 70 ⋅ 75 = 5250 702 = 4900 752 = 5625 93 90 93 ⋅ 90 = 8370 932 = 8649 902 = 8100 60 54 60 ⋅ 54 = 3240 602 = 3600 542 = 2916 72 69 72 ⋅ 69 = 4968 722 = 5184 692 = 4761 54 63 54 ⋅ 63 = 3402 542 = 2916 632 = 3969 𝛴𝑥 = 685 𝛴𝑦 = 740 𝛴𝑥𝑦 = 51910 𝛴𝑥2 = 49107 𝛴𝑦2 = 56346 Tabela 5: Notas de dez alunos nas disciplinas de português e matemática. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Fonte: Elaborado pela autora, 2019. Agora, de posse dos valores necessários, substituiremos na relação: 𝑟 = 𝛴𝑥𝑦 − 1 𝑛 𝛴𝑥𝛴𝑦 √[𝛴𝑥2− 1 𝑛 (𝛴𝑥)2][𝛴𝑦2− 1 𝑛 (𝛴𝑦)2] = 51910− 1 10 ⋅685⋅740 √[49107− 1 10 ⋅(685)2][56346− 1 10 ⋅(740)2] = 1220 √ 2184,5⋅1586 = 0,6554 = 65,54% Logo, o coeficiente de correlação entre as notas de português e matemática para a amostra de dez alunos indicam média correlação positiva entre as variáveis. Ou seja, que há uma média semelhança dos comportamentos das variáveis no mesmo sentido. Para interpretar o valor encontrado no coeficiente de correlação utilizamos os seguintes parâmetros: se r estiver compreendido entre 90% e 100%, alta ou ótima correlação; entre 80% e 90% boa correlação; entre 60% e 80%, média correlação; entre 40% e 60%, baixa correlação e entre 0% e 40% é péssima correlação ( MARTINS E DOMINGUES, 2011). Você sabia? É trabalhoso realizar os cálculos para encontrar o coeficiente de correlação, principalmente, se a amostra ou população for grande. Para isso, existem softwares como o Planilha Eletrônica Excel, que dispõe de ferramentas específicas para o cálculo de correlações entre duas ou mais variáveis. 3.3. Covariância Larson e Farber (2016) caracterizam a covariância como uma medida que avalia a relação entre duas variáveis. Este indicador assemelha-se muito ao conceito de correlação, no entanto, se diferenciam em dois aspectos. Os valores da covariância não obedecem a uma padronização, diferente da correlação (varia de +1 a -1), portanto, seu campo de existência abrange todos os números. Além disso, a covariância fornece respostas sobre a direção da relação entre as variáveis. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Resultados com sinais positivos apontam que, valores acima da média de uma variável estão associados a valores médios acima da outra variável e, abaixo dos valores médios, são igualmente associados. Resultados com sinais negativos indicam que valores acima da média de uma variável estão associados com valores médios abaixo da outra variável. O cálculo da covariância é feito por intermédio da relação: 𝐶𝑜𝑣(𝑥, 𝑦) = 𝛴𝑥𝑦 𝑛 − 𝛴𝑥 𝑛 ⋅ 𝛴𝑦 𝑛 . Agora, vamos voltar ao contexto das notas de dez alunos nas disciplinas de português e matemática e avaliar a covariância entre estas variáveis. Aproveitaremos os resultados disponibilizados na tabela 5, logo, apenas serão substituídos tais valores: 𝐶𝑜𝑣(𝑥, 𝑦) = 𝛴𝑥𝑦 𝑛 − 𝛴𝑥 𝑛 ⋅ 𝛴𝑦 𝑛 = 51910 10 − 685 10 ⋅ 740 10 = 5191 − 5069 = 122, como o resultado foi um número positivo, podemos afirmar que as variáveis tendem a aumentar juntas ou diminuir juntas. Logo, se a nota em português aumentar, a de matemática também aumentará, ou se a nota em português diminuir, a de matemática também diminuirá. 4. Análise bidimensional 2ª parte Dando continuidade ao estudo de mais de um conjunto, iniciaremos uma nova abordagem ao trabalhar com dados bidimensionais. Até aqui, aprendemos a medir e qualificar a relação entre informações quantitativas e, a partir de agora, vamos desenvolver modelos estatísticos utilizados com o intuito de prever outros valores. E, assim, a partir de uma variável independente, descobrir os valores da variável dependente. 4.1. Regressão linear As técnicas de regressão linear são muito utilizadas em atividades em que organização e planejamento para o futuro são de suma importância, sendo empregada com o propósito de previsão. Estipular as futuras vendas de um produto em função do seu preço ou prever o consumo de certos alimentos em relação a seu valor nutritivo retratam algumas das muitas situações existentes Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. que permitem o uso de regressão linear. Uma vez que tal estratégia possibilite a previsão de médias ou valores esperados. Geralmente, ao utilizar dados provenientes de observações e/ou pesquisas e, com o objetivo de utilizar o dispositivo de regressão linear, é necessário encontrar uma equação matemática que possibilite estabelecer a relação entre duas variáveis. Este processo é denominado ajuste de curvas. Aqui, concentramos no ajuste para equações lineares de duas incógnitas, ou seja, da forma y = ax + b (FREUND, 2009). 4.2. Reta de ajuste linear O ajuste de uma reta é um tipo de regressão linear que interliga uma variável independente (x) a uma dependente (y) por intermédio de uma equação de primeiro grau, este processo sintetiza a relação linear entre duas variáveis aleatórias. Conforme Larson e Farber (2016), a equação de uma reta de regressão é: �̂� = 𝑚𝑥 + 𝑏, sabendo que �̂� é o valor 𝑦 previsto para um valor 𝑥. Para compor esta relação é determinado que 𝑚 = 𝑛𝛴𝑥𝑦 − (𝛴𝑥)(𝛴𝑦) 𝑛𝛴𝑥2 − (𝛴𝑥)2 e 𝑏 = 𝛴𝑦 𝑛 − 𝑚 𝛴𝑥 𝑛 . Você sabia? O ajuste de curvas no processo de regressão linear é deduzido pelo método dos mínimos quadrados, esse dispositivo de otimização matemática foi criado pelo matemático francês Adrien Legendre(1752 - 1833) e objetiva encontrar o mais adequado ajuste de reta para um conjunto de dados pré- estabelecido (FREUND, 2009). Para entender a dinâmica destas fórmulas, vamos considerar que uma empresa investigou a relação entre o tempo de uso de suas máquinas, em meses com o custo médio de manutenção em milhares de reais destas e obteve a seguinte tabela: Idade 3 6 14 21 28 36 Custo médio 7,7 9,5 15,2 19,8 21,2 27,7 Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Tabela 7: Tempo de uso de uma máquina em relação a seu custo médio. Fonte: Elaborada pela autora, 2019. Seria possível estimar o custo médio desta máquina após 10 meses? E depois de 4 anos de uso? Ou para qualquer idade que não tenha seu valor já alocado na tabela? A resposta é sim, pois, uma vez identificada a equação de regressão linear, qualquer valor poderá ser substituído na igualdade que define tal situação e, assim, detectada a solução para qualquer um dos questionamentos iniciais. Para começarmos, vamos transpor (transformar linhas em colunas) a tabela 7, que contém as informações sobre o tempo de uso da máquina com seu gasto médio e adicionar duas novas colunas. Idade Custo médio 𝑥𝑦 𝑥2 3 7,7 23,1 9 6 9,5 57 36 14 15,2 212,8 196 21 19,8 415,8 441 28 21,2 593,6 784 36 27,7 997,2 1296 𝛴𝑥 = 108 𝛴𝑦 = 101,1 𝛴𝑥𝑦 = 2299,5 𝛴𝑥2 = 2762 Tabela 8: Tempo de uso de uma máquina em relação a seu custo médio(modificada). Fonte: Elaborada pela autora, 2019. De posse destes valores é possível determinar o valor de m, 𝑚 = 𝑛𝛴𝑥𝑦 − (𝛴𝑥)(𝛴𝑦) 𝑛𝛴𝑥2 − (𝛴𝑥)2 = 6⋅2299,5 − 108⋅101,1 6⋅2762−11664 = 2878,2 4908 = 0,5864 e, consequentemente, encontraremos o valor de b, pois 𝑏 = 𝛴𝑦 𝑛 − 𝑚 𝛴𝑥 𝑛 = 101,1 6 − 0,5864 ⋅ 108 6 = 6,2948. Agora sim, a reta será definida por: �̂� = 𝑚𝑥 + 𝑏 → �̂� = 0,5864𝑥 + 6,2948 . Voltando aos questionamentos no início do tópico: Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Seria possível estimar o custo médio desta máquina após 10 meses? Sim, basta substituir a variável x por 10, observe: �̂� = 0,5864 ⋅ 10 + 6,2948 ≃ 12,2 , logo, após dez meses o custo médio é de 12,2 mil reais. Depois de 4 anos de uso? Bem, quatro anos de uso equivalem a 48 meses (4 x 12), logo, este valor será substituído na variável x: �̂� = 0,5864 ⋅ 48 + 6,2948 ≃ 34,4mil reais. Ou seja, por meio da equação, é possível descobrir o gasto médio para qualquer tempo de uso ou a situação contrária, encontrar o tempo de uso, sendo previamente informado seu gasto médio. Síntese No decorrer desta unidade, verificamos que a variância e o desvio padrão são ferramentas úteis para verificar o quanto os dados obtidos por uma pesquisa estão dispersos em torno do foco central, ou seja, da média aritmética. Assim, por esta análise, constatamos sua aplicabilidade. Também foi possível descrever e avaliar a significância das relações entre variáveis, quando estas são organizadas no formato de pares ordenados. Por meio do uso de técnicas de correlação, que avaliam a qualidade entre as relações e pela regressão linear, processo que possibilita a previsão de resultados. De maneira geral, foi possível: ● Calcular a variância e desvio padrão de dados não agrupados; ● Calcular a variância e desvio padrão de dados agrupados; ● Distinguir a relação de variância e desvio padrão para dados populacionais e amostrais. ● Compreender e aplicar o conceito de correlação ● Compreender e aplicar o conceito de regressão linear. ● Elaborar a reta de ajuste linear. ● Interpretar o coeficiente de correlação linear. Estatística Descritiva - Unidade 2 - Medidas de dispersão e análise bidimensional. Bibliografia CASTANHEIRA, Nelson Pereira. Estatística aplicada a todos os níveis. Curitiba: Intersaberes, 2013. Disponível em: Minha Biblioteca. CRESPO, A. A. (2009) Estatística Fácil. 19a ed. São Paulo: Saraiva. COSTA, Giovani Glaucio de Oliveira. Curso de estatística básica - Teoria e Prática. 2ªedição. São Paulo: Atlas, 2015. Disponível em: Minha Biblioteca. FREUND, John E. Economia, Administração e Contabilidade. Estatística Aplicada. Porto Alegre: Bookman, 2009. LARSON, Ron; FARBER, Betsy. Estatística Aplicada. 6. ed. São Paulo: Pearson, 2016. 654 p. v. único. Disponível em: Biblioteca Virtual Universitária. MARTINS, Gilberto de Andrade; DOMINGUES, Osmar. Estatística Geral e Aplicada. São Paulo: Atlas, 2017. MILONE, Giuseppe. Estatística Geral e Aplicada. Rio de Janeiro: Thomson, 2006. MORETIM, Luiz Gonzaga. Estatística Básica: probabilidade e inferência. 1. ed. São Paulo: Pearson, 2010. 376 p. v. único. Disponível em: Biblioteca Virtual Universitária MORAES, Fabíola Eugênio Arrabaça. Estatística Descritiva. 1. ed. São Paulo: Pearson, 2010. 142 p. v. único. Disponível em: Biblioteca Virtual Universitária. VIEIRA, Sônia. Elementos de Estatística. São Paulo: Atlas, 2012. Estatística Descritiva - Unidade 3 - Probabilidade I Estatística Descritiva Unidade 3 - Probabilidade I Estatística Descritiva - Unidade 3 - Probabilidade I Rafaela Rodrigues Oliveira Amaro Introdução No estudo da estatística, tivemos a oportunidade de observar que as informações coletadas, mesmo em condições igualitárias de experimentação, oscilam, ou seja, variam e, por consequência, essa diversidade dificulta o prenúncio de resultados possíveis e aceitáveis na matemática. Explicar tais fenômenos é factível por intermédio da teoria que fundamenta a temática de probabilidade; e aplicar esse conceito é mais comum do que imaginamos, pois nos cercam constantemente. Encontrar reportagens que declaram: “a chance de ganhar na loteria estadual é de um em quinhentos mil”; ou, “a probabilidade de contrair dengue é 45% maior no verão que em comparação à outras estações do ano”, ou ainda: “a chance de realizar uma cirurgia cardíaca com sucesso é de 86%”. Você se lembra de algum discurso semelhante a este? Com certeza a resposta será sim, pois a probabilidade é parte integrante de toda situação em que se deseja encontrar a chance de determinada situação ocorrer. Compreender os conceitos que constituem essa disciplina será a essência desta terceira unidade. Vamos começar! Ótimo aprendizado para você! 1. Probabilidade O estudo da probabilidade e da estatística estão intimamente ligados, pois para compreender a inferência estatística é fundamental compreender os conceitos que fundamentam a teoria probabilística. Na estatística, analisamos o conjunto de dados obtidos com as ferramentas pertencentes a tal ciência e encontramos conclusões acerca da avaliação da qualidade e mensuração da quantidade de como tais dados se associam entre si. Já, na teoria da probabilidade, o objetivo é prever os resultados de um experimento ou processo sistemático. Estatística Descritiva - Unidade 3 - Probabilidade I Vincular chances de determinado fenômeno acontecer a números é aplicar a probabilidade; Larson e Farber(2016) afirmam que um experimento de probabilidade é uma ação, ou tentativa pela qual respostas são encontradas, ou em outras palavras, as chances de um evento acontecer serem positivas. Assim, para entender a dinâmica desta ciência é fundamental compreender dois conceitos: ● Espaço amostral (S): corresponde ao conjunto de todos os resultados; possíveis em um experimento de probabilidade; ● Evento (E): é um subgrupo do espaço amostral, geralmente são escolhidas características específicas para definí-lo. Freund (2009) relembra os três postulados relativos ao estudo da teoria de probabilidade que se aplicam a um espaço amostral finito: I. As probabilidades obtidas são representadas por números reais ou zero; assim a probabilidade de um evento A deve ser um númeromaior ou igual a zero, porém menor ou igual a um, essa afirmação é descrita por: 0 ≤ 𝑃(𝐴) ≤ 1 𝑜𝑢, 𝑒𝑚 𝑝𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑔𝑒𝑚, 0% ≤ 𝑃(𝐴) ≤ 100%; II. Qualquer espaço amostral S possui probabilidade equivalente a 1, que equivale 100%, desta maneira 𝑃(𝑆) = 1 𝑜𝑢 𝑃(𝑆) = 100%; III. Se dois eventos A e B são mutuamente exclusivos (não existe intersecção entre os conjuntos), a probabilidade da união do evento A com o evento B, ou vice-versa equivale ao resultado da soma da probabilidade do evento A com a probabilidade de ocorrência do evento B, ou seja, 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵). Vale ressaltar que o resultado provindo de um cálculo de probabilidade varia entre um e zero, de maneira que, se igual a 1 (um) que equivale a um resultado de 100%, isto é, este evento de fato acontece, porém se a probabilidade for zero corresponde a uma associação a um evento impossível, ou seja, nulo de acontecer. Vamos a um exemplo prático, admita um dado comum de seis faces, este será jogado determinadas vezes, considerando este contexto qual é seu espaço amostral? Agora se consideramos a possibilidade de um número par aparecer na Estatística Descritiva - Unidade 3 - Probabilidade I face superior deste mesmo dado, qual será o evento desta outra situação hipotética? Ou ainda, qual a probabilidade de lançar este dado e encontrar um número primo, lembrando que um número é primo se os seus divisores são apenas ele mesmo e 1, na face superior? Respondendo ao primeiro questionamento, é necessário determinar o espaço amostral, ou seja, identificarmos todos os casos possíveis, logo, nesta situação específica é 𝑆 = {1, 2,3,4,5,6}. O evento de sair um número par no lançamento de um dado é encontrado, compreendendo que num dado de seis faces {1, 2,3,4,5,6} há três números pares, logo, este conjunto representa o evento: 𝐸 = {2, 4,6}. Finalmente para determinar a solução da terceira indagação, vamos ter que realizar a divisão entre o número que corresponde ao conjunto dos números primos contidos em um dado {1,2,3,5}e o conjunto que se refere ao espaço amostral {1, 2,3,4,5,6}, assim probabilidade requerida é dada por P (número primo) = 4 6 = 2 3 = 66,67% . Agora, formalizando a maneira de calcular a probabilidade de um evento, a relação é dada por: 𝑃(𝐸) = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑛𝑜 𝑒𝑣𝑒𝑛𝑡𝑜 (𝐸) 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑛𝑜 𝑒𝑠𝑝𝑎ç𝑜 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 (𝑆) É importante salientar que o resultado obtido pelo cálculo de uma probabilidade pode ser apresentado em formato fracionário, decimal ou percentual, todas essas configurações são matematicamente aceitáveis, sendo necessário apenas a percepção de tal distinção, porém os resultados em porcentagens são mais comuns. Você sabia? Para encontrar resultados corretos em formato decimal ou percentual é preciso utilizar a regra de arredondamento corretamente. De acordo com a Resolução nº 886/66, do IBGE há os seguintes casos: se o número for menor que 5 e o primeiro algarismo a ser abandonado é 0, 1, 2, 3 ou 4, fica inalterado o último algarismo que logo permanecerá; agora, se o número for maior que cinco, ou seja, se o primeiro algarismo a ser abandonado é o 6, 7, 8, ou 9, aumenta-se em uma unidade o algarismo que permanece; mas, se o número for igual a 5, há duas soluções: se após o 5 seguir, em qualquer casa, um algarismo diferente de zero, aumenta-se uma unidade ao algarismo que permanece, já, se o 5 for o Estatística Descritiva - Unidade 3 - Probabilidade I último algarismo ou após o 5 só se seguirem zeros, o último algarismo a ser conservado só será aumentando de uma unidade se for ímpar. Vamos discutir a seguinte questão, clássica no estudo de probabilidade condicional: “considere que, em uma urna há três bolas brancas, cinco bolas vermelhas e sete bolas pretas, qual a probabilidade de se retirar ao acaso uma bola preta?” Bem, já foi informado que há sete bolas pretas, assim este é o evento, pois apresenta a quantidade de resultados possíveis para a situação proposta; agora é necessário determinar o espaço amostral, ou seja, todos os resultados possíveis, que será obtido adicionando todas as bolas contidas na urna, independente da cor, logo: 3 + 5 + 7 = 15. Agora, podemos encontrar a probabilidade, que será dada por: 𝑃(𝑏𝑜𝑙𝑎 𝑝𝑟𝑒𝑡𝑎) = 7 15 . Como a fração resultante é irredutível, ou seja, não é possível simplificá-la ou reduzi-la, logo o resultado permanece o mesmo, isto é continua inalterado. 1.1. Probabilidade condicional Para determinar a probabilidade de um evento é necessário especificar o espaço amostral, caso contrário, deparamos com respostas distintas, porém válidas no contexto estabelecido. Desta forma, haverá situações em que será condicionado um evento em relação a ocorrência de outro, neste cenário, Larson e Farber (2016) estabelecem que a probabilidade condicional é a probabilidade de um evento ocorrer dado que outro evento já tenha sucedido, ou seja, já aconteceu. É denotado por 𝑃(𝐵/𝐴) a probabilidade de o evento 𝐵ocorrer, dado que o evento 𝐴 já tenha ocorrido e essa relação é descrita matematicamente por: 𝑃(𝐵/𝐴) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑣𝑒𝑖𝑠 𝑑𝑒 𝐴 ∩ 𝐵 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑣𝑒𝑖𝑠 𝑑𝑜 𝑒𝑣𝑒𝑛𝑡𝑜 𝐵 Você sabia? O símbolo ∩representa a intersecção entre conjuntos, desta maneira, escrever 𝐴 ∩ 𝐵( lê-se: A intersecção B) significa determinar os elementos Estatística Descritiva - Unidade 3 - Probabilidade I que pertencem aos dois conjuntos simultaneamente, ou seja, é comum ao conjunto A e ao conjunto B. Já em um caso de intersecção de mais conjuntos, por exemplo, 𝐴 ∩ 𝐵 ∩ 𝐶(lê-se: A intersecção B intersecção C) significa determinar os elementos que pertencem aos três conjuntos ao mesmo tempo. Para diferenciar e compreender este novo conceito considere que uma universidade coletou dados referentes a mil alunos ingressantes em seus cursos de graduação referentes ao primeiro semestre do ano, estes números foram separados e classificados por gênero e por classificação dos cursos pertencentes às áreas de: exatas, humanas e biológicas; esses números são apresentados na tabela 1 abaixo: Tabela 1: Área de estudo versus gênero. Fonte: Elaborado pela autora, 2019. Nestas circunstâncias, qual seria a probabilidade de um aluno optar por um curso que pertença a área de exatas? E qual a probabilidade de uma pessoa, sendo mulher, ter escolhido estudar em um curso da área de humanas? E, por fim, qual a probabilidade de estudar em curso da área de biológicas, sendo homem? Para facilitar nossos cálculos e visualizar os totais referentes à cada categoria, será acrescentada à tabela 1 mais uma coluna à direita da última, com os resultados referentes aos somatórios correspondentes a cada linha e adicionada outra linha, dispondo do resultado das somas referentes aos gêneros, que estão dispostos em colunas, agora, observe a tabela 2, com estes dados e as modificações indicadas. Tabela 2: Área de estudo versus gênero com respectivos totais. Estatística Descritiva - Unidade 3 - Probabilidade I Fonte: Elaborado pela autora, 2019. Bem, agora será mais fácil responder aos questionamentos, lembrando que, para cada um destes, é necessário distinguir se a situação enquadra-se em uma probabilidade condicional ou um caso de probabilidade comum. Para descobrir a probabilidade de um aluno escolher um curso da área de exatas, é simples, vamos pensar... já que o sexo não foi especificado, basta realizar a divisão entre o total de alunos que optaram por exatas pelo total de alunos ingressantes no primeiro semestre, logo, obtemos a seguinte razão: 𝑃(𝑒𝑥𝑎𝑡𝑎𝑠) = 4571000 , logo é perceptível que a probabilidade deste evento ocorrer não depende de outro, ou seja, não está condicionado à existência de nenhum outro. Qual a probabilidade de uma pessoa sendo mulher estudar na área de humanas? Pois bem, perceba que foi condicionado ao evento de estudar um curso da área de humanas, porém ser mulher, logo, é um caso que devemos utilizar da definição de probabilidade condicional e por isso deve ser solucionada pela relação apresentada anteriormente, assim𝑃(𝐵/𝐴) = 𝑛(𝐴∩𝐵) 𝑛(𝐵) = 95 520 = 19 104 . O último questionamento proposto também é uma situação em que é necessário utilizar o conceito de probabilidade condicional, pois é solicitada a probabilidade de estudar na área de biológicas, dada a condição de ser homem, observe que a ocorrência de um evento possui uma dependência com o acontecimento do outro, assim: 𝑃(𝐵/𝐴) = 𝑛(𝐴∩𝐵) 𝑛(𝐵) = 68 480 = 17 120 . É possível perceber que nestes dois casos em que o sexo foi definido, representa uma probabilidade diferente caso não houvesse sido imposta esta condição. Qual é a probabilidade de um estudante ser de humanas? Note que este evento é independente de qualquer outro, logo temos: 𝑃(ℎ𝑢𝑚𝑎𝑛𝑎𝑠) = 232 1000 . Voltando para o caso em que uma mulher precisa ser estudante de humanas é 𝑃(𝐵/𝐴) = 19 104 já calculada anteriormente. Agora compare os resultados, qual é maior? 1.2. Dependência e independência de eventos. Em alguns contextos que se fundamentam eventos probabilísticos encontramos problemas em que a chance de determinado evento interfere ou Estatística Descritiva - Unidade 3 - Probabilidade I não na ocorrência de outros; Larson e Farber (2016) definem, formalmente, como eventos independentes, quando um deles não interfere na probabilidade da ocorrência do outro, caso contrário, os eventos são ditos dependentes entre si. Castanheira (2013) formaliza que um evento A é dito independente de um evento B, se a probabilidade de A equivale a probabilidade condicional de A, dado B, ou seja, 𝑃(𝐴) = 𝑃(𝐴/𝐵)e, por consequência, se A é independente de B e B é independente de A, logo: 𝑃(𝐵) = 𝑃(𝐵/𝐴). A maior aplicação do conceito de dependência e independência de eventos está na igualdade expressa por: 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)(lê-se probabilidade de A intersecção B é igual a probabilidade de A vezes a probabilidade de B), que reconhece que, sendo dois eventos independentes, a intersecção entre eles é representada pelo produto entre a probabilidade do evento A pela probabilidade de ocorrência do evento B. Neste momento, vamos praticar este conceito, que é importantíssimo na probabilidade e permite a fácil resolução de problemas que se adequam a diversos casos? Considere as situações abaixo e classifique-as como dependentes ou independentes e, em seguida, justifique suas respostas. ❏ Jogar um dado de seis lados (A) e tirar um 2 e jogar uma moeda e sair cara (B); ❏ Selecionar uma rainha em um baralho sem reposição (A) e tirar uma carta de ouros do baralho (B); ❏ Tirar uma bola preta em uma urna que contém dez bolas pretas (A) e ganhar em um jogo de azar (B). Para classificar tais acontecimentos e outros, como eventos dependentes ou eventos independentes, devemos analisar se a ocorrência de um vai interferir na ocorrência do outro: ❏ O evento A ( tirar um ao jogar um dado) não interfere na ocorrência do evento B (sair cara ao jogar uma moeda), pois jogar o dado é uma situação e jogar uma moeda, outra, logo, estes eventos são independentes, eles não possuem nenhuma relação; Estatística Descritiva - Unidade 3 - Probabilidade I ❏ Observe que o evento A (tirar uma rainha em um baralho) e o B (tirar uma carta de ouros no baralho) são relacionados ao mesmo conjunto de cartas, logo, se retirar uma carta, no caso, uma rainha, este acontecimento vai interferir no outro, pois teremos uma carta a menos no espaço amostral, assim, são ditos eventos dependentes; ❏ Retirar uma bola em uma urna, que representa o evento A, e apostar em um jogo de azar (evento B) são eventos distintos e não ocasionam intervenção UM no outro, logo, são classificados como eventos independentes. 1.3. Teorema de Bayes O teorema de Bayes é fundamentado no conceito de probabilidade condicional, descrito e analisado anteriormente, pois relacionam raciocínios contrários, assim, é necessário conhecer a base de um para compreender a dinâmica do outro. A probabilidade condicional trabalha com a probabilidade de ocorrer um evento B sob a condição de ocorrer seu antecedente A; enquanto que, o teorema de Bayes trata a probabilidade de ocorrer o evento A sob a condição de ocorrer o evento B que sucede A. Freund (2009) descreve que, formalmente, o Teorema de Bayes é utilizado se 𝐵1,𝐵2,. . . , 𝑒 𝐵𝑘são eventos mutuamente excludentes, ou seja, a intersecção é nula, dos quais um deve ocorrer, logo: 𝑃(𝐵𝑖/𝐴) = 𝑃(𝐵𝑖) ⋅ 𝑃(𝐴/𝐵𝑖) 𝑃(𝐵1) ⋅ 𝑃(𝐴/𝐵1) + 𝑃(𝐵2) ⋅ 𝑃(𝐴/𝐵2) + . . . + 𝑃(𝐵𝑘) ⋅ 𝑃(𝐴/𝐵𝑘) Para 𝑖 = 1,2, . . . , 𝑜𝑢 𝑘. Observe que os símbolos 𝑃(𝐵1/𝐴) E 𝑃(𝐴/𝐵1) podem ter aparência similar, mas há grande diferença no que eles representam e em seu significado no contexto do exercício proposto, por isso, atenção para identificar e calcular seus valores. Estatística Descritiva - Unidade 3 - Probabilidade I Você Sabia? O treinador de beisebol Billy Beane ficou mundialmente famoso por otimizar a performance do seu time através do uso estatística e análise de dados, sua história foi retratada no filme “Moneyball” baseado no livro de Michael Lewis sobre a história de Beine “Moneyball: The Art of Winning a Unfair Game”. Seu maior desafio foi montar este time, em 2012, pois o clube enfrentava dificuldades financeiras então decidiu utilizar estatística e análise de dados para basear as suas escolhas em dados reais, contratou um cientista para analisar as porcentagens de acertos de seus jogadores. Vamos colocar em prática esse importante e essencial conceito da teoria de probabilidades? Para isso, vamos resolver a problemática sugerida abaixo, como exemplo de aplicação. Assuma que a probabilidade de diagnosticar com sucesso a presença no organismo de determinada doença rara foi identificada, como sendo 0,75. Quando identificada esta patologia corretamente, a probabilidade de cura é alterada para 0,85. Se não for detectada perfeitamente essa doença, a probabilidade de cura é dada para 0,35. Considere que certo paciente com esta doença é curado, assim qual é a probabilidade de que este tenha sido diagnosticado corretamente? 𝑃(𝐵1/𝐴) = 𝑃(𝐵𝑖) ⋅ 𝑃(𝐴/𝐵𝑖) 𝑃(𝐵1) ⋅ 𝑃(𝐴/𝐵1) + 𝑃(𝐵2) ⋅ 𝑃(𝐴/𝐵2) = 0,75 ⋅ 0,85 0,75 ⋅ 0,95 + 0,25 ⋅ 0,35 = 0,7969 ≃ 79,69% Assim, de acordo com o resultado acima, é possível inferir que há aproximadamente 79,69%, ou seja, arredondando, existem cerca de 80% de chances que um paciente, dentro das circunstâncias apresentadas, seja diagnosticado corretamente. Note que é uma probabilidade condicional, porém tendo em vista que um determinado evento já ocorreu, o paciente ter sido curado, para depois analisar se ele foi de fato diagnosticado de maneira correta. O teorema de Bayes é mais eficaz quando é utilizada uma série de dados históricos para fundamentar as previsões. Por isso, é importante continuar fazendo o acompanhamento e corrigir os possíveis erros de estruturação do método aplicado, pois pequenos erros podem propagar-se de maneira a Estatística Descritiva - Unidade 3 - Probabilidade I tornarem-se grandes erros, quando este teorema é utilizado, uma vez que a determinação incorreta de uma das probabilidades do Teorema interfere no resultado final. Você sabia? Thomas Bayes (1701-1776) foi um reverendo presbiteriano que viveu na Inglaterra. Em 1778, o filósofo Richard Price (1723-1791)
Compartilhar