Prévia do material em texto
alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO INTRODUÇÃO À ESTATÍSTICA ............................................................................................................................ 2 CONCEITO ...................................................................................................................................................... 2 RAMOS DA ESTATÍSTICA ................................................................................................................................ 3 ESTATÍSTICA DESCRITIVA ........................................................................................................................... 3 ESTATÍSTICA INFERENCIAL ......................................................................................................................... 4 OBJETO DE ESTUDO ....................................................................................................................................... 5 ELEMENTOS AVALIADOS: POPULAÇÃO ..................................................................................................... 5 CARACTERÍSTICA AVALIADA: VARIÁVEL .................................................................................................... 8 EXEMPLOS ....................................................................................................................................................... 11 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 INTRODUÇÃO À ESTATÍSTICA CONCEITO A Estatística compreende a uma ciência que utiliza um conjunto de métodos científicos, especialmente apropriados, com a finalidade de: Dessa forma, o principal objetivo da Estatística é o estudo e a compreensão de uma realidade específica (de fenômenos que ocorrem no mundo real, do cotidiano) e, com isso, é possível extrair informações úteis para investigação e influenciar diretamente na tomada de decisões. Portanto, de modo geral, a Estatística é uma ciência especializada em transformar dados brutos, coletados de qualquer campo de estudo, em informação. Em adição, combinado com outras ciências, é capaz de gerar conhecimento, inteligência e novas tecnologias. A Estatística utiliza, principalmente, a matemática aplicada para fazer a transformação dos dados em conhecimento, portanto, entenda que a utilização da matemática é apenas uma das ferramentas usadas na Estatística para obter esse resultado. É muito importante que o aluno compreenda, primeiramente, a essência da disciplina e veja todas as deduções e cálculos matemáticos apenas como instrumentos para compreender os fenômenos que ocorrem no mundo real. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 RAMOS DA ESTATÍSTICA Antes de começar o estudo direcionado aos tópicos do edital de Estatística, é interessante compreender alguns conceitos e classificações que serão utilizados durante todo o raciocínio desenvolvido pela disciplina. Inicialmente, deve-se entender que a Estatística é dividida em dois grandes campos conforme o objetivo das análises utilizadas: ESTATÍSTICA DESCRITIVA A Estatística Descritiva consiste em análises que resumem concisamente um conjunto de dados, sintetizam em poucas informações, organizam em tabelas, e ilustram por meio de gráficos. Esse campo da Estatística também é aplicado para efetuar análises exploratórias sobre um conjunto de dados, pois é possível compreender uma tendência genérica dos resultados. Com uso de medidas descritivas, gráficos e tabelas, pode ser observado um comportamento padrão, intuitivo e representativo do fenômeno em estudo. Por exemplo, com o desempenho médio de uma determinada característica obtida a partir de um conjunto de dados brutos, é possível levantar hipóteses sobre o real desempenho desse objeto de estudo, ou até mesmo, se sua performance pode ser superior a um outro fenômeno estudado. Um conjunto de dados brutos pode ser descritos a partir de medidas como média e desvio- padrão, ou organizados em tabela de frequência. Exemplo: As informações geradas pela Estatística Descritiva, no exemplo acima, resumem o valor da tendência central dos dados pela média, uma ideia do quanto os dados se dispersam pelo desvio-padrão, e a distribuição dos dados pelo gráfico de barras que apresenta a frequência. A Estatística Descritiva somente é completa e autossuficiente quando é possível obter dados, com exatidão, de todos os elementos que compõem seu objeto de estudo (população). https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 Nessa situação, apenas descrever o conjunto de dados já bastaria para obter conclusões sobre o fenômeno em estudo. No entanto, a Estatística Descritiva, a partir de uma amostra (informações incompletas), por si só, apenas descreve os dados dessa amostra e não permite inferir sobra toda a população. Seria uma afirmação equivocada comparar duas médias estimadas simplesmente pela magnitude do valor. Para isso, é necessário o uso de métodos da Estatística Inferencial. ESTATÍSTICA INFERENCIAL A Estatística Inferencial utiliza informações incompletas para tomar decisões, tirar conclusões satisfatórias e generalizar informações sobre o fenômeno em estudo. Para obter inferências fidedignas do objeto de estudo, é necessário o conhecimento aplicado da teoria da probabilidade, de uma amostragem representativa e da Estatística Descritiva para explorar hipóteses. Esses três tópicos, estudados na disciplina de Estatística, podem ser compreendidos como alicerces necessários para aplicação eficiente da Estatística Inferencial. As principais técnicas empregadas na Estatística Inferencial são a estimação pontual, a estimação intervalar e o teste de hipóteses. O uso da Estatística Inferencial é valioso quando não é conveniente ou possível examinar todos os elementos de uma população. Quando se obtêm informações a partir de uma amostra, é necessário entender que essas informações foram obtidas por um subconjunto da população e que possuem uma probabilidade de corresponder coerentemente ao fenômeno estudado. Por isso, essas informações estão sujeitas a erros e imprecisão, e, desse modo, cabe à Estatística Inferencial quantificar essas incertezas e avaliar a credibilidade da informação. Exemplo: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 O valor da média estimada por um conjunto de dados de uma amostra é composto por um possível erro de estimativa. Baseado nisso, calcula-se um intervalo de confiança em que o valor estimado pode oscilar, isto é, a média é 12,8, mas pode oscilar entre 10,33 até 15,27. De forma bem genérica, essa é a ideia da Estatística Inferencial que trabalha com informações incompletas e usa matemática aplicada para generalizar a informação obtida. OBJETO DE ESTUDO O objeto de estudo na disciplina de Estatística compreende a um fenômeno do mundo real, uma realidade específica. Em outras palavras, tudo aquilo que ocorre ao redor do homem e que ele tem interesse de compreender suas características e seus comportamentos. Desse modo, o objeto de estudo pode ser: fenômenos biológicos e naturais; comportamentos sociais; aspectos políticos; avaliação de equipamentos; entre outros. Praticamente, o objeto de estudo da disciplina é um “coringa”, ou seja, a Estatística pode ser aplicada em qualquer fenômeno/realidade em que é possível extrair dados. O fenômeno estudado em cada análise estatística é caracterizado basicamente por dois componentes essenciais: os elementos que serão estudados (População) e a característica que será avaliada (Variável). Segue a ilustração: Dessa forma, em toda questão de Estatística, o aluno deve primeiramente analisar o cenário apresentado em cada questão. Com isso, deve ser identificado quem são os elementos avaliados ao qual pretende-se fazer inferênciase o que será avaliado em cada elemento (qual característica, atributo será observado, contabilizado ou mensurado). Essa é uma leitura essencial para iniciar a resolução de uma questão de Estatística. ELEMENTOS AVALIADOS: POPULAÇÃO Quando se refere aos elementos avaliados, deve-se ter o conhecimento pleno de quem corresponde ao conjunto total de elementos do fenômeno estudado. Isso porque, todas as inferências obtidas na Estatística serão válidas para todo esse conjunto, portanto não deve haver conclusões incoerentes a população de estudo. Além disso, é importante entender que o termo elementos corresponde a todas as unidades de avaliação de que serão extraídos dados. Assim, os elementos podem ser compostos por indivíduos, objetos ou eventos, dependendo do fenômeno estudado. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 ➢ População x Amostra Durante a explicação anterior, foram abordados temas como população e amostra, dessa forma, agora, iremos compreender a essência desses dois conceitos. Sempre que a Estatística é aplicada para estudar um fenômeno qualquer, é preciso saber quem são os elementos que compõem o objeto de estudo, em cada situação particular. O conjunto de todos os elementos representa o nosso universo estatístico, também denominado de população. Então, população corresponde ao conjunto de elementos sobre os quais se desejam obter dados de características que são comuns a todos. Portanto, população é todo o universo de um objeto de estudo de interesse. Entretanto, acontece que muitas vezes a população torna-se infinitamente grande e fica muito oneroso, impraticável, inviável, demorado demais avaliar todos os elementos. Nesse momento, uma alternativa interessante para estudar um fenômeno é avaliar parte dessa população e utilizar métodos, como a Estatística Inferencial, para generalizar as informações dessa parte para toda população. Veja a ilustração a seguir: Conforme apresentado na ilustração, a fração de elementos retirada de uma população, para serem avaliados, corresponde a amostra. Desse modo, a amostra é um subconjunto de elementos da população que são coletados e analisados com objetivo de representar fidedignamente toda a população de estudo. Ao mesmo tempo, amostragem é a técnica de seleção de indivíduos da população para compor a amostra. Já a generalização consiste nas inferências obtidas a partir da análise de uma amostra (principal objetivo da Estatística Inferencial). ➢ Censo x Amostragem A análise estatística mais valiosa será sempre obter dados sobre toda a população, o que denominamos de censo. Dessa forma, denomina-se Censo a coleta exaustiva de dados referente a todos os elementos que compõem a população, ou seja, quando se trata de informações completas da população em estudo. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 7 No entanto, sabe-se que, muitas vezes, não será possível efetuar um censo. Em contraponto, trabalha-se com o conjunto de dados proveniente da técnica de amostragem. Assim, a amostragem consiste na coleta de um conjunto de dados incompletos de uma população. Essa técnica deve seguir um método criterioso e adequado para que os dados extraídos representem o fenômeno de estudo presente na população. Mais à frente, teremos um tópico somente estudando sobre a amostragem e suas técnicas. ➢ Parâmetro x Estimativa Quando coletamos dados referentes ao nosso objeto de estudo, é necessário compreender que as informações geradas (por exemplo, média, desvio-padrão, tamanho), a partir de uma população ou de uma amostra, possuem características diferentes e específicas. As informações obtidas de uma população, quando possível, são constantes que se referem ao verdadeiro valor do fenômeno estudado. Isso porque, se todos os elementos de um objeto de estudo forem analisados, será obtido um valor único e uma informação absoluta sobre o fenômeno. Portanto, definimos que as informações provenientes de uma população são parâmetros, ou seja, constantes, muitas vezes desconhecidas, de um valor representativo que permite modelar a realidade. Por outro lado, quando se obtêm valores provenientes da amostra, sabe-se que as informações geradas representam uma fração do fenômeno estudado e, portanto, são valores variáveis e aleatórios. Com isso, tem-se a ideia de que as informações obtidas da amostra são estimativas de um parâmetro ao qual se deseja conhecer. Então, denomina-se estimativa as informações provenientes de dados incompletos com objetivo de generalizar um parâmetro populacional. Assim, é possível esquematizar: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 8 Sobretudo, as principais informações estudadas – média, desvio-padrão, variância, tamanho e proporção – são simbolizadas por letras gregas ou maiúsculas, quando se referem a parâmetros da população, e por letras do alfabeto comum ou minúsculas quando se referem a estimativas da amostra. Em síntese a todos esses conceitos abordados, pode ser aplicado o seguinte esquema conceitual: CARACTERÍSTICA AVALIADA: VARIÁVEL Após identificar os elementos em que serão extraídos os dados, é preciso determinar qual característica/atributo será avaliada, o que denominamos na Estatística como variável. Logo, o termo variável é a atribuição dos valores correspondentes aos dados observados e sua respectiva representação do fenômeno estudado no mundo real, isto é, a natureza dos dados, a grandeza. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 9 Sendo assim, ao se identificar a variável analisada, deve-se compreender a natureza ou o tipo dessa variável, como os dados foram obtidos, sua unidade de medida, a distribuição da variável e qual é o objetivo, a informação, que pretende se obter com essa variável. Todas essas perguntas devem ser elucidadas na leitura de uma questão de Estatística, pois, com isso, obtém- se um panorama geral do contexto apresentado na questão e facilita absurdamente a sua resolução. Os dados extraídos são uma variável que pode assumir diversos valores de acordo com fenômeno em estudo. É importante ressaltar que os dados em questão não são necessariamente numéricos, uma vez que podem dizer a respeito de atributos qualitativos observados na população. Portanto, quanto a natureza/tipo das variáveis, elas podem ser qualitativas (nominais ou ordinais) ou quantitativas (discretas ou contínuas). Segue a ilustração: ➢ Variáveis Qualitativas As variáveis de natureza qualitativa são representadas por dados que não tem informação numérica e não é possível efetuar cálculos matemáticos com os dados propriamente ditos. Dessa forma, os dados extraídos correspondem a categorias, classes definidas, ou qualidades. Podem também ser denominadas por variáveis categóricas. Esta se subdivide em duas outras classificações: nominais e ordinais. • Variáveis Qualitativas Nominais: São compostas por dados que representam qualidade, mas que não possuem nenhuma ordem ou hierarquia entre eles, apenas identificam as categoriais distintas. Exemplos: gênero (masculino e feminino), cor (azul, preto, amarelo etc.), país (Brasil, África do Sul, Japão etc.). Veja que não existe nenhuma ordenação ou relação hierárquica entre os valores que a variável qualitativa nominal pode assumir. • Variáveis Qualitativas Ordinais: Em contrapartida, as variáveis ordinais são aquelas representadas por dados categóricos que possuem uma determinada ordenação ou hierarquia entre os valores que a variável pode assumir. Exemplos: classe de renda (baixa, média, alta), experiência profissional (novato, intermediário, veterano), grau de escolaridade (fundamental, médio, graduação, mestrado, https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 10 doutorado). Nesse contexto, é possível estabeleceruma ordem em cada categoria como baixa, média e alta, ou como em novato, intermediário e veterano. ➢ Variáveis Quantitativas As variáveis de natureza quantitativa são representadas por dados que possuem informação numérica e neles podem ser efetuados cálculos matemáticos. Dessa forma, os dados são basicamente representados por valores numéricos atribuídos, contabilizados ou mensurados. Esta variável se subdivide em duas classificações: discretas e contínuas. • Variáveis Quantitativas Discretas São aquelas representadas por valores numéricos inteiros e definidos, não possuem um intervalo entre um valor e outro (não possuem valores decimais). Geralmente, essas variáveis correspondem a atribuição numérica dos eventos de um fenômeno específico (exemplo: atribuição de fracasso ou sucesso de uma operação {0,1}, atribuição de números para cada face de um dado {1, 2, 3, 4, 5 e 6} etc.), ou então representam a contagem de algum fenômeno (exemplo: número de filhos por família, registros de roubos por dia, ocorrências de homicídios por cidades, etc.). Veja que não é coerente quantificar valores não inteiros (decimais), afinal, não existe metade de um filho, ou meio homicídio, para esses fenômenos os resultados são taxativos, ou ocorre ou não ocorre. • Variáveis Quantitativas Contínuas Contudo, as variáveis contínuas são aquelas representadas por valores numéricos que podem ser inteiros e decimais. Existe um intervalo infinito entre um valor e outro. Essas variáveis estão associadas a fenômenos que no mundo real são mensurados (medidos) por algum instrumento que o homem criou junto a uma convenção que o homem estabeleceu. Exemplos: peso, altura, tempo, temperatura, velocidade etc. Veja que existe um intervalo infinito entre 20 kg e 30 kg, por exemplo, que pode ser 21 kg; 20,5 kg; 20,01 kg; 20,0001 kg e assim infinitamente representado. O Quadro a seguir resume toda a classificação de variáveis e fornece exemplos: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 11 EXEMPLOS 1. A Polícia Federal fez um registro do valor diário (em R$ mil) apreendido de contrabando na região de fronteira do estado do Paraná - Brasil. O exemplo 1 apresenta uma situação em que a Polícia Federal (PF) tem o objetivo de estudar o fenômeno da ocorrência do crime de contrabando na região de fronteira do estado do Paraná – Brasil. Desse modo, a população de estudo é composta por todos os crimes de contrabando cometidos nessa região e cada elemento avaliado foi um evento da ocorrência de contrabando. Entretanto, sabe-se que é muito difícil para a PF controlar e quantificar todos os contrabandos que ocorrem na fronteira do Paraná. Dessa forma, a PF trabalha com amostra de todos os registros de contrabando que foram detidos e apreendidos pelos policiais e, com isso, fazem uma estimativa sobre todo o contrabando na região de fronteira do estado do Paraná. Para quantificar esse fenômeno, foram mensurado o valor, em R$ mil, apreendidos de contrabando por dia. Então a grandeza medida foi o dinheiro correspondente a mercadoria apreendida diariamente, a unidade de medida foi R$ mil/dia, e o tipo da variável é quantitativa contínua. 2. Uma pesquisa realizada com passageiros estrangeiros que se encontravam em determinado aeroporto durante um grande evento esportivo no país teve como finalidade investigar a sensação de segurança nos voos internacionais. Foram entrevistados 1.000 passageiros, do total de 1 milhão que foi registrado nas companhias aéreas, quanto à sensação de segurança dos voos, respondendo praticamente se sentiu segurança ou não nos voos. O exemplo 2 aborda uma pesquisa com intuito de avaliar a sensação de segurança dos passageiros em voos internacionais. A população de estudo é composta por todos os 1 milhão de passageiros registrados nas companhias aéreas. Cada elemento que compõe a população é um indivíduo que foi passageiro desses voos. No entanto, foram avaliados apenas mil passageiros, uma amostra do todo. A característica avaliada foi a sensação de segurança, quantificada a partir de um questionário em que foi perguntado “sim” ou “não” quanto a sensação de segurança. Desse modo, os valores que essa variável pode assumir é {sim, não}, isto é, uma variável qualitativa nominal. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 12 3. Um pesquisador estudou a relação entre a ocorrência de criminalidade e a quantidade de desocupação da população economicamente ativa em municípios da região do sudeste do país. No exemplo 3, temos uma análise mais voltada para relação entre variáveis analisadas em uma população. Os municípios avaliados correspondem aos elementos da população e provavelmente serão avaliados apenas por uma amostra desse todo. As duas variáveis serão analisadas conjuntamente para compreender a relação entre elas. Em adição, podemos observar que ambas as variáveis correspondem a uma contagem, ou de crimes registrados, ou de casos de desocupação da população. Dessa forma, temos o estudo de duas variáveis quantitativas discretas. Em síntese, o quadro abaixo apresenta o resumo das principais informações que compõem o objeto de estudo de cada exemplo. Conforme o contexto apresentado em cada questão de Estatística, é muito importante, na primeira leitura, ter esses conceitos bem determinados. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO ESTATÍSTICA DESCRITIVA: APRESENTAÇÃO DE DADOS ..................................................................................... 2 INTRODUÇÃO ................................................................................................................................................. 2 APRESENTAÇÃO DE DADOS PARA UMA VARIÁVEL ....................................................................................... 2 A) DADOS BRUTOS ................................................................................................................................. 2 B) DADOS PONDERADOS (TABELA DE FREQUÊNCIA SEM INTERVALOS) ............................................... 3 C) DADOS AGRUPADOS (TABELA DE FREQUÊNCIA COM INTERVALOS) ................................................ 4 D) GRÁFICOS DE FREQUÊNCIA ............................................................................................................... 6 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 ESTATÍSTICA DESCRITIVA: APRESENTAÇÃO DE DADOS INTRODUÇÃO Como já abordado anteriormente, a Estatística Descritiva consiste em análises com objetivo de descrever, organizar, resumir, simplificar e sintetizar um conjunto de dados coletados sobre algum fenômeno em estudo. Além disso, ela tem utilidade como análise exploratória, uma vez que resume o conjunto de dados. Com isso, a Estatística Descritiva permite apontar tendências e levantar hipóteses sobre os possíveis resultados do fenômeno estudado. Como principais ferramentas para esse propósito, a Estatística Descritiva trabalha com formas sintetizadas de apresentação de dados como tabelas e gráficos. Além disso, utiliza medidas descritivas que são informações provenientes de cálculos que tentam descrever todo conjunto de dados. APRESENTAÇÃO DE DADOS PARA UMA VARIÁVEL Os dados coletados de uma variável estudada podem ser apresentados de muitas formas. Basicamente, o aluno deve entender que poderá se deparar com qualquer umas das formas de apresentação de dados em uma prova de Estatística e, com isso, é necessário entender como extrair as informações em cada situação. Os dados referentes a uma única variável podem ser encontrados na forma de dados brutos, dados ponderados, dados agrupados, ou por meio de gráficos, como histograma e curva de frequência. Para exemplificar a apresentação dos dados referentes a uma variável,vamos utilizar um exemplo único de objeto de estudo e comparar como os dados serão simplificados no decorrer de cada forma de apresentação. OBJETO DE ESTUDO: Dados referentes à quantidade de drogas, em quilogramas, apreendidas por semana em uma delegacia de polícia. A variável em estudo será denotada pela letra “X”. A) DADOS BRUTOS Os dados brutos correspondem à listagem dos dados conforme eles foram coletados em um estudo qualquer. Cada dado é dito como uma observação feita pelo homem a respeito de uma variável analisada. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 Conforme o exemplo abordado, os dados brutos referentes à quantidade de drogas apreendidas podem ser representados da seguinte maneira: 𝑿 = {𝟏𝟓, 𝟐𝟎, 𝟏𝟎, 𝟑𝟎, 𝟐𝟎, 𝟏𝟓, 𝟎, 𝟓, 𝟏𝟓} Os dados brutos mostram que na primeira semana foram coletados 15 kg de drogas na delegacia, na segunda semana 20kg, e assim por diante. Podemos também concluir que essa coleta de dados foi efetuada durante nove semanas. Tudo isso pode ser concluído pela análise da unidade variável que consiste em kg/semana, ou seja, cada coleta corresponde a uma semana transcorrida. Com isso, outra forma em que podem ser encontrados os dados brutos é: Nessa tabela, é indicada a semana e seu respectivo registro de drogas apreendidas. Observe que, nessa forma de representação, ainda tratamos de dados brutos. Com essa análise, já podemos obter uma informação que será muito usada nos cálculos matemáticos futuramente aplicados, o número de elementos (n). Basicamente, é a quantidade de observações feitas na coleta de dados, isto é, n = 9. Outra característica que pode ser observada nos dados brutos é a repetição de dados observados com mesmo valor, isso é uma distinção muito importante comparada às demais formas de apresentação de dados. Os dados brutos muitas vezes precisam ser ordenados para estudar a posição e distribuição dos dados. Quando os dados estão ordenados, denominamos de rol. Exemplo: 𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎} B) DADOS PONDERADOS (TABELA DE FREQUÊNCIA SEM INTERVALOS) Os dados são ponderados quando suas repetições são sintetizadas em uma informação que as contabiliza. Essa informação é denominada de frequência, isto é, frequência é contagem de dados com mesmo valor (repetidos). Assim, cada valor observado que uma variável pode assumir é ponderado pelas suas repetições. Os dados são representados por uma tabela de frequência, conforme ilustração a seguir: Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri) Frequência Acumulada (Fi) Frequência Acumulada Relativa (Fri) 0 1 1/9 ≌ 11% 1 1/9 ≌ 11% 5 1 1/9 ≌ 11% 2 2/9 ≌ 22% 10 1 1/9 ≌ 11% 3 3/9 ≌ 44% 15 3 3/9 ≌ 33% 6 6/9 ≌ 67% 20 2 2/9 ≌ 22% 8 8/9 ≌ 89% 30 1 1/9 ≌ 11% 9 9/9 = 100% Soma (Σi) 9 9/9 = 100% - - Na tabela de frequência de dados ponderados, cada linha corresponde às frequências de uma observação não repetida dos dados brutos. A primeira coluna corresponde aos valores observados da variável X e as demais colunas, aos diferentes tipos de frequências. Assim, é possível afirmar que existem três observações com valor de 15kg/semana e duas observações com valor de 20 kg/semana. Interpretando de acordo com o exemplo, foram apreendidos, em três semanas, 15kg de drogas, e em duas semanas 20kg. Os tipos de frequência são: ➢ Frequência Absoluta (fi): contagem de repetições de cada valor observado; https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 ➢ Frequência Relativa (fri): proporção da frequência absoluta sobre o número de elementos, 𝑓𝑟𝑖 = 𝑓𝑖 𝑛 (conceito muito associado à probabilidade); ➢ Frequência Acumulada (Fi): número de repetições de cada valor observado, somando (acumulando) os valores das linhas anteriores; ➢ Frequência Acumulada Relativa (Fri): proporção da frequência acumulada sobre o número de elementos, 𝐹𝑟𝑖 = 𝐹𝑖 𝑛 . Esses quatro tipos de frequências podem aparecer em sua prova de Estatística, dificilmente todos os quatros tipos juntos em uma questão. Por isso, é necessário identificar as características de cada uma das frequências, como também diferenciar suas simbologias. Observe que quando a frequência for acumulada o F é representado por letra maiúscula e f minúscula para absoluta, sem acumular. Outros detalhes que ajudam identificar o tipo de frequência e obter informações úteis são que a soma total da frequência absoluta deve sempre ser o n – número de elementos do conjunto de dados. ∑ 𝒇𝒊 = 𝒏 𝒏 𝒊=𝟏 ∑ 𝒇𝒓𝒊 = 𝟏 𝒐𝒖 𝟏𝟎𝟎% 𝒏 𝒊=𝟏 Ainda, a soma da frequência relativa deve sempre ser 1 ou 100%. A última linha da frequência acumulada deve ser o número de elementos (n) e a última linha da frequência acumulada relativa deve ser 1 ou 100%. C) DADOS AGRUPADOS (TABELA DE FREQUÊNCIA COM INTERVALOS) Quando o conjunto de dados fica cada vez maior, ocorrem muitas observações diferentes e representá-las por meio de dados ponderados pode ficar muito extensivo e pouco claro. Para isso, outra forma de apresentação de dados sugere que as observações da variável X sejam agrupadas em intervalos predefinidos. Um detalhe importante é que o agrupamento de dados somente é coerente para dados quantitativos, sendo mais frequentemente aplicado em dados quantitativos contínuos. Para agrupar os dados, é necessário definir duas informações: número de classes (nc) e amplitude/intervalo da classe (h). Para definir o número de classes, podem ser utilizadas diferentes metodologias, entre as principais está a regra de Sturges e o critério da raiz quadrada. As questões de Estatística raramente pedem para estabelecer o número de classes, no entanto conhecer os critérios para formação de classes é útil para entender uma tabela de frequência com dados agrupados. Por praticidade nos cálculos e quando não for fornecida uma informação específica na questão, recomenda-se usar o critério da raiz quadrada. Para esse exemplo, será utilizado esse critério, logo: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 𝒏𝑪 = √𝟗 = 𝟑 𝒄𝒍𝒂𝒔𝒔𝒆𝒔 Portanto, três classes são suficientes para agrupar todo o conjunto de dados. Quando o valor do número de classes não for inteiro, pode ser feito um arredondamento, sem problemas. Após isso, resta saber qual é o intervalo da classe. Essa informação pode ser calculada a partir do seguinte cálculo: 𝒉 = (𝑿𝑴á𝒙 − 𝑿𝑴í𝒏) 𝒏𝒄 Dessa forma, calcula-se a diferença entre o valor máximo e o mínimo observado no conjunto de dados em análise, em seguida, essa diferença é dividida pelo número de classes. Assim, tem-se o seguinte valor para h: 𝒉 = (𝟑𝟎 − 𝟎) 𝟑 = 𝟏𝟎 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 O valor h = 10 kg/semana corresponde que a cada 10 unidades da variável X há uma classe definida, e assim sucessivamente até estabelecer as três classes. Desse modo, a tabela de frequência para dados agrupados fica da seguinte forma: Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri) Frequência Acumulada (Fi) Frequência Acumulada Relativa (Fri) 0 10 2 2/9 ≌ 22% 2 2/9 ≌ 22% 10 20 4 4/9 ≌ 44% 6 6/9 ≌ 67% 20 30 3 3/9 ≌ 33% 9 9/9 = 100% Soma (Σi) 9 9/9 = 100% - - A tabela de frequência com intervalos agrupa os dados observados da variável X e simplifica as informações. No entanto, a partir do momento que os dados são agrupados, a precisão de algumas informações é perdida. Por exemplo, é possível constatar que no intervalo de 10 ˫ 20 existem quatro observações, entretanto, não é possível afirmar precisamente quais são os dados que foram observados nesse intervalo, que nesse caso seria {10, 15, 15, 15}. Mesmo perdendo a precisão de algumas informações, a apresentação de dados agrupados é interessante por reduzir e simplificar um conjunto grande de dados. Cada intervalo de classe é caracterizadopelo seu limite inferior e superior. Exemplo, a primeira classe é caracterizada por 0 10, que engloba observações de 0 kg/semana de drogas apreendidas até valores < 10 kg/semana. Observe que o limite superior não é enquadrado no primeiro intervalo, pois faz parte do limite inferior da segunda classe. O símbolo indica que o limite inferior está contido na classe e o superior não está. Já na terceira e última classe, note que o intervalo foi representado por 20 30, que engloba tanto limite inferior como superior, para poder englobar todos os dados na tabela de frequência. As simbologias de intervalos podem ser as seguintes: ➢ Intervalo que inclui o limite inferior e inclui o limite superior; ➢ Intervalo que inclui o limite inferior e exclui o limite superior; ➢ Intervalo que exclui o limite inferior e inclui o limite superior; ➢ Intervalor que exclui limite inferior e exclui o limite superior. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 D) GRÁFICOS DE FREQUÊNCIA Seguindo com as formas de apresentação de dados da variável X, a frequência pode ser também ilustrada por meio de gráficos, tanto para os dados ponderados quanto os dados agrupados. As principais representações gráficas associadas à frequência são: histograma, polígono de frequência e curva de frequência. ➢ Histograma Histograma é uma representação gráfica em retângulos (gráfico de barras verticais ou barras horizontais) da distribuição de frequências de um conjunto de dados. Os histogramas podem ser apresentados das seguintes formas: • Histograma da Frequência Absoluta: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 7 • Histograma da Frequência Acumulada: O histograma pode ser representado na forma vertical ou horizontal, porém sempre será composto pela relação entre a variável estudada e sua frequência, cada uma representando um eixo do plano cartesiano. O histograma estuda a frequência de apenas uma variável, assim não deve ser confundido com outros gráficos de barras ou colunas que costumam associar duas variáveis distintas. Os histogramas da frequência absoluta irão assumir uma forma variável (distribuição) conforme a repetição de cada observação. Em contrapartida, o histograma da frequência acumulada sempre será crescente com última observação ou classe com o valor total de observações acumulado. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 8 ➢ Curva de frequência A curva de frequência evidencia uma imagem tendencial e apresenta o suposto desempenho que o fenômeno teria com maior número de dados coletados. Esse gráfico é muito usado para estudar a distribuição e o formato do conjunto de dados. A seguir, a representação gráfica das curvas de frequência: • Curva de Frequência Absoluta para Dados Agrupados: • Curva de Frequência Acumulada para Dados Agrupados: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO ESTATÍSTICA DESCRITIVA: TABELAS E GRÁFICOS ............................................................................................... 2 DIAGRAMA DE PONTOS ................................................................................................................................. 2 DIAGRAMA DE RAMOS E FOLHAS ................................................................................................................. 2 TABELAS ......................................................................................................................................................... 3 GRÁFICOS ....................................................................................................................................................... 3 GRÁFICO DE COLUNAS ............................................................................................................................... 4 GRÁFICO DE BARRAS ................................................................................................................................. 4 GRÁFICO DE SETORES (PIZZA).................................................................................................................... 5 GRÁFICO DE DISPERSÃO ............................................................................................................................ 6 GRÁFICO DE LINHAS (POLÍGONOS)............................................................................................................ 6 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 ESTATÍSTICA DESCRITIVA: TABELAS E GRÁFICOS DIAGRAMA DE PONTOS Os dados de uma variável podem ser representados por um diagrama de pontos que apresenta a frequência de cada observação com uso de pontos, isto é, basicamente um histograma representado por pontos ao invés de colunas ou barras. Veja como fica representado o diagrama de pontos, no mesmo exemplo abordado da aula anterior: OBJETO DE ESTUDO: Dados referentes à quantidade de drogas (X), em quilogramas, apreendidas por semana em uma delegacia de polícia. O gráfico é representado pelo seguinte esquema: Essa ilustração corresponde ao seguinte conjunto de dados brutos: 𝑋𝑋 = {0, 5, 10, 15, 15, 15, 20, 20, 30} DIAGRAMA DE RAMOS E FOLHAS O diagrama de ramos e folhas trata-se de outra representação gráfica para expor um conjunto de dados referentes a uma variável. Para apresentá-lo, será utilizado um exemplo que desenvolve melhor sua aplicação. OBJETO DE ESTUDO: Altura de alunos (Y), em centímetros, da turma presencial do AlfaCon. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 Esta representação gráfica aglomera os dados brutos a partir de um esquema que se associa à ideia de uma árvore com ramos e folhas. Cada observação é composta pela concatenação do ramo com suas respectivas folhas. Assim, o ramo 16 concatenado com cada folha tem as seguintes observações: 161cm, 162cm, 162cm, 166cm. Para obter o total de observações, basta contabilizar a quantidade de números em cada folha. Esse gráfico é indicado para conjunto de dados com poucas observações (o suficiente para não perder a simplicidade e clareza). Em adição, o diagrama de ramos e folhas evidencia a distribuição dos dados, bem como a frequência das observações. Isso pode ser constatado pelo comprimento das linhas de cada folha, quanto maior a linha (mais números) maior é a quantidade de dados naquele intervalo. Também pode ser compreendido que cada ramo consiste em um intervalo de dados agrupados com amplitude, nesse exemplo, de uma dezena 16 ˫ 17, 17 ˫ 18, e assim consecutivamente. O conjunto de dados representado no diagrama de ramos e folhas pode ser expresso em dados brutos da seguinte forma: Y = {161, 162, 162, 166, 174, 174, 175, 177, 177, 178, 181, 181, 183, 184, 185, 185, 185, 186, 186, 187, 191, 194, 196, 197, 197, 200, 202, 203, 206}. TABELAS As tabelas, de modo geral, servem para organizar e apresentar os dados coletados no sentido de facilitar a sua interpretação. A tabela de frequência costuma apresentar apenas informações referentes a uma variável, já as demais tabelas costumam associar dados de diferentes variáveis, além dos elementos avaliados. A organização estruturada dos dados brutos em tabelas alinha os valores de cada variável e transforma-os em informações. É muito utilizada em banco de dados (grandes quantidades de dados). OBJETO DE ESTUDO: Informações sobre concursos das carreiras policiais. Concurso Vagas Inscritos Remuneração Dificuldade Polícia Federal 600 85.000 R$ 12.600,00 Alta DEPEN 150 21.000 R$ 8.900,00 Média PRF 400 60.000 R$ 10.800,00 Alta Polícia Legislativa 80 55.000 R$ 19.700,00 Baixa Na tabela acima, cada coluna apresenta valores de uma variável diferente, associando os dados de cada variável nas linhas da tabela. Assim, é possível afirmar queo concurso da Polícia Federal oferecerá 650 vagas, tem 85 mil inscritos, remuneração de R$ 12.600,00, e avaliado por algum critério qualquer com dificuldade alta na prova. Observe que variáveis de diferentes tipos (qualitativa e quantitativa) podem ser associadas sem problema algum. GRÁFICOS Os gráficos, de modo geral, são representações ilustrativas do conjunto de dados brutos com maior apelo visual. Basicamente, os gráficos devem apresentar simplicidade, clareza na leitura dos valores e veracidade nas informações sobre o fenômeno estudado. Existem inúmeros formas de representação gráfica para duas ou mais variáveis, nesse material serão abordados os principais gráficos cobrados nas provas de Estatística, entre eles, os gráficos de colunas, barras, setor (pizzas), dispersão e linhas. O objeto de estudo exemplificado a seguir será aplicado para ilustrar os gráficos de colunas, barras e setores. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 OBJETO DE ESTUDO: Quantidade de prisões efetuadas por mês nos estados do Sudeste brasileiro. Rio de Janeiro: 6200 São Paulo: 5000 Minas Gerais: 3200 Espírito Santo: 2600 GRÁFICO DE COLUNAS Os gráficos de colunas apresentam uma associação entre duas variáveis diferentes, geralmente se trata de uma variável qualitativa (categórica), representada por cada coluna, com uma variável quantitativa, representada pela altura das colunas. Esse gráfico não pode ser confundido com o histograma (a banca costuma muito induzir o aluno a esse erro). O detalhe para diferenciá-los está no fato de que o gráfico de colunas não contempla a frequência de uma variável e apresenta duas variáveis em cada eixo. GRÁFICO DE BARRAS Os gráficos de barras praticamente invertem a relação dos eixos comparados aos gráficos de colunas. Mas ainda permanece a associação de duas variáveis em que as barras representam uma variável qualitativa e o comprimento das barras representa a variável quantitativa. O mesmo exemplo abordado para o gráfico de colunas pode ser abordado no gráfico de barras. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 GRÁFICO DE SETORES (PIZZA) Os gráficos de setores focam na proporção em que cada variável qualitativa evidencia comparativamente ao total observado. Desse modo, abordando o mesmo exemplo que os demais gráficos, é possível verificar que a variável quantitativa perde sua ênfase nessa representação gráfica. Para esclarecer o que se refere à quantidade em cada classe, é necessário especificar, no título, junto ao gráfico que o quantitativo representa o número de prisões por mês. Ainda, os gráficos de setores estabelecem uma relação do ângulo de cada setor com o quantitativo de cada classe. Desse modo, é possível inferir que o total de prisões por mês observado nesse exemplo corresponde a um ângulo de 360º. Assim, em simples cálculos de proporção (regra de três), é possível calcular o ângulo do setor de cada classe. Exemplo: 𝟑𝟑𝟑𝟑𝟑𝟑° = 𝟏𝟏𝟑𝟑𝟑𝟑% Para o Estado de SP, com 29,4%, tem-se: 𝑿𝑿 𝟑𝟑𝟑𝟑𝟑𝟑° = 𝟐𝟐𝟐𝟐,𝟒𝟒% 𝟏𝟏𝟑𝟑𝟑𝟑% 𝟑𝟑𝟑𝟑𝟑𝟑 × 𝟐𝟐𝟐𝟐,𝟒𝟒 = 𝟏𝟏𝟑𝟑𝟑𝟑𝑿𝑿 𝑋𝑋 = 10584 100 = 105,84° https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 GRÁFICO DE DISPERSÃO O gráfico de dispersão também é conhecido como gráfico de correlação. Isso porque é possível identificar visualmente pelo gráfico uma tendência de correlação entre as variáveis. Mais à frente, no decorrer do conteúdo, iremos trabalhar profundamente com conceito de correlação. Sobretudo, entenda que o importante desse gráfico é identificar o que ocorre com valores de uma variável quando a outra variável aumenta ou diminui. Para exemplificar a aplicação desse gráfico, é necessário trabalhar com outro exemplo. OBJETO DE ESTUDO: Uma investigação tem o objetivo de estudar a associação da quantidade de drogas apreendidas, em kg, pela Polícia Civil em relação ao desempenho escolar nos municípios do estado do Mato Grosso. O desempenho escolar foi avaliado pela média das notas dos alunos de cada município. Cada ponto presente no gráfico indica uma coordenada (associação) do valor da variável desempenho médio das escolas, com a variável quantidade de drogas apreendidas. Nesse exemplo, é possível identificar uma tendência em que, quanto maior o desempenho médio das escolas, menor é quantidade de drogas apreendidas no município. O gráfico de dispersão é utilizado para associar duas variáveis quantitativas, não é recomendado para variáveis qualitativas. GRÁFICO DE LINHAS (POLÍGONOS) O gráfico de linhas é semelhante ao polígono de frequência, a diferença é que o gráfico associa duas variáveis diferentes e não trabalha com a frequência. OBJETO DE ESTUDO: Registro de denúncias na delegacia Y no decorrer de 20 dias, após fatos que levaram à calamidade pública do município. X = Tempo, em dias {0, 5, 10, 15, 20} Y = Registro de Denúncias {20, 18, 26, 20, 34} https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 7 Basicamente, o gráfico ilustra a quantidade de denúncias no decorrer de uma série temporal. Esse gráfico é indicado para associar variáveis quantitativas, uma vez que a linha gera a ideia de transitividade e progressividade entre um valor e outro, ou seja, existem valores entre o intervalo do dia inicial da contagem (dia 0) até o 5º dia. Não seria indicado para variáveis qualitativas, uma vez que as classes são bem definidas sem transição entre um valor e outro, nesse caso um gráfico de colunas ou barras é o apropriado. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO ESTATÍSTICA DESCRITIVA: MEDIDAS DESCRITIVAS ............................................................................................ 2 INTRODUÇÃO ................................................................................................................................................. 2 MEDIDAS DE POSIÇÃO: TENDÊNCIA CENTRAL .............................................................................................. 2 MÉDIA ............................................................................................................................................................ 3 MÉDIA ARITMÉTICA (�̅�): ........................................................................................................................... 3 MÉDIA GEOMÉTRICA (�̅�): ......................................................................................................................... 4 MÉDIA HARMÔNICA (�̅�): .......................................................................................................................... 4 CÁLCULO DA MÉDIA PARA DADOS BRUTOS: ............................................................................................. 5 CÁLCULO DA MÉDIA PARA DADOS PONDERADOS: ................................................................................... 5 CÁLCULO DA MÉDIA PARA DADOS AGRUPADOS: ..................................................................................... 6 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 ESTATÍSTICA DESCRITIVA: MEDIDAS DESCRITIVAS INTRODUÇÃO As medidas descritivas são resumos numéricos que tentam exprimir o comportamento observado no conjunto de dados. São informações obtidas por cálculos matemáticos que resumem, descrevem e interpretam os dados coletados de um fenômeno em estudo. Perante um conjunto de dados grande, elas são altamente eficientes para tornar a informação manejável e, com isso, podem-se relacionar os dados e levantar hipóteses de comparação. No entanto, como acontece sempre que se resume algo, esse processo implica a perda de alguma informação mais detalhada. Por isso, conhecer as informações que podem ser obtidas por cada medida descritiva,bem como as informações perdidas é essencial para uma análise exploratória. Para alcançar sua completude, as medidas descritivas devem ser calculadas em conjunto, pois cada uma extrai uma informação distinta em relação ao conjunto de dados e quando juntas permitem uma interpretação satisfatória. Por exemplo, o valor da Média (medida de tendência central) é frequentemente apresentado em associação com o valor do Desvio Padrão (medida de dispersão). Sobretudo, as medidas descritivas são classificadas de acordo com o tipo de informação gerada. Desse modo, os tipos de medidas descritivas são: de posição (tendência central e separatrizes); de dispersão (absolutas e relativas); e de forma. As principais medidas descritivas que serão estudadas e sua respectiva classificação são apresentadas no esquema a seguir: MEDIDAS DE POSIÇÃO: TENDÊNCIA CENTRAL As medidas de posição referem-se à “localização” do conjunto de dados em relação aos valores que a variável pode assumir, isto é, indicam um valor que está posicionado em algum ponto específico da escala numérica. As medidas de posição de tendência central informam valores que tendem a estar posicionados no centro, ou próximos, do conjunto de dados e, com isso, sabe-se que possui observações oscilando para mais e para menos em relação à centralidade. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 As principais medidas de tendência são a média, a mediana e a moda. De forma prática, a utilização dessas três medidas varia consoante o tipo de informação que pretendemos resumir ou descrever. EXEMPLO: Avaliação do desempenho de uma turma de acadêmicos em um curso de formação. Com esse objeto de estudo, podemos obter as seguintes informações: se pretendemos resumir o nível de desempenho dos acadêmicos, a média de todas as notas é a melhor indicação; se pretendemos identificar a nota mais frequente na turma, utilizaremos a moda; se pretendemos dividir os acadêmicos em dois grupos de acordo com desempenho (50% melhores notas e 50% notas inferiores), a mediana é mais indicada. MÉDIA A média é a medida de centralidade que quantifica o desempenho central (médio) da variável estudada. É a medida que mais resume o conjunto de dados em informações diretamente associadas ao fenômeno em estudo. A média é considerada como um número que tem a faculdade de representar uma série de valores. Ela quantifica a centralidade, pois leva em consideração todos os dados observados em seu cálculo. Desse modo, é também a medida de posição mais sensível à inserção de novos dados, principalmente se forem valores muitos discrepantes (extremos) ao desempenho médio. O desempenho central de um conjunto de dados pode ser obtido de acordo com diferentes procedimentos matemáticos. Apesar de cálculos distintos, todas as metodologias tentam resumir uma ideia de centralidade. Desse modo, a média pode ser aritmética (simples ou ponderada), geométrica e harmônica. Segue o esquema: MÉDIA ARITMÉTICA (�̅�): É obtida pela soma de todas as observações do conjunto de dados dividido pelo número de observações. A média aritmética pode ser simples ou ponderada. Essas definições variam conforme o peso atribuído para cada observação. Assim, pode ser representada matematicamente: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 �̅� = ∑ 𝑿𝒊 𝒏 = 𝑿𝟏 + 𝑿𝟐 + ⋯ + 𝑿𝒏 𝒏 Em que 𝑋𝑖 corresponde ao valor de cada observação (na i-ésima observação). MÉDIA GEOMÉTRICA (�̅�): Esse método de cálculo considera o princípio da multiplicação. O cálculo é efetuado multiplicando cada observação e extraindo a raiz quadrada na potência equivalente ao número de observações. Assim: �̅� = √∏ 𝑿𝒊 𝒏 = √𝑿𝟏 × 𝑿𝟐 × … × 𝑿𝒏 𝒏 MÉDIA HARMÔNICA (�̅�): O cálculo da média harmônica é efetuado invertendo a fração de cada observação e a fração principal do cálculo de uma média aritmética simples. Basicamente, esse tipo de cálculo é recomendado quando envolve grandezas que são inversamente proporcionais (exemplo, velocidade e tempo). Desse modo, pode ser calculada da seguinte forma: �̅� = 𝒏 ∑ 𝟏 𝑿𝒊 = 𝒏 𝟏 𝑿𝟏 + 𝟏 𝑿𝟐 + ⋯ + 𝟏 𝑿𝒏 Dos três tipos de médias apresentadas (aritmética, geométrica e harmônica), a mais importante e utilizada é a média aritmética. Para a maioria das provas de Estatística, os cálculos da média geométrica e harmônica não são cobrados. O mais importante é entender que todas as metodologias de cálculos estão preocupadas em quantificar uma tendência central do conjunto de dados. Além disso, existe uma relação entre essas médias que é muito cobrada em prova. Para exemplificar essa relação, será utilizado o seguinte conjunto de dados: 𝑿 = {𝟏, 𝟑, 𝟗} ➢ Média Aritmética Simples: �̅� = 𝟏 + 𝟑 + 𝟗 𝟑 = 𝟏𝟑 𝟑 = 𝟒, 𝟑𝟑 ➢ Média Geométrica: �̅� = √𝟏𝒙𝟑𝒙𝟗 𝟑 = √𝟐𝟕 𝟑 = 𝟑 ➢ Média Harmônica: �̅� = 𝟑 𝟏 𝟏 + 𝟏 𝟑 + 𝟏 𝟗 = 𝟑 𝟏𝟑 𝟗 = 𝟑𝒙𝟗 𝟏𝟑 = 𝟐𝟕 𝟏𝟑 = 𝟐, 𝟎𝟖 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 Com o exemplo abordado, é possível concluir que para o mesmo conjunto de dados, somente quando assumirem valores positivos, a relação entre os tipos de média será: A média aritmética será sempre maior que a média geométrica que, por sua vez, será maior que a média harmônica. Somente serão iguais, quando os valores do conjunto de dados forem idênticos entre si, por exemplo, X = {2, 2, 2, 2, 2}. Essa relação pode não ser verdadeira quando a variável assumir ao menos um valor negativo. Apesar das diferentes metodologias de cálculo, agora, toda vez que for abordado sobre média utilizaremos apenas a média aritmética simples. O cálculo da média pode ser aplicado diferentemente para cada forma de apresentação de dados. Desse modo, serão exemplificados os cálculos para dados brutos, ponderados e agrupados de acordo com exemplo inicial. CÁLCULO DA MÉDIA PARA DADOS BRUTOS: Para esse cálculo, basta considerar cada observação, mesmo que repetida, na fórmula original da média. �̅� = 𝟎 + 𝟓 + 𝟏𝟎 + 𝟏𝟓 + 𝟏𝟓 + 𝟏𝟓 + 𝟐𝟎 + 𝟐𝟎 + 𝟑𝟎 𝟗 �̅� = 𝟏𝟑𝟎 𝟗 = 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 Baseado no exemplo, o valor médio da quantidade de drogas apreendido, em nove semanas de estudo, corresponde a 14,44 kg/semana. Perceba que a unidade de medida permanece a mesma que o fenômeno estudado. CÁLCULO DA MÉDIA PARA DADOS PONDERADOS: Em uma tabela de frequência, o cálculo da média pode ser efetuado de modo semelhante a uma média ponderada, em que a frequência corresponde ao peso de cada observação. Para o cálculo, é suficiente ter informações da frequência absoluta ou relativa. Observe: Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri) 0 1 1/9 10 1 1/9 5 1 1/9 15 3 2/9 20 2 3/9 30 1 1/9 Soma (Σi) 9 9/9 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 A tabela informa quantas vezes cada observação repete no conjunto de dados observados (frequência absoluta), ou então, à proporção que cada observação representa do conjunto total (frequência relativa). Assim, o cálculo da média pode ser: �̅� = ∑ 𝑿𝒊𝒇𝒊 𝒏 �̅� = 𝟎𝒙𝟏 + 𝟓𝒙𝟏 + 𝟏𝟎𝒙𝟏 + 𝟏𝟓𝒙𝟑 + 𝟐𝟎𝒙𝟐 + 𝟑𝟎𝒙𝟏 𝟗 �̅� = 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 Ou então: �̅� = ∑ 𝑿𝒊𝒇𝒓𝒊 �̅� = 𝟎𝒙 𝟏 𝟗 + 𝟓𝒙 𝟏 𝟗 + 𝟏𝟎𝒙 𝟏 𝟗 + 𝟏𝟓𝒙 𝟑 𝟗 + 𝟐𝟎𝒙 𝟐 𝟗 + 𝟑𝟎𝒙 𝟏 𝟗 �̅� = 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 Observe que o cálculo da média com uso da frequência relativa não precisa dividir pelo número de elementos (n), uma vez que esse termo já é levado em consideração quando multiplicado com cada observação. CÁLCULO DA MÉDIA PARA DADOS AGRUPADOS: Quando os dados estão agrupados, ocorre perda na precisão, pois não é possível inferir quais são as observações presentesdentro de cada intervalo. Desse modo, para o cálculo da média, assume-se que as observações coincidem com o ponto médio de cada classe. Observe: Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri) 0 10 2 2/9 10 20 4 4/9 20 30 3 3/9 Soma (Σi) 9 9/9 O ponto médio de cada classe é calculado da seguinte forma: 𝑷𝒎𝒊 = 𝑳𝑺𝒊 + 𝑳𝑰𝒊 𝟐 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 7 Em que 𝑃𝑚𝑖 corresponde ao ponto médio de uma determinada classe (i-ésima classe); 𝐿𝑆𝑖 o limite superior da mesma classe; 𝐿𝐼𝑖 o limite inferior da mesma classe. Assim, os pontos médios são: 𝑷𝒎𝟏ª = 𝟏𝟎+𝟎 𝟐 = 𝟓 𝑷𝒎𝟐ª = 𝟐𝟎 + 𝟏𝟎 𝟐 = 𝟏𝟓 𝑷𝒎𝟑ª = 𝟑𝟎 + 𝟐𝟎 𝟐 = 𝟐𝟓 Com isso, a média pode ser calculada da mesma forma que os dados agrupados, substituindo o valor de cada observação pelo ponto médio da classe: �̅� = ∑ 𝑷𝒎𝒊𝒇𝒊 𝒏 �̅� = 𝟓𝒙𝟐 + 𝟏𝟓𝒙𝟒 + 𝟐𝟓𝒙𝟑 𝟗 �̅� = 𝟏𝟔, 𝟏𝟏 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 Ou então: �̅� = ∑ 𝑷𝒎𝒊 𝒏 𝒊=𝟏 𝒇𝒓𝒊 �̅� = 𝟓𝒙 𝟐 𝟗 + 𝟏𝟓𝒙 𝟒 𝟗 + 𝟐𝟓𝒙 𝟑 𝟗 �̅� = 𝟏𝟔, 𝟏𝟏 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 O cálculo da média com perda na precisão dos dados acarreta valor diferente daquele calculado com os dados completos. Quando se trabalha com grande número de observações, simplificar o conjunto de dados torna-se uma alternativa vantajosa para organização dos dados, mesmo com variação no valor mais apropriado para a média. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO ESTATÍSTICA DESCRITIVA: MEDIDAS TENDÊNCIA CENTRAL .............................................................................. 2 MEDIANA (Me) .............................................................................................................................................. 2 MEDIANA PARA DADOS BRUTOS: ............................................................................................................. 2 MEDIANA PARA DADOS PONDERADOS: .................................................................................................... 3 MEDIANA PARA DADOS AGRUPADOS: ...................................................................................................... 5 MODA (Mo) ................................................................................................................................................... 6 MODA PARA DADOS BRUTOS: ................................................................................................................... 7 MODA PARA DADOS PONDERADOS: ......................................................................................................... 7 MODA PARA DADOS AGRUPADOS: ........................................................................................................... 7 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 ESTATÍSTICA DESCRITIVA: MEDIDAS TENDÊNCIA CENTRAL MEDIANA (Me) A mediana é uma medida que divide o conjunto de dados em exatamente 50% para cada lado, por isso ela é um valor de referência para indicar o dado que está exatamente no centro. É uma medida ideal para ser utilizada quando o objetivo for classificar os elementos avaliados e distingui-los quanto ao desempenho na metade. Para calcular e identificar a mediana, é necessário que o conjunto de dados esteja ordenado de forma crescente, em rol. Além disso, se a quantidade de elementos for ímpar, o valor da mediana corresponde ao valor de central do conjunto de dados. Todavia, se a quantidade de elementos for par, é preciso obter a média dos valores centrais para obter a mediana. MEDIANA PARA DADOS BRUTOS: Inicialmente, os dados devem ser colocados em ordem crescente, após isso deve ser identificada a posição central. A identificação pode ser de forma visual ou calculando a posição do centro. X = {15, 20, 10, 30, 20, 15, 0, 5, 15} n =9 Dados em rol crescente: Mediana, posição central para número ímpar: Observe que a mediana é o valor 15 que está na quinta posição dos dados de nove elementos ordenados. Quando for obter a mediana em um conjunto de dados muito extenso, identificar visualmente o centro pode ser um pouco difícil, para isso calcular a posição central pode ser uma alternativa vantajosa. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 𝑷𝑴𝒆 = (𝒏 + 𝟏) 𝟐 𝒐𝒖 𝟎, 𝟓(𝒏 + 𝟏) 𝑷𝑴𝒆 = (𝟗 + 𝟏) 𝟐 = 𝟓 Assim, a posição central ou a posição da mediana (PMe) é calculada por n+1 divido por dois. O cálculo fornece a posição central do conjunto de dados, que nesse caso corresponde a posição 5. Caso o conjunto de dados tenha número par no total de elementos, o cálculo da mediana fica da seguinte forma, considerando outro exemplo hipotético: X = {0, 10, 15, 15, 20, 20, 25, 30} n = 8 Visualmente, a mediana está localizada: A posição da mediana está entre a quarta e quinta posição. Nesse caso, deve-se calcular a média entre os termos que estão no centro. Assim, a mediana é 17,5. Se fosse calcular a posição central o resultado seria: 𝑷𝑴𝒆 = (𝟖 + 𝟏) 𝟐 = 𝟒, 𝟓 O valor 4,5 indica que a mediana está exatamente no centro entre o 4º termo e 5º termo do conjunto de dados em análise. MEDIANA PARA DADOS PONDERADOS: Para obter o valor da mediana em dados ponderados, a melhor informação que indica a posição do conjunto de dados está na frequência acumulada. Isso porque essa frequência acumula os valores das observações anteriores e, de certa forma, contabiliza o número de elementos e indica sua posição. Desse modo, basta identificar, na frequência acumulada, onde está a posição central e ver qual observação corresponde a essa posição. O valor que divide a distribuição de frequências em dois grupos com mesmo número de elementos estará na posição dada por: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 ∑ 𝒇𝒊 𝟐 𝒐𝒖 𝒏 𝟐 Neste caso, basta identificar a observação que tem frequência acumulada imediatamente superior à metade da soma das frequências absolutas (ou metade do número total de observações). Observe que até o valor de 10 kg/semana há 3 observações acumuladas, o valor de 20 kg/semana acumula 6 observações que inclui a posição 5ª que é imediatamente superior a 4,5. Desse modo, a observação 15 kg/semana é a mediana. O aluno não deve confundir a informação da posição dos dados na frequência com o valor correspondente ao fenômeno estudado. A mediana sempre será um valor referente ao fenômeno estudado e terá a mesma unidade de medida que o mesmo. A posição dos dados ordenados observada na frequência acumulada é apenas um indicativo para localizar a mediana. Se na questão forem fornecidos os dados da frequência acumulada relativa (Fri), é necessário identificar a posição que acumula 50% dos dados. Com isso, basta localizar a observação que acumula imediatamente superior a 50% de dados. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 MEDIANA PARA DADOS AGRUPADOS: Para calcular a mediana em conjunto de dados agrupados, é preciso inicialmente identificar a classe mediana, ou seja, a classe com o intervalo de valores que engloba a mediana. A identificação da classe mediana funciona da mesma forma que a identificação da mediana nos dados ponderados. Como os dados são agrupados não é possível identificar o valor exato da mediana, e sim a classe em que ela se encontra. Para isso, basta localizar a classe imediatamente superior que acumula metade do total dos elementos ( ∑ 𝑓𝑖 2 𝑜𝑢 𝑛 2 ) na frequência acumulada, ou então, que acumula um pouco mais de 50% na frequência acumulada relativa. Com isso, é possível inferir que a mediana está localizada entre o valor 10 kg/semana até 20 kg/semana. Para calcular o valor exato da mediana,é necessário utilizar o cálculo da interpolação linear. Quando se trabalha com dados agrupados, utiliza-se esse método de cálculo para estimar o valor dentro do intervalo que corresponde proporcionalmente a posição que acumula um pouco mais da metade dos dados. O cálculo da interpolação linear trabalha com a ideia de que existe uma proporção entre a diferença dos valores observados com a diferença de sua respectiva frequência acumulada (ou acumulada relativa). Veja a relação matemática: 𝟐𝟎 − 𝟏𝟎 𝟔 − 𝟐 = 𝑴𝒆 − 𝟏𝟎 𝟒, 𝟓 − 𝟐 Valor Observado (Xi) Quantidade Acumulada (Fi) 10 2 Me 4,5 20 6 Essa relação de proporção é a interpolação linear. É possível associar que até o valor de 20 kg/semana acumula-se 6 observações, assim como, para 10 kg/semana acumula-se 2 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 observações. Logo, a divisão dessas diferenças estabelece uma relação de proporção com qualquer outra relação nesse conjunto de dados. Assim, é possível igualar com a divisão de diferenças que tenha a mediana como incógnita, sabendo que a mediana corresponde à frequência acumulada da metade dos dados, isto é, posição 4,5. Resolvendo a conta matemática, tem-se: 𝟏𝟎 𝟒 = 𝑴𝒆 − 𝟏𝟎 𝟐, 𝟓 𝟐, 𝟓 = 𝑴𝒆 − 𝟏𝟎 𝟐, 𝟓 𝟐, 𝟓 × 𝟐, 𝟓 = 𝑴𝒆 – 𝟏𝟎 𝟔, 𝟐𝟓 + 𝟏𝟎 = 𝑴𝒆 𝑴𝒆 = 𝟏𝟔, 𝟐𝟓 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 Observe que o intervalo que vai de 0 até 10 kg/semana acumula até 2 observações, quase a metade da posição da mediana (que é 4,5). Desse modo, sabe-se que a mediana estará perto do meio do intervalo da classe mediana (10 até 20 kg/semana). Enquanto esse cálculo é efetuado, o aluno deve entender que nunca obterá um valor que extrapole o limite da classe mediana, assim se porventura ocorrer algum erro no cálculo que passe desse valor, é interessante revisar os cálculos, pois certamente houve algum erro. A mediana, ao contrário da média, não depende de todos os valores observados; além disso, sofre baixa influência de valores extremos. Em adição, não podem ser aplicadas as variáveis qualitativas nominais, uma vez que não é possível ordenar os dados. A mediana é adequada quando os dados apresentam grande variabilidade ou distribuição assimétrica, além de valores extremos indefinidos. MODA (Mo) A moda é o valor observado que mais se repete no conjunto de dados. Em outras palavras, é o valor com maior frequência, ou então, valor com maior probabilidade de ocorrer. É também a medida descritiva que pode ser facilmente identificada em um gráfico de frequência absoluta (em qualquer tipo de representação gráfica), pois será sempre o pico (ponto mais alto) do gráfico. Ao contrário da Média e da Mediana, a Moda tem de ser obrigatoriamente um valor existente no conjunto de dados. Um conjunto de dados pode ser Unimodal, quando somente um valor tem mais frequência, exemplo: 𝑿 = {𝟐, 𝟑, 𝟒, 𝟒, 𝟒, 𝟓, 𝟖} 𝑴𝒐 = 𝟒 Pode ser Bimodal (ou Trimodal, assim por diante) quando duas observações possuem mais frequência do que as demais observações, exemplo: 𝑿 = {𝟐, 𝟑, 𝟒, 𝟒, 𝟒, 𝟔, 𝟕, 𝟕, 𝟕} 𝑴𝒐 = 𝟒 𝒆 𝟕 Quando o conjunto de dados não tem um valor que se repete, não existe moda e classifica- se como Amodal, exemplo: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 7 X = {2, 4, 7, 8, 9, 10, 15} Mo = Ø MODA PARA DADOS BRUTOS: Quando a questão apresentar dados na forma bruta, para obter a moda, basta identificar o valor que mais se repete no conjunto de dados. Assim, conforme o exemplo: 𝐗 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎} Mo = 15 kg/semana A observação de 15 kg/semana repete-se três vezes e mais nenhuma outra observação tem esse mesmo número de observações. Logo, a moda é apenas 15 kg/semana. MODA PARA DADOS PONDERADOS: Em situação de dados ponderados, para identificar a observação que corresponde à moda, devem-se utilizar as informações presente na tabela de frequência absoluta ou relativa. Praticamente, a observação que possuir maior valor de frequência absoluta ou relativa será a moda. Como é possível identificar na tabela a seguir: MODA PARA DADOS AGRUPADOS: Como as observações estão agrupadas em classes, é necessário, primeiramente, identificar a classe que engloba a moda, denominada de classe modal. Para isso, basta identificar a classe com maior frequência absoluta ou relativa (igualmente como para dados ponderados). Portanto: Após essa etapa, é preciso calcular o valor pontual da moda, que estará dentro dos limites da classe modal. Para isso, existem quatro metodologias matemáticas diferentes que podem ser utilizadas. ➢ Moda Bruta https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 8 ➢ Moda de Pearson ➢ Moda de Czuber ➢ Moda de King • Moda Bruta: É o método mais simples; consiste em tomar como Moda o ponto médio da classe modal. Assim: 𝑴𝒐 = 𝟏𝟎 + 𝟐𝟎 𝟐 = 𝟏𝟓 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 • Moda de Pearson: É calculada por meio da média e da mediana a partir da seguinte expressão: 𝑴𝒐 = 𝟑𝑴𝒆 − 𝟐�̅� É a diferença entre três vezes o valor da mediana e duas vezes o valor da média. Logo, consoante aos cálculos da média e mediana para dados agrupados (Me = 21; �̅� = 19,44): 𝑴𝒐 = 𝟑 × 𝟏𝟔, 𝟐𝟓 − 𝟐 × 𝟏𝟔, 𝟏𝟏 𝑴𝒐 = 𝟒𝟖, 𝟕𝟓 − 𝟑𝟐, 𝟐𝟐 = 𝟏𝟔, 𝟓𝟑 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 • Moda de Czuber: Essa metodologia estima a moda baseado nos valores de frequência das classes modal, anterior a modal e posterior a modal. O cálculo é feito pela seguinte fórmula: 𝑴𝒐 = 𝑳𝒊 + 𝒉 𝒇𝑴𝒐𝒅𝒂𝒍 − 𝒇𝑨𝒏𝒕. 𝟐𝒇𝑴𝒐𝒅𝒂𝒍 − (𝒇𝑨𝒏𝒕. + 𝒇𝑷𝒐𝒔𝒕.) Li: corresponde ao limite inferior da classe modal; Li = 10 h: corresponde à amplitude da classe modal; h =10 𝑓𝑀𝑜𝑑𝑎𝑙 : frequência absoluta da classe modal; 𝑓𝑀𝑜𝑑𝑎𝑙 = 4 𝑓𝐴𝑛𝑡.: frequência anterior à classe modal; 𝑓𝐴𝑛𝑡. = 2 𝑓𝑃𝑜𝑠𝑡.: frequência posterior à classe modal; 𝑓𝑃𝑜𝑠𝑡. = 3 Desse modo, os valores correspondentes a cada frequência podem ser encontrados: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 9 Com isso, o cálculo é efetuado da seguinte forma: 𝑴𝒐 = 𝟏𝟎 + 𝟏𝟎 × 𝟒 − 𝟐 𝟐 × 𝟒 − (𝟐 + 𝟑) 𝑴𝒐 = 𝟏𝟎 + 𝟏𝟎 × 𝟐 𝟖 − 𝟓 𝑴𝒐 = 𝟏𝟎 + 𝟐𝟎 𝟑 𝑴𝒐 = 𝟏𝟎 + 𝟔, 𝟔𝟔𝟔 = 𝟏𝟔, 𝟔𝟔 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 • Moda de King: Estima a moda baseado nos valores de frequência das classes anterior à modal e posterior à modal. O cálculo é feito pela seguinte fórmula: 𝑴𝒐 = 𝑳𝒊 + 𝒉 𝒇𝒑𝒐𝒔𝒕. (𝒇𝑨𝒏𝒕. + 𝒇𝑷𝒐𝒔𝒕.) Assim, o cálculo é procedido da seguinte maneira: 𝑴𝒐 = 𝟏𝟎 + 𝟏𝟎 × 𝟑 (𝟐 + 𝟑) 𝑴𝒐 = 𝟏𝟎 + 𝟑𝟎 𝟓 = 𝟏𝟔 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO ESTATÍSTICA DESCRITIVA: SEPARATRIZRES ....................................................................................................... 2 INTRODUÇÃO ................................................................................................................................................. 2 QUARTIS (Q)................................................................................................................................................... 2 QUARTIS PARA DADOS BRUTOS: ............................................................................................................... 3 QUARTIS PARA DADOS PONDERADOS: ..................................................................................................... 5 QUARTIS PARA DADOS AGRUPADOS: ....................................................................................................... 6 DECIS (D) ........................................................................................................................................................ 7 PERCENTIL(P) ................................................................................................................................................ 9 BOX-PLOT E ESQUEMA DE CINCO PONTOS ................................................................................................. 10 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 ESTATÍSTICA DESCRITIVA: SEPARATRIZES INTRODUÇÃO As separatrizes são valores que dividem todo o conjunto de dados em partes iguais e de tamanhos específicos. Cada separatriz é nomeada conforme a quantidade de partes que separa o conjunto de dados. A mediana, como estudado anteriormente, separa os dados no meio (em duas partes com 50% cada lado). Além de ser uma medida de posição de tendência central, a mediana também é uma separatriz. Outras separatrizes são: os quartis, os decis e os percentis. Como as separatrizes separam o conjunto de dados, é necessário que estejam em ordem crescente, em rol. QUARTIS (Q) Os quartis são valores que dividem o conjunto de dados em quatro partes iguais, com 25% dos dados em cada parte. Assim, para dividir o rol de dados, é preciso ter três quartis. ➢ 1º Quartil (Q1): É o valor que separa o rol de dados em 25% dos dados à sua esquerda e 75% à direita. ➢ 2º Quartil (Q2): Tem 50% dos dados de cada lado, coincide com a mediana. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 ➢ 3º Quartil (Q3): Tem 75% dos dados à sua esquerda e 25% à direita. Para localizar o valor de um quartil, é indicado calcular a posição respectiva que separa os dados em partes correspondentes ao conceito de cada quartil. Desse modo: 𝑷𝑸𝟏 = 𝟎, 𝟐𝟓(𝒏 + 𝟏) = (𝒏 + 𝟏) 𝟒 𝑷𝑸𝟐 = 𝟎, 𝟓(𝒏 + 𝟏) = (𝒏 + 𝟏) 𝟐 𝑷𝑸𝟑 = 𝟎, 𝟕𝟓(𝒏 + 𝟏) = 𝟑(𝒏 + 𝟏) 𝟒 QUARTIS PARA DADOS BRUTOS: Para obter os quartis em uma série de dados brutos, primeiramente, é necessário deixá- los em rol crescente. Após isso, basta aplicar as fórmulas para calcular a posição respectiva da observação correspondente a cada quartil. 𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎} 𝒏 = 𝟗 Para calcular a posição do 1º quartil (PQ1): 𝑷𝑸𝟏 = 𝟎, 𝟐𝟓(𝟗 + 𝟏) = (𝟗 + 𝟏) 𝟒 = 𝟐, 𝟓 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 Assim, o Q1 com posição 2,5 corresponde à média entre o valor da 2ª e 3ª posição: ➢ Para calcular a posição do 2º quartil (PQ2): 𝑷𝑸𝟐 = 𝟎, 𝟓(𝟗 + 𝟏) = (𝟗 + 𝟏) 𝟐 = 𝟓 Assim, o Q2 corresponde ao valor na 5ª posição: ➢ Para calcular a posição do 3º quartil (PQ3): 𝑷𝑸𝟑 = 𝟎, 𝟕𝟓(𝟗 + 𝟏) = 𝟑(𝟗 + 𝟏) 𝟒 = 𝟕, 𝟓 Assim, o Q3 com posição 7,5 corresponde à média entre o valor da 7ª e 8ª posição: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 QUARTIS PARA DADOS PONDERADOS: Para localizar os quartis em uma tabela de frequência sem intervalo, é necessário observar a frequência acumulada, pois a Fi apresenta a ideia de posição dos dados (semelhante ao discutido na mediana para dados ponderados). Cada quartil representa um valor específico na frequência acumulada, da seguinte forma: 𝑸𝟏 → ∑ 𝒇𝒊 𝟒 𝒐𝒖 𝒏 𝟒 𝒐𝒖 𝑭𝒓𝒊 = 𝟐𝟓% 𝑸𝟐 → ∑ 𝒇𝒊 𝟐 𝒐𝒖 𝒏 𝟐 𝒐𝒖 𝑭𝒓𝒊 = 𝟓𝟎% 𝑸𝟑 → 𝟑(∑ 𝒇𝒊) 𝟒 𝒐𝒖 𝟑𝒏 𝟒 𝒐𝒖 𝑭𝒓𝒊 = 𝟕𝟓% O 1º quartil corresponde à observação imediatamente superior à aquela que acumula 1/4 ou 25% dos dados, que pode ser observado tanto na frequência acumulada quanto na frequência relativa acumulada. O 2º quartil corresponde à metade ou 50%, e o 3º quartil corresponde à 3/4 ou 75%. Portanto: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 Observe que até a observação de 5 kg/semana se acumula 22%, e a partir de 10 kg/semana acumula-se 33% dos dados. Dessa forma, o valor 10 contém a posição que separa os dados em 25% à esquerda e 75% à direita. Assim pode-se dizer que o 1º quartil é igual a 10. As mesmas conclusões podem ser feitas para os 2º e 3 º quartis. QUARTIS PARA DADOS AGRUPADOS: Para calcular os quartis em uma tabela de frequência com intervalos, utiliza-se o mesmo raciocínio adotado na mediana, a interpolação linear. Primeiro, é necessário identificar a classe de cada quartil (classe quartílica). As classes dos quartis são identificadas pela mesma forma que nos dados ponderados. Desse modo: A segunda classe da tabela de frequência acumula a partir de 22% até 67% dos dados (engloba 25% e 50% dos dados acumulados). Com isso, é possível inferir que a segunda classe contém tanto o 1º quanto o 2º quartil. Já a terceira classe engloba 75% dos dados acumulados e, por isso, contém o 3º quartil. Após identificar as classes quartílicas, basta aplicar o cálculo de interpolação linear seguindo a ideia da posição dos quartis: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 7 𝑸𝟏 → ∑ 𝒇𝒊 𝟒 = 𝟗 𝟒 = 𝟐, 𝟐𝟓 𝑸𝟐 → ∑ 𝒇𝒊 𝟐 = 𝟗 𝟐 = 𝟒, 𝟓 𝑸𝟑 → 𝟑(∑ 𝒇𝒊) 𝟒 = 𝟑 × 𝟗 𝟒 = 𝟔, 𝟕𝟓 ➢ Assim, os cálculos resultam, para Q1: 𝟐𝟎 − 𝟏𝟎 𝟔 − 𝟐 = 𝑸𝟏 − 𝟏𝟎 𝟐, 𝟐𝟓 − 𝟐 𝟏𝟎 𝟒 = 𝑸𝟏 − 𝟏𝟎 𝟎, 𝟐𝟓 𝟏𝟎 × 𝟎, 𝟐𝟓 𝟒 = 𝑸𝟏 – 𝟏𝟎 𝟐, 𝟓 𝟒 = 𝑸𝟏 – 𝟏𝟎 𝑸𝟏 = 𝟏𝟎 + 𝟎, 𝟔𝟐𝟓 = 𝟏𝟎, 𝟔𝟐𝟓 ➢ Para Q2: 𝟐𝟎 − 𝟏𝟎 𝟔 − 𝟐 = 𝑸𝟐 − 𝟏𝟎 𝟒, 𝟓 − 𝟐 𝟏𝟎 𝟒 = 𝑸𝟐 − 𝟏𝟎 𝟐, 𝟓 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 8 𝟐, 𝟓 = 𝑸𝟐 − 𝟏𝟎 𝟐, 𝟓 𝟐, 𝟓 × 𝟐, 𝟓 = 𝑸𝟐 – 𝟏𝟎 𝟔, 𝟐𝟓 + 𝟏𝟎 = 𝑸𝟐 𝑸𝟐 = 𝟏𝟔, 𝟐𝟓 ➢ Para Q3: 𝟑𝟎 − 𝟐𝟎 𝟗 − 𝟔 = 𝑸𝟐 − 𝟐𝟎 𝟔, 𝟕𝟓 − 𝟔 𝟏𝟎 𝟑 = 𝑸𝟐 − 𝟐𝟎 𝟎, 𝟕𝟓 𝟑, 𝟑𝟑 × 𝟎, 𝟕𝟓 = 𝑸𝟑 – 𝟐𝟎 𝟐, 𝟓 = 𝑸𝟑 – 𝟐𝟎 𝑸𝟑 = 𝟐𝟎 + 𝟐, 𝟓 = 𝟐𝟐, 𝟓 DECIS (D) Os decis são medidas descritivas que dividem uma série em 10 partes iguais. Portanto, existem nove decis; o primeiro tem 10% dos dados à sua esquerda, e 90% à sua direita; o segundo tem 20% dos dados à sua esquerda, e 80% à sua direita, e assim por diante, até o nono decil, que tem 90% dos dados à sua esquerda, e 10% à sua direita. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 9 Para o cálculo da posição dos decis em qualquer forma de apresentação de dados, o raciocínio atribuído é o mesmo que para todas as outras separatrizes: Decis (D) Cálculo da posição 1º Decil PD1 = 0,10(n+1) 2º Decil PD2 = 0,20(n+1) 3º Decil PD3 = 0,30(n+1) 4º Decil PD4 = 0,40(n+1) 5º Decil PD5 = 0,50(n+1) 6º Decil PD6 = 0,60(n+1) 7º Decil PD7 = 0,70(n+1) 8º Decil PD8 = 0,80(n+1) 9º Decil PD9 = 0,90(n+1) PERCENTIL (P) Os percentis são os 99 valores que separam uma série de dados em 100 partes iguais. O cálculo dos percentis está relacionado com a percentagem. A posição de cada percentil pode ser obtida da mesma forma que as demais separatrizes. Exemplo: Percentil (P) Cálculo da posição 5º Percentil PP5 = 0,05(n+1) 20º Percentil PP20 = 0,20(n+1) 32º Percentil PP32 = 0,32(n+1) 50º Percentil PP50 = 0,50(n+1) 80º Percentil PP80 = 0,80(n+1) Todas as separatrizes (mediana, quartis, decis e percentis) podem ser relacionadas da seguinte forma: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 10 Com isso, podemos estabelecer a seguinte relação entre as separatrizes: 𝑴𝒆 = 𝑸𝟐 = 𝑫𝟓 = 𝑪𝟓𝟎 BOX-PLOT E ESQUEMA DE CINCO PONTOS O Box-plot é uma representação gráfica que fornece informações sobre a posição central, dispersão e assimetria da respectiva distribuição de frequência dos dados. O gráfico utiliza cinco medidas estatísticas: mínimo, máximo, mediana, primeiro quartil, terceiro quartil. Ele representa essas cinco medidas em um único conjuntode resultados, conforme apresentado a seguir: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 11 O box-plot são utilizados para: • Comparar diferentes conjuntos de dados, visualmente, é possível observar dois ou mais box-plot e verificar o desempenho e posição de cada um; • Fornecer evidência sobre o nível de assimetria da distribuição dos dados, a partir das posições dos quartis Q1, Me (ou Q2) e Q3; • Identificar observações atípicas (outliers). Os comprimentos das caudas da distribuição são dados pelas linhas que vão do retângulo aos valores atípicos. Estes valores atípicos são chamados de outliers. Um outliers pode ser produto de um erro de observações ou de arredondamento. Outros sinônimos para outliers: pontos discrepantes, pontos extremos, valores atípicos ou observações fora de lugar. Para ilustrar um diagrama de Box-plot, o valor máximo pode ser o limite superior (Ls) ou a observação máxima (Xmáx), entre elas, aquela que for menor (que mais limita); o valor mínimo pode ser o limite inferior (Li) ou a observação mínima (Xmín), entre elas, aquela que for maior (que mais limita). Os limites podem ser calculados da seguinte forma: Limite Inferior (LI): Q1 – 1,5AQ Limite Superior (LS): Q3 + 1,5AQ Os limites são calculados tolerando uma variação de 1,5 da amplitude entre os quartis (𝑨𝑸 = 𝑸𝟑 − 𝑸𝟏). De modo geral, um ponto será considerado outlier quando estiver fora do intervalo desses limites: Limite inferior (Li) ou Limite Superior (Ls). Existe ainda, outra representação gráfica das cinco medidas descritivas já mencionadas, é o “esquema dos cinco números”, conforme mostrado genericamente a seguir: Conforme o exemplo abordado para o cálculo dos quartis para dados brutos, vamos obter os gráficos de box-plot e esquema de cinco pontos. Para isso, é necessário calcular os limites inferior e superior. 𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎} 𝒏 = 𝟗 𝑸𝟏 = 𝟕, 𝟓 𝑸𝟐 = 𝑴𝒆 = 𝟏𝟓 𝑸𝟑 = 𝟐𝟎 𝑨𝒒 = 𝟐𝟎 − 𝟕, 𝟓 = 𝟏𝟐, 𝟓 𝑳𝒔 = 𝟐𝟎 + 𝟏, 𝟓𝒙𝟏𝟐, 𝟓 = 𝟑𝟖, 𝟕𝟓 ou 𝑿𝑴á𝒙 = 𝟑𝟎 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 12 𝑳𝒊 = 𝟕, 𝟓 − 𝟏, 𝟓𝒙𝟏𝟐, 𝟓 = −𝟏𝟏, 𝟐𝟓 ou 𝑿𝑴í𝒏 = 𝟎 Os limites inferior e superior formam um intervalo mais amplo do que as observações de mínimo e de máximo, portanto, os valores de Xmín e Xmáx devem ser utilizados no box-plot porque limitam mais o intervalo do conjunto de dados. Assim: No box-plot, perceba que a mediana e o 3º quartil estão muito mais próximos numericamente do que no 1º quartil. A linha central dentro do box-plot está situada mais acima e com distâncias desproporcionais em relação ao Q1 e Q3. Essa situação evidencia uma distribuição assimétrica que será abordada em detalhes no conteúdo de assimetria (em medidas de formas) mais a diante. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO ESTATÍSTICA DESCRITIVA: DISPERSÃO ............................................................................................................... 2 INTRODUÇÃO ................................................................................................................................................. 2 AMPLITUDE TOTAL (AT) ................................................................................................................................. 3 AMPLITUDE/INTERVALO INTERQUARTÍLICO (AQ) .......................................................................................... 3 DESVIO QUARTIL (DQ) .................................................................................................................................... 4 DESVIO MÉDIO (DM) ....................................................................................................................................... 4 VARIÂNCIA (σ2, s2) ......................................................................................................................................... 6 DESVIO-PADRÃO (σ, s) ................................................................................................................................... 8 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 ESTATÍSTICA DESCRITIVA: DISPERSÃO INTRODUÇÃO As medidas de dispersão ou variabilidade permitem visualizar como os dados espalham- se (ou concentram-se) em torno de um valor central. Essas medidas indicam se um conjunto de dados é homogêneo ou heterogêneo. As medidas de posição (tendência central e separatrizes), por si só, não trazem completude nas informações geradas. Isso pode ser facilmente comprovado quando se observam dois conjuntos de dados distintos que podem gerar a mesma tendência central. Por exemplo, sejam dois conjuntos qualquer: X = {12, 12, 14, 14, 13, 13, 12,14} �̅� = 𝟏𝟑 MeX = 13 Y = {6, 6, 20, 20, 19, 7. 6, 20} �̅� = 𝟏𝟑 MeY = 13 Observe que os valores que compõem a variável X são diferentes comparativamente à variável Y. No entanto, ambas geram a mesma informação quanto à média e à mediana, isto é, estão posicionados na sua centralidade no valor numérico 13. Desse modo, as medidas descritivas de posição precisam ser complementadas quanto o seu grau de dispersão, ou seja, o quanto os dados se distanciam uns dos outros e de sua posição central (que pode ter como referência a média ou mediana). Entenda essa relação por meio de gráficos: Considerando que a linha horizontal representa o valor médio das variáveis, é possível verificar que a dispersão da variável Y em relação à média é maior do que a variável X. Em outros aspectos, pode-se afirmar que a variável X é mais homogênea do que a variável Y. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 Portanto, as medidas descritivas de dispersão são essenciais, como também complementares para compreender a performance do fenômeno estudado. Ainda, quando falamos em dispersão dos dados, dois conceitos são de fundamental compreensão: a amplitude e o desvio. O termo amplitude se refere à variação entre os valores extremos de um conjunto de dados, desse modo, traz a ideia de dispersão máxima. Por outro lado, o desvio é o distanciamento dos dados observados, comparado a um valor de referência (o desvio deve ser em relação a algum valor), que normalmente é uma medida de tendência central. Para quantificar esse aspecto, existem várias medidas descritivas de dispersão: ➢ Absolutas: • Amplitude Total (AT); • Amplitude/intervalo Interquartil (AQ); • Desvio Quartil (DQ); • Desvio Médio (DM); • Variância (σ2 ou s2); • Desvio-padrão (σ ou s). ➢ Relativas: • Coeficiente de Variação (CV); • Coeficiente de variação Quartil (CVQ). AMPLITUDE TOTAL (AT) A amplitude total consiste na diferença entre o menor e o maior valor no conjunto de dados. Desse modo: 𝑨𝑻 = 𝑿𝑴á𝒙 − 𝑿𝑴í𝒏 Essa medida de dispersão não leva em consideração os valores intermediários, perdendo a informação de como os dados estão distribuídos internamente. Apenas informa a oscilação máxima que as observações alcançam. É baseada somente em duas observações, por isso, é altamente influenciada pelos valores extremos. Além de tudo, é possível estabelecer uma relação direta com a variabilidade: quanto maior a amplitude, maior será a variabilidade do conjunto de dados. Na forma de apresentação de dados agrupados, a amplitude total pode ser obtida pela diferença entre o limite superior da última classe e o limite inferior da primeira classe: 𝑨𝑻 = 𝑳𝒔ú𝒍𝒕. 𝑪𝒍𝒂𝒔𝒔𝒆 − 𝑳𝒊𝟏ª𝒄𝒍𝒂𝒔𝒔𝒆 AMPLITUDE/INTERVALO INTERQUARTÍLICO (AQ) A amplitude (ou intervalo) interquartil é a diferença entre os quartis extremos, ou seja, a diferença entre o 3º quartil e o 1º quartil. Assim: 𝑨𝑸 = 𝑸𝟑 − 𝑸𝟏 A amplitude interquartil é uma medida essencial para calcular os limites inferiore superior do box-plot. Com isso, é possível estabelecer limites menos vulneráveis a valores https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 extremos, uma vez que os quartis são pouco sensíveis aos outliers (ao contrário do que ocorre com a amplitude total). A amplitude entre os quartis extremos mostra a variabilidade de 50% dos dados que estão em torno da mediana, isto é, a distribuição da metade central dos dados. Entenda pela ilustração: Essa amplitude não é suficiente para avaliar a variabilidade, pois despreza 50% dos dados (os extremos). É utilizada para determinar outliers (valores atípicos). DESVIO QUARTIL (DQ) Também denominado de amplitude semi-interquatílica, o desvio quartil pode ser calculado obtendo a metade da amplitude interquartil, da seguinte maneira: 𝑫𝑸 = (𝑸𝟑 − 𝑸𝟏) 𝟐 O desvio quartil tem como ponto de referência de centralidade a mediana, uma vez que a metade da amplitude interquartil é o próprio desvio dos quartis extremos em relação À mediana. O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de interpretar. Além do mais, não é afetado pelos valores extremos. Trata-se de uma medida insensível a distribuição dos dados menores que Q1 e maiores que Q3. DESVIO MÉDIO (DM) Os desvios baseados nos quartis têm como referência a mediana e não consideram todo o conjunto de dados. Para obter uma compreensão completa sobre a variabilidade dos dados, é necessário utilizar a média como ponto de referência para os desvios, pois ela considera todo o conjunto de observações em seu cálculo. Assim, a partir de agora serão abordadas medidas de dispersão baseadas na média, e os desvios de cada observação serão obtidos pela diferença da média: 𝐃𝐞𝐬𝐯𝐢𝐨 = 𝑿𝒊 − 𝝁 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 Para compreender o cálculo do desvio médio, vamos abordar um exemplo com um conjunto de dados qualquer: OBJETO DE ESTUDO: Comprimento de corpos de delitos retirados da cena de um crime, com unidade de medida em centímetros (cm). 𝑿 = {𝟓, 𝟔, 𝟔, 𝟗, 𝟗} 𝝁 = 𝟓 + 𝟔 + 𝟔 + 𝟗 + 𝟗 𝟓 = 𝟑𝟓 𝟓 = 𝟕𝒄𝒎 Para quantificar a dispersão dos dados, uma alternativa interessante é tirar uma média dos desvios de cada observação. Entretanto, quando somamos os desvios de cada observação, encontramos o seguinte resultado: Cada linha da tabela calcula o desvio de uma observação em relação à média, quando tentamos quantificar todos esses desvios (a própria dispersão do fenômeno estudado), obtemos como somatório o valor zero. Isso ocorre porque a média é um valor de tendência central, que é quantificada por todas as observações. Assim, os desvios em relação a ela têm o mesmo valor para o lado negativo como para o lado positivo. Como pode ser observado na tabela acima, os valores dessa variável desviam no intervalo de [-4cm; +4cm]. Os desvios possuem a mesma unidade de medida que o fenômeno em estudo. Diante dessa situação, alguns recursos matemáticos podem ser aplicados para evitar que o somatório dos desvios se torne zero, ao mesmo tempo em que seja possível quantificar a dispersão da variável X. Uma alternativa é utilizar a função modular no cálculo dos desvios, isto é,|𝑋𝑖 − 𝜇|, por exemplo: 𝑿𝒊 𝑿𝒊 – 𝝁 |𝑿𝒊 − 𝝁| 5 -2 2 6 -1 1 6 -1 1 9 2 2 9 2 2 Σ 0 8 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 A função modular despreza o sinal do resultado, trabalhando apenas com o módulo (o valor numérico). Com isso, todos os valores são somados e se obtém um resultado diferente de zero. Nesse exemplo, o somatório do módulo dos desvios (∑(|𝑋𝑖 − 𝜇|) foi 8 cm. Dessa forma, um valor que mensura a dispersão ou a variabilidade dos dados pode ser obtido tirando uma média desses desvios. Essa medida descritiva é definida como desvio médio (DM). 𝑫𝑴 = 𝟖 𝟓 = 𝟏, 𝟔 𝒄𝒎 Desse modo, é possível inferir que, em média, os dados dispersam na faixa de ±1,60cm em relação à centralidade dos dados. Com essa construção, desenvolvemos o raciocínio matemático por trás da fórmula do desvio médio. Após todo o exposto, a fórmula do desvio médio pode ser definida pela seguinte expressão: 𝑫𝑴 = ∑ (|𝑿𝒊 − 𝝁|) 𝒏 𝒊=𝟏 𝒏 O desvio médio é o somatório dos desvios em relação à média, em módulo, dividido pelo número de elementos. Em síntese, o desvio médio corresponde à média dos valores absolutos dos desvios. Contudo, o desvio médio muitas vezes não é utilizado como medida referente para descrever a dispersão dos dados. Isso porque a função modular apresenta algumas limitações matemáticas, compreendê-las não é interessante para o estudo do aluno, seria aprofundar demais no assunto. O importante é entender que outro recurso matemático deve ser utilizado para calcular os desvios, de modo que o somatório não resulte em zero. Essa outra medida descritiva é a variância. VARIÂNCIA (σ2, s2) A variância é uma medida de dispersão que aplica uma função quadrática nos desvios em relação à média. Desse modo, os desvios com sinais negativos resultam em valores positivos e, assim, é possível quantificar um valor que representa a dispersão de todo conjunto de dados. Observe que a construção do raciocínio é semelhante ao desvio médio, só que em vez de aplicar o módulo nos desvios, eles são elevados ao quadrado. Entenda: 𝑿𝒊 𝑿𝒊 – 𝝁 (𝑿𝒊 − 𝝁) 𝟐 5 -2 4 6 -1 1 6 -1 1 9 2 4 9 2 4 Σ 0 14 Portanto, o valor 14cm2 quantifica a soma de toda a dispersão (variabilidade) do conjunto de dados em relação à média. Para obter um valor que represente uma variação média, é interessante dividir pelo número de observações (tirar uma média dos desvios ao quadrado). https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 7 𝝈𝟐 = 𝟏𝟒 𝟓 = 𝟐, 𝟖 𝒄𝒎𝟐 Desse modo, a variância dos dados é de 2,8 cm2. Apesar de trabalhar com valores absolutos do fenômeno estudado, a variância, por elevar os desvios ao quadrado, tem sua unidade de medida também elevada ao quadrado, como pode ser observado nesse exemplo hipotético, em cm2. Isso faz com que a informação dessa medida descritiva não tenha a mesma natureza da variável quantificada, o que implica a necessidade de mais um ajuste matemático para obter uma medida coerente ao fenômeno em estudo. Seguindo a linha de raciocínio desenvolvida, a fórmula da variância pode ser definida pelo somatório dos desvios, em relação à média, elevado ao quadrado e dividido pelo número de elementos: 𝝈𝟐 = ∑(𝑿𝒊 − 𝝁) 𝟐 𝑵 Observe que tanto a simbologia da média (µ) quanto a da variância (σ2) foram representadas por letras gregas. Conforme abordado nos conceitos iniciais, esses símbolos são aplicados quando forem medidas referentes à população. Esses detalhes serão explicados com mais profundidade no conteúdo de estimadores da Estatística Inferencial, por hora, entenda que, para a variância, as fórmulas são diferentes quando os dados obtidos são provenientes da população ou da amostra. Por conseguinte, as fórmulas são: Basicamente, quando se trata de um conjunto de dados proveniente da população, utiliza- se o parâmetro populacional da média µ, além de dividir o somatório dos desvios ao quadrado por N, para assim, obter a variância σ2. Por outro lado, quando o conjunto de dados for referente a uma amostra, utiliza-se o estimador do parâmetro da média �̅�, e divide-se o somatório dos desvios ao quadrado por n-1, para obter a variância s2. A princípio, o mais importante nas questões de Estatística Descritiva é identificar se dados pertencem a uma amostra ou não, e dividir por n ou n-1, somente isso. Futuramente, no tema de Estatística Inferencial, essa diferença será fundamentada. Se tratarmos o exemplo anterior como uma amostra, o cálculo ficaria da seguinte forma: �̅� = 𝟕𝒄𝒎 𝒔𝟐 =𝟏𝟒 𝟒 = 𝟑, 𝟓 𝒄𝒎𝟐 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 8 A estimativa da média permanece a mesma que a da população, apenas a simbologia do que ela representa é diferente. Quanto à variância, o cálculo é feito dividindo por n -1 e se obtém um resultado diferente. É muito importante identificar na questão se os dados são amostras ou não, pois isso muda todo o possível resultado de uma questão. DESVIO-PADRÃO (σ, s) O desvio-padrão é uma medida que fornece a ideia de distribuição dos desvios em relação ao valor da média, semelhante ao desvio médio. A diferença está que ele não é obtido por meio da função modular e sim a partir da variância que utiliza a função quadrática. O cálculo da variância eleva as observações ao quadrado, transformando a natureza do fenômeno estudado. No exemplo abordado, o valor da variância, para uma população, foi 2,8cm2, desse modo, a variância deixa de expressar um valor referente ao comprimento linear e transforma-se em uma grandeza de área. Para corrigir matematicamente essa distorção é necessário tirar a raiz quadrada da variância, e transformá-la em um desvio com unidade de medida da variável analisada. Esse desvio é dito como padrão, pois é muito mais vantajoso matematicamente obter o desvio por meio da variância do que pela função modular. Em outras palavras, a variância é apenas um meio para obter a medida de dispersão que melhor representa a variabilidade absoluta do fenômeno em estudo: o desvio-padrão. Assim, pode ser obtido, simplesmente, extraindo a raiz quadrada da variância: Com isso, conforme o exemplo abordado anteriormente, o desvio-padrão é: Para interpretar se o desvio-padrão está alto ou baixo, devemos compará-lo com o valor da média. Quanto maior o valor do desvio-padrão em relação à média, maior então será a variação dos dados e mais heterogêneo é o nosso conjunto de observações. Em síntese a todo o raciocínio desenvolvido, a variância e o desvio-padrão podem ser calculados seguindo as etapas em sequência lógica: ➢ 1ª etapa: calcular a média (𝜇 𝑜𝑢 �̅�) do conjunto de dados; ➢ 2ª etapa: obter os desvios, em relação à média, de cada observação (𝑑𝑖 = 𝑋𝑖 − 𝜇); ➢ 3ª etapa: elevar cada desvio ao quadrado [𝑑𝑖 = (𝑋𝑖 − 𝜇) 2]; ➢ 4ª etapa: obter o somatório dos desvios ao quadrado [∑(𝑋𝑖 − 𝜇) 2]; ➢ 5ª etapa: dividir o somatório por 𝑛 quando o conjunto de dados se tratar de uma população, ou dividir por 𝑛 − 1 quando for referente a uma amostra. Com isso, obtém a variância (𝜎2 𝑜𝑢 𝑠2); ➢ 6ª etapa: extrair a raiz quadrada da variância para obter o desvio-padrão (𝜎 𝑜𝑢 𝑠); https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUEDE SUA VIDA! 1 SUMÁRIO ESTATÍSTICA DESCRITIVA: DISPERSÃO ............................................................................................................... 2 VARIÂNCIA E DESVIO-PADRÃO ...................................................................................................................... 2 FÓRMULA ALTERNATIVA DA VARIÂNCIA: ................................................................................................. 2 VARIÂNCIA E DESVIO-PADRÃO PARA DADOS AGRUPADOS: ..................................................................... 5 COEFICIENTE DE VARIAÇÃO (CV) ................................................................................................................... 7 COEFICIENTE DE VARIAÇÃO QUARTIL (CVQ) ................................................................................................. 8 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUEDE SUA VIDA! 2 ESTATÍSTICA DESCRITIVA: DISPERSÃO VARIÂNCIA E DESVIO-PADRÃO FÓRMULA ALTERNATIVA DA VARIÂNCIA: Matematicamente, a fórmula da variância pode ser expressa de modo diferente. Isso porque o somatório dos desvios ao quadrado pode ser representado por outra notação. Essa relação de igualdade pode simplificar muito os cálculos da variância, além de ser muito aplicada nos conteúdos mais avançados. NOTAÇÃO SOBRE O SOMATÓRIO DOS DESVIOS AO QUADRADO: ∑(𝑋𝑖 − 𝜇) 2 𝑛 𝑖=1 = ∑ 𝑋𝑖 2 − (∑ 𝑋𝑖) 2 𝑁 𝑛 𝑖=1 Explicando a notação matemática, observe que o somatório dos desvios ao quadrado (∑ (𝑋𝑖 − 𝜇) 2𝑛 𝑖=1 é igual ao somatório de cada observação ao quadrado (∑ 𝑋𝑖 2)𝑛𝑖=1 menos o efeito da média ( (∑ 𝑋1 𝑛 𝑖=1 ) 2 𝑁 ). Ao aplicar essa igualdade na fórmula da variância populacional, temos a seguinte conclusão: 𝝈𝟐 = ∑(𝑿𝒊 − 𝝁) 𝟐 𝑵 = ∑ 𝑿𝒊 𝟐 − (∑ 𝑿𝒊) 𝟐 𝑵 𝑵 𝝈𝟐 = ∑ 𝑿𝒊 𝟐 𝑵 − (∑ 𝑿𝒊) 𝟐 𝑵𝟐 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUEDE SUA VIDA! 3 Com essa dedução matemática, é possível definir a variância populacional da seguinte forma: 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = 𝑀é𝑑𝑖𝑎 𝑑𝑜𝑠 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 − 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑑𝑎 𝑀é𝑑𝑖𝑎 Essa expressão poder ser muito útil nas questões de Estatística que envolvam cálculo da variância, pois não precisa calcular os desvios de cada observação em relação à média para depois elevar ao quadrado. Em questões que não são fornecidas, cada observação que compõe o conjunto de dados, essa fórmula é o recurso que deve ser utilizado. Vamos aplicar o cálculo da variância com essa fórmula no seguinte exemplo: OBJETO DE ESTUDO: Comprimento de corpos de delitos retirados da cena de um crime, com unidade de medida em centímetros (cm). X = {5, 6, 6, 9, 9} 𝝁 = 𝟕𝒄𝒎 Após obter o valor da média, basta calcular a média de cada observação elevada ao quadrado, isto é, a média dos quadrados ( ∑ 𝑋𝑖 2 𝑁 ). O cálculo pode ser procedido da seguinte maneira: 𝑿𝒊 𝑿𝒊 𝟐 5 25 6 36 6 36 9 81 9 81 ∑ 𝑿𝒊 = 𝟑𝟓 ∑ 𝑿𝒊 𝟐 = 𝟐𝟓𝟗 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUEDE SUA VIDA! 4 Se o somatório de cada uma das cinco observações elevadas ao quadrado é igual a 259, então a média dos quadrados é igual a: ∑ 𝑿𝒊 𝟐 𝑵 = 𝟐𝟓𝟗 𝟓 = 𝟓𝟏, 𝟖 Com isso, a variância pode ser rapidamente calculada: 𝝈𝟐 = ∑ 𝑿𝒊 𝟐 𝑵 − 𝝁𝟐 𝝈𝟐 = 𝟓𝟏, 𝟖 − 𝟕𝟐 𝝈𝟐 = 𝟓𝟏, 𝟖 − 𝟒𝟗 = 𝟐, 𝟖 𝒄𝒎𝟐 O resultado de 2,8cm2 é o mesmo daquele encontrado utilizando a fórmula original. Para o cálculo da fórmula alternativa da variância e desvio-padrão, exclusivamente para dados de uma população, as etapas são: ➢ 1ª etapa: calcular a média (𝜇 ) do conjunto de dados; ➢ 2ª etapa: elevar cada observação ao quadrado (𝑋𝑖 2); ➢ 3ª etapa: efetuar o somatório de cada observação ao quadrado (∑ 𝑋𝑖 2); ➢ 4ª etapa: obter a média dos quadrados ( ∑ 𝑋𝑖 2 𝑛 ); ➢ 5ª etapa: elevar o valor da média ao quadrado (𝜇2); ➢ 6ª etapa: obter a diferença entre a média dos quadrados e o quadrado da média ( ∑ 𝑋𝑖 2 𝑛 − 𝜇2). Com isso, será obtido o valor da variância (𝜎2); ➢ 7ª etapa: extrair a raiz quadrada da variância para obter o desvio-padrão; Quando os dados pertencerem a uma amostra, a fórmula alternativa não chega à mesma conclusão anterior (média dos quadrados menos o quadrado da média). Isso porque o denominador é n -1. Cuidado para não aplicar a dedução abordada anteriormente para dados amostrais, pois a fórmula alternativa é a seguinte: 𝒔𝟐 = ∑(𝑿𝒊 − �̅�) 𝟐 𝒏 − 𝟏 = ∑ 𝑿𝒊 𝟐 − (∑ 𝑿𝒊) 𝟐 𝒏 𝒏 − 𝟏 Se tratarmos o exemplo anterior como uma amostra, é interessante obter, além da soma dos quadrados de cada observação (∑ 𝑋𝑖 2), o somatório total das observações (∑ 𝑋𝑖), sem necessidade de obter a média: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUEDE SUA VIDA! 5 𝑿𝒊 𝑿𝒊 𝟐 5 25 6 36 6 36 9 81 9 81 ∑ 𝑿𝒊 = 𝟑𝟓 ∑ 𝑿𝒊 𝟐 = 𝟐𝟓𝟗 Assim, o cálculo pode ser efetuado da seguinte forma: 𝒔𝟐 = ∑ 𝑿𝒊 𝟐 − (∑ 𝑿𝒊) 𝟐 𝒏 𝒏 − 𝟏 = 𝟐𝟓𝟗 − 𝟑𝟓𝟐 𝟓 𝟓 − 𝟏 𝒔𝟐 = 𝟐𝟓𝟗 − 𝟏𝟐𝟐𝟓𝟓 𝟒 = 𝟐𝟓𝟗 − 𝟐𝟒𝟓 𝟒 𝒔𝟐 = 𝟏𝟒 𝟒 = 𝟑, 𝟓 𝒄𝒎𝟐 Essa fórmula alternativa é também útil quando o valor da média não é exato, pois não precisa subtrair cada observação de uma média que pode ter sofrido arredondamento. VARIÂNCIA E DESVIO-PADRÃO PARA DADOS AGRUPADOS: Os cálculos dessas medidas de dispersão em dados ponderados ou agrupados são semelhantes à forma como são obtidas as médias. Basta entender que cada observação, além de representar um valor da variável analisada, também possui um desvio em relação à média. Assim, se alguma observação se repete duas vezes, o desvio dessa observação em relação à média também se repete duas vezes. Para exemplificar essa aplicação será abordado um exemplo com dados agrupados, no entanto, deve-se entender que para dados ponderados, o mesmo raciocínio é feito. A diferença está que, para dados agrupados, assume-se que os dados coincidem com o ponto médio da classe, e para os dados ponderados, trabalha-se com o valor exato e sua respectiva frequência. OBJETO DE ESTUDO: Dados de uma amostra referentes ao peso de mercadorias exportadas ilegalmente, em quilogramas, apreendidas por diversas operações policiais. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUEDE SUA VIDA! 6 Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri) 0 10 2 20% 10 20 5 50% 20 30 3 30% Soma (Σi) 10 100% Assim como para a média, para calcular a variância, é necessário utilizar as informações da frequência absoluta ou relativa. Com isso, a primeira etapa é calcular o ponto médio de cada classe: 𝑷𝒎𝟏ª = 𝟏𝟎 + 𝟎 𝟐 = 𝟓 𝒌𝒈 𝑷𝒎𝟐ª = 𝟐𝟎 + 𝟏𝟎 𝟐 = 𝟏𝟓 𝒌𝒈 𝑷𝒎𝟑ª = 𝟑𝟎 + 𝟐𝟎 𝟐 = 𝟐𝟓 𝒌𝒈 Após isso, é também preciso calcular a média para obter os desvios em relação a ela: �̅� = 𝟓𝒙𝟐 + 𝟏𝟓𝒙𝟓 + 𝟐𝟓𝒙𝟑 𝟏𝟎 = 𝟏𝟔𝟎 𝟏𝟎 = 𝟏𝟔 𝒌𝒈 Ao considerar que cada observação coincide com o ponto médio de cada classe, é possível entender que a observação de 5kg tem um desvio de -11kg em relação à média, e que este desvio se repete duas vezes. O mesmo raciocínio pode ser aplicado aos demais pontos médios. Portanto, o cálculo dos desvios ao quadrado pode ser esquematizado da seguinte forma: 𝑿𝒊 𝒇𝒊 𝑿𝒊 − 𝝁 (𝑿𝒊 − 𝝁) 𝟐 𝒇𝒊(𝑿𝒊 − 𝝁) 𝟐 5 2 -11 121 2x121 = 242 15 5 -1 1 1x5 = 5 25 3 9 81 3x81 = 243 Total 10 0 - 490 Ao obter o desvio de cada observação, deve ser elevado ao quadrado (por questões já explicadas), e posteriormente multiplicado pela sua respectiva frequência, pois representa a quantidade de vezes que esse desvio ocorre. Assim, o somatório dos desvios é expresso em notação matemática por ∑ 𝑓𝑖(𝑋𝑖 − 𝜇) 2. Consequentemente, o cálculo da variância é concluído da seguinte maneira: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUEDE SUA VIDA! 7 𝒔𝟐 = 𝟒𝟗𝟎 (𝟏𝟎 − 𝟏) = 𝟓𝟒, 𝟒𝟒 𝒌𝒈𝟐 O exemplo abordado tratava-se de uma amostra, assim o cálculo da variância foi efetuado dividindo por n – 1, isto é, 9. Em seguida, o desvio-padrão é obtido pela raiz da variância: 𝒔 = √𝟓𝟒, 𝟒𝟒 𝒌𝒈𝟐 = 𝟕, 𝟑𝟖 𝒌𝒈 Lembre-se de que, para obter o desvio-padrão, é necessário calcular a variância antes! COEFICIENTE DE VARIAÇÃO (CV) O desvio-padrão é a medida de dispersão mais utilizada para representar a variabilidade dos dados absolutos referentes a um fenômeno específico. No entanto, não é possível comparar a heterogeneidade de um conjunto de dados de natureza diferente. Exemplo: sobre a altura e o peso de um grupo de policiais, não pode ser afirmado que um desvio-padrão de 20cm é mais heterogêneo do que um de 12kg. Primeiramente, essa comparação não pode ser feita porque se trata de variáveis com grandezas diferentes, e, em segundo lugar, o desvio é calculado em relação à média, então é necessário ter a média de cada variável como referência. Para solucionar essa problemática, é interessante utilizar o coeficiente de variação, calculado da seguinte forma: 𝑪𝑽 = 𝝈 𝝁 𝒐𝒖 𝒔 �̅� A característica mais interessante do coeficiente de variação é que se trata de uma medida descritiva adimensional, uma vez que a divisão do desvio-padrão sobre a média retira a unidade, já que ambos têm a mesma unidade de medida. Com isso, é possível comparar coeficientes de variação de diferentes fenômenos estudados. Desse modo, pode-se inferir sobre a variabilidade de uma população (ou amostra) em relação a outra. Baseado no que foi exposto, o coeficiente de variação é uma medida de variabilidade relativa, e por isso também é conhecido como dispersão relativa. O coeficiente de variação pode ser expresso em porcentagem, caso seja multiplicado por 100. Isso não interfere em nada quanto ao seu valor, magnitude ou interpretação. Para exemplificar sua aplicação, será utilizado o primeiro exemplo abordado neste material. Assim, o cálculo é representado: O cálculo do coeficiente de variação terá diferentes resultados ao se tratar de uma população ou amostra. Quanto maior o coeficiente de variação, maior é a dispersão dos dados https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUEDE SUA VIDA! 8 sobre a média, assim é possível inferir que a média não seria uma boa medida para representar o conjunto de dados. Para ter uma ideia dos valores de CV e o que eles representam, pode ser utilizado a seguinte interpretação: ➢ Menor que 10%: significa que é a média é um ótimo representante do conjunto dos dados, pois existe uma pequena dispersão; ➢ Entre 10% e 20%: a média é uma boa representante, pois existe uma pequena dispersão dos dados em torno da média; ➢ Entre 20% e 35%: é um valor razoável, utilizar a média pode ser suficiente, pois existe uma razoável dispersão dos dados dela; ➢ Entre 35% e 50%: a média representa fracamente, pois existe uma grande dispersão dos dados em torno dela; ➢ Acima de 50%: a média não é capaz de representar o conjunto de dados, pois existe uma enorme dispersão. COEFICIENTE DE VARIAÇÃO QUARTIL (CVQ) O coeficiente de variação quartil é uma medida com interpretações semelhantes ao CV, porém é relativa aos desvios dos quartis (também é adimensional). É uma medida útil para comparação de diferentes variáveis quando possuem a presença de muitos valores atípicos (outliers). Nessa situação, é mais interessante observar a variação dos dados concentrados em torno de 50% da mediana. O cálculo é assim efetuado da seguinte forma: 𝑪𝑽𝑸 = 𝑨𝒒 𝑸𝟑 + 𝑸𝟏 = 𝑸𝟑 − 𝑸𝟏 𝑸𝟑 + 𝑸𝟏 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO ESTATÍSTICA DESCRITIVA: FORMA ..................................................................................................................... 2 MEDIDAS DE FORMA ..................................................................................................................................... 2 ASSIMETRIA (As) ............................................................................................................................................ 2 DISTRIBUIÇÃO SIMÉTRICA ......................................................................................................................... 3 DISTRIBUIÇÃO ASSIMÉTRICA À DIREITA (OU POSITIVA): ........................................................................... 4 DISTRIBUIÇÃO ASSIMÉTRICA À ESQUERDA (OU NEGATIVA): .................................................................... 4 COEFICIENTE DE ASSIMETRIA DE PEARSON .............................................................................................. 6 COEFICIENTE QUARTÍLICO DE ASSIMETRIA ............................................................................................... 7 CURTOSE (C) .................................................................................................................................................. 8 DISTRIBUIÇÃOMESOCÚRTICA ................................................................................................................... 8 DISTRIBUIÇÃO LEPTOCÚRTICA .................................................................................................................. 9 DISTRIBUIÇÃO PLATICÚRTICA .................................................................................................................... 9 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 ESTATÍSTICA DESCRITIVA: FORMA MEDIDAS DE FORMA As medidas de forma, ou de formato, caracterizam como os dados estão distribuídos em relação a si mesmos. Com essas medidas, é possível determinar uma tendência da curva de frequência. As principais informações são quanto à assimetria e ao grau de achatamento da distribuição. Entenda por distribuição todos os valores que a variável pode assumir e onde estão mais concentrados (com maior frequência). A melhor forma de representar uma distribuição é a partir da curva de frequência. ASSIMETRIA (As) A medida de assimetria caracteriza como e quanto a distribuição (ou frequência) dos dados se afasta de uma condição simétrica, isto é, indica o grau de distorção em relação à simetria. Os dados são distribuídos simetricamente quando, ao separar em duas partes iguais, possuem formatos iguais de distribuição para os dois lados. Portanto, ao cortar uma distribuição na sua mediana, que separa o conjunto de dados em dois grupos de 50%, o formato das distribuições particionadas deve ser igual para que a distribuição seja simétrica. Assim: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 Na distribuição dos dados representada acima, o ponto da mediana separa em dois componentes igualmente distribuídos (com a mesma forma). Nessa condição, os dados são considerados simétricos. Qualquer posicionamento diferente da mediana, modificando as duas partes da distribuição, de modo que não tenham mais formatos iguais, faz com que o conjunto de dados não tenha mais distribuição simétrica. Desse modo, as distribuições podem ser da seguinte forma: Simétrica; Assimétrica à Esquerda (ou Negativa); Assimétrica à Direito (ou Positiva). Os diferentes tipos de distribuições estão associados a outras informações relevantes na Estatística Descritiva. Basicamente, a assimetria possui uma relação com as medidas de tendência central, bem como as separatrizes. Por isso, pode-se detectar a assimetria do conjunto de dados pelos valores da média, mediana e moda; pelas distâncias dos quartis; pela presença de valores atípicos; e pelas frequências dos dados. Nesse exposto, os gráficos mais comuns aplicados em provas, para detectar a assimetria, são a curva de frequência e o box- plot. DISTRIBUIÇÃO SIMÉTRICA Os dados com distribuição simétrica têm os valores de média, mediana e moda iguais para uma distribuição unimodal. Desse modo, em uma curva de frequência com distribuição simétrica, o pico da curva (ponto com maior frequência) será o valor de todas as três medidas de tendência central. Além disso, é possível observar que as distâncias entre os quartis extremos (Q1 e Q3) com o quartil central (Q2) são iguais, isto é, são equidistantes. Isso ocorre porque os dados são distribuídos igualmente para ambos os lados, e os quartis Q1 e Q3 estão distanciados da posição do centro na proporção de 25% cada um. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 DISTRIBUIÇÃO ASSIMÉTRICA À DIREITA (OU POSITIVA): Em distribuições assimétricas à direita (ou positiva), existem observações extremas para o lado direito do plano cartesiano – direção para o sentido positivo da variável. A cauda da distribuição de frequência prolonga-se para o lado direito. Nessa situação, temos que a média é maior que a mediana, e ambas são maiores que a moda, em uma distribuição unimodal. Isso ocorre, praticamente, porque a média é uma medida mais sensível a valores extremos, já que considera todas as observações em seu cálculo. Assim, é possível afirmar que, para onde a distribuição se deslocar, a média irá se deslocar junto. A mediana terá um deslocamento bem menor para a direita, e a moda permanece sendo o valor mais frequente. Em adição, a diferença entre o Q3 e o Q2 é maior do que a diferença entre o Q2 e o Q1. Essa variação de distância ocorre porque os dados estão mais deslocados para a direita e, portanto, o valor da posição do Q3 é mais distante. Na assimetria à direita, é provável que existam outliers para os valores positivos. A existência de outliers, por si só, já determina uma distribuição assimétrica, mesmo que seja observada uma equidistância entre os quartis. DISTRIBUIÇÃO ASSIMÉTRICA À ESQUERDA (OU NEGATIVA): https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 O raciocínio inverso se aplica a uma distribuição assimétrica à esquerda (em direção ao sentido negativo da variável). A cauda da distribuição de frequência prolonga-se para o lado esquerdo. Além disso, a média é mais influenciada para o lado esquerdo e se torna o menor valor das medidas de centralidade, em uma distribuição unimodal. Logo, a moda é maior que a mediana que é maior que a média. Junto a isso, podem ser observados outliers para o sentido negativo da variável e a distância entre o Q2 e o Q1 será maior que a distância entre o Q3 e o Q2. Todas as informações apresentadas, quanto a assimetria, são válidas para dados que possuem apenas uma moda (unimodal). Quando o conjunto de dados não for unimodal, algumas informações podem não ser exatamente iguais ao exposto anteriormente. Nessa circunstância, é recomendado ilustrar a distribuição dos dados em gráficos, particionar o conjunto de dados no valor da mediana e, por fim, observar se as duas partes têm formato simétrico. Exemplo: 𝑿𝑿𝒊𝒊 Freq. Relativa Freq. Acumulada Relativa 2 30% 30% 4 10% 40% 6 20% 60% 8 10% 70% 10 30% 100% A tabela acima evidencia a distribuição de frequência de uma variável X qualquer. É possível observar que existem duas modas nesse conjunto de dados (Mo = 2 e 10). A observação de valor 6 é a mediana, isto é, acumula 50% do conjunto de dados. Desse modo, ao representar a distribuição de frequências dessa variável e separá-la no valor da mediana, teremos a seguinte ilustração: Observe que os dois formatos da distribuição particionada são espelhados (simétricos). Desse modo, temos uma distribuição simétrica em que a moda é diferente da mediana e da média. No entanto, os valores da média e da mediana são iguais. Assim, ao identificar que se https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 trata de um conjunto de dados com distribuição não unimodal, a representação gráfica pode ser uma alternativa interessante para identificar a assimetria dos dados. Além de identificar a assimetria de uma variável pela sua distribuição de frequência, é possível calcular o coeficiente de assimetria que permite classificar quanto ao tipo de assimetria, além de quantificar o grau de distorção do conjunto de dados em relação a uma forma simétrica. As fórmulas mais cobradas em prova para quantificar o coeficiente de assimetria são: COEFICIENTE DE ASSIMETRIA DE PEARSON Existem dois coeficientes de Pearson que calculam o grau de assimetria de uma distribuição de dados, o primeiro coeficiente de Pearson pode ser obtido da seguinte forma: 𝑨𝑨𝑨𝑨 = (𝑿𝑿� − 𝑴𝑴𝑴𝑴) 𝑨𝑨 O 1º coeficiente de Pearson é calculado a partir da diferença da média pela moda, dividido pelo desvio-padrão. Essa fórmula pode ser inconsistente quando a distribuição dos dados não foram unimodais, como exemplificado na situação anterior, assim surge a necessidade de um segundo coeficiente que seja mais eficiente para quantificar a assimetria dos dados em qualquer situação. Dessaforma, o segundo coeficiente de Pearson pode ser calculado por: 𝑨𝑨𝑨𝑨 = 𝟑𝟑(𝑿𝑿� − 𝑴𝑴𝑴𝑴) 𝑨𝑨 O 2º coeficiente de Pearson é obtido por três vezes a diferença entre a média e a mediana, dividido pelo desvio-padrão. Esse coeficiente consegue quantificar com mais eficiência a assimetria uma vez que o valor da mediana assume apenas um resultado. Para ambos os coeficientes, os resultados são interpretados da seguinte forma: As = 0, dados com distribuição simétrica; As > 0, dados com distribuição assimétrica à direita, ou positiva; As < 0, dados com distribuição assimétrica à esquerda, ou negativa. É fácil interpretar os possíveis resultados do coeficiente de assimetria de Pearson já que os valores positivos indicam uma assimetria positiva, assim como, valores negativos indicam assimetria negativa. Observe que o sinal do coeficiente de assimetria é determinado pela diferença da média com a moda ou com a mediana, e o resultado coincide com as relações de assimetria estudadas. Junto a isso, quanto mais distante o coeficiente de assimetria for em relação a zero, maior será o grau de distorção da distribuição de frequência em relação a uma forma simétrica. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 7 COEFICIENTE QUARTÍLICO DE ASSIMETRIA O coeficiente quartílico de assimetria trabalha com a ideia das distâncias entre os quartis e sua relação com a assimetria da distribuição de dados. Assim, o cálculo pode ser efetuado da seguinte maneira: 𝑨𝑨𝑨𝑨 = 𝑸𝑸𝟑𝟑 + 𝑸𝑸𝟏𝟏 − 𝟐𝟐𝑴𝑴𝑴𝑴 𝑸𝑸𝟑𝟑 − 𝑸𝑸𝟏𝟏 Os valores desse coeficiente oscilam entre -1 até +1. A interpretação dos resultados são as mesmas que o coeficiente de Pearson. As = 0, dados com distribuição simétrica; As > 0, dados com distribuição assimétrica à direita, ou positiva; As < 0, dados com distribuição assimétrica à esquerda, ou negativa. Os coeficientes de assimetria são todos adimensionais (sem unidade de medida), por isso, o coeficiente de assimetria de uma variável pode ser comparado com o coeficiente de outra variável, mesmo sendo dados de natureza completamente diferente. Basicamente, a comparação fornece a ideia de qual conjunto de dados distancia-se mais de uma forma simétrica. Para exemplificar o cálculo do coeficiente de assimetria, vamos utilizar o exemplo abordado no cálculo das medidas de posição. Conforme os valores do exemplo, o cálculo dos coeficientes de assimetria são: 1º Coeficiente de Pearson: 𝑨𝑨𝑨𝑨 = (𝟏𝟏𝟏𝟏,𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏) 𝟖𝟖,𝟖𝟖𝟐𝟐 = −𝟎𝟎,𝟔𝟔𝟔𝟔 𝟖𝟖,𝟖𝟖𝟐𝟐 = −𝟎𝟎,𝟎𝟎𝟎𝟎𝟏𝟏 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 8 2º Coeficiente de Pearson: 𝑨𝑨𝑨𝑨 = 𝟑𝟑(𝟏𝟏𝟏𝟏,𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏) 𝟖𝟖,𝟖𝟖𝟐𝟐 = −𝟏𝟏,𝟗𝟗𝟖𝟖 𝟖𝟖,𝟖𝟖𝟐𝟐 = −𝟎𝟎,𝟐𝟐𝟐𝟐𝟏𝟏 Coeficiente Quartílico: 𝑨𝑨𝑨𝑨 = 𝟐𝟐𝟎𝟎 + 𝟎𝟎,𝟏𝟏 − 𝟐𝟐𝟐𝟐𝟏𝟏𝟏𝟏 𝟐𝟐𝟎𝟎 − 𝟎𝟎,𝟏𝟏 = 𝟐𝟐𝟎𝟎,𝟏𝟏 − 𝟑𝟑𝟎𝟎 𝟏𝟏𝟐𝟐,𝟏𝟏 = −𝟐𝟐,𝟏𝟏 𝟏𝟏𝟐𝟐,𝟏𝟏 = −𝟎𝟎,𝟐𝟐 Todos os resultados obtidos indicam que os dados são distribuídos assimetricamente para o lado negativo (à esquerda). Como os valores são próximos de zero, é possível inferir que os dados são levemente assimétricos, sendo sua distribuição de frequência muito próxima a uma forma assimétrica. CURTOSE (C) A medida de curtose indica o grau de concentração dos dados em relação a sua centralidade, também pode ser abordada como grau de achatamento da curva de frequência. Basicamente, a forma da curva de frequência em relação à curtose pode ser: DISTRIBUIÇÃO MESOCÚRTICA A distribuição dos dados com curtose mesocúrtica é o ponto de referência para discriminar os demais tipos de curtose. Isso porque ela possui uma distribuição normal, comportamento que os fenômenos de modo geral tendem a apresentar. Nesse tipo de curtose, observa-se um aumento gradativo de frequência quando os dados se aproximam da sua centralidade (média, mediana e moda), isto é, o grau de achatamento da curva é mediano. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 9 DISTRIBUIÇÃO LEPTOCÚRTICA A curtose leptocúrtica apresenta observações mais concentradas em valores com maiores frequências (maior concentração na centralidade), comparativamente à curtose mesocúrtica. Observa-se um aumento mais abrupto na frequência quando se aproxima da centralidade. A distribuição apresenta uma curva de frequência mais fechada que a normal (ou mais aguda em sua parte superior). DISTRIBUIÇÃO PLATICÚRTICA A curtose platicúrtica apresenta observações mais distribuídas ao longo de todo conjunto de dados com valores de frequência mais homogêneos entre as observações (menor concentração na centralidade), comparativamente à curtose mesocúrtica. A curva de frequência apresenta-se mais aberta que a normal (ou mais achatada na parte superior, como um platô). https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 10 Além de identificar a curtose pela forma da distribuição de frequências, é possível quantificá-la por meio do coeficiente percentílico de curtose (C). Calculado da seguinte forma: 𝑪𝑪 = 𝑸𝑸𝟑𝟑 − 𝑸𝑸𝟏𝟏 𝟐𝟐(𝑷𝑷𝟗𝟗𝟎𝟎 − 𝑷𝑷𝟏𝟏𝟎𝟎) 𝑴𝑴𝒐𝒐 𝑸𝑸𝟑𝟑 − 𝑸𝑸𝟏𝟏 𝟐𝟐(𝑫𝑫𝟗𝟗 − 𝑫𝑫𝟏𝟏) Outra forma de representar a fórmula é: 𝑪𝑪 = 𝑫𝑫𝑸𝑸 (𝑫𝑫𝟗𝟗 − 𝑫𝑫𝟏𝟏) Os resultados do coeficiente percentílico de curtose podem ser os seguintes: C = 0,263 corresponde à curva mesocúrtica, valor observado na curva normal; C < 0,263 corresponde à curva leptocúrtica; C > 0,263 corresponde à curva platicúrtica. É possível interpretar que quanto mais distante o coeficiente de curtose estiver do valor 0,263, maior é distorção em relação à curva normal, sendo mais achatada para valores maiores que 0,263, ou mais aguda para valores menores que 0,263. Além disso, é interessante observar que o coeficiente é adimensional, sendo passível a comparação com outras distribuições de dados. Para exemplificar, será abordado o mesmo exemplo anterior: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 11 O cálculo fica da seguinte forma: 𝑪𝑪 = 𝟐𝟐𝟏𝟏 − 𝟎𝟎,𝟏𝟏 𝟐𝟐(𝟑𝟑𝟎𝟎 − 𝟎𝟎) = 𝟏𝟏𝟎𝟎,𝟏𝟏 𝟔𝟔𝟎𝟎 = 𝟎𝟎,𝟐𝟐𝟗𝟗𝟐𝟐 Com o seguinte resultado é possível afirmar que a distribuição dos dados é levemente platicúrtica, ou seja, as observações estão mais distribuídas por todo intervalo do conjunto de dados. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO ESTATÍSTICA DESCRITIVA: TRANSFORMAÇÃO DE DADOS ................................................................................. 2 TRANSFORMAÇÃO UNIFORME DO CONJUNTO DE DADOS ........................................................................... 2 EFEITO NAS MEDIDAS DE POSIÇÃO ........................................................................................................... 2 EFEITO NAS MEDIDAS DE DISPERSÃO ....................................................................................................... 3 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 ESTATÍSTICA DESCRITIVA: TRANSFORMAÇÃO DE DADOS TRANSFORMAÇÃO UNIFORME DO CONJUNTO DE DADOS Um assunto muito cobrado em concursos, dentro do tópico de Estatística Descritiva, é o efeito nas medidas descritivas (principalmente tendência central e dispersão) quando ocorre uma transformação uniforme em todo o conjunto de dados. De modo geral, essa temática aborda algum fenômeno que modifica a realidade estudada, alterando todo o conjunto de dados a partir de alguma operação matemática aplicada em todas as observações. Observe que a transformação de dados deve ser uniforme para todas as observações. Caso alguma observação seja modificadapor alguma forma diferente, as informações abordadas nesse tópico não serão válidas. Por exemplo, um objeto de estudo avalia a faixa etária de um grupo de pessoas pertencentes a uma região. Nesse cenário, após cinco anos completos, todas as idades foram adicionadas em cinco unidades, isto é, todo o conjunto de dados foi modificado somando um valor constante. Outro fenômeno bem comum, é quando um conjunto de dados é multiplicado por uma constante. Por exemplo, quando os salários de uma equipe de funcionários são duplicados por uma promoção na empresa. Nessa situação, todas as observações são multiplicadas por dois. Nesse contexto, é interessante compreender o que acontece com as medidas descritivas após o conjunto de dados sofrer uma modificação uniforme. Essa modificação pode apresentar resultados diferentes quando os dados são subtraídos/somados por uma constante, ou então, quando são multiplicados/divididos. Desse modo, serão abordadas as propriedades das medidas descritivas mais cobradas em prova – média, moda, mediana, variância, desvio-padrão e coeficiente de variação. EFEITO NAS MEDIDAS DE POSIÇÃO As medidas de posição, todas elas, são influenciadas tanto pela soma/subtração como pela multiplicação/divisão. Basicamente, se um conjunto de dados sofre qualquer uma dessas quatro operações matemáticas, as medidas de posição são modificadas igualmente, isto é, sofrem a mesma transformação matemática que cada uma das observações sofreu. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 Exemplo de um conjunto de dados qualquer: Quando os dados são transformados em mais cinco unidades, observa-se o seguinte resultado: Todos os dados foram deslocados em mais cinco unidades, junto a isso, as medidas que representam a posição desses dados também são deslocadas na mesma proporção. O mesmo resultado ocorre se os dados forem multiplicados ou divididos por um valor constante. Assim, é possível concluir que qualquer alteração uniforme no conjunto de dados altera igualmente todas as medidas de posição (média, mediana, moda, quartis etc.). Veja a tabela que exemplifica todas as quatro operações matemáticas: Medida X X+5 X-10 2x X/4 𝑋𝑋� 23,89 28,89 13,89 47,78 4,78 Me 20 25 10 40 5 Mo 20 25 10 40 5 Q1 15,5 20,5 10,5 31 3,88 Q3 35 40 25 70 8,75 EFEITO NAS MEDIDAS DE DISPERSÃO Variância e desvio-padrão: Quanto as medidas de dispersão (variância e desvio-padrão), resultados diferentes são encontrados nas operações de soma/subtração e multiplicação/divisão. O que determina o valor das medidas de dispersão é o quantitativo dos desvios em relação à média. Quando um conjunto é transformado uniformemente com soma/subtração, a média também é transformada igualmente e o valor do desvio permanece o mesmo: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 Portanto, os valores da variância e do desvio-padrão não são alterados pela soma/subtração. Por outro lado, quando os dados são multiplicados/divididos, os valores são alterados. Tanto as observações como a média são multiplicadas/divididas por uma constante, assim o valor do desvio também é alterado na mesma proporção: Desse modo, se cada desvio é modificado, o valor total da variância e o desvio-padrão também é alterado. Entretanto, vale ressaltar que a variância eleva os valores dos desvios ao quadrado, então o efeito da constante que for multiplicada/dividida também é elevado ao quadrado. Já para o desvio-padrão, como o valor é submetido à raiz quadrada, o efeito da multiplicação/divisão altera o desvio-padrão na mesma proporção da constante. Coeficiente de variação: O coeficiente de variação, divisão do desvio-padrão sobre a média, tem seu valor alterado com operações de soma/subtração, já que o desvio-padrão não é modificado e a média sim. Dessa forma, o coeficiente é modificado devido ao denominador ser somado por uma constante, enquanto o numerador permanece constante. Contudo, quando um conjunto de dados é transformado por uma multiplicação/divisão, tanto o desvio-padrão quanto a média são modificados na mesma proporção, assim o valor do CV não é alterado. Entenda a partir de um exemplo qualquer: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 O efeito das medidas descritivas com transformação uniforme do conjunto de dados é, com certeza, o conteúdo mais cobrado no assunto de Estatística Descritiva. Esse raciocínio também será desenvolvido semelhantemente no assunto de variáveis aleatórias, por isso, é muito importante fazer a associação desses conhecimentos. Para sintetizar todo o conteúdo assimilado, um quadro resumido dos efeitos pode ser bem útil: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO TEORIA DA PROBABILIDADE .............................................................................................................................. 2 INTRODUÇÃO ................................................................................................................................................. 2 DEFINIÇÕES BÁSICAS ..................................................................................................................................... 2 EXPERIMENTO ........................................................................................................................................... 2 ESPAÇO AMOSTRAL (Ω) ............................................................................................................................. 2 EVENTO ...................................................................................................................................................... 3 CÁLCULO DA PROBABILIDADE ................................................................................................................... 3 AXIOMAS DA PROBABILIDADE....................................................................................................................... 4 1º AXIOMA ................................................................................................................................................. 4 2º AXIOMA ................................................................................................................................................. 5 3º AXIOMA ................................................................................................................................................. 5 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 TEORIA DA PROBABILIDADE INTRODUÇÃO A teoria da probabilidade trabalha com a aplicação da intuição humana para estudar quaisquer fenômenos do cotidiano. O ser humano, com objetivo de compreender os eventos que ocorrem ao seu redor, utiliza o princípio básico de aprendizado: a experimentação. Dessa forma, ele observa os possíveis resultados que um fenômeno pode apresentar, a partir de simulações da realidade, e tenta quantificar as chances que cada resultado pode ocorrer. Basicamente, é uma teoria criada a partir da prática, isto é, a partir de observações, estimam-se as possibilidades. Todo esse conteúdo é fundamental para extrapolar informações incompletas de qualquer objeto de estudo (é base para Estatística Inferencial). DEFINIÇÕES BÁSICAS EXPERIMENTO O experimento é o meio pelo qual o homem simula e observa os possíveis resultados de um determinado fenômeno. O resultado de um experimento é um estado final de acontecimentos que não são previsíveis. De modo geral, os experimentos podem ser determinísticos ou aleatórios. Experimento Determinístico (não casuais): É aquele que gera resultados constantes, sem variação e não aleatórios. O resultado desse tipo de experimento, sempre que realizado e repetido nas mesmas circunstâncias, é um evento determinado sem possibilidades de obter outro resultado.Por exemplo, reduzir a temperatura da água abaixo de 0º graus Celsius e em condições normais de pressão, acarretará o congelamento da água. Experimento Aleatório (Casuais): É o experimento que, mesmo repetido diversas vezes, sob as mesmas circunstâncias, apresenta resultados diferentes. Desse modo, todas as eventualidades não podem ser preditas e geram um conjunto de resultados denominado espaço amostral. Para esse tipo de experimento, o que mais predomina na realidade, deve ser utilizado o conhecimento da probabilidade, isto é, se os resultados são aleatórios, cabe quantificar as possibilidades que cada evento tem de ocorrer. Exemplos básicos de experimentos aleatórios: • Lançar um dado e observar o resultado da face virada para cima; • Lançar duas moedas e observar o número de caras obtidas; • Selecionar uma carta de um baralho de 52 cartas e observar o número. Nos fenômenos que apresentam resultados aleatórios, é interessante quantificar as probabilidades – chances ou possibilidades – que cada resultado possui dentro de todos os possíveis. Para isso, é necessário compreender dois conceitos fundamentais: o espaço amostral e o evento. ESPAÇO AMOSTRAL (Ω) Consiste no conjunto de todos os resultados possíveis de um Experimento Aleatório. A determinação do espaço amostral está diretamente associada ao fenômeno que se quer compreender. Neste material, o espaço amostral será sempre representado pelo símbolo “Ω”. Além de identificar todo o conjunto que representa o espaço amostral, deve-se contabilizar o número de elementos possíveis desse conjunto, representado por n(Ω). https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 Exemplos de como determinar o espaço amostral e o respectivo número de elementos em Experimentos Aleatórios: Lançar um dado de seis faces, numerado de 1 a 6, e observar a face de cima: Ω = {1, 2, 3, 4, 5, 6} n(Ω) = 6 Lançar duas moedas e observar as faces de cima: Ω = {(Cara, Cara); (Cara, Coroa); (Coroa, Cara); (Coroa, Coroa)} n(Ω) = 4 Sortear em uma urna um número de 1 a 9. Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9} n(Ω) = 9 EVENTO Um evento será um subconjunto do espaço amostral. É qualquer resultado ou conjunto de resultados, relacionado ao fenômeno em estudo, que se pretende compreender suas possibilidades de ocorrer. Para determiná-lo, é necessário, em cada situação, compreender os resultados de interesse. Designaremos um evento qualquer por uma alguma letra maiúscula. Veja, a partir de exemplos, como determinar um evento e o respectivo número de elementos desse elemento: Exemplo 01: Experimento Aleatório: lançar um dado e observar a face para cima. Espaço Amostral: Ω = {1, 2, 3, 4, 5, 6}; n(Ω) = 6 Evento X: obter um resultado par no lançamento do dado. O conjunto do evento X será: X = {2, 4, 6}, com n(X) = 3. Se o resultado do lançamento do dado pertencer ao conjunto X, haverá a ocorrência do evento X. Outros eventos podem ser determinados no mesmo experimento de lançar o dado: Evento Y: obter um múltiplo de 3 no lançamento do dado. O conjunto do evento Y será: Y = {3, 6}, com n(Y) = 2. Exemplo 02: Experimento Aleatório: resultado de um jogo em uma partida de futebol. Espaço Amostral: Ω = {Vitória, Empate, Derrota} n(Ω) = 3 Evento A: obter uma vitória no jogo. O conjunto do evento A será: A = {Vitória}, com n(A) = 1. Evento B: não obter uma derrota no jogo. O conjunto do evento B será: B = {Vitória, Empate}, com n(B) = 2. CÁLCULO DA PROBABILIDADE Para efetuar o cálculo da probabilidade, deve-se primeiramente identificar e compreender o fenômeno em estudo, na sua escala ampla. Após isso, é necessário mapear todos os resultados do experimento aleatório e determinar o espaço amostral e o evento de interesse. O cálculo da probabilidade de ocorrência de um evento de interesse X consiste no número de possibilidades que esse evento pode assumir sobre o número de todos os resultados possíveis. Assim, é possível representar da seguinte forma: 𝑃𝑃(𝑋𝑋) = 𝑛𝑛(𝑋𝑋) 𝑛𝑛(Ω) = 𝑁𝑁º 𝑑𝑑𝑑𝑑 𝑟𝑟𝑑𝑑𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑟𝑟𝑟𝑟 𝑓𝑓𝑟𝑟𝑓𝑓𝑟𝑟𝑟𝑟á𝑓𝑓𝑑𝑑𝑣𝑣𝑟𝑟 𝑟𝑟𝑟𝑟 𝑑𝑑𝑓𝑓𝑑𝑑𝑛𝑛𝑟𝑟𝑟𝑟 𝑋𝑋 𝑁𝑁º 𝑑𝑑𝑑𝑑 𝑟𝑟𝑑𝑑𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑟𝑟𝑟𝑟 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟í𝑓𝑓𝑑𝑑𝑣𝑣𝑟𝑟 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 𝑃𝑃(𝑋𝑋) = 𝑁𝑁º 𝑑𝑑𝑑𝑑 𝐸𝐸𝑓𝑓𝑑𝑑𝑛𝑛𝑟𝑟𝑟𝑟𝑟𝑟 𝑁𝑁º 𝑑𝑑𝑟𝑟 𝐸𝐸𝑟𝑟𝑝𝑝𝑟𝑟Ç𝑟𝑟 𝐴𝐴𝐴𝐴𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 IMPORTANTE! Essa é a fórmula básica da probabilidade, contudo, ela é somente aplicável quando os elementos do espaço amostral tiverem a mesma probabilidade de ocorrer. Por exemplo, podemos aplicar a fórmula acima em um experimento que consiste no lançamento de uma moeda “honesta” (não viciada), pois as faces cara e coroa têm a mesma probabilidade de sorteio. No entanto, não podemos aplicar em um experimento de lançamento de uma moeda “não honesta” (viciada), pois a probabilidade de sorteio de uma das faces é maior do que a da outra. A notação “P(X)” indica a probabilidade de ocorrer o evento X. Sempre nas notações matemáticas de probabilidade, o que estiver dentro dos parênteses representa o evento de interesse ao qual se deseja obter o valor de probabilidade da sua ocorrência. Com esse conhecimento, é interessante estabelecer um padrão toda vez que for realizar uma questão de probabilidade. Esse tipo de conteúdo depende muito da interpretação do aluno em cada caso abordado nas questões. Para isso, a forma como as informações devem ser buscadas e interpretadas pode ser vantajosa, seguindo a seguinte sequência lógica: 1º Passo → Identificar o experimento aleatório e compreender qual fenômeno ele pretende obter informações, definindo assim o número de elementos do espaço amostral n(Ω), isto é, o número de resultados possíveis; 2º Passo → Identificar o evento de interesse, ou seja, dentro dos resultados possíveis quais são aqueles que a questão tem o objetivo de quantificar. Com isso, define-se o seu respectivo número de elementos n(X), isto é, o número de resultados favoráveis (ou de interesse); 3º Passo → Aplicar a fórmula da Probabilidade: 𝑃𝑃(𝑋𝑋) = 𝑛𝑛(𝑋𝑋) 𝑛𝑛(Ω) ; Muitas vezes, para contagem do número de elementos do espaço amostral e do evento, será necessário fazer uso do princípio fundamental da contagem, como também, utilizar os recursos matemáticos da combinação, permutação e do arranjo, conforme cada questão. O aluno precisa ter domínio desses conhecimentos da matemática para não precisar fazer contagens extensas e quase impraticáveis em uma questão de concurso. AXIOMAS DA PROBABILIDADE Os axiomas da probabilidade são propriedades básicas estabelecidas na teoria clássica da probabilidade que devem ser obedecidas de maneira absoluta. Em outras palavras, toda informação aplicada ao conteúdo de probabilidade obedece aos axiomas e podem ser utilizados para solucionar diversas questões de Estatística. São três os principais axiomas da probabilidade. 1º AXIOMA Os valores que a probabilidade de um evento X qualquer pode assumir varia de 0 (ou 0%) até 1 (ou 100%). Assim é possível representar: 0 ≤ 𝑃𝑃(𝑋𝑋) ≤ 1 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 No caso de seu valor mínimo, com P(X) = 0, ocorre um evento impossível, isto é, o evento é um resultado que não pertence ao espaço amostral. Por exemplo, a probabilidade de jogar um dado de seis faces, numerado de 1 a 6, e obter o número 9. Veja que, para esse exemplo, o evento não está nos resultados possíveis, assim, esse evento é impossível de ocorrer nesse experimento aleatório. Já para situação de valor máximo, com P(X) = 1, ocorre um evento certo, isto é, o evento é um resultado que engloba todo o espaço amostral. Por exemplo, a probabilidade de jogar um dado de seis faces, numerado de 1 a 6, e obter um resultado menor que 7. Todos os resultados possíveis estão contempladosno evento de interesse, desse modo, para esse experimento aleatório, é certo que irá ocorrer o evento. 2º AXIOMA A soma das probabilidades de cada elemento que compõe o espaço amostral é igual a 1. Em outras definições, o espaço amostral contém todos os possíveis resultados de um experimento aleatório, assim, é possível concluir que se trata de um evento certo. Dessa forma: 𝑃𝑃(𝛺𝛺) = 1 A partir desse axioma, é possível obter deduções bem interessantes para resolução de questões de probabilidade. No exemplo do experimento de um lançamento de um dado de seis faces, é possível chegar à seguinte conclusão: 𝑃𝑃(𝑋𝑋 = 1) + 𝑃𝑃(𝑋𝑋 = 2) + 𝑃𝑃(𝑋𝑋 = 3) + 𝑃𝑃(𝑋𝑋 = 4) + 𝑃𝑃(𝑋𝑋 = 5) + 𝑃𝑃(𝑋𝑋 = 6) = 1 Dessa forma, a soma da probabilidade de cada resultado possível será 100% das possibilidades de um experimento aleatório. Nesse exemplo em questão, a soma da probabilidade de obter cada uma das seis faces de um dado será 1. 3º AXIOMA A probabilidade de ocorrência de um evento X somada com a probabilidade de não ocorrência desse mesmo evento é igual a 1. Assim: 𝑃𝑃(𝑋𝑋 𝑟𝑟𝑜𝑜𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑟𝑟) + 𝑃𝑃(𝑋𝑋 𝑛𝑛ã𝑟𝑟 𝑟𝑟𝑜𝑜𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑟𝑟) = 1 A relação de probabilidade entre um evento “X ocorrer” e “X não ocorrer” é de complementariedade. Dessa forma, são denominados de eventos complementares. Portanto, um evento complementar são os resultados possíveis que faltam para completar 100% das possibilidades e, assim, a soma do evento de interesse e o evento complementar é 1. O complementar de um evento X pode ser representado por ~X, ¬X ou XC. Assim: 𝑃𝑃(𝑋𝑋) + 𝑃𝑃(𝑋𝑋𝐶𝐶) = 1 Exemplos de eventos complementares: • P(ganhar o jogo) + P(não ganhar o jogo) = 1; • P(réu inocente) + P(réu culpado) = 1; • P(cara) + P(coroa) = 1; • P(par no dado) + P(ímpar no dado) = 1; • P(mínimo de 3 pessoas) + P(máximo de 2 pessoas) = 1; • P(nascer pelo menos 1 menina) + P(nascer nenhuma menina) = 1. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 Este axioma será muitas vezes utilizado em questões de probabilidade. Por meio dela, podemos calcular a probabilidade de um evento ocorrer a partir da probabilidade do seu evento complementar. Por exemplo, uma questão pede a probabilidade de ocorrer pelo menos uma cara no lançamento de cinco moedas, isto é, P(pelo menos 1 cara). É mais fácil calcular a probabilidade do evento complementar, ou seja, calcular P(nenhuma cara), pois, dessa forma, só haverá uma situação favorável: (coroa, coroa, coroa). Calculada essa probabilidade, é só lançar o resultado na relação existente entre eventos complementares para encontrar a probabilidade da ocorrência do evento desejado na questão: P(pelo menos 1 cara) = 1 – P(nenhuma cara) https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO INTERAÇÕES ENTRE EVENTOS PROBABILÍSTICOS .............................................................................................. 2 INTRODUÇÃO ................................................................................................................................................. 2 INTERSEÇÃO ............................................................................................................................................... 2 UNIÃO ........................................................................................................................................................ 2 EVENTOS DEPENDENTES ............................................................................................................................... 3 EVENTOS INDEPENDENTES ............................................................................................................................ 5 EVENTOS MUTUAMENTE EXCLUSIVOS.......................................................................................................... 6 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 INTERAÇÕES ENTRE EVENTOS PROBABILÍSTICOS INTRODUÇÃO Após o estudo de todas as definições básicas sobre a teoria da probabilidade, é interessante compreender que cada evento probabilístico pode interagir com outro evento. As formas de interação podem ser bem elucidadas a partir da teoria dos conjuntos. Com isso, as informações mais importantes, neste tópico, são como se obtém a probabilidade da interseção e da união de dois eventos probabilísticos. INTERSEÇÃO A interseção de dois eventos probabilísticos consiste na probabilidade de ocorrência conjunta, isto é, os resultados de cada evento devem ocorrer simultaneamente. Em questões de probabilidade, é muito provável que a pergunta sobre a interseção dos eventos esteja conectada de forma expressa pelo conectivo “E”. A probabilidade conjunta de um evento A e B ocorrerem pode ser representada pela simbologia P(A e B) ou então P(A ∩ B). Entenda pela representação em diagrama: A e B são dois eventos probabilísticos quaisquer, que podem estar ou não associados a um mesmo experimento aleatório. O diagrama de A representa todo o espaço em que A pode ocorrer; o diagrama de B representa todo o espaço em que B pode ocorrer; a interseção de A e B corresponde à região onde a possibilidade de ocorrência dos dois eventos se sobrepõe, ou seja, onde podem ocorrer conjuntamente. Para obter o valor da interseção, deve ser utilizado o princípio da multiplicação da probabilidade. Contudo, para multiplicar as probabilidades, é necessário conhecer a forma de interação entre os dois eventos probabilísticos, isto é, se são independentes, dependentes ou mutuamente exclusivos. UNIÃO Já a união de dois eventos consiste na probabilidade de ocorrência de qualquer uma das possibilidades entre A e B, ou seja, inclui a ocorrência somente de A, a ocorrência somente de B, ou, então, a ocorrência de A e B simultaneamente. Em questões de probabilidade, é muito provável que a pergunta sobre a união dos eventos esteja expressa pelo conectivo “OU”. A https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 probabilidade do evento A ou B ocorrerem pode ser representada pela simbologia “P(A ou B)” ou, então, “P(A ∪ B)”. Entenda pela representação em diagrama: Na representação do diagrama, é possível compreender que a união de dois eventos probabilísticos quaisquer corresponde à soma da ocorrência somente de A, ocorrência somente de B e a ocorrência dos dois eventos simultaneamente. Desse modo, pode ser aplicada a mesma dedução matemática para união de conjuntos: 𝑃(𝐴 𝑜𝑢 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 𝑒 𝐵) Assim, se for somada a probabilidade total de A e B, é necessário subtrair uma vez a interseção de A e B. Isso porque as probabilidades totais já incluem a interseção, assim, ela seria incluída duas vezes. O cálculo da união depende da ocorrência simultânea dos dois eventos, destarte, também varia conforme o tipo de interação entre os eventos probabilísticos. Dessa forma, agora serão discutidas as formas de interação dos eventos probabilísticos e como serão efetuados os cálculos de interseção e união conforme cada tipo de interação. Os eventos podem ser completamente independentes um do outro; podem apresentar uma relação de dependência; ou então, podem ser mutuamente exclusivos. EVENTOS DEPENDENTES Um evento A possui uma relação de dependência com B quando a ocorrência ou não de um deles afeta a probabilidade de ocorrência do outro. Assim, os valores de probabilidade do evento A são modificados caso o evento B tenha ocorrido e vice-versa. Nessa situação, é necessário compreender quais as alterações na probabilidade do evento que ocorre após ao outro evento que era dependente. EXEMPLO: Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é a probabilidade de sortear uma bola preta e uma bola branca, em seguida, sem reposição das bolas sorteadas?A probabilidade de sortear, primeiramente, uma bola preta é: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 𝑷 (𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) = 𝟔 𝒃𝒐𝒍𝒂𝒔 𝒑𝒓𝒆𝒕𝒂𝒔 𝟏𝟐 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 = 𝟔 𝟏𝟐 A probabilidade de sortear uma bola branca, após já ter sorteado uma preta, sem reposição, é: 𝑷 (𝟐ª 𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) = 𝟒 𝒃𝒐𝒍𝒂𝒔 𝒃𝒓𝒂𝒏𝒄𝒂𝒔 𝟏𝟏 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 = 𝟒 𝟏𝟏 Veja que o espaço amostral no sorteio da segunda bola foi alterado devido ao sorteio da primeira bola. Em vez de ter 12 bolas, no segundo sorteio já havia 11 bolas. Assim, esses eventos probabilísticos possuem uma relação de dependência de tal modo que a ocorrência de um evento interfere na probabilidade do segundo evento que venha a ocorrer. Por fim, a probabilidade de sortear uma bola preta e uma branca, em seguida, é: 𝑃(1ª 𝐵𝑜𝑙𝑎 𝑃𝑟𝑒𝑡𝑎 𝑒 2ª 𝐵𝑟𝑎𝑛𝑐𝑎) = 6 12 𝑥 4 11 = 24 132 Nesse exemplo, foi questionado sobre a ocorrência dos dois eventos probabilísticos conjuntamente, isto é, a interseção. Dessa forma, a interseção para eventos que possuem relação de dependência pode ser expressa da seguinte forma: 𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴)𝑥𝑃(𝐵|𝐴) A notação “P(B|A)” representa a probabilidade do evento B dado que o evento A já tenha ocorrido (note que B|A não é uma fração). Também é denominada como probabilidade condicional. Dessa forma, é sempre interessante observar que o segundo evento a ocorrer deve ser analisado com mais cautela para compreender como a probabilidade irá ser obtida, após a ocorrência do primeiro evento. Com isso, é importante entender que a ordem da ocorrência dos eventos interfere no cálculo, pois a probabilidade de ocorrer o evento B é diferente da probabilidade de o evento B ocorrer depois que o evento A ocorreu, assim como o contrário, deste modo: 𝑃(𝐴) ≠ 𝑃(𝐴|𝐵) 𝑃(𝐵) ≠ 𝑃(𝐵|𝐴) Portanto, a probabilidade de A e B ocorrerem P(A e B) pode ser diferente da probabilidade B e A ocorrem P(B e A), não necessariamente serão diferentes, mas levar a ordem em consideração nos cálculos é relevante. Ao compreender como se calcula a ocorrência simultânea de dois eventos probabilísticos dependentes, é possível concluir: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 EVENTOS INDEPENDENTES Dois eventos quaisquer A e B são independentes quando a ocorrência, ou não, de um deles não afeta a probabilidade de ocorrência do outro. Assim, os valores de probabilidade do evento A permanecem os mesmos após a ocorrência do evento B e vice-versa. EXEMPLO: Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é a probabilidade de sortear uma bola preta e uma bola branca, em seguida, com reposição das bolas sorteadas? A probabilidade de sortear, primeiramente, uma bola preta é: 𝑷 (𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) = 𝟔 𝒃𝒐𝒍𝒂𝒔 𝒑𝒓𝒆𝒕𝒂𝒔 𝟏𝟐 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 = 𝟔 𝟏𝟐 A probabilidade de sortear uma bola branca, após já ter sorteado uma preta com reposição, é: 𝑷 (𝟐ª 𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) = 𝟒 𝒃𝒐𝒍𝒂𝒔 𝒃𝒓𝒂𝒏𝒄𝒂𝒔 𝟏𝟐 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 = 𝟒 𝟏𝟐 O espaço amostral no sorteio da segunda bola não foi alterado devido ao sorteio da primeira bola, pois houve a reposição da bola na caixa. Desse modo, havia doze bolas tanto no primeiro como no segundo sorteio. Assim, esses eventos probabilísticos possuem uma relação de independência. Por fim, a probabilidade de sortear uma bola preta e uma branca, em seguida, é: 𝑷(𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂 𝒆 𝟐ª 𝑩𝒓𝒂𝒏𝒄𝒂) = 𝟔 𝟏𝟐 𝒙 𝟒 𝟏𝟐 = 𝟐𝟒 𝟏𝟒𝟒 Com isso, a ordem em que os eventos ocorrem não interfere no cálculo da probabilidade, pois a probabilidade de ocorrer o evento B é igual à probabilidade de o evento B ocorrer depois que o evento A ocorreu, assim como o contrário, deste modo: 𝑷(𝑨) = 𝑷(𝑨|𝑩) 𝑷(𝑩) = 𝑷(𝑩|𝑨) Nesse tipo de interação probabilística, o cálculo da ocorrência conjunta de dois eventos (a interseção) é expresso por: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 6 𝑷(𝑨 𝒆 𝑩) = 𝑷(𝑨)𝒙𝑷(𝑩) Sempre que eventos ocorrerem de forma independente um do outro, a probabilidade da ocorrência simultânea é o produto das probabilidades de cada evento separadamente. Essa propriedade de eventos independentes é muito importante no estudo simultâneo de duas variáveis (dentro do tópico variáveis aleatórias bidimensionais). Portanto, para eventos independentes, é possível concluir que: EVENTOS MUTUAMENTE EXCLUSIVOS Dois eventos quaisquer A e B, são mutuamente exclusivos quando não podem ocorrer simultaneamente. Desse modo, a ocorrência de um deles certamente exclui a ocorrência do outro evento. Portanto, não existe interseção entre esses dois eventos (A ∩ B = ∅), podendo ser representado por diagramas da seguinte maneira: São eventos disjuntos, que não se interseccionam em nenhum momento. Desse modo, a interseção pode ser expressa por: 𝑃(𝐴 𝑒 𝐵) = 0 O valor da probabilidade de A e B ocorreram conjuntamente é zero, pois não há interseção. Ao mesmo tempo, é possível concluir que, se ocorrer A, o evento B certamente não ocorrerá e vice-versa, portanto: 𝑷(𝑨|𝑩) = 𝟎 (𝑺𝒆 𝑩 𝒐𝒄𝒐𝒓𝒓𝒆𝒖, 𝑨 𝒄𝒆𝒓𝒕𝒂𝒎𝒆𝒏𝒕𝒆 𝒏Ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓Á); 𝑷(𝑩|𝑨) = 𝟎 (𝑺𝒆 𝑨 𝒐𝒄𝒐𝒓𝒓𝒆𝒖, 𝑩 𝒄𝒆𝒓𝒕𝒂𝒎𝒆𝒏𝒕𝒆 𝒏Ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓Á); https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 7 EXEMPLO: Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é a probabilidade, em um sorteio, de obter uma bola preta ou uma bola branca? Veja que, em situações de eventos mutuamente exclusivos, as perguntas mais coerentes são sobre a união de eventos. Isso porque, se fosse perguntado sobre a interseção, ficaria óbvio que, em um sorteio de uma bola, ou se retira uma bola branca ou uma preta. Não há como ocorrerem os dois eventos ao mesmo tempo nesse experimento aleatório (interseção seria igual a zero). Assim, a resolução para questão é: A probabilidade de sortear uma bola preta é: 𝑷 (𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) = 𝟔 𝒃𝒐𝒍𝒂𝒔 𝒑𝒓𝒆𝒕𝒂𝒔 𝟏𝟎 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 = 𝟔 𝟏𝟐 A probabilidade de sortear uma bola branca é: 𝑷 (𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) = 𝟒 𝒃𝒐𝒍𝒂𝒔 𝒃𝒓𝒂𝒏𝒄𝒂𝒔 𝟏𝟎 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 = 𝟒 𝟏𝟐 Por fim, a probabilidade de sortear uma bola preta ou uma branca, em um sorteio apenas, é: 𝑷(𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂 𝒐𝒖 𝑩𝒓𝒂𝒏𝒄𝒂) = 𝟔 𝟏𝟐 + 𝟒 𝟏𝟐 = 𝟏𝟎 𝟏𝟐 Portanto, para eventos mutuamente exclusivos, é possível concluir que: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 8 De modo geral, os cálculos de probabilidade para interseção e união de eventos, conforme cada tipo de interação, podem ser esquematizados da seguinte forma: Interação P(A e B) – Interseção P(A ou B) – União Eventos Dependentes P(A e B) = P(A)×P(B|A) P(A ou B) = P(A) + P(B) – P(A)×P(B|A) Eventos Independentes P(A e B) = P(A)×P(B) P(A ou B) = P(A) + P(B) – P(A)×P(B) Eventos Mutuamente Exclusivos 0 P(A ou B) = P(A) + P(B) https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 1 SUMÁRIO PROBABILIDADE CONDICIONAL ......................................................................................................................... 2 CONCEITO ...................................................................................................................................................... 2 CÁLCULO DA PROBABILIDADE CONDICIONAL ............................................................................................... 2 CÁLCULO PELA FÓRMULA .......................................................................................................................... 3 CÁLCULO PELA INTERPRETAÇÃO ...............................................................................................................3 PROBABILDIADE COMPLEMENTAR .................................................................................................................... 4 CONCEITO ...................................................................................................................................................... 4 DEDUÇÕES PELA PROBABILIDADE COMPLEMENTAR .................................................................................... 5 https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 2 PROBABILIDADE CONDICIONAL CONCEITO A probabilidade condicional é a probabilidade de ocorrência de um evento dado que outro evento, que pode interferi-lo, ocorreu anteriormente. Em outras definições, trata-se da probabilidade já abordada no tópico anterior, a ocorrência do evento A dado que B ocorreu – “P(A|B)”. Quando as questões de Estatística perguntarem sobre probabilidade condicional, o aluno deve entender que se baseia em uma probabilidade em que suas circunstâncias foram alteradas devido a outro evento que aconteceu a priori e influenciou o evento presente. A questão é considerada de Probabilidade Condicional quando seu enunciado fornecer alguma informação sobre o resultado de experimento aleatório que ocorre anteriormente. Para compreender essa ideia, será abordado um exemplo de questão para trabalhar a interpretação: Exemplo: (ESAF) Carlos sabe que Ana e Beatriz estão viajando pela Europa. Com as informações de que dispõe, ele estima corretamente que a probabilidade de Ana estar hoje em Paris é 3/7, que a probabilidade de Beatriz estar hoje em Paris é 2/7, e que a probabilidade de ambas, Ana e Beatriz, estarem hoje em Paris é 1/7. Carlos, então, recebe um telefonema de Ana, informando que ela está hoje em Paris. Com a informação recebida pelo telefonema de Ana, Carlos, agora, estima corretamente que a probabilidade de Beatriz também estar hoje em Paris é igual a 1/3. A primeira parte (em vermelho) informa toda a problemática da questão e fornece algumas probabilidades; a segunda parte (em azul) é uma informação adicional que nos revela um fato. Algo que passa a ser do nosso conhecimento. Não é uma probabilidade e, sim, um fato dado. Uma informação a priori que altera as probabilidades já conhecidas; a terceira parte (em verde) é a pergunta da questão. Ao juntar essa pergunta ao fato dado, teremos a seguinte pergunta completa que deve ser interpretada pelo aluno: “Qual a probabilidade de Beatriz estar hoje em Paris, dado que Ana está hoje em Paris?” Estamos diante de uma probabilidade condicional! Ao identificar uma questão de probabilidade condicional, o aluno deve saber que há duas alternativas promissoras para solucionar uma questão de probabilidade condicional, são elas: CÁLCULO DA PROBABILIDADE CONDICIONAL A forma de resolução dependerá das informações fornecidas pela questão, assim sendo, uma alternativa pode ser muito mais vantajosa e eficiente do que a outra. Basicamente, se a questão fornecer os valores de probabilidade da interseção e do evento que interferiu a ocorrência do outro, utilizar a fórmula da probabilidade condicional já é o suficiente. Contudo, se foram fornecidas todas as observações organizadas de cada possível evento, o método da interpretação pode ser muito mais fácil. Vamos abordar essas formas de soluções a partir de questões. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 3 CÁLCULO PELA FÓRMULA EXEMPLO ANTERIOR: Carlos sabe que Ana e Beatriz estão viajando pela Europa. Com as informações de que dispõe, ele estima corretamente que a probabilidade de Ana estar hoje em Paris é 3/7, que a probabilidade de Beatriz estar hoje em Paris é 2/7 e que a probabilidade de ambas, Ana e Beatriz, estarem hoje em Paris é 1/7. Carlos, então, recebe um telefonema de Ana, informando que ela está hoje em Paris. Com a informação recebida pelo telefonema de Ana, Carlos agora estima corretamente que a probabilidade de Beatriz também estar hoje em Paris é igual a 1/3. Essa questão pode ser facilmente resolvida pela fórmula, uma vez que foram fornecidos os valores das probabilidades da interseção e do evento que interferiu no outro: 𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴 𝑒𝑒 𝐵𝐵𝑒𝑒𝐴𝐴𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵) = 1/7 𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴 ) = 3/7 O fato de Ana estar em Paris foi o evento que afetou a probabilidade de Beatriz estar em Paris, assim, é o evento que causou a probabilidade condicional. Desse modo a resolução da questão é: 𝑃𝑃(𝐵𝐵𝑒𝑒𝐴𝐴𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵|𝐴𝐴𝐴𝐴𝐴𝐴) = 𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴 𝑒𝑒 𝐵𝐵𝑒𝑒𝐴𝐴𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵) 𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴) 𝑃𝑃(𝐵𝐵𝑒𝑒𝐴𝐴𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵|𝐴𝐴𝐴𝐴𝐴𝐴) = 1 7 3 7 = 1 3 Portanto, questão correta! CÁLCULO PELA INTERPRETAÇÃO EXEMPLO: (CESPE) Como forma de melhorar a convivência, as famílias Turing, Russell e Gödel disputaram, no parque da cidade, em um domingo à tarde, partidas de futebol e de vôlei. O quadro a seguir mostra os quantitativos de membros de cada família presentes no parque, distribuídos por gênero. Considere que, em eventual sorteio de brindes, um nome tenha sido retirado, ao acaso, do interior de uma urna que continha os nomes de todos os familiares presentes no evento. Nessa situação, sabendo-se que o sorteado não é uma mulher da família Gödel, a probabilidade de ser uma mulher da família Russel será superior a 20%. https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 4 A questão fornece o número de elementos para cada possível evento (a família e o gênero). Com isso, interpretando a questão, é possível compreender que foi fornecida uma informação a prior que alterou o espaço amostral desse experimento aleatório. Ao citar “sabendo-se que o sorteado não é uma mulher da família Gödel”, pode ser retirado do espaço amostral as 9 mulheres da família Gödel. Inicialmente, o espaço amostral, isto é, todas as pessoas que poderiam ser sorteadas: 𝐴𝐴(𝛺𝛺) = 5 + 6 + 5 + 7 + 5 + 9 = 37 𝑝𝑝𝑒𝑒𝑝𝑝𝑝𝑝𝑝𝑝𝐴𝐴𝑝𝑝 Ao reduzir o espaço amostral pela condição fornecida, tem-se: 𝐴𝐴(𝛺𝛺) = 37 − 9 = 28 𝑝𝑝𝑒𝑒𝑝𝑝𝑝𝑝𝑝𝑝𝐴𝐴𝑝𝑝 Com isso, basta aplicar a fórmula básica da probabilidade e obter a probabilidade condicional: Portanto, item errado, pois é inferior a 20%. PROBABILIDADE COMPLEMENTAR CONCEITO A probabilidade complementar consiste na ocorrência de qualquer outro evento que não seja o de interesse e complementa o que falta para alcançar 100%. Em outras palavras, é a probabilidade que complementa os eventos que pertencem ao espaço amostral, mas não contemplados pelo resultado de interesse. A probabilidade complementar de um evento A pode ser representada por: 𝑃𝑃(𝐴𝐴 𝐴𝐴Ã𝑝𝑝 𝑝𝑝𝑜𝑜𝑝𝑝𝐵𝐵𝐵𝐵𝑒𝑒𝐵𝐵) = 𝑃𝑃(𝐴𝐴𝐶𝐶) = 𝑃𝑃(~𝐴𝐴) = 𝑃𝑃(¬𝐴𝐴) = 𝑃𝑃(�̅�𝐴) Essa definição está associada ao conceito abordado no 3º axioma da probabilidade: 𝑃𝑃(𝐴𝐴 𝑝𝑝𝑜𝑜𝑝𝑝𝐵𝐵𝐵𝐵𝑒𝑒𝐵𝐵) + 𝑃𝑃(𝐴𝐴 𝐴𝐴Ã𝑝𝑝 𝑝𝑝𝑜𝑜𝑝𝑝𝐵𝐵𝐵𝐵𝑒𝑒𝐵𝐵) = 1 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐴𝐴𝐶𝐶) = 1 Podemos representar a probabilidade complementar a partir de diagramas da seguinte forma: https://www.alfaconcursos.com.br/ alfaconcursos.com.br MUDE SUA VIDA! 5 Portanto, tudo aquilo que não está contemplado dentro do círculo que representa a ocorrência do evento A, pertence à ocorrência da complementar de A. DEDUÇÕES PELA PROBABILIDADE COMPLEMENTAR Ao entender que a probabilidade complementar pertence a todo espaço que não está dentro do diagrama do evento de interesse, podemos obter a probabilidade desconhecida de um evento a partir das probabilidades condicionais e complementares. Suponha que não se conheça a probabilidade de um evento B, mas se conhece a probabilidade do evento A, bem como a probabilidade condicional de B dado que A ocorreu e de B dado que AC ocorreu. Com isso, podemos calcular a probabilidade de B ocorrer, sem o evento condicional, por meio da seguinte relação: Basicamente, foram somados os doiscomponentes que formam todo o evento B. A área que consiste na interseção entre A e B pode ser calculada pela expressão 𝑃𝑃(𝐴𝐴) × 𝑃𝑃(𝐵𝐵|𝐴𝐴), enquanto a área que não faz interseção com B, é o mesmo que dizer que faz interseção entre não A e B, isto é, AC e B, e pode ser calculada pela expressão 𝑃𝑃(𝐴𝐴𝐶𝐶) × 𝑃𝑃(𝐵𝐵|𝐴𝐴𝐶𝐶). Assim, somando esses dois componentes, temos a probabilidade de ocorrência de B sem eventos condicionais, isto é, P(B). https://www.alfaconcursos.com.br/ 1.1 - Introdução à Estatística: 1.2 - Estatística Descritiva: 1.3 - Estatística Descritiva: 1.4 - Estatística Descritiva: 1.5 - Estatística Descritiva: 2.1 - Estatística Descritiva: 2.2 - Estatística Descritiva: 2.3 - Estatística Descritiva 2.4 - Estatística Descritiva 2.5 - Estatística Descritiva 3.1 - Teoria da Probabilidade 3.2 - Teoria da Probabilidade 3.3 - Teoria da Probabilidade