Baixe o app para aproveitar ainda mais
Prévia do material em texto
PROBABILIDADE E ESTATÍSTICA AULA 1 Profª Aline Purcote Quinsler 2 CONVERSA INICIAL A estatística está presente no nosso dia a dia e nas diferentes áreas, sendo que muitas vezes recorremos a ela para tomar decisões. Mas o que é estatística e onde podemos utilizá-la? Toda ciência que utiliza dados experimentais necessita da estatística como método de análise para que o pesquisador chegue a conclusões que tenham validade científica. A estatística possui uma vasta aplicação nas engenharias e é extremamente importante para qualquer engenheiro, pois auxilia no planejamento de novos produtos e sistemas, na melhoria de projetos e processos existentes, além de ajudar a entender a variabilidade. Martins (2010) comenta que somos expostos a uma quantidade de informações numéricas, e que, dependendo das situações, ora somos consumidores de informações numéricas, ora precisamos produzi-las. Diante disso, necessitamos de conhecimentos e capacitações para compreender informações numéricas produzidas por outros, bem como nos habilitar a construí-las. Os procedimentos, técnicas e métodos estatísticos são fundamentais para o auxílio à execução dessas tarefas. Para entender a importância da estatística e a utilização em diferentes áreas, aprofundaremos nosso estudo, abordando: • a importância da estatística em diferentes campos (leia o artigo: <http://www.estatconsultoria.org/2017/06/14/a-importancia-da- estatistica-em-diferentes-campo/>.); • a importância da estatística na engenharia (assista ao vídeo: <https://www.youtube.com/watch?v=ahccyeXOxFQ>). Nesta aula, estudaremos os principais conceitos da estatística, os diferentes tipos de variáveis e como elaborar uma distribuição de frequência e uma distribuição de frequência por classe. Além disso, conheceremos as séries estatísticas e os tipos de gráficos utilizados na apresentação de dados. TEMA 1 – ELEMENTOS DA ESTATÍSTICA A estatística pode ser pensada como a ciência de aprendizagem a partir de dados que fornece métodos para coleta, organização, análise, interpretação e apresentação de dados. Podemos representar a estatística como meio entre 3 os dados e a geração das informações, obtendo melhor compreensão das situações. Divide-se basicamente a estatística em duas áreas: descritiva e indutiva. A estatística descritiva se preocupa em organizar e descrever um conjunto de observações. De acordo com Castanheira (2010), a estatística descritiva é um número que, sozinho, descreve uma característica de um conjunto de dados, ou seja, é um número resumo que possibilita reduzir os dados a proporções mais facilmente interpretáveis. Segundo Castanheira (2010), a estatística indutiva, ou inferência estatística, é a parte da estatística que, baseando-se em resultados obtidos na análise de uma amostra da população, procura inferir, induzir ou estimar as leis de comportamento da população da qual a amostra foi retirada. A população, utilizada na estatística indutiva, é um conjunto de dados que possui certa característica comum; já a amostra é uma pequena parte da população. Martins (2010) define população ou universo como a totalidade de itens, objetos ou pessoas sob consideração, e amostra, como uma parte da população que é selecionada para análise. Por exemplo, quando temos uma pesquisa eleitoral, a população é formada por todos os eleitores, e a amostra pode ser um grupo de eleitores de uma determinada região, cidade ou bairro. Na figura a seguir temos a representação da população e a amostra: 4 Considere a produção de parafusos de uma determinada empresa cujo comprimento planejado é de 5 cm com uma variação de 0,02 cm. Um conjunto de 36 parafusos fabricados foi retirado da produção para análise de qualidade. Podemos dizer que todos os parafusos produzidos estão dentro da especificação? Nesse exemplo, temos que a população é o conjunto de todos os parafusos produzidos e a amostra é o grupo dos 36 parafusos selecionados. Para responder à pergunta anterior, utilizaremos os métodos de inferência estatística, analisando a amostra e inferindo o resultado para toda a população, ou seja, analisaremos a amostra e, caso esteja dentro da especificação, poderemos dizer que toda a produção foi aprovada. Quando utilizamos a estatística indutiva, temos associada uma margem de incerteza. Isso ocorre pelo processo de generalização. Analisamos uma amostra e as características obtidas na amostra são inferidas para toda a população, mas como não analisamos toda a população, surge a margem de erro, que está associada ao tamanho da amostra estudada. A estatística descritiva e a estatística indutiva podem ser utilizadas em conjunto. Essa utilização pode ser observada na figura a seguir: 5 Castanheira (2010) comenta que quando pretendemos realizar um estudo estatístico em determinada população ou amostra, o trabalho que realizamos deve passar por várias fases, que são desenvolvidas até chegarmos aos resultados que procurávamos. Para realizar um estudo estatístico e tratar dados numéricos, utilizamos o método estatístico, o qual fornece conclusões que servirão de base para a tomada de decisão e é dividido nas seguintes fases: • definição do problema: definir com clareza o que pretendemos pesquisar, o objetivo de estudo que desejamos alcançar; • delimitação do problema: responder às seguintes perguntas: onde será realizada a pesquisa? Com que tipo de pessoas? Em que dias e/ou horários?; • planejamento: como resolver o problema? Que dados serão necessários? Como obtê-los? Será utilizado um questionário? Qual será a amostragem? Qual será o tamanho da amostra? Qual será o cronograma das atividades? Quanto se gastará para realizar a pesquisa?; • coleta dos dados: fase operacional, colocar o que foi planejando em prática; obtenção dos dados; • apuração dos dados: criticar os dados coletados, excluindo os dados incompletos ou com erros. Realizar um resumo dos dados por meio de uma contagem, fazer separação por tipo de resposta e de agrupamento de dados semelhantes, realizar tabulação de dados; 6 • apresentação dos dados: representação dos dados em tabelas e/ou gráficos; • análise dos dados: ligada ao cálculo de medidas para descrever o fenômeno analisado; • interpretação dos dados: encontrar as conclusões para o problema. TEMA 2 – VARIÁVEIS Na utilização de métodos estatísticos e na descrição ou análise de um conjunto de dados, dependemos de uma variável que pode assumir diferentes valores numéricos ou não numéricos. Essas variáveis podem ser classificadas em variáveis qualitativas e variáveis quantitativas. As variáveis qualitativas estão associadas a uma característica que denota qualidade ou atributo, uma característica não numérica. Exemplos: • sexo: masculino e feminino; • cor dos olhos: castanhos, verdes...; • desempenho de funcionários: ótimo, bom, ruim; • qualidade dos produtos: defeituoso e perfeito; • grau de instrução; • estado civil. Quando uma variável qualitativa apresenta uma ordenação natural com intensidades crescentes de realização, ela é chamada de qualitativa ordinal. Por exemplo: • classe social: baixa, média ou alta; • grau de instrução: ensino fundamental, ensino médio, ensino superior, pós-graduação. A variável que não apresenta uma ordem natural entre seus valores é classificada como qualitativa nominal. Exemplos: • sexo: masculino ou feminino; • cor dos olhos: castanhos, verdes... 7 As variáveis associadas a valores numéricos que representam contagens ou medidas são chamadas de variáveis quantitativas. Exemplos: • altura; • peso; • idade; • número de filhos; • número de carros. As variáveis quantitativas são classificadas em discretas quando se trata de contagem, números inteiros. Exemplos: •número de filhos; • número de peças produzidas por uma máquina; • número de defeitos encontrados em determinado produto; • número de carros (0, 1, 2,...). Quando a variável trata de medidas, temos as variáveis quantitativas contínuas, ou seja, essa variável está associada às medições. Exemplos: • altura (1,55m; 1,80m; 1,73m...); • peso; • comprimento dos parafusos fabricados por certa máquina; • resistência à ruptura de cabos produzidos. Considerando as definições anteriores, temos que as variáveis recebem as seguintes classificações: 8 TEMA 3 – DISTRIBUIÇÃO DE FREQUÊNCIA Estudamos no Tema 1 o método estatístico, que é composto de várias fases, sendo a coleta e a apuração dos dados duas etapas do método. Após a fase de coleta dos dados, obtemos os dados originais, também chamados de dados brutos, que precisam ser organizados para a realização das análises, pois foram transcritos aleatoriamente, fora de qualquer ordem. Um conjunto de observações de certo fenômeno não organizado fornece poucas informações de interesse do pesquisador, por isso precisamos organizá-lo para gerar informações úteis e conclusões mais assertivas. Suponha que uma pesquisa tenha sido realizada em uma máquina em relação à quantidade de peças produzidas com defeito e para essa pesquisa tenham sido coletadas 20 amostras diferentes de 100 peças. Na primeira amostra, foram inspecionadas as 100 peças e separadas 14 com defeito; na segunda amostra, após a verificação das 100 peças, foram separadas 15 com defeitos, e assim sucessivamente até a última amostra, obtendo-se os seguintes resultados: 14 15 16 17 18 19 14 15 16 17 14 15 16 14 15 16 15 16 15 15 Podemos organizar os dados brutos em ordem numérica, crescente ou decrescente. Essa organização recebe o nome de Rol. Colocando os dados em ordem crescente, temos o seguinte Rol: 14 14 14 14 15 15 15 15 15 15 15 16 16 16 16 16 17 17 18 19 O Rol é a nossa primeira organização, mas podemos melhorar ainda mais agrupando os valores. Ao número de vezes que um mesmo número se repete, denominamos de frequência ou frequência absoluta (f). No nosso exemplo, 14 defeitos se repetem 4 vezes; isso significa que esse número de defeitos possui frequência igual a 4. O mesmo ocorre com 15 defeitos que possuem frequência igual a 7, 16 defeitos que possuem frequência igual a 5, 17 defeitos que possuem frequência igual a 2, e os defeitos 18 e 19, aparecendo uma única vez cada, com uma frequência igual a 1. Ou seja, 4 amostras apresentaram quantidade 9 de produtos com defeito igual a 14, 7 amostras igual a 15 defeitos, e assim sucessivamente para as demais amostras analisadas na pesquisa. Para facilitar ainda mais a interpretação, a frequência pode ser organizada em uma tabela chamada de distribuição de frequência. Uma distribuição de frequência é a apresentação dos resultados de uma pesquisa por meio de uma tabela que mostra a frequência de ocorrência de cada resultado. Voltando na pesquisa em relação à quantidade de defeitos produzidos por certa máquina, já encontramos a frequência de cada defeito e agora vamos organizar os dados e as frequências na tabela de distribuição de frequência. Essa tabela contém duas colunas: a primeira com os dados apresentados na pesquisa e a segunda com a frequência com que cada dado aparece. Em nossa pesquisa, os dados se referem aos defeitos. Dessa forma, temos a seguinte tabela de distribuição de frequência: Defeitos Frequência (f) 14 4 15 7 16 5 17 2 18 1 19 1 Analisando a tabela de distribuição de frequência anterior, temos que 4 amostras analisadas apresentaram 14 peças com defeitos, 7 amostras apresentaram 15 peças com defeitos, 5 amostras apresentaram 16 peças com defeitos, 2 amostras apresentaram 17 defeitos, 1 amostra apresentou 18 defeitos e 1 amostra apresentou 19 defeitos totalizando as 20 amostras analisadas. Além das frequências simples, podemos incluir na tabela de distribuição a frequência acumulada e a frequência relativa. A frequência absoluta acumulada, ou apenas frequência acumulada (fa), é o somatório das frequências. Para calcular, repetimos o primeiro valor e somamos com o próximo até a última frequência. Verifique na tabela abaixo o cálculo da frequência acumulada com base em nosso exemplo: 10 Defeitos Frequência (f) fa 14 4 4 15 7 11 16 5 6 17 2 18 18 1 19 19 1 20 Observe que o valor final encontrado na frequência acumulada sempre é igual à quantidade de dados que temos na pesquisa. Se contarmos a quantidade de valores fornecidos no dado bruto, temos 20 dados, que é exatamente o valor final que encontramos. Atrelado ao conceito de frequência absoluta, temos o conceito de frequência relativa (fr) de uma variável, que é a divisão entre a frequência absoluta (f) e o número de elementos (N) da amostra, ou seja: onde N = , isto é, N é igual a soma das frequências. A frequência relativa frequentemente é representada na forma de porcentagem, facilitando a interpretação e gerando informações importantes que facilitam a análise dos dados. No nosso exemplo, temos N = 20, assim calculamos a frequência relativa dividindo cada frequência por 20 e depois multiplicando o valor por 100 para encontrarmos o resultado em porcentagem. Se somarmos as porcentagens encontradas o valor final será sempre 100%. Defeitos Frequência (f) fr 14 4 4/20 = 0,20 x 100 = 20% 15 7 7/20 = 0,35 x 100 = 35% 16 5 5/20 = 0,25 x 100 = 25% N ff r = å f 11 17 2 2/20 = 0,10 x 100 = 10% 18 1 1/20 = 0,05 x 100 = 5% 19 1 1/20 = 0,05 x 100 = 5% Total 20 100% Com base na tabela de distribuição de frequência, com as frequências acumulada e relativa podemos realizar várias análises. No nosso exemplo, podemos ter as seguintes perguntas: • quantas amostras apresentaram quantidade de defeitos menor ou igual a 16? • qual é a porcentagem de amostras que possui defeitos menores ou iguais a 16? • qual é a quantidade de defeitos que aparece com maior porcentagem? Para responder às perguntas, analisaremos a tabela de frequências acumulada e relativa que elaboramos anteriormente. • quantas amostras apresentaram quantidade de defeitos menor ou igual a 16? Para responder a essa pergunta, analisaremos a tabela da fa. Se quisermos quantidade de defeitos menor ou igual a 16, significa que podemos ter quantidade de defeitos de 14, 15 e 16, verificando a frequência acumulada há um total de 16 amostras (4+7+5 =16), conforme tabela a seguir: Defeitos Frequência (f) fa 14 4 4 15 7 11 16 5 16 17 2 18 18 1 19 19 1 20 • qual é a porc 12 Como a pergunta solicita porcentagem, utilizaremos a coluna de frequência relativa. Como queremos porcentagem de defeitos menor ou igual a 16, significa que podem ter 14, 15 e 16 defeitos, somando a frequência relativa, temos um total de 80% (20% + 35% + 25% = 80%), ou seja, 80% das amostras apresentaram quantidade de defeitos menor ou igual a 16, conforme tabela a seguir: Defeitos Frequência (f) fr 14 4 4/20 = 0,20 x 100 = 20% 15 7 7/20 = 0,35 x 100 = 35% 16 5 5/20 = 0,25 x 100 = 25% 17 2 2/20 = 0,10 x 100 = 10% 18 1 1/20 = 0,05 x 100 = 5% 19 1 1/20 = 0,05 x 100 = 5% 100% • qual é a quantidade de defeitos que aparece com maior porcentagem? Novamente, utilizamos a frequência relativa, pois foi solicitada a porcentagem de defeitos que aparecem com maior frequência. Para encontrar o resultado, verificamos qual é a quantidade de defeitos que apresenta maior porcentagem, que nesse caso é 15, que representa 35% das amostras: Defeitos Frequência (f) fr 14 4 4/20 = 0,20 x 100 = 20% 15 7 7/20 = 0,35 x 100 = 35% 13 16 5 5/20 = 0,25 x 100 = 25% 17 2 2/20 = 0,10 x 100 = 10% 18 1 1/20 = 0,05 x 100 = 5% 19 1 1/20 = 0,05 x 100 = 5% 100% A apresentaçãode dados por meio de distribuição de frequência auxilia na geração de informações. Dessa forma, podemos utilizá-la nas diferentes pesquisas realizadas tanto com dados quantitativos quanto com dados qualitativos. Vamos verificar um exemplo da utilização de distribuição de frequência em dados qualitativos, conforme exemplo no artigo de Noé (S.d.), disponível em: <http://brasilescola.uol.com.br/matematica/aplicacao- estatistica-frequencia-absoluta-frequencia-.htm>. TEMA 4 – DISTRIBUIÇÃO DE FREQUENCIA POR CLASSE Você já respondeu alguma pesquisa em que não é perguntada a sua idade, mas sim a faixa de idade em que você se encontra? Por exemplo, não respondemos que temos 25 anos e, sim, que temos entre 20 e 30 anos de idade. A mesma situação pode ocorrer quando a pesquisa gira em torno de salário; não respondemos o valor do salário que recebemos e, sim, a faixa salarial, ou seja, que recebemos entre 1 e 3 salários mínimos ou entre 4 e 6 salários mínimos, por exemplo. Imagine realizar uma pesquisa em relação à idade de um grupo de 1.000 pessoas. Quantas idades diferentes podem aparecer? Nesse caso, se utilizarmos a tabela de distribuição de frequência, teremos muitas linhas que equivalem às idades diferentes que aparecerão na pesquisa. Segundo Castanheira (2010), quando o número de resultados obtidos em uma pesquisa é demasiadamente grande, é comum agruparmos esses resultados em faixas de valores, denominadas de classes ou intervalos. Suponha que a tabela a seguir demonstre a distribuição de frequência da idade de um grupo de 100 pessoas: 14 Classe f 0 |-- 10 20 10 |-- 20 30 20 |-- 30 40 30 |-- 40 10 Verificamos que essa tabela possui, na primeira coluna, faixas de valores e não apenas um valor como a distribuição de frequência. Quando isso ocorre, chamamos de distribuição de frequência por classe ou intervalos. Nessa distribuição, temos: • classe: é o intervalo do grupo. A tabela indica que 20 pessoas têm entre 0 e 10 anos e 40 pessoas têm entre 20 e 30 anos. O primeiro grupo é a primeira classe (de zero a 10), a segunda linha é a segunda classe (10 a 20), e assim por diante. Essa tabela é formada por 4 classes; • os limites de um intervalo ou classe são os números extremos de cada intervalo ou classe. Aos valores à esquerda de cada classe, damos o nome de limite inferior (Li), e aos valores à direita, limite superior (Ls). Na primeira classe, temos: 0 – limite inferior 10 – limite superior • o símbolo ├ representa que a classe ou o intervalo é fechado à esquerda, ou seja, significa que o limite inferior pertence ao intervalo, e, aberto à direita, então, o limite superior não pertence ao intervalo. Analisando a segunda classe 10|--- 20 temos que 10 faz parte da segunda classe e não da primeira, já o 20 não faz parte da segunda classe, mas está sendo considerado na terceira. Qualquer que seja a idade ela se encaixa em apenas um dos intervalos. • ao subtrair o limite superior do limite inferior de determinada classe ou intervalo, temos a amplitude do intervalo ou classe (A): 15 A = Ls –Li Na segunda classe, temos uma amplitude igual a 10, ou seja, A = 20 – 10 = 10. Se calcularmos a amplitude para as demais classes, observaremos que todas as classes têm a mesma amplitude, então, na distribuição de frequência apresentada, as classes têm amplitude igual a 10, ou seja, A = 10. Quando trabalhamos com uma distribuição de frequência por classe ou intervalo, assumimos que para todo intervalo o resultado é um valor único igual ao ponto médio da classe ou intervalo (Pm), que é a soma do limite superior (Ls) com o limite inferior (Li) dividido por 2, ou seja, o ponto médio é o valor que está no meio do intervalo: Considerando a primeira classe de nosso exemplo, temos o seguinte ponto médio: Utilizando a mesma fórmula, encontramos o ponto médio das demais classes: Classe f PM 0 |-- 10 20 5 10 |-- 20 30 15 20 |-- 30 40 25 30 |-- 40 10 35 A distribuição de frequência por classe ou intervalos facilita na representação de uma grande quantidade de dados, mas vale lembrar que 2 LiLsPm += 5 2 010 2 = + = + = LiLsPm 16 quando agrupamos os dados em faixa de valores não conseguimos ter a frequência exata do dado apenas da faixa de valores. Já estudamos os principais conceitos de uma distribuição de frequência por classe ou intervalos, mas como construir uma distribuição de frequência por classe? Para a construção de uma distribuição de frequência por classes ou intervalos, seguimos algumas etapas que auxiliarão na geração da tabela e na apresentação dos resultados: 1. coloque os valores obtidos em Rol; 2. calcule a amplitude total = maior valor – menor valor; 3. determine o número de classes: não há uma fórmula exata, mas podemos utilizar os seguintes métodos: • número de classes = • método de Sturges: i = 1+3,3.log n , onde n é o número total de observações. 4. determine a amplitude da classe: 5. construa a distribuição de frequência por intervalo de classe. Recomenda-se que o número mínimo de intervalos seja igual a 5 e o número máximo, igual a 20, o que facilitará a construção da tabela com um mínimo de precisão e de informação. Lembrando que todos os intervalos precisam ter o mesmo tamanho, ou seja, a mesma amplitude. Considere os seguintes dados coletados em uma pesquisa referente à idade de um grupo de funcionários de uma determinada empresa e construa uma tabela de distribuição por classe. Dados brutos: 24 23 22 28 35 21 23 23 33 34 24 21 25 36 26 22 30 32 25 26 33 34 21 31 25 31 26 25 35 33 Amostra 17 1. coloque os valores obtidos em Rol: 21 21 21 22 22 23 23 23 24 24 25 25 25 25 26 26 26 28 30 31 31 32 33 33 33 34 34 35 35 36 2. calcule a amplitude total = maior valor – menor valor: Verificamos no Rol qual é o maior e qual é o menor valor encontrado nessa pesquisa e depois subtraímos para encontrar a amplitude total. Maior valor = 36 Menor valor = 21 • amplitude total = 36 – 21 = 15 3. determine o número de classes: temos dois métodos e podemos escolher um deles para aplicação. Em nosso exemplo, resolveremos das duas formas para verificar as diferenças no cálculo: • número de classes = No exemplo, a amostra é igual a 30, que é a quantidade de dados apresentados nos dados brutos. • número de classes = • método de Sturges: i = 1+3,3.log n, onde n é o número total de observações. No exemplo, temos n = 30. Assim, aplicamos a fórmula: i = 1+3,3.log n i = 1+3,3.log 30 i = 1+3,3.1,47712 i = 1+ 4,87450 i = 5,87450 = 6 Nos dois métodos, arredondamos o valor obtido para o inteiro mais próximo à maior e obtivemos o mesmo número de classe. Assim, nossa distribuição vai conter 6 classes. Amostra 647723,530 == 18 4. determinar a amplitude da classe: para o cálculo, precisamos da amplitude total e o número de classe já calculados nos passos 2 e 3: Amplitude total = 15 Número de classes = 6 Sempre que a divisão resultar em um número não inteiro, arredonde para o inteiro mais próximo, maior que o encontrado na divisão. Dessa forma, nossa distribuição terá uma amplitude de classe igual a 3. 5. construa a distribuição de frequência por intervalo de classe: para a construção da distribuição, utilizaremos o rol e a amplitude da classe. • rol: 21 21 21 22 22 23 23 23 24 24 25 25 25 25 26 26 26 28 30 31 31 32 33 33 33 34 34 35 35 36 • amplitude das classes = 3 Como nossa amplitude das classes é igual a 3, significa que precisamos agrupar os valores de 3 em 3 e assim formaremos nossas classes para a construção da distribuição. Para a construção da primeira classe, consideramos o primeiro valor, que é 21, ou seja, nosso limite inferior. Para encontrar olimite superior, somamos 3 e temos 24. Na segunda, seguimos o mesmo raciocínio, mas agora começando em 24 mais 3. O limite superior será 27. Siga esse procedimento até chegar em 6 classes, que é o número de classe que precisamos encontrar. Para encontrar a frequência de cada classe, verificamos quantas vezes os números daquela classe aparece. Por exemplo, na primeira classe, o limite inferior é 21 fechado, ou seja, contamos o 21, mas o superior é 24 aberto, não sendo considerado no cálculo da frequência. Assim, contamos apenas os valores 21, 22 e 23. Verificamos quantas vezes esses valores aparecem, ou seja, a frequência desses valores é igual a 8. Fazemos esse procedimento para todos os valores do rol e, 35,2 6 15 ===A 19 em seguida, formamos a nossa tabela de distribuição de frequência conforme o modelo a seguir: Classe f 21 |- - 24 8 24 |- - 27 9 27 |- - 30 1 30 |- - 33 4 33 |- - 36 7 36 |- - 39 1 Total 30 Analisaremos mais um exemplo em que temos uma tabela que representa o tempo (segundos) para inicialização de um aplicativo. Com base nos dados brutos e os passos apresentados anteriormente, elabore a tabela de distribuição de frequência por classe e intervalos para praticar o que aprendemos até agora: 3,5 1,9 2,1 1,6 3,1 1,0 1,4 1,8 1,2 1,3 0,8 1,1 0,5 2,5 1,3 0,7 1,7 1,4 1,3 1,6 Rol: 0,5 0,7 0,8 1,0 1,1 1,2 1,3 1,3 1,3 1,4 1,4 1,6 1,6 1,7 1,8 1,9 2,1 2,5 3,1 3,5 Distribuição de frequência: Tempo (s) f 0,5 |- - 1,1 4 20 1,1 |- - 1,7 9 1,7 |- - 2,3 4 2,3 |- - 2,9 1 2,9 |- -| 3,5 2 Observação: para elaborar a tabela foi utilizado no cálculo do número de classes a raiz quadrada da amostra. Caso utilize o método de Sturges, é possível elaborar a tabela com 6 classes. TEMA 5 – SÉRIES E GRÁFICOS Uma das fases do método estatístico, estudado no Tema 1, é a apresentação de dados em que podemos utilizar tabelas e gráficos para auxiliar na obtenção das conclusões que servirão de base para a tomada de decisão. Os gráficos têm como finalidade representar os resultados de forma simples, permitindo uma leitura rápida e global dos fenômenos estudados. Demonstra a evolução do fenômeno em estudo, e permite observar a relação dos valores da série, representar a relação entre variáveis e facilitar a compreensão de dados. Existem várias maneiras de se representar graficamente os dados estatísticos de acordo com o tipo de série. De acordo com Castanheira (2010), série estatística é a denominação que se dá a uma tabela na qual há um critério distinto que a especifica e a diferencia. Para diferenciar uma série estatística de outra, temos que levar em consideração três fatores: tempo, local e espécie. Assim, as séries estatísticas são classificadas em: • séries temporais, históricas ou cronológicas: os dados são apresentados em uma faixa de tempo, são produzidos ou observados ao longo do tempo. Exemplo: produção anual, faturamento mensal. Tabela 1 – Produção de automóveis no Brasil no período de 1980-1982 21 Fonte: Fundação Getúlio Vargas, 1986. • séries geográficas, espaciais, territoriais ou de localização: os dados são apresentados em uma ou mais regiões. Exemplo: produção por região, venda por cidade, faturamento por estado. Tabela 2 – População mundial, em milhões, segundo o continente 2000 Fonte: Almanaque Abril Mundo, 2001. • séries categóricas ou específicas: os dados são agrupados segundo a modalidade de ocorrência, têm como característica a variação do fato. Exemplo: vendas por produto, faturamento por marca, oferta de trabalho por área. Tabela 3 – Ofertas de trabalho em São Paulo. Semana de 13-06 a 19-06 de 1986 22 Fonte: Data Folha. • séries mistas, conjugadas ou tabelas de dupla entrada: combinação entre as séries temporais, geográficas e específicas. Exemplo: faturamento mensal dividido por estados, veículos vendidos por regiões nos últimos anos. Tabela 4 – Evolução da arrecadação de IPVA, em milhões de reais, nos Estados do Sul do Brasil, de 2002 a 2005 Fonte: SEFA/RS/SC/PR • tabelas de distribuição de frequências: é a apresentação dos resultados de uma pesquisa por meio de uma tabela que mostra a frequência de ocorrência de cada resultado. 23 Com base nos diferentes tipos de série, podemos indicar a utilização de cada tipo de gráficos. Os principais são: • linhas: representa observações feitas ao longo do tempo e são utilizadas nas chamadas séries históricas ou temporais. Figuras 1, 2 e 3 – Gráficos de linhas Fonte: Banco Central do Brasil – Balanço de pagamentos. Defeitos Freqüência (f) 14 4 15 7 16 5 17 2 18 1 19 1 Tempo (s) f 0,5 |-- 1,1 4 1,1 |-- 1,7 9 1,7 |-- 2,3 4 2,3 |-- 2,9 1 2,9 |--| 3,5 2 24 • setores: dividem em setores os termos da série e é mais utilizado para séries específicas ou geográficas com pequeno número de termos e quando se quer salientar a proporção de cada termo em relação ao todo. Esse gráfico também é conhecido como gráfico em forma de pizza. Figuras 4 e 5 – Gráficos de setores • colunas: representação de uma série por retângulos verticalmente, ou seja, representamos a série em colunas e pode ser utilizado nas diferentes séries. 25 Figuras 6 e 7– Gráficos de colunas Fonte: IBGE, Atlas geográfico escolar, 7 ed, 2016. • barras: representação de uma série por retângulos horizontalmente, ou seja, representamos a série em barras e pode ser utilizada nas diferentes séries. 26 Figura 8 – Gráfico de barras Segundo Martins (2010), o gráfico de barras e o gráfico em forma de pizza são os gráficos mais comuns para a descrição de dados oriundos de variáveis qualitativas. Basicamente, eles mostram as frequências de observações para cada nível, ou categoria, da variável que se deseja descrever. • histograma: representação utilizada nas distribuições de frequências, cujos dados foram agrupados em classes ou intervalos de mesma amplitude. Cada classe é representada por um retângulo, cuja base é igual à amplitude da classe e a área é proporcional à frequência da classe. Esse gráfico é o mais adequado para a descrição de dados oriundos de variáveis quantitativas com elevada quantidade de elementos. Figura 9 – Histograma Para construir um histograma, temos os seguintes passos: 1. marcar no eixo x (horizontal) às classes; 2. marcar no eixo y (vertical) as frequências; 27 3. para cada classe, levante as colunas de acordo com cada frequência. Considere as idades de 50 funcionários de uma empresa, agrupados conforme a tabela a seguir, e, utilizando os passos anteriores, elabore o histograma da distribuição. No eixo x (horizontal), identificamos as classes e no y (vertical), as frequências. Note que no eixo x começamos em 18 e identificamos todos os valores das classes, finalizando em 66. Já no eixo y, iniciamos com 2, que é a nossa menor frequência, e vamos até 13, que é a maior frequência. Com os eixos prontos, levantaremos as colunas e finalizaremos o histograma. Iniciando com a primeira classe de 18 a 25, em que devemos levantar a coluna até a frequência 6. Seguindo a mesma orientação para as demais classes, obteremos o seguinte histograma: 28 Considerando a tabela que obtivemos no exemplo analisado no Tema 4, em que elaboramos uma distribuição de frequência que representa o tempo (segundos) para inicialização de um aplicativo, representaremos a distribuição utilizando o histograma: Tempo (s) f 0,5 |- - 1,1 4 1,1 |- - 1,7 9 1,7 |- - 2,3 4 2,3 |- - 2,9 1 2,9 |- -| 3,5 2 29 Na elaboração dos gráficos, precisamos indicar os seguintes elementos: título, escala e fonte que forneceu os dados (que deve ser exibida norodapé do gráfico). Esses elementos são importantes, pois auxiliam na interpretação dos dados sem a necessidade de inúmeras explicações. FINALIZANDO Nesta aula, verificamos que a estatística é dividida em estatística descritiva e estatística indutiva. Vimos também que, para gerar informações, utilizamos o método estatístico, que é composto de diversas fases para facilitar o tratamento de dados numéricos. Estudamos os tipos de variáveis que podem aparecer em uma pesquisa, como organizar um dado bruto, elaborar uma distribuição de frequência, calcular frequência acumulada e relativa além da interpretação dos resultados obtidos. Observamos, ainda, a construção e diferenças entre uma distribuição de frequência e distribuição de frequência por classe ou intervalos. Fechando a nossa aula estudamos os tipos de séries e gráficos que facilitam a compreensão, tornando as informações e decisões cada vez mais precisas. 30 REFERÊNCIAS A importância da estatística em diferentes campos. ESTAT, 14 jun. 2017. Disponível em: <http://www.estatconsultoria.org/2017/06/14/a-importancia-da- estatistica-em-diferentes-campo/>. Acesso em: 5 mar. 2020. A importância da estatística na engenharia. Yuri Rocon, 9 dez. 2016. Disponível em: <https://www.youtube.com/watch?v=ahccyeXOxFQ>. Acesso em: 5 mar. 2020. CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. Curitiba: Ibpex, 2010. LARSON, R.; FARBER, B. Estatística aplicada. 2. ed. São Paulo: Pearson, 2004. MARTINS, G. A. Estatística geral e aplicada. 3. ed. São Paulo: Atlas, 2010. NOÉ, M. Aplicação de estatística: frequência absoluta e frequência relativa. Brasil Escola, S.d. Disponível em: <https://brasilescola.uol.com.br/matematica/aplicacao-estatistica-frequencia- absoluta-frequencia-.htm>. Acesso em: 5 mar. 2020. WALPOLE, R. E. et al. Probabilidade e estatística para engenharia e ciências. São Paulo: Pearson, 2009. PROBABILIDADE E ESTATÍSTICA AULA 2 Profª Aline Purcote 2 CONVERSA INICIAL Anteriormente, vimos os elementos de estatística, estatística descritiva e estatística indutiva, suas variáveis e também como trabalhar com as distribuições de frequência. Nesta aula, estudaremos as medidas de posição, com o objetivo de apresentar os dados com um valor único, proporcionando a compreensão e interpretação das informações que servirão como base para análises e decisões. Uma das medidas de posição mais conhecidas e utilizadas é a média. Por exemplo, calculamos o consumo médio de combustível de determinado veículo; o consumo médio de energia numa residência; a velocidade média durante uma viagem; o tempo médio de processamento de um aplicativo; e o preço médio de determinado produto. TEMA 1 – MEDIDAS DE POSIÇÃO Um conjunto de dados pode ser apresentado de forma mais sintética se utilizarmos apenas um valor que represente em termos “médios” todo o conjunto que tende a se localizar no centro em torno do qual os dados se concentram. As principais medidas de posição – também chamadas de medidas de tendência central – são a média, a mediana e a moda. Essas medidas podem ser aplicadas nos três tipos de dados que já estudamos: dados não agrupados, distribuição de frequência e distribuição de frequência por classe ou intervalo. • Dados não agrupados: dados não apresentados nem agrupados numa distribuição de frequência. 12 13 10 14 16 15 17 14 12 13 3 • Dados agrupados numa distribuição de frequência: tabela que demonstra a frequência de ocorrência de cada resultado. • Dados agrupados numa distribuição de frequência por classe: tabela que apresenta os dados em faixas de valores, indicando a frequência com que cada faixa aparece na pesquisa. Agora vamos estudar a diferença entre média, mediana e moda, e como calcular as medidas para cada tipo de dado apresentado. TEMA 2 – MÉDIA A média aritmética é uma medida estatística que representa o grau de concentração dos valores numa distribuição, ou seja, é nela que a maioria dos valores se posiciona. Segundo Oliveira (1999), é o protótipo das medidas de tendência central definida como o quociente entre a soma de todos os valores da variável e seu número de elementos. A média (ou média aritmética) é a medida de posição mais comum, representada pelo símbolo X . Ela é definida pela soma dos resultados obtidos numa pesquisa dividida pela quantidade de resultados; ou seja, somamos todos os valores e o dividimos pela quantidade de dados que temos na pesquisa. Quando trabalhamos com dados não agrupados, utilizamos a seguinte fórmula para calcular a média: N X X = Sendo X os dados, e N a quantidade de observações. Salário Nº Funcionários 1000|--- 2000 20 2000|--- 3000 18 3000|--- 4000 9 4000|--- 5000 3 4 Exemplo 1: uma indústria pretende determinar a duração de certo equipamento eletrônico medindo 10 aparelhos (em horas), obtendo os seguintes resultados: 123 116 122 110 175 126 125 111 118 117 Com base nos dados coletados, determine a média de vida útil do equipamento. Para calcular a média, precisamos somar os dados e dividi-los por 10, descobrindo a quantidade de equipamentos avaliados, ou seja: 10 117 118 111 125 126 175 110 122 116 123 +++++++++ =X 3,124 10 1243 ==X Logo, o equipamento dura em média 124,3 horas. Exemplo 2: uma loja apresentou, durante um ano, o seguinte volume de vendas (R$): 2.500, 2.600, 3.100, 15.100, 4.600, 4.000, 4.100, 3.700, 3.400, 3.600, 3.900 e 4.200. Qual a média mensal de vendas? Somamos os valores fornecidos e dividimos por 12: 12 4200390036003400370041004000460015100310026002500 +++++++++++ =X 67,566.4 12 54800 ==X Assim, a média mensal de vendas da empresa é R$ 4.566,67. Exemplo 3: as exportações de determinado porto brasileiro registraram o seguinte movimento durante um ano (em bilhões de reais) (Castanheira, 2010). Qual foi a média mensal de exportações (em bilhões de reais)? 5 Para encontrar a média, devemos somar os valores mensais de exportações segundo a coluna (R$) e depois dividi-los por 12, pois temos 12 meses: A média mensal de exportações é de 3 bilhões de reais. A média é a medida de posição mais utilizada, mas tem um ponto negativo, já que é influenciada pelos extremos. Precisamos sempre observar se os dados coletados têm valores baixos e altos, pois influenciarão no cálculo da medida. TEMA 3 – MÉDIA PONDERADA Quando os dados se agrupam numa distribuição de frequência, calculamos a média aritmética ponderada (ou apenas média ponderada), pois cada grandeza envolvida no cálculo tem uma importância diferente, ou seja, acontece um número diferente de vezes. Para calcular essa medida, usamos a seguinte fórmula e os seguintes passos: N )f.X( X = , sendo N = f 1. Multiplicamos os dados (X) pela frequência (f) para cada um dos valores da distribuição; 2. Somamos os valores obtidos no Passo 1, ou seja, os resultados da multiplicação X.f; 3. Encontramos o valor de N somando a coluna de frequências; 4. Dividimos o valor encontrado no Passo 2 pelo valor de N. Exemplo 1: uma pesquisa obteve a seguinte distribuição quanto à idade dos integrantes de um grupo. Calcule a idade média na seguinte distribuição de frequências: Idade Freqüência 4 4 5 6 6 6 7 4 3 12 36 ==X 6 1. Multiplique os valores (X), que representam as idades, pela frequência (f), representada na segunda coluna, para cada um dos valores da distribuição: 2. Some os valores obtidos na multiplicação X.f: 3. Encontre o valor de N somando a coluna de frequências: N= 20. Idade Frequência x.f 4 4 16 5 6 30 6 6 36 7 4 28 20 110 4. Divida o valor encontrado na soma de X.f pelo valor de N. Idade Frequência x.f 4 4 16 5 6 30 6 6 36 7 4 28 20 110 5,5 20 110 ==X Assim, a idade média dessegrupo é de 5,5 anos. Idade Freqüência x.f 4 4 16 5 6 30 6 6 36 7 4 28 110 7 Exemplo 2: uma indústria avaliou 30 aparelhos produzidos, apresentando os seguintes números de defeitos por aparelho: Qual o número médio de defeitos? Vamos primeiro multiplicar X.f e, depois de somar os valores obtidos, encontrar o valor de N; por último, dividimos para encontrar a média: Número de defeitos f X.f 0 12 0 1 8 8 2 7 14 3 1 3 4 2 8 30 33 1,1 30 33 ==X A média de defeitos nos aparelhos inspecionados é de 1,1 defeito. Quando temos uma distribuição de frequências representada em intervalos ou classes, a média ponderada é calculada ao substituirmos os valores de X, na fórmula, pelo ponto médio (PM) de cada intervalo, ou seja: X = N )f.PM( Para calcular a média numa distribuição de frequência por classe, consideramos os passos a seguir. Número de defeitos f 0 12 1 8 2 7 3 1 4 2 8 1. Calculamos o ponto médio de cada classe aplicando a seguinte fórmula: 2 LiLs Pm + = 2. Para cada um dos valores da distribuição, multiplicamos o ponto médio (PM) pela frequência (f); 3. Somamos os valores obtidos na multiplicação PM.f ; 4. Somamos a coluna de frequências para encontrar o valor de N; 5. Dividimos o valor encontrado na soma de PM.f pelo valor de N. Exemplo 1: uma pesquisa indicou a altura dos funcionários de determinada empresa. Com base nos dados obtidos na pesquisa, calcule a média das alturas. Para calcular a média numa distribuição de frequência por classe, aplicamos os seguintes passos: • Calculamos o ponto médio de cada classe. Primeira classe: 152 2 304 2 150154 2 == + = + = LiLs PM Aplicando o mesmo cálculo para as demais classes, temos: 9 • Para todas as classes, multiplicamos o ponto médio (PM) pela frequência (f): • Somamos os valores obtidos na multiplicação PM.f: • Somamos a coluna de frequências para encontrar o valor de N: • Dividimos o valor da soma de PM.f pelo valor de N: 161 40 6440 ==X A média da altura dos funcionários é 161 cm. 10 Exemplo 2: uma empresa inspecionou 50 componentes eletrônicos para determinar seu tempo de vida útil, obtendo a seguinte distribuição. • Calculamos o tempo médio de vida desse componente. Tempo (horas) Frequência 1200 |--- 1300 1 1300 |--- 1400 3 1400 |--- 1500 11 1500 |--- 1600 20 1600 |--- 1700 10 1700 |--- 1800 3 1800 |--- 1900 2 Iniciamos calculando o ponto médio e depois o multiplicamos pela frequência. Somados os resultados obtidos na multiplicação, dividimos por N para encontrar a média. Tempo (horas) Frequência PM PM.f 1200 |--- 1300 1 1250 1250 1300 |--- 1400 3 1350 4050 1400 |--- 1500 11 1450 15950 1500 |--- 1600 20 1550 31000 1600 |--- 1700 10 1650 16500 1700 |--- 1800 3 1750 5250 1800 |--- 1900 2 1850 3700 50 77700 1554 50 77700 ==X O tempo médio de vida útil dos componentes eletrônicos é 1.554 horas. TEMA 4 – MEDIANA A segunda medida de posição é a mediana, que representamos por Md e indica o elemento que ocupa a posição central. Essa medida divide a distribuição em 50%, ou seja, é o valor que divide o conjunto de dados em duas partes iguais. 11 Figura 1 – Mediana Para dados não agrupados, a mediana é o valor que divide a série ordenada em dois conjuntos de igual tamanho, ou seja, com o mesmo número de valores. Segundo Castanheira (2010), é necessário observar que a quantidade de dados pode ser par ou ímpar. Sendo ímpar, o valor da mediana é o valor que está no centro da série; sendo par, a mediana será a média aritmética dos dois valores no centro da série. Quando temos os dados não agrupados, os passos para calcular a mediana são: • Colocar os dados em ordem; • Encontrar o valor de N, que é igual ao número de observações, quantidade de dados da série; • Verificar se N é ímpar ou par; • Encontrar a posição da mediana pela fórmula: posição = 2 N ; • Calcular a mediana, considerando se N é par ou ímpar: o Ímpar = valor central; o Par = média dos valores centrais. Exemplo 1: calcule a mediana da série 2, 5, 6, 8, 10, 13, 15, 16, 18. • Ordenar a série: nesse exemplo os dados já estão ordenados; • Encontrar o valor de N, contando quantos dados temos na série. Nesse caso, N = 9; • Verificar se N é ímpar ou par: N = 9 é ímpar; • Calcular posição. Posição = 55,4 2 9 2 === N Observação: caso a posição apresente um número com vírgula, arredonde para o inteiro mais próximo. 12 • Procure na série ordenada o número na posição 5. Assim, o número 2 está na primeira posição, o número 5 na segunda etc. Seguindo esse processo, temos o número 10 na quinta posição: 2, 5, 6, 8, [10], 13, 15, 16, 18. Como N é ímpar, a mediana é o valor central. Assim, a mediana é igual a 10, pois abaixo de 10 temos 4 números (2, 5, 6, 8), e acima de 10 também (13, 15, 16, 18). Exemplo 2: calcule a mediana da série: 1, 6, 3, 10, 9, 8. Passos: • Ordenar a série: 1, 3, 6, 8, 9, 10; • Encontrar o valor de N, contando quantos dados temos na série. Logo, N = 6; • Verificar se N é ímpar ou par: N = 6 é par; • Calcular posição. 3 2 6 2 ==N • Como N é par, precisamos encontrar dois valores centrais. Logo, vamos procurar na série ordenada o número que está na posição 3 e a próxima posição, que é a 4. Na posição 3 temos o número 6, e na posição 4, o número 8: 1, 3, [6], [8], 9, 10. Para encontrar a mediana, calculamos a média entre os dois valores centrais, somando-os e dividindo-os por 2: Md = 7 2 14 2 86 == + A mediana também pode ser calculada numa distribuição de frequências pelos seguintes passos: 1. Encontre o valor de N, que é igual à soma das frequências; 2. Determine se N é par ou ímpar; 3. Calcule a frequência acumulada (fa); 4. Calcule a posição N/2; 5. Identifique na frequência acumulada a posição calculada no Passo 4. Sempre busque um valor igual ou maior que a posição calculada; 13 6. Calcule a mediana: o Ímpar = valor central; o Par = média dos valores centrais. Exemplo 3: uma indústria avaliou 30 aparelhos produzidos, apresentando os seguintes números de defeitos por aparelho: Qual a mediana dessa distribuição? Para determinar a mediana, seguimos os passos indicados: 1. Encontre o valor de N; para isso, somamos as frequências, e temos N = 30: 2. Determine se N é par ou ímpar; N = 30, então N é par; 3. Calcule a frequência acumulada; para isso, repetimos a primeira frequência e somamos com a seguinte frequência: Número de defeitos f fa 0 12 12 1 8 20 2 7 27 3 1 28 4 2 30 14 4. Calcule a posição: Posição = 15 2 30 2 == N 5. Identifique, na frequência acumulada, a posição encontrada no Passo 4. Como N é par, precisamos de dois valores centrais;, ou seja, vamos encontrar o valor que está na posição 15 e na 16. Na coluna da frequência acumulada, procuramos valor igual ou maior que a posição; nesse caso, procuramos valores iguais ou maiores que 15 e 16. Esses números (15 e 16) estão na frequência acumulada igual a 20, que tem dado igual a 1. Posição 15 = 1; Posição 16 = 1. 6. Some os dados encontrados nas posições para calcular a mediana: Md = 1 2 2 2 11 == + A mediana dessa distribuição é igual a 1, ou seja, 50% dos aparelhos avaliados têm até 1 defeito. Exemplo 4: uma pesquisa foi feita em diferentes lojas para avaliar o preço de determinado produto. Com base na seguinte distribuição, calcule a mediana: Preço Frequência 73 2 75 10 77 12 79 5 81 2 Número de defeitos f fa 0 12 12 1 8 20 2 7 27 3 1 28 4 2 30 15 1. Inicialmente, encontramos o valor de N, que é a soma das frequências: 2. Verificamos se o valor de N encontrado no Passo 1 é par ou ímpar; como N é 31, então é ímpar; 3. Com base na coluna de frequências, calculamosa frequência acumulada: 4. Calculamos a posição da mediana utilizando a seguinte fórmula: Posição = 165,15 2 31 2 ===N 5. Identificamos a posição na coluna de frequência acumulada, procurando um valor igual ou maior que 16. Esse número está na frequência acumulada igual a 24, que tem dado igual a 77; 6. Como N é um número ímpar, a mediana será o valor encontrado na posição 16; ou seja, a mediana é igual a 77. Assim, 50% dos locais comercializam o produto por até R$ 77. Quando temos uma distribuição de frequência com os dados agrupados por classes, utilizamos os seguintes passos para calcular a mediana: 1. Some as frequências para encontrar o valor de N; 2. Calcule a posição da mediana pela divisão 2 N ; 3. Calcule frequência acumulada (fa); Preço Frequência 73 2 75 10 77 12 79 5 81 2 31 Preço Frequência fa 73 2 2 75 10 12 77 12 24 79 5 29 81 2 31 31 16 4. Identifique a posição calculada no Passo 2 na frequência acumulada. Lembre-se que buscamos um valor igual ou maior que a posição calculada no Passo 2; 5. Calcule a mediana aplicando a seguinte fórmula: Md = Li + A f fN Md ant . )2/( − Sendo: • Li = limite inferior da classe que contém a mediana; • N = número de observações, ou seja, soma das frequências; • antf = soma das frequências anteriores à classe que contém a mediana; • A = amplitude das classes: A = Ls − Li; • Mdf = frequência da classe que contém a mediana. Exemplo 5: uma empresa inspecionou 50 componentes eletrônicos para determinar seu tempo de vida útil, obtendo a distribuição a seguir. Calcule a mediana. Tempo (horas) Frequência 1200 |--- 1300 1 1300 |--- 1400 3 1400 |--- 1500 11 1500 |--- 1600 20 1600 |--- 1700 10 1700 |--- 1800 3 1800 |--- 1900 2 Vamos aplicar os passos para calcular a mediana dessa distribuição: 17 • Encontre o valor de N, que é igual à soma das frequências: Tempo (horas) Frequências 1200 |--- 1300 1 1300 |--- 1400 3 1400 |--- 1500 11 1500 |--- 1600 20 1600 |--- 1700 10 1700 |--- 1800 3 1800 |--- 1900 2 50 • Calcule a posição: Posição = 25 2 50 2 == N • Calcule a frequência acumulada (fa): Tempo (horas) Frequência fa 1200 |--- 1300 1 1 1300 |--- 1400 3 4 1400 |--- 1500 11 15 1500 |--- 1600 20 35 1600 |--- 1700 10 45 1700 |--- 1800 3 48 1800 |--- 1900 2 50 • Identifique a posição calculada no Passo 2, na frequência acumulada. Temos que a posição é 25, então buscamos um valor igual ou maior na coluna de frequência acumulada: Posição = 25, identificada na quarta classe. 18 antf Tempo (horas) Frequência fa 1200 |--- 1300 1 1 1300 |--- 1400 3 4 1400 |--- 1500 11 15 1500 |--- 1600 20 35 1600 |--- 1700 10 45 1700 |--- 1800 3 48 1800 |--- 1900 2 50 • Aplique a fórmula para obter a mediana: Md = Li + A f fN Md ant . )2/( − Identificamos no Passo 4 a posição na quarta classe. Assim, essa classe será utilizada como base para os cálculos, sendo: • Li = 1500; • 25 2 50 2 == N ; • antf = soma das frequências anteriores à classe que contém a mediana. Consideramos o valor anterior à classe na coluna de frequência acumulada. Assim, o valor procurado é igual a 15. • Mdf = frequência da classe que contém a mediana = 20. Tempo (horas) Frequência fa 1200 |--- 1300 1 1 1300 |--- 1400 3 4 1400 |--- 1500 11 15 1500 |--- 1600 20 35 1600 |--- 1700 10 45 1700 |--- 1800 3 48 1800 |--- 1900 2 50 A = Ls − Li = 1600 − 1500 = 100 Com os valores descritos, aplicamos a fórmula para encontrar o valor da mediana: 19 A Md f ant fN i LMd . )2/( − += 100. 20 )1525( 1500 − +=Md 100. 20 )10( 1500 +=Md 1550501500 =+=Md A mediana é igual a 1.550, ou seja, 50% dos componentes têm tempo de vida útil de até 1.550 horas. Exemplo 6: A tabela a seguir representa as notas obtidas por um grupo de 58 alunos matriculados em determinada disciplina. Calcule a mediana. Fonte: Purgote, 2020, com base em Shiguti; Shiguti, 2006. Para calcular a mediana, seguimos os passos já mencionados: • Encontre o valor de N, que é igual à soma das frequências: • Calcule a posição: Posição = 29 2 58 2 == N 20 1000 1500 +=Md 20 • Calcule a frequência acumulada (fa): • Identifique na frequência acumulada a posição calculada no Passo 2. Posição = 29, identificada na terceira classe. • Calcule a mediana utilizando a fórmula: Md = Li + A f fN Md ant . )2/( − Como a posição foi identificada na terceira classe, essa classe será utilizada como base para os cálculos, sendo: • Li = 55; • 29 2 58 2 == N ; • antf = soma das frequências anteriores à classe que contém a mediana = 17; • Mdf = frequência da classe que contém a mediana = 18; • A = Ls − Li = 65 − 55 = 10. 21 antf Com todos os dados necessários, aplicamos a fórmula para encontrar a mediana: Temos que a mediana é igual a 61,67, ou seja, 50% dos alunos obtiveram nota de até 61,67 pontos. No Tema 2 vimos que a média tem um ponto negativo, já que é influenciada pelos extremos. Na mediana isso não ocorre, pois ela reflete a tendência central, de modo que não é influenciada por valores extremos ou discrepantes. TEMA 5 – MODA Nos demais temas vimos a diferença entre média e mediana; agora vamos trabalhar com a moda. Representada por Mo, a moda indica o valor que ocorre o maior número de vezes, ou seja, que mais se repete. É aquele valor que tem a maior frequência. Quando calculamos a moda, podemos ter três situações: 1. Distribuição modal: quando temos apenas uma moda, ou seja, ao calcular a moda, temos apenas um valor; 2. Distribuição bimodal: quando temos dois ou mais valores para moda; 3. Distribuição amodal: não há repetição de valores, logo, não temos moda. Para obter a moda numa série de dados formada por dados não agrupados, verificamos o valor que mais se repete. Exemplo 1: vamos observar a seguinte série: 7, 10, 9, 8, 12, 10, 11, 10. Verificamos que o número 10 aparece 3 vezes; portanto a moda é igual a 10. 22 Exemplo 2: encontre a moda da seguinte série: 3, 5, 8, 10, 12. Observando a série, percebemos que todos os valores aparecem uma única vez. Logo, a série não apresenta moda, isto é, a série é amodal. Exemplo 3: qual a moda da seguinte série? 4, 3, 2, 4, 5, 7, 6, 4, 7, 9, 8, 7. Tanto o número 4 quanto o número 7 aparecem 3 vezes; assim, temos duas modas (Mo = 4 e Mo = 7); logo, a série é bimodal. De acordo com Martins (2010), para distribuições simples, sem agrupamento em classes, a identificação da moda é facilitada pela simples observação do elemento que apresenta maior frequência. Assim, verificamos na coluna de frequência o maior valor, e a moda será o valor de X, que está na primeira coluna. Exemplo 4: uma indústria avaliou 30 aparelhos produzidos, apresentando os seguintes números de defeitos por aparelho. Com base nos dados obtidos, calcule a moda. Número de defeitos F 0 12 1 8 2 7 3 1 4 2 Como temos uma distribuição de frequência, vamos verificar na coluna de frequência o maior valor. Assim, temos que a maior frequência é 12. A moda é identificada pelo dado da primeira coluna; ou seja, a moda é igual a zero (Mo = 0). Número de defeitos F 0 12 1 8 2 7 3 1 4 2 Para calcular a moda numa distribuição de frequências com dados agrupados em classes, aplicamos os seguintes passos: 23 1. Identificamos em que classe se encontra a moda; 2. Determinamos o valor da moda utilizando a seguinte fórmula: Mo = Li + postant post ff A.f + Sendo: • Li = limite inferior da classe que contém a moda; • postf = frequência da classe posterior à classe que contém a moda; • antf = frequência da classe anterior à classe que contém a moda; • A = amplitude das classes: A = Ls – Li. Exemplo 5: a tabela a seguir representaas notas obtidas por um grupo de 58 alunos matriculados numa determinada disciplina. Calcule a moda. Fonte: Purgote, 2020, com base em Shiguti; Shiguti, 2006. Passos para determinar a moda: 1. Identificamos a classe que apresenta a maior frequência de ocorrência. A maior frequência é 18, assim, a moda se localiza na classe: 55|---- 65. 2. Considerando a classe identificada no Passo 1 (55|----65), determinamos o valor da moda utilizando a fórmula, sendo: o Li = 55 o postf = frequência da classe posterior à classe que contém a moda = 14 24 o antf = frequência da classe anterior à classe que contém a moda = 12 o A = Ls − Li = 65 − 55 = 10 o 1412 10.14 55 + +=Mo o 26 140 55+=Mo o 38,6038,555 =+=Mo A nota que aparece com mais frequência (ou que mais se repete) é 60,38; ou seja, a moda é igual a 60,38. Exemplo 6: uma empresa inspecionou 50 componentes eletrônicos para determinar seu tempo de vida útil, obtendo a distribuição a seguir. Calcule a moda. Tempo (horas) Frequências 1200 |--- 1300 1 1300 |--- 1400 3 1400 |--- 1500 11 1500 |--- 1600 20 1600 |--- 1700 10 1700 |--- 1800 3 1800 |--- 1900 2 • Identifique em que classe se encontra a moda. A maior frequência é 18; assim, a moda está localizada na classe: 1500 |--- 1600; • Determine o valor da moda utilizando a fórmula, sendo: o Li = 1500 o postf = frequência da classe posterior à classe que contém a moda = 10 post f ant f 25 o antf = frequência da classe anterior à classe que contém a moda = 11 o A = Ls − Li = 1600 − 1500 = 100 o 1011 100.10 1500 + +=Mo o 21 1000 1500 +=Mo o 62,154762,471500 =+=Mo FINALIZANDO Nesta aula, verificamos a diferença entre cada medida de posição (média, mediana e moda), seus cálculos, aplicações e interpretações dos resultados para dados não agrupados, distribuição de frequência e distribuição de frequência por classe. 26 REFERÊNCIAS CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. Curitiba: InterSaberes, 2010. LARSON, R.; FARBER, B. Estatística aplicada. 2. ed. São Paulo: Pearson, 2004. MARTINS, G. A. Estatística geral e aplicada. 3. ed. São Paulo: Atlas, 2010. OLIVEIRA, F. E. M. Estatística e probabilidade. 2. ed. São Paulo: Atlas, 1999. SHIGUTI, W. A.; SHIGUTI, V. S. C. Apostila de estatística. Brasília, DF: [S.n.], 2006. Disponível em: <http://www.inf.ufsc.br/~paulo.s.borges/Download/Apostila5_INE5102_Quimica. pdf>. Acesso em: 20 out. 2020. WALPOLE, R. E. et al. Probabilidade e estatística para engenharia e ciências. São Paulo: Pearson, 2009. PROBABILIDADE E ESTATÍSTICA AULA 3 Profª Aline Purcote Quinsler 2 CONVERSA INICIAL Na Aula 2, estudamos as medidas de posição, chegando a um único valor que apresenta uma ideia de todo o conjunto, mas essas medidas não descrevem detalhadamente o comportamento dos dados. Assim, podemos utilizar as medidas de dispersão para complementar nossas análises e tomar decisões mais assertivas. Segundo Castanheira (2010, p. 78), as chamadas medidas de dispersão são medidas utilizadas para verificar o quanto os valores encontrados em uma pesquisa estão dispersos ou afastados em relação à média. As medidas de dispersão verificam o grau de variação existente entre os dados, ou seja, se os valores apresentados estão dispersos ou afastados uns dos outros. Por exemplo, considere o valor de um equipamento eletrônico nos últimos cinco meses: Mês Valor 1 500 2 1.500 3 1.800 4 2.200 5 2.500 Se calcularmos a média dos últimos cinco meses, teremos um valor médio de R$ 1.700,00, mas, analisando os valores apresentados na tabela, percebemos que há valores diferentes, abaixo e acima da média calculada, ou seja, existe uma dispersão. Mas qual é essa variação? Para responder a essa questão será necessário utilizar as medidas de dispersão, pois só as medidas de posição não são conclusivas. Nesta aula, estudaremos as medidas de dispersão e como calcular e interpretar os resultados obtidos, além das medidas de assimetria e curtose. TEMA 1 – MEDIDAS DE DISPERSÃO A análise realizada pelas medidas de posição pode ser complementada com a utilização das medidas de dispersão. Segundo Castanheira (2010), as medidas de dispersão servem para verificar com que confiança as medidas de 3 posição resumem as informações fornecidas pelos dados obtidos em uma pesquisa. As medidas de dispersão indicam se os dados estão afastados da região central, medindo o grau de variação existente entre os valores, e servem também para medir a representatividade da média. Considere uma pesquisa que represente o preço de dois produtos (A e B) em diferentes pontos de venda: A: 20, 20, 20 B: 15, 10, 20, 25, 30 Ao calcular a média de preço, obtemos o valor igual a R$ 20,00 para os dois produtos, mas, analisando os valores, temos que no produto A não há variação entre os preços; já no produto B, temos preços diferentes, ou seja, a média é de R$ 20,00, e encontramos o produto por R$10,00 e R$30,00. Logo, para o mesmo produto, encontramos diferenças entre os preços. Assim, os valores apresentam dispersão em torno da média. Dentre as medidas de dispersão, podemos citar a amplitude total, o desvio médio, a variância e o desvio padrão. A amplitude total é considerada a medida de dispersão mais simples, e é calculada pela diferença entre o maior e o menor valores de uma série de dados: A = maior – menor Se o resultado encontrado para a amplitude for um número elevado, significa que os valores da série estão afastados uns dos outros. Caso o valor encontrado seja baixo, os valores da série estão próximos uns dos outros. Dessa forma, quanto maior a amplitude, maior a dispersão dos valores. Exemplo 1 Considere os valores 40, 45, 48, 62 e 70. Calcule a amplitude total. Para encontrar a amplitude, precisamos do maior e do menor valor para depois realizar a diferença: Maior valor = 70 Menor valor = 40 Amplitude = 70 – 40 = 30 4 Exemplo 2 Qual é a amplitude do preço pago por um equipamento eletrônico nos últimos cinco meses? Mês Valor 1 500 2 1.500 3 1.800 4 2.200 5 2.500 Maior valor = 2.500 Menor valor = 500 Amplitude = 2.500 – 500 = 2.000 Segundo Castanheira (2010), para o caso de os dados estarem agrupados em classes, o cálculo da amplitude total pode ser realizado de duas formas: 1. pelos pontos médios das classes. Nesse caso, a amplitude total é igual ao ponto médio da última classe, menos o ponto médio da primeira classe; 2. pelos limites das classes. Nesse caso, a amplitude total é igual ao limite superior da última classe, menos o limite inferior da primeira classe. Exemplo 3 Qual é a amplitude da seguinte distribuição? 5 Calcule a amplitude considerando as duas formas citadas anteriormente: 1. pelo ponto médio das classes. Nesse caso, para calcular a amplitude total, precisamos encontrar o ponto médio da última classe e o ponto médio da primeira classe para depois realizar a diferença. Lembre-se de que o ponto médio é calculado pela fórmula: 2 LiLs Pm Ponto médio da última classe: 172 2 344 2 170174 Pm Ponto médio da primeira classe: 152 2 304 2 150154 Pm Amplitude = 172 – 152 = 20 cm 2. pelos limites das classes. Para calcular a amplitude total, precisamos encontrar o limite superior da última classe e o limite inferior da primeira classe para depois realizar a diferença: Limite superior da última classe = 174 Limite inferior da primeira classe = 150 Amplitude = 174 – 150 = 24 cm A amplitude total apresenta algumas restrições, pois considera apenas os valores extremos da série, desprezando os valores intermediários. Segundo Martins (2010, p. 52), a utilização da amplitude total comomedida de dispersão é limitada, pois, sendo uma medida que depende apenas dos valores extremos, não capta possíveis variações entre seus limites. TEMA 2 – DESVIO MÉDIO O desvio médio é uma medida de dispersão que analisa a média dos desvios em torno da média de cada um dos valores da série e é calculado pela 6 média dos valores absolutos dos desvios. Representa a média das distâncias entre cada elemento da amostra e seu valor médio. Chamamos Dm o desvio médio e o calculamos pela fórmula: Dm = N f.xx onde é o módulo de cada desvio em relação à média e N é igual à soma das frequências. O módulo (| |) utilizado no cálculo do desvio médio possui a função de tornar o número positivo, assim, se a diferença entre o dado e a média resultar em um número positivo, ao se retirar o módulo ele continua positivo, e se for negativo, vira positivo. Como o desvio médio verifica o afastamento em relação à média, o primeiro passo é calcular a média. Depois, aplicamos a fórmula para encontrar o desvio médio. Exemplo 1 Suponha os seguintes dados que representem a quantidade de anos de vida útil de um equipamento eletrônico e determine o desvio médio desse conjunto de dados: 3 7 8 10 11 Para calcular o desvio médio, calculamos primeiramente a média. Lembre-se de que para calcular a média em dados não agrupados somamos todos os valores e dividimos pelo número de observações: N X X 8,7 5 39 5 1110873 X O segundo passo é aplicar a fórmula do desvio médio: Dm = N f.xx Primeiro, calculamos o desvio de cada valor em relação à média, ou seja, cada valor menos a média, que é 7,8. Os valores encontrados, xx 7 multiplicamos pela frequência, que é o número de vezes que o valor aparece. Por exemplo, se considerarmos o primeiro valor, que é 3, temos |3 – 7,8|.1, ou seja, o número 3 menos a média, que é 7,8 vezes 1, pois o número 3 aparece apenas uma vez. Repetimos esse processo para cada valor da série e, depois, dividimos por 5, que é o número de observações, ou seja, a quantidade de dados apresentados: Resolvendo a subtração dentro de cada módulo, temos: Agora, precisamos retirar os valores do módulo, lembrando que se o número for positivo ele continua positivo e o número negativo torna-se positivo, assim: Multiplicamos os valores pela frequência, somamos e dividimos por 5: Esse resultado indica que, em média, a vida útil desse equipamento eletrônico se desvia em 2,24 anos da média, que é de 7,8 anos. Exemplo 2 Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis, como mostra a tabela a seguir. Calcule o desvio médio. (Adaptado de Shiguti; Shiguti, 2006.) 5 18,71118,71018,7818,7718,73 Dm 5 12,312,212,018,018,4 Dm 5 1.2,31.2,21.2,01.8,01.8,4 Dm 5 2,32,22,08,08,4 Dm 24,2 5 2,11 Dm 8 O primeiro passo é calcular a média. Lembre-se de que, nesse exemplo, temos uma distribuição de frequência e que a média é calculada pela fórmula: N fX X . 6,2 10 26 X Agora, calculamos o desvio em relação à média. Para facilitar, incluimos uma nova coluna na tabela, identificando o cálculo |x – média|, assim para o primeiro valor da tabela, temos: |1 – 2,6| = |-1,6| = 1,6. Seguimos esse mesmo processo para os demais valores da tabela: Encontrados os valores dos desvios, devemos multiplicá-los pelas suas respectivas frequências, incluindo mais uma coluna chamada |x – média|*f. Para o primeiro valor, temos: 1,60 * 1 = 1,60. Seguimos esse processo para os demais valores da tabela e, depois, somamos todos os valores encontrados: 9 Para finalizar, aplicamos a fórmula do desvio médio: Dm = N f.xx A quantidade de veículos negociados por cada vendedor possui um desvio médio de 0,68 em torno dos 2,6 veículos comercializados em média. Para dados agrupados em classes ou intervalos, substituímos o X na fórmula do desvio médio pelo ponto médio de cada classe (Pm). N fxx Dm . N fxPm Dm . Dessa forma, para calcular o desvio médio em uma distribuição de frequência por classe, temos os seguintes passos: 1. calcular o ponto médio de cada classe; 2. calcular a média; 3. calcular o desvio em relação à média: 4. calcular o desvio médio. Exemplo 3 A tabela a seguir representa as notas obtidas por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o desvio médio. (Adaptado de Shiguti; Shiguti, 2006.) O primeiro passo é calcular o ponto médio de cada classe. Lembre-se de que, para calcular o ponto médio, utilizamos a fórmula: 2 LiLs Pm 68,0 10 80,6 Dm fxPm . 10 Considerando a primeira classe, temos: 40 2 3545 Pm Seguindo o mesmo processo para as demais classes, obtemos: No próximo passo, calculamos a média da distribuição de frequência utilizando a fórmula: N fPm X . Encontrada a média, precisamos calcular os desvios em relação a esse valor: Para primeira classe, temos: |40 – 62,24|*5 | -22,24|*5 = 22,24*5 = 111 24,62 58 3610 X fxPm . 11 Seguindo esse cálculo para as demais classes, e após somarmos os valores obtidos, temos: Por fim, aplicamos a fórmula do desvio médio: N fxPm Dm . A nota de cada aluno possui uma distância de 10,29 pontos do desempenho médio, que foi de 62,24 pontos. TEMA 3 – VARIÂNCIA E DESVIO PADRÃO A dispersão dos dados também pode ser calculada considerando os quadrados dos desvios médios. Segundo Castanheira, à média aritmética dos quadrados dos desvios damos o nome de variância, que pode ser calculada de duas formas: considerando uma população ou uma amostra. População: N f.)xx( S 2 2 No cálculo da variância de uma amostra, o denominador deverá ser (N – 1), ou seja: 1N f.)xx( S 2 2 onde x representa os dados, x é a média do conjunto de dados, f é a frequência com que o dado aparece e N é o número de observações. Como a 29,10 58 597 Dm 12 variância utiliza o quadrado dos desvios médios, o primeiro passo é calcular a média para depois aplicar as fórmulas indicadas. Ao analisar o resultado da variância, temos que, quanto maior for o seu valor, mais distante da média estarão os dados, e quanto menor, mais próximos os valores estarão da média, ou seja, se os desvios forem baixos, teremos pouca dispersão, e se forem altos, teremos elevada dispersão. Segundo Martins (2010), para melhor interpretar a dispersão de uma variável, calcula-se a raiz quadrada da variância, obtendo-se o desvio padrão. O desvio padrão também será calculado para uma população ou uma amostra: população: N f.)xx( S 2 amostra: 1N f.)xx( S 2 Podemos utilizar as fórmulas anteriores ou calcular a variância e, depois, tirar a raiz quadrada, assim: ²SS Exemplo 1 Suponha o conjunto de tempo de serviço de 5 funcionários e determine a variância e o desvio padrão desse conjunto de dados, considerando uma amostra. 3 7 8 10 11 O primeiro passo é calcular a média. Lembre-se de que, para dados não agrupados, somamos os dados e dividimos pela quantidade de observações: N X X 8,7 5 39 5 1110873 X 13 Depois de encontrada a média, calculamos a variância, verificando que o enunciado solicita a variância considerando uma amostra. Assim, utilizamos a seguinte fórmula: 1N f.)xx( S 2 2 15 1.)8,711(1.)8,710(1.)8,78(1.)8,77(1.)8,73( 222222 S 4 1.)2,3(1.)2,2(1.)2,0(1.)8,0(1.)8,4( 222222 S 4 1.24,101.84,41.04,01.64,01.04,232 S 4 24,1084,404,064,004,232 S 7,9 4 80,382 S Para finalizar, calculamos o desvio padrão tirandoa raiz quadrada da variância. 11,37,92 SS Exemplo 2 Considere os seguintes dados e calcule a variância e o desvio padrão considerando uma população. 40 45 48 52 54 62 70 Calcule a média desse conjunto de dados: 53 7 371 7 70625452484540 X Depois de encontrada a média, calculamos a variância, verificando que o enunciado solicita a variância considerando uma população. Assim, utilizamos a seguinte fórmula: N f.)xx( S 2 2 14 7 1)².5370(1)².5362(1)².5354(1)².5352(1)².5348(1)².5345(1)².5340(2 S 7 289811125641692 S 90 7 6302 S Para finalizar, calculamos o desvio padrão tirando a raiz quadrada da variância: 4868,9902 SS Exemplo 3 Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis, como mostra a tabela a seguir. Calcule a variância e o desvio padrão. (Adaptado de Shiguti; Shiguti, 2006.) Nesse exemplo, temos uma distribuição de frequência e precisamos calcular a variância. Logo, o primeiro passo é o cálculo da média. Lembre-se de que a média em uma distribuição de frequência é calculada pela fórmula: N fX X . 15 6,2 10 26 X Após o cálculo da média, calculamos o quadrado dos desvios em relação à média e multiplicamos o valor encontrado por sua respectiva frequência. Para o primeiro valor, temos: (1 – 2,6)². 1 = (-1,6)² . 1 = 2,56 . 1 = 2,56 Seguindo esse cálculo, para os demais valores da distribuição, temos: Somamos o valor encontrado em (x – x )².f e aplicamos a fórmula da variância para uma amostra, encontrando o seguinte valor: 1N f.)xx( S 2 2 71,0 9 4,6 110 4,62 S Tiramos a raiz quadrada da variância para encontrar o desvio padrão: 84,071,02 SS 16 Para uma distribuição de frequência por classe ou intervalos, substituímos na fórmula da variância o valor de x pelo ponto médio (Pm) de cada classe. Dessa forma, o primeiro passo será o cálculo do ponto médio, para depois calcular a média e a variância. população: N fxPm S .)( 2 2 amostra: 1 .)( 2 2 N fxPm S Exemplo 4 A tabela a seguir representa as notas obtidas por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule a variância e o desvio padrão da amostra. (Adaptado de Shiguti; Shiguti, 2006.) Nesse exemplo, temos uma distribuição de frequência por classe. Iniciamos calculando o ponto médio (Pm) e a média da distribuição: 17 N fPm X . Agora, calculamos os desvios: (Pm– x )². O resultado, multiplicamos pela frequência. Para a primeira classe, temos: (40 – 62,24) ² = (-22,24) ² = 495 495 . 5 = 2.473 Seguindo o mesmo processo para as demais classes e somando os valores obtidos, temos: Agora, calculamos a variância solicitada da amostra: 1 .)( 2 2 N fxPm S 158 94092 S 1,165 57 94092 S Para calcular o desvio padrão, tiramos a raiz quadrada da variância: 85,121,1652 SS No desvio padrão, obtemos valores altos sempre que ocorrem mudanças consideráveis nos dados analisados e valores baixos quando os dados são mais estáveis. Segundo Martins (2010), quanto maior o desvio padrão, maiores a dispersão e a amplitude total da distribuição. 24,62 58 3610 X 18 TEMA 4 – MEDIDAS DE ASSIMETRIA De acordo com Castanheira (2010), a média corresponde ao centro de gravidade dos dados; a variância e o desvio padrão medem a variabilidade, mas a distribuição dos pontos sobre um eixo ainda tem outras características que podem ser medidas – uma delas é a assimetria. A assimetria complementa as medidas de posição e dispersão, pois proporciona uma descrição e a compreensão mais completa das distribuições de frequências, já que as distribuições também se diferenciam quanto à sua forma. Definimos assimetria como o grau de afastamento de uma distribuição da unidade de simetria, pois indica o grau de deformação de uma curva de frequências. Quando uma distribuição é simétrica, temos a igualdade dos valores de média, mediana e moda, conforme figura abaixo: Figura 1 – Distribuição simétrica Uma distribuição assimétrica pode ser assimétrica positiva, também chamada de assimétrica à direita, ou assimétrica negativa, também chamada de assimétrica à esquerda. Em uma distribuição assimétrica positiva a média é maior que a mediana e a moda, ou seja, X >Md > Mo, conforme observamos na figura a seguir: Figura 2 – Assimetria à direita ou positiva 19 Na distribuição assimétrica negativa, temos que a média é menor que a mediana e a moda, assim, X < Md < Mo, conforme observamos na figura a seguir: Figura 3 – Assimetria à esquerda ou negativa Existem várias fórmulas para o cálculo do coeficiente de assimetria. Dentre eles, estudaremos o coeficiente de assimetria de Pearson. O 1º coeficiente de assimetria de Pearson é calculado por: S MoX As Além do 1º coeficiente, podemos calcular o 2º coeficiente de Pearson aplicando a seguinte fórmula: S MdX As ).(3 Analisando o valor do coeficiente, temos: AS = 0, a distribuição é simétrica; AS > 0, a distribuição é assimétrica positiva ou à direita; AS < 0, a distribuição é assimétrica negativa ou à esquerda. Exemplo 1 Uma empresa inspecionou 50 componentes eletrônicos para determinar o tempo de vida útil desse componente, obtendo a distribuição que vemos a seguir. Calcule o 1º coeficiente de assimetria de Pearson. 20 Tempo (horas) Frequências 1200 |--- 1300 1 1300 |--- 1400 3 1400 |--- 1500 11 1500 |--- 1600 20 1600 |--- 1700 10 1700 |--- 1800 3 1800 |--- 1900 2 Para calcular o 1º coeficiente de Pearson, precisamos dos valores de média, moda e desvio padrão. Na Aula 2, calculamos a média e a moda obtendo os seguintes resultados: média: Tempo (horas) Frequências PM PM.f 1200 |--- 1300 1 1250 1250 1300 |--- 1400 3 1350 4050 1400 |--- 1500 11 1450 15950 1500 |--- 1600 20 1550 31000 1600 |--- 1700 10 1650 16500 1700 |--- 1800 3 1750 5250 1800 |--- 1900 2 1850 3700 50 77700 1554 50 77700 X moda: 1011 100.10 1500 Mo 21 1000 1500 Mo 62,154762,471500 Mo Para calcular o desvio padrão, seguimos os passos indicados no Tema 3 desta aula: 21 desvio padrão: Tempo (horas) Frequências PM (PM – Média)² (PM – Média)².f 1200 |--- 1300 1 1250 92416 92416 1300 |--- 1400 3 1350 41616 124848 1400 |--- 1500 11 1450 10816 118976 1500 |--- 1600 20 1550 16 320 1600 |--- 1700 10 1650 9216 92160 1700 |--- 1800 3 1750 38416 115248 1800 |--- 1900 2 1850 87616 175232 50 719200 55,14677 49 719200 ² S 15,12155,14677² S Agora, calculamos o 1º coeficiente de assimetria de Pearson aplicando os valores obtidos na fórmula: S MoX As 15,121 62,15471554 sA 0052662,0 15,121 38,6 sA Exemplo 2 Considere uma distribuição de frequência que apresente média igual a 88, mediana igual a 82 e desvio padrão igual a 40. Calcule o 2º coeficiente de Pearson. Com os valores fornecidos no enunciado, calculamos o coeficiente aplicando a fórmula: S MdX As ).(3 40 )8288.(3 sA 45,0 40 18 40 )6.(3 sA 22 TEMA 5 – MEDIDAS DE CURTOSE Segundo Castanheira (2010), a curtose indica o quanto uma distribuição de frequências é mais achatada ou mais afilada do que uma curva padrão, a qual é denominada de curva normal. A curva normal ou distribuição normal será estudada na Aula 5. Ao realizar a análise em relação ao achatamento, temos que a distribuição normal é chamada de mesocúrtica, em que os dados estão uniformemente distribuídos. As distribuições mais achatadas que a normal são as platicúrticas, em que os dados estão bem dispersos em relação à média. Às distribuições
Compartilhar