Baixe o app para aproveitar ainda mais
Prévia do material em texto
Notas de Aula de Introdução à Estatística Professor Kleison Freitas 2017.1 Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 2 Informações Sobre a Disciplina - Apresentação: Cursando a disciplina de Introdução à Estatística, o acadêmico poderá utilizar a ferramenta estatística na tomada de decisões que tangem às funções empresariais ou acadêmicas, através de uma postura crítica e reflexiva. - Objetivos 1. O aluno compreenderá o uso da estatística na prática do seu curso de formação; 2. Entenderá a metodologia de uma pesquisa estatística, desde o entendimento do briefing até a sua eficaz execução, com foco na inferência estatística; 3. Utilizar a objetividade e a probabilidade como uma base nas tomadas de decisões; 4. Simultaneamente desenvolver cálculos básicos da estatística e interpretá-los. - Metodologias: Utilizar as técnicas estatísticas através de aulas expositivas possibilitando o discente na resolução de problemas em sua área de atuação e formação. - Sistema de Avaliação: Haverá 3 avaliações parciais durante o semestre. A média do aluno será composta pela média aritmética das notas das avaliações. Se a Média ≥ 7, o aluno estará aprovado por média. O aluno estará reprovado se a Média < 4. Na situação de 4 ≤ Média < 7, o aluno deverá submeter-se a uma avaliação final (AF) e sua média final será dada por: Média Final Após AF = (Média + AF)/2. Nesse caso, o aluno será aprovado se AF 4 e MF 5. - Sistema de frequência: O aluno deve ter no mínimo 75% de frequência. Se o aluno tiver acima de 24 faltas estará reprovado por falta, visto que cada aula são duas faltas ou duas presenças, respectivamente. O aluno deverá administrar as suas faltas. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 3 Informações Sobre o Professor Kleison Freitas Graduação Curso: Estatística Instituição: Universidade Federal do Ceará - Ano de Conclusão: 2004 Pós-Graduação Curso: Mestrado em Logística e Pesquisa Operacional Instituição: Universidade Federal do Ceará - Ano de Conclusão: 2009 Curso: MBA em Administração e Marketing Instituição: Centro Universitário Internacional Uninter – Paraná – SC - Em andamento Experiência no Magistério 1. Professor da Universidade Federal do Ceará (UFC). Setor de estudo: Probabilidade e Estatística. Departamento de Estatística e Matemática Aplicada (DEMA) do Centro de Ciências. Cursos em que já ministrou/ministra aulas: Biblioteconomia, Ciências Atuariais, Ciências Biológicas, Ciências Contábeis, Computação, Engenharia de Alimentos, Engenharia Elétrica, Engenharia Mecânica, Engenharia Metalúrgica, Engenharia de Pesca, Geografia, Química, Matemática e Publicidade e Propaganda. Desde Abril de 2006. 2. Professor das Faculdades Nordeste (FANOR)/Devry Brasil. Cursos de graduação em que ministrou/ministra aulas: Administração, Ciências Contábeis, Construção de Edifícios, Engenharia Ambiental, Engenharia Civil, Engenharia Elétrica, Engenharia de Produção, Engenharia Química, Gestão Comercial, Logística, Marketing, Nutrição, Processos Gerenciais, Psicologia, Recursos Humanos e Sistema de Informação. Disciplinas: Estatística, Bioestatística e Pesquisa Operacional. Desde Agosto de 2007. Curso de pós-graduação em que ministrou/ministra aulas: MBA´s em Negócios. Disciplina: Métodos Quantitativos e Pesquisa Operacional. Desde Abril de 2010 Disciplina: Métodos Quantitativos e Pesquisa Operacional. Desde Abril de 2010 mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 4 Calculadoras Sugeridas e Obrigatórias Modelo Casio fx 82 MS ou HP – Modelo: 12C Bibliografia Recomendada TRIOLA, M. F. Introdução à Estatística. 11ª Edição. Rio de Janeiro. Livros Técnicos e Científicos, 2013. MORETIN, L. G. Estatística básica: Probabilidade e Inferência. Volume único. São Paulo: Pearson, 2010. LAPONNI, J.C. Estatística Usando o Excel. 4ª Edição. Editora Campus, 2005. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 5 Nota de Aula 1 – Introdução Geral à Estatística 1. ESTATÍSTICA: É uma ciência que utiliza teorias probabilísticas para explicar a frequência da ocorrência de eventos, tendo como objetivo maior obter, organizar e analisar dados, a fim de estimar a previsão de fenômenos, conforme o caso estudado. De forma prática e didática, a estatística se resume na: A estatística é uma ciência importante, útil e com um escopo abrangente de aplicação em negócios, administração política física e ciências sociais, dentre outras áreas, quase ilimitado. Na prática empresarial e industrial, a Estatística é uma ferramenta-chave e segura para entender sistemas variáveis, controlar processos, sumarizar dados e tomar decisões baseados nos mesmos. 1.1. Aplicações: Algumas ciências utilizam à estatística como uma ferramenta própria, possuindo-a com suas terminologias próprias, como sendo: Bioestatística: É o planejamento, coleta, avaliação e interpretação de todos os dados obtidos em pesquisa na área biológica, médica e áreas da saúde em geral; Estatística Econômica ou Econometria: É um ramo da estatística direcionado para a análise de fenômenos econômicos; Estatística aplicada à Engenharia: É um ramo da estatística que estuda as suas aplicações no controle de processos de produtos e serviços, no planejamento de novas estratégias de produção, nas vendas, no controle de qualidade, em ensaios destrutivos e não destrutivos, com o objetivo de verificar a porcentagem de peças não conforme as especificações ou a probabilidade de vida de equipamentos ou peças, dentre outras; Estatística Física: É o ramo da física que através da estatística analisa sistemas físicos de alta complexidade, com elevado número de entidades constituintes, como os átomos, as moléculas, os íons, entre outros; Estatística aplicada à Contabilidade: A estatística é utilizada na área da contabilidade para comparar o sexo de carteira de clientes, para comparar cargos de funcionários da empresa, onde se compara o custo gasto colocando os mais importantes acima da pirâmide para comparação entre cargos similares, variação e montagem na estrutura de cargos e salários, contagem de estoque, de imobilizado, perdas, juros, dentre outros; Coleta de Dados Tratamento dos Dados Apresentação dos Resultados mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 6 Estatística Populacional: É o ramo da estatística relacionado à população e à demografia (área da ciência geográfica que estuda a dinâmica populacional humana, ou seja, as taxas de natalidade, mortalidade, imigração, emigração, densidade populacional, IDH, dentre outros); Estatística Social: É o ramo da estatística que avalia fatores relativos à realidade social, econômica e ambiental de um país e seu uso para a formulação e a avaliação de políticas públicas; Estatística Comercial; Estatística Psicológica; Dentre outras áreas. 1.2. Origem: A palavra estatística originou-se da expressão latina statisticum, que significa “Estado”, que depois de várias significados, surgiu em alemão a palavra statistik que significa “análise de dados sobre o Estado”. O Estado teve fundamentalimportância na origem da Estatística como ciência, pois originalmente, as estatísticas eram colhidas para as finalidades relacionadas com o Estado, como os recenseamentos, por exemplo. Como disciplina, só no século XIX é que se estruturou, mas já era conhecida desde a antiguidade, há mais de 4 mil anos. Nas decisões do dia-a-dia, o indivíduo há de forma direta ou indireta que se basear em dados observados para isso. Por exemplo, ao decidir pelo seguro de um carro de uma determinada seguradora, geralmente, este procura verificar se este seguro satisfaz as suas necessidades, ou seja, se o seu preço é compatível com o seu orçamento, além de outras características. Posteriormente, compara se dados deste seguro com o de outras seguradoras e, através de uma análise processada internamente em sua mente, toma-se a decisão de adquiri-lo ou não. Essa analogia não difere na realização das pesquisas científicas, que tem por objetivo responder as indagações ou comprovar as hipóteses elaboradas pelo pesquisador. E para isso, é preciso, inicialmente, coletar dados que possam fornecer informações relevantes para responder esses questionamentos, mas para que os resultados da pesquisa sejam confiáveis, tanto a coleta de dados quanto a sua análise devem ser feitas de forma criteriosa e objetiva. Para isso, o planejamento eficaz da realização de uma pesquisa científica é necessário. Mas para isso é necessário entender o que realmente é uma pesquisa. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 7 1.3. Variáveis: São as características associadas ao objeto de estudo investigado ou do experimento realizado. Podendo ser: Qualitativas ou Categorizadas: São variáveis que exprimem qualidade do elemento investigado. Podendo ser: Nominal: Quando o dado se apresenta sob o aspecto qualitativo e não importa a ordem de disposição delas, ou seja, não há uma hierarquia embutida. Exemplos: Tipo de espécie de uma planta, Tipo de adubo utilizado, Área da Biologia pretendida, Gênero de pacientes de um hospital, dentre outros. Ordinal: Quando há uma hierarquia embutida, ou seja, um grau de relevância de um indivíduo para outro mediante suas características. Exemplos: Classe social, Grau de instrução, Desempenho (ótimo, bom, regular, ruim e péssimo), Cargo dos funcionários na empresa, Grau de dor (forte, moderada ou leve), dentre outros. Quantitativas ou Numéricas: São atributos resultantes de uma contagem ou mensuração. Podendo ser: Discreta: São todas as variáveis numéricas cujos valores se obtém a partir de procedimento de contagem originado de um conjunto amostral finito ou enumerável. As variáveis discretas assumem valores inteiros. Exemplos: Número de peixes encontrados em um rio, Número de pacientes vacinados contra uma doença, dentre outros. Contínua: São variáveis numéricas cujos valores são obtidos por procedimento de mensuração (ou não enumerável), de sorte que ao menos teoricamente, os resultados das medidas são capazes de variações insensíveis ou contínuas. As variáveis contínuas podem assumir qualquer valor num intervalo contínuo e são quantificadas em uma escala infinita de valores, por isso, diz-se que as variáveis contínuas são muito informativas. Exemplos: Peso, Altura, Temperatura, Espessura, Velocidade, Idade, Renda (em Reais), dentre outros. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 8 Nota de Aula 2 – Inferência Estatística - Amostragem 1. INTRODUÇÃO: O profissional, na grande maioria das vezes, trabalha com limitações de tempo, escassez financeira, de recursos humanos, de produtos, de materiais, dentre outros, impedindo-o de analisar afundo o processo como um todo, mas de um lado não se faz necessário estudá-lo por inteiro, pois a Estatística defende que apenas o estudo de uma parcela deste pode atender de forma eficaz às necessidades desejadas. Desta forma, quando se deseja estudar uma população (ou universo) específica, o pesquisador tem duas formas possíveis de fazê-lo, ou de forma censitária, o que exige a observação de todos os elementos que formam essa população, ou analisar apenas uma parcela que represente este universo, ou seja, uma amostra. A finalidade da amostragem é permitir fazer suposições, predições, generalizações (ou inferências) acerca de características de uma população com base na análise de apenas alguns de seus elementos. Essa técnica é amplamente utilizada em diversas situações do dia-a-dia das empresas e de vários pesquisadores, de várias áreas profissionais, pois proporciona economia de recursos, de tempo, rapidez nos resultados e maior controle. No caso das indústrias, a verificação da qualidade de seus produtos, é um exemplo disto, pois é impossível analisar todos os produtos fabricados, pois muitos deles após a análise não podem ser mais comercializados, desta forma, isto implica em prejuízo para a empresa, portanto recorrer a um estudo de amostragem é o indicado. Outro exemplo, é analisar a opinião de moradores de um determinado bairro de um município em que analisar todos além de alto custo, é demorado e inacessível a todos. Desta forma, conhecer e entender os procedimentos básicos aplicáveis à realização de estudos estatísticos por inferência e por consequência utilizando uma amostra significativa, é uma condição si ne qua non para qualquer profissional de qualquer área, que queira ter uma segurança e consistência nas tomadas de decisões. Assim, para se inteirar do assunto, alguns conceitos iniciais são necessários: 2. CONCEITOS INICIAIS: 2.1. Inferência Estatística: É o processo de generalização do universo a partir de resultados particulares, ou seja, consiste em obter e generalizar conclusões para o todo com base no particular, isso quer dizer que a partir de amostras tiram-se conclusões para a população. 2.2. População (N): É o conjunto de todos os elementos que possuem em comum determinadas características de interesse para uma pesquisa. Por exemplo: Pessoas, Maquinários, Soluções Químicas, Produtos, dentre outros. Quanto ao tamanho, a população pode ser classificada como finita ou infinita. Desta forma, as finitas são as que possuem um tamanho limitado de elementos, em que é possível identificar do primeiro até o último componente populacional, analogamente, as infinitas são aquelas cujo número de elementos é mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 9 ilimitado, ou seja, impossível de identificar o último indivíduo. Assim, a população, nesse caso é tão grande que é dificultoso a sua análise com precisão. Portanto, a escolha em analisar toda a população (censo) é uma decisão arbitrária do pesquisador. Desta forma, os pesquisadores que optarem em utilizar o censo terão que verificar a seguinte medida estatística conhecida como parâmetro. 2.3. Parâmetro: É a medida usada para descrever uma característica numérica da população em estudo e para isso é necessário uma análise integral desta. Assim, como na prática este procedimento se torna inviável, seu valor é quase sempre desconhecido, na maioria das vezes. Um exemplo prático de parâmetro é a Idade média de todos os alunos de uma sala de aula, ou seja, a média () e a variância (2), são exemplos de parâmetros. Muitos pesquisadores defendem que o censo proporciona uma precisão incontestável nos resultados estatísticos, pois todo o universo é analisado. No entanto, essa precisão pode ser contestada por diversos fatores, dentre eles, as mudanças comportamentais dos componentes da população, nos casos em que a pesquisa demanda período longo, ou por erros de coleta de dados, como informações inverídicas,dentre outras. Então, para abster-se desses fatores que o censo pode causar de forma implícita e, muitas das vezes, explícita, a utilização da amostragem é uma solução, pois a mesma permite que o pesquisador, ao contrário do censo, cometa alguns “equívocos” previsíveis e aceitáveis ao estudo, mas para que esses “equívocos” sejam toleráveis, faz-se necessário que o pesquisador entenda estatisticamente o que é amostragem. 2.4. Amostra (n): É uma parcela significativa de uma população, ou seja, uma parte da população que a representa estatisticamente. Os pesquisadores que optarem em utilizar o processo de amostragem terão que utilizar as seguintes medidas estatísticas conhecidas como estimativa e margem de erro. 2.5. Estimativa: É o valor numérico do estimador obtido com base nos resultados amostrais. Um exemplo prático de estimativa é a Idade média de uma parte significativa dos alunos de uma sala de aula, ou seja, a média amostral ( x ), a variância amostral (S²), são exemplos de estimadores. 2.6. Margem de Erro (e): Um estudo em que se optou na utilização da amostragem como método de coleta de dados, sempre apresentará uma “falha” embutida nas suas análises, visto que não se analisou todo o universo. Essa “falha” é conhecida como margem de erro (ou erro amostral), e tem uma relação forte e inversamente proporcional com o tamanho da amostra e dos resultados que foram obtidos com a pesquisa, ou seja, quanto maior for a quantidade de elementos pesquisados, menor a quantidade de erros cometidos, ou mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 10 seja, menor a margem de erro, mas em contra partida, maior o custo financeiro da mesma. E vice-versa quando o tamanho amostral for menor. Um exemplo prático de margem de erro é visto nas pesquisas eleitorais em que através de uma amostragem de eleitores um determinado candidato aparece com um percentual de tantos por centos de aceitação ao pleito, levando-se em consideração a margem de erro tolerável de tantos pontos percentuais para mais ou para menos, ou seja, ele estará entre x% e y% dentro da margem de erro, isso quer dizer que, se fosse analisada toda a população de eleitores, existem uma possibilidade de que no dia da eleição o resultado percentual do candidato fique entre x% e y%. A margem de erro é definida, na grande maioria das vezes, antes da coleta de dados, para evitar assim retrabalho aos pesquisadores do estudo, pois caso a margem de erro fique muito alta (acima de 5% para mais ou para menos), o retrabalho é inevitável ocasionando um custo a mais a quem encomendou a pesquisa, e isso ocorre, na prática, por falta de planejamento amostral adequado ao estudo almejado. Assim, para planejar um estudo estatístico com uso de amostragem faz-se necessário conhecer dois processos básicos de amostragens, as amostras não probabilísticas e as probabilísticas. 3. TÉCNICAS DE AMOSTRAGEM: 3.1. Amostras Não Probabilísticas: Uma amostra é não probabilística (ou não casual ou não aleatória), quando a probabilidade de seleção de cada unidade amostral da população é desconhecida. Nesse caso, não se podem supor os resultados obtidos para o universo da população, visto que a amostra, por ser não probabilística é não significativa. Desta forma, devem ser evitadas, porque além de não conhecer a margem de erro e a confiabilidade, introduzem tendenciosidade (ou viés ou vício) na seleção das unidades e estimação das mesmas, ou seja, distorcendo os dados do estudo para uma determinada direção. As amostras não probabilísticas mais comuns são: a) Amostras por Conveniência: As amostras por conveniência ocorrem quando as unidades a serem analisadas estão mais acessíveis ao pesquisador de acordo com as conveniências sociais, econômicas, de tempo, dentre outras. É um tipo de amostragem que é vantajosa por ser rápida, de baixo custo e de fácil acessibilidade, mas não há nada que a credite estatisticamente. b) Amostras por Cotas: São amostras em que se leva em conta a porcentagem de alguma(s) característica(s) da população de origem. c) Amostras por Julgamento ou Intencional: É uma forma de amostragem por conveniência na qual os elementos populacionais são selecionados com base no julgamento arbitrário do pesquisador, ou seja, o pesquisador identifica os elementos que corroborarão com o objetivo do seu estudo sem o risco de fugir mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 11 deste objetivo pré-definido, ou seja, não há uma escolha aleatória dos elementos pesquisados e sim o contrário. d) Amostras de Voluntários: Quando a pesquisa inclui alguns procedimentos perigosos, difíceis ou dolorosos, desta forma a amostragem de sujeitos voluntários é a mais indicada, pois somente voluntários estarão dispostos a participar. O problema deste tipo de amostragem é que ao ser colocado um anúncio em uma rede social, por exemplo, para recrutar voluntários, só responderão pessoas muito especiais, como por exemplo, pessoas aventureiras, ou as pessoas mais corajosas ou as mais motivadas. E muita das vezes, este tipo de pessoa, nem faz parte do público-alvo do estudo. 3.2. Amostras Probabilísticas: Uma amostra é probabilística (ou ao acaso ou aleatória) quando cada unidade amostral tem uma probabilidade conhecida e diferente de zero de ser escolhida frente a população de origem, garantindo, se for realizada de forma correta, a isenção de vícios. As técnicas de amostragem probabilística consistem em Amostra Aleatória Simples, Amostra Aleatória Estratificada, Amostra sistemática e Amostra por Conglomerado: a) Amostra Aleatória Simples (AAS): Selecionado por um processo ao qual a probabilidade de escolha de todos os elementos é a mesma para todos, ou seja, a população de origem é consideração homogênea, pois os seus elementos têm características parecidas entre si. a1) Fórmula para determinação do tamanho da amostra com AAS: Fonte: Barbetta (2001) Onde: N = Tamanho da população n = Tamanho da amostra Se a confiança do estudo for de 95%, de acordo a tabela da Normal Padrão: ² 1 0 e n , onde e = margem de erro. Se a confiança for 96%: ² 06,2 0 e n Se a confiança for 97%: ² 17,2 0 e n Se a confiança for 98%: ² 33,2 0 e n Se a confiança for 99%: ² 575,2 0 e n Se a confiança for 99,9%: ² 3 0 e n 0 0. nN nN n mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 12 OBS 1: O n0 representa a primeira aproximação do tamanho da amostra (n) caso não se conheça o N. OBS 2: Caso conheça o N seja muito grande (tender para o infinito), não é necessário considerar o seu tamanho exato. Neste caso, o cálculo da primeira aproximação (n0) já é suficiente para o cálculo. OBS 3: Uma amostra aleatória simples pode ser selecionada escrevendo os elementos da população, numerados de 1 a N, em N cartões, misturando-os numa urna e sorteando, “sem reposição”, n desses cartões. Ou seja, a amostra consiste daqueles elementos da população, cujas identificações correspondem aos números selecionados. Existirão )!(! ! nNn N n N amostras possíveis diferentes de tamanho n. Nesse caso, haverá dependência nas retiradas, pois o fato de não recolocar o elemento retirado afeta a probabilidade de o elemento seguinte ser retirado. OBS 4: A amostra aleatória simples pode ser também “com reposição” consiste em selecionar n elementos um de cada vez, a partir dos elementos da população (N), repondo o elemento sorteado na população antes do próximo sorteio. Com tal procedimento, qualquerelemento pode ser sorteado mais do que uma vez. Nesse caso, haverá independência entre as retiradas, pois o fato de recolocar o elemento retirado não afeta a probabilidade de o elemento seguinte ser retirado. OBS 5: É bom lembrar que a partir de um determinado número da população a ser investigada, a amostra não sofre variação considerável para mais ou para menos e, portanto, não adianta aumentar o número amostral, imaginando que poderá haver mais resultados porque este não sofrerá alteração significativa. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 13 Exemplo 1 – Estudo sobre Indicadores de Saúde: Um epidemiologista é contratado pela prefeitura de Fortaleza para conhecer a quantidade de pessoas que frequentaram um determinado posto de saúde da capital no mês passado e verificar se estas pessoas são ou não vacinados contra a febre amarela e se, além disso, conhecem as formas de prevenção e os sintomas e malefícios advindos da doença. Com isso, o profissional contratado conseguiu levantar com o administrativo do posto que a quantidade de pessoas atendidas na emergência do posto no mês passado foi de 2.356. Assim, quantas pessoas deverão ser pesquisadas neste mês para responder aos questionamentos que possa levar a prefeitura tomar uma decisão com o resultado obtido, se for considerado: a) Uma margem de erro de 4%, com uma confiança de 95%? b) Se diminuirmos a margem de erro para 2%, qual será o tamanho da amostra (n), mantendo a mesma confiança de 95%? c) E se pesquisássemos 2000 pessoas, qual seria a margem de erro, com a confiança de 95%? Baseado nos itens anteriores: d) Se para a prefeitura o que importa é o resultado estatístico da pesquisa, qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê? e) Se para a prefeitura o que importa é o quanto ela vai pagar pela pesquisa, ou seja, o custo da mesma, qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê? f) Se para a prefeitura o que importa é o resultado estatístico da pesquisa e ao mesmo tempo com menor custo, qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê? mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 14 b) Amostra Aleatória Estratificada (AAE): Muitas vezes a população se divide em subpopulações (ou estratos), sendo razoável supor que em cada estrato a variável de interesse analisada apresenta um comportamento substancialmente diverso, ou seja, a população é considerada heterogênea, mas homogêneo dentro de cada estrato. Assim, deve-se adotar um tipo de amostragem que represente bem as diferentes características dentro de cada um dos grupos, podendo ser, por exemplo, proporcional ao tamanho de cada um deles. Exemplo 2 – Estudo na área da Ecologia e Meio Ambiente: Um estudante de Ciências Biológicas deseja estudar se existe diferença significativa entre o número de plantas com e sem flores localizadas dentro do Campus do Pici da Universidade Federal do Ceará, em relação às estações do ano (primavera, verão, outono e inverno), visto que há pressuposições de que, em geral, as plantas tendem a florescer mais no período da primavera do que nos outros períodos por causa dos recursos naturais disponíveis com abundância. Assim, o pesquisador selecionou aleatoriamente 3 blocos (bloco 906, 909 e 903) dentro do campus e contou a população de plantas de todas as espécies classificadas de pequeno porte localizadas no solo e o resultado foi de 15, 45 e 33 quantidades, respectivamente na estação atual. Para evitar a existência de vícios, uma amostra de plantas será analisada utilizando um critério estatístico proporcional por cada bloco, onde serão minuciosamente analisadas e terão o número de flores contadas, e assim sucessivamente durante as outras estações ao longo do ano. A partir disto pergunta-se, através de uma amostra aleatória estratificada proporcional e um confiança de 97%, quantas plantas serão analisadas por bloco? c) Amostra Sistemática (AS): Esse tipo de amostragem é uma variação da amostragem aleatória simples, mas que exige que um sistema aleatoriamente seja definido. Segue abaixo outros tipos de exemplos de amostras sistemáticas: Exemplo1: Um engenheiro de controle da qualidade seleciona cada centésima fonte de computador que passa em uma esteira transportadora. Exemplo2: Um professor retira da população para compor a amostra os alunos aleatoriamente escolhidos que possuem o algarismo “0” como último número da sua matrícula. Exemplo3: Uma indústria tem 900 máquinas e o engenheiro de produção deseja uma amostra formada por 50 máquinas para uma pesquisa. Pode-se, neste caso, usar o seguinte procedimento: Como 900/50 = 18, escolhe-se por sorteio casual um número de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra, os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se supor que o número sorteado fosse 4, a amostra seria: 4ª máquina, 22ª máquina, 40ª máquina, 58ª máquina, 76ª máquina, dentre outros. Ao final, pode-se voltar ao início para completar a quantidade amostral a pesquisar. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 15 d) Amostra por Conglomerado: Primeiramente, na amostra por conglomerado, a população-alvo é dividida em estratos mutuamente exclusivos e coletivamente exaustivos. Após isso, reduz-se, arbitrariamente, a quantidade de estratos a serem analisados. Após isso, sorteiam-se quais grupos serão pesquisados e por fim, define-se qual o tipo de amostra probabilística deverá ser utilizada (AAS, AAE ou AS). Podendo também, se assim o pesquisador desejar, utilizar o censo nos grupos selecionados para coleta de dados. Com isso, a amostragem por conglomerado tem duas grandes vantagens: a viabilidade e o baixo custo, ou seja, a que traz o menor custo-benefício, se comparado às outras técnicas probabilísticas disponíveis. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 16 Nota de Aula 3 – Correlação e Regressão Linear 1. INTRODUÇÃO: Diversas decisões tomadas no dia-a-dia das empresas envolvem informações do tipo: volume de vendas previsto para subsidiar a área de produção, demanda estimada de produtos que indique se e quais equipamentos devem ser comprados, ou qual o lucro projetado para justificar determinados investimentos (CORRAR, 2009). Ainda de acordo o autor, dado um ambiente organizacional em contínua transformação, o que se procura é reduzir incertezas. Desta forma, os gestores demandam informações que os auxiliem a escolher, hoje, as que parecem ser as melhores alternativas sobre eventos que ocorrerão no futuro. Assim, permitir a antecipação de cenários futuros é a proposta dos modelos quantitativos de previsão, pois estes envolvem dados históricos e podem ser de dois tipos: por séries causais ou séries temporais. Corrar (2009) defende que os modelos causais estudam os fatores que tem influência sobre a variável a ser estimada, e a análise de regressão é um exemplo desse tipo de modelo. Já os modelos de séries temporais, por sua vez, envolvem projeções baseadas, exclusivamente, nas observações do passado da variável que se deseja estudar. Assim, esta nota de aula trata de modelos de séries temporais e de sua utilidade para as diversas áreas do conhecimento, mas para isso faz-se necessário relembrar os assuntos de Correlação de Pearson e Regressão Linear Simples. 2. CORRELAÇÃO LINEAR:O estudo de correlação mostra uma forma de medir quanto e de que maneira se relacionam duas variáveis quantitativas por meio do qual se pode analisar a relação existente das variáveis em estudo, ou seja, qual alteração deve esperar em uma das variáveis, como consequência de alterações sofridas pela outra variável, ou seja, uma relação de causa de efeito. Para entendimento dessa relação entre duas variáveis, segue alguns exemplos práticos: o frio está para o setor farmacêutico, assim como o dia das mães está para o comércio, pois as vendas de medicamentos não controlados, como analgésicos, antigripais e vitaminas, disparam. Outro exemplo é o faturamento das empresas de energia elétrica é diretamente influenciada pela temperatura, especialmente no verão, onde a demanda por energia aumenta, pelo uso de ar condicionado e ventiladores, fazendo com que as empresas produtoras de energia aumentem seus lucros. De forma similar, par ao consumo de água, desta forma em Fortaleza, por exemplo, nos meses que ocorre o verão (dezembro até meados de março), o consumo de água nas residências aumenta de forma significativa. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 17 A priori essa relação pode ser verificada com auxílio de um gráfico de dispersão bidimensional, que será definido como eixo x, a variável causa e y, a variável efeito, como segue: 2.1. Interpretação subjetiva do gráfico de dispersão: x y Correlação Positiva entre x e y x y Forte correlação Positiva entre x e y x y Correlação Positiva perfeita entre x e y Assim, a importância de tal determinação decorre do fato de que a presença de uma correlação pode conduzir-nos a um método para estimar a variável y (efeito) utilizando a variável x (causa). mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 18 2.2. Outliers: Os conhecidos como outliers, são os pontos discrepantes, ou as observações extremas que não são condizentes com o restante da massa de dados, conforme o Gráfico abaixo. As causas mais prováveis da ocorrência de outliers pode ser o registro incorreto dos dados, algum defeito no instrumento de medição utilizado, dentre outros. Caso isso ocorra, o outlier deve ser se possível, corrigido, em extremo caso eliminado. Desta forma, deve-se dar a devida atenção à causa de tais anomalias, pois esses dados discrepantes podem ser úteis para descobrir a causa dessa ocorrência. Como as conclusões tiradas de gráficos de dispersão tendem a ser subjetivas, necessita-se de métodos mais precisos e objetivos. Então se utiliza o coeficiente de correlação linear de Pearson para detectar padrões lineares. 2.3. Coeficiente de Correlação de Pearson ( xyR ): O Coeficiente de Correlação de Pearson mede o grau de associação entre as duas variáveis analisadas, podendo ser fraca ou forte. Para isso, a notação matemática que permite verificar essa associação é a que segue: n Y Y n X X n YX XY Rxy 2 2 2 2 Assim, o valor de Rxy deve pertencer ao intervalo -1 Rxy 1, e a sua interpretação é a seguinte: 0,00 Rxy 0,69 = Correlação fraca + 0,70 Rxy 1,00 = Correlação forte + -0,69 Rxy 0,00 = Correlação fraca - -0,70 Rxy -1,00 = Correlação forte - x y Outlier Diretamente proporcional: x y Inversamente proporcional: x y mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 19 Contudo, em geral, uma correlação forte não é sinônima de uma relação causa-efeito entre as amostras ou variáveis. Há situações em que um coeficiente de correlação próximo de um ou de um menos um não significa que a maioria dos pares de valores esteja contida em uma reta (será visto em regressão linear). Desta forma, o simples conhecimento do coeficiente de correlação não é suficiente devido a anomalias na dispersão dos dados, por isso é recomendada a construção do gráfico de dispersão das amostras para melhor compreender o resultado, pois em alguns casos, a relação de causa e efeito pode ser provocada por um ou mais fatores ocultos, uma variável não considerada na análise. Por exemplo, suponha que o número de vendas diárias de um jornal e a produção diária de ovos tenha uma forte correlação positiva. Não se pode afirmar que o aumento do número de jornais vendidos resulte no aumento da produção de ovos. Para compreender a forte correlação positiva, devem-se procurar fatores ocultos, por exemplo, o aumento de riqueza da população que resulta em aumento de demanda dos dois produtos ao mesmo tempo, jornais e ovos. Conhecer a relação significativa entre as variáveis é de extrema importância para que assim o investigador possa realizar suas previsões com mais segurança, assim, faz-se necessário conhecer o que é regressão linear. 3. REGRESSÃO LINEAR SIMPLES: Como visto anteriormente, o coeficiente de correlação (Rxy) apenas não mede com segurança a relação causa-efeito entre duas variáveis, apesar de essa relação poder estar presente. Por exemplo, uma correlação fortemente positiva entre as variáveis x e y não autoriza afirmar que variações da variável X provocam variações na Y, ou vice-versa. Entretanto, em uma regressão linear, a relação causa e efeito deve ser definida no início da análise. Em muitas pesquisas estatísticas, o objetivo principal é estabelecer relações que possibilitem predizer uma ou mais variáveis em termos de outras. Assim, é que se fazem estudos para predizer os seguintes exemplos: Temperatura de uma cidade com relação ao consumo de medicamento para gripe; Perda de peso de uma pessoa em decorrência do número de semanas que se submete a uma dieta de 800 calorias-dia; Despesa de uma família com médico e com remédio em função de sua renda; Consumo per capita de certos alimentos em função do seu valor nutritivo e do gasto com propaganda na TV; Taxa de juros em função da inflação; Salário em função da escolaridade do trabalhador. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 20 Assim, no estudo de regressão linear simples, utilizam-se duas amostras (ou duas variáveis) e se objetiva em analisar a reta que melhor explica a relação entre essas duas variáveis, tendo previamente definido a variável independente (ou resposta ou causa) e a variável dependente (ou preditora ou efeito). A origem do termo “regressão” remonta a Francis Galton (1822 a 1911), que por volta de 1855, investigava relações entre características antropométricas de sucessivas gerações. Uma de suas constatações era de que “cada peculiaridade de um homem é transmitida aos seus descendentes, mas, em média, numa intensidade menor”. Por exemplo: embora pais com baixa estatura tendem a ter filhos também com baixa estatura, estes têm altura média do que a altura média de seus pais. O mesmo ocorre, mas em direção contrária, com pais com estatura alta. A esse fenômeno de a altura dos pais mover-se em direção à altura média de todos os homens ele chamou de regressão. O termo regressão remete ao passado, ou seja, para se fazer previsões estatísticas é necessário conhecer o passado (ou histórico) das variáveis de causa e efeito da empresa. Caso a empresa não possua estes dados e quiser fazer previsões, a saída é buscar dados do seu concorrente. 3.1. Equação da reta: Uma vez que o comportamento entre as variáveis tende para uma relação linear, o próximo passo consiste em buscar determinar a respectiva equação de regressão linear simples. Toda retapode ser representada pela seguinte expressão matemática y = a + bx, onde x e y são as variáveis e a e b, seus respectivos coeficientes. Sendo: a = Coeficiente linear ou ponto que intercepta o eixo vertical y, ou seja, valor de y para x = 0 b = Coeficiente angular ou Declividade da reta, ou seja, a variação de y por unidade de variação de x. O gráfico da equação y = a + bx é uma linha reta. Na prática, os valores de a e b costumam ser estimados. Para obter os valores dos coeficientes a e b, recorremos ao Cálculo Diferencial. Sendo: 3.2. Coeficiente de determinação (R²): Indica a proporção da variação total da variável dependente que é explicada pela variação da variável independente, ou seja, mede a confiabilidade da previsão a ser realizada. Assim, quanto maior for o R², melhor será o poder de explicação da reta de regressão. A diferença do coeficiente de correlação (Rxy) para o coeficiente de determinação (R²), é que o primeiro mede a força da relação linear entre as variáveis, enquanto que o R² mede a explicação da reta de regressão. ²² ² xxn xyxxy a n x x n yx xy b ² ² mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 21 Dessa maneira, para apreciar o ajuste de uma reta, é melhor utilizar o coeficiente de determinação que mede o sucesso da regressão em explicar y, ou seja, o R² verifica quantos por centos de y pode ser explicado por x, o restante (%) são os sem explicação. 4. SÉRIES TEMPORAIS: Segundo Corrar (2009), uma série temporal é um conjunto de observações sequenciais de determinada variável, expressas numericamente, obtidas em períodos regulares de tempo. Assim, a análise de séries temporais baseia-se na premissa segundo a qual os fatores que influenciaram o comportamento dos dados no passado continuam influenciando seus movimentos futuros. Desta forma, os dados coletados de uma série temporal podem sofrer a influência de diversos fatores, como: alterações macroeconômicas, mudanças no padrão tecnológico vigente, variações nas condições de natureza, ou mesmo podem ser afetados por fenômenos imprevisíveis, e por consequência disso, os dados podem sofrer alguma tendência (sazonalidade, por exemplo), que consiste em mudanças nos dados, fazendo-os serem no formato linear (diretamente ou inversamente proporcional), ou no formato de uma curva, como por exemplo, a exponencial, polinomial, potencial, dentre outras (Quadro 1). Tipo de Função Equação Original Equação Linearizada Variável X Variável Y Linear y = a + b.x y = a + b.x x y Exponencial y = a.ebx ln y = ln a + b.x x ln y Potência y = a.xb ln y = ln a + b.ln x ln x ln y Logarítmica y = a + b.ln x y = a + b.ln x ln x y Quadro 1: Principais transformações lineares Fonte: Adaptado de Corrar (2009) mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 22 Exercício 1 – Estudo sobre Biologia animal – Mamíferos: Em um levantamento da fauna de uma caverna, um biólogo deseja estimar o peso dos morcegos capturados utilizando o diâmetro da cabeça dos mesmos. Para isso, o pesquisador capturou aleatoriamente 10 amostras de morcegos através de uma armadilha e obteve as seguintes medidas contidas no Quadro abaixo: Assim, através dos dados: a) Faça o gráfico de dispersão b) Calcule o Coeficiente de Correlação de Pearson c) Através do Método de Regressão Linear, encontre a equação de previsão. d) Faça uma previsão de que se um morcego qualquer for capturado no mesmo local onde os dados foram coletados e este tiver o diâmetro cefálico de 3cm qual será o peso corporal dele? e) Essa previsão tem uma confiança de quantos porcentos? Morcego Diâmetro Cefálico (cm) Peso corporal (g) 1 2,5 57 2 4,5 78 3 4 72 4 2 58 5 6 89 6 3 63 7 4 75 8 5 84 9 3 75 10 1 48 mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 23 Anexo 1 – Manual da Calculadora Cientifica e HP 12C para Correlação e Regressão Linear Modelo: Casio fx 82MS 1. Calcular Coeficiente de Correlação (Rxy): Colocar no modo que aceita valores de x e y: Clicar em Mode 3 (Reg) 1 (Lin) Digitar os seguintes pares ordenados (valores de x e) na calculadora: Digitar: 2,5 (tecla do lado do M+) 57 M+ 4,5 (tecla do lado do M+) 78 M+ ... 1 (tecla do lado do M+) 48 M+ Encontrar o valor do Coeficiente de Correlação (Rxy): Clicar em Shift 2 (S-VAR) clicar na seta localizada em Replay duas vezes para a direita Clicar no número 3 = Aparecerá 0,9575 (Valor do Coeficiente de Correlação = 95,75%). 2. Calcular “a” e “b” da Regressão Linear: Não desligar a calculadora. Com os dados já digitados ir em: Clicar em Shift 2 (S-VAR) clicar na seta localizada em Replay duas vezes para a direita Clicar no número 1 = Aparecerá 40,675 (Valor do “a”). Clicar em Shift 2 (S-VAR) clicar na seta localizada em Replay duas vezes para a direita Clicar no número 2 = Aparecerá 8,35 (Valor do “b”). Diâmetro Cefálico (cm) Peso corporal (g) 2,5 57 4,5 78 4 72 2 58 6 89 3 63 4 75 5 84 3 75 1 48 mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 24 HP – Modelo: 12C Passos para o procedimento completo: 1º) Digitar os pares ordenados na calculadora: y Enter x + 2º) Achar o valor de “a”: 0 g 2 3º) Armazenar o valor de “a”: Clicar em STO 0 4º) Achar o coeficiente de Correlação: Clicar em x y 5º) Achar o valor de a + b: Clicar em 1 g 2, depois Valor de b: Clicar em RCL (Recuperar o valor de b) 0 - mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 25 Anexo 2 – Correlação e Regressão Linear com uso do Microsoft Excel CORRELAÇÃO: 1º Passo: Abrir o arquivo que encontra o banco de dados no Excel ou digitar os valores da tabela acima; Identificar quais são as variáveis quantitativas e qual delas será x (causa) e y (Efeito); 2º Passo: Construção do gráfico de dispersão entre x e y: Selecionar as variáveis Diâmetro Cefálico (x) e Peso corporal (y) Inserir gráfico escolher gráfico de dispersão xy (ou Ponto) Avançar Clicar em “OK”. Formatação do gráfico: Apagar a legenda Título: Clique com botão direto do mouse dentro do gráfico: Opções do gráfico Em Título: digitar “Relação entre Diâmetro Cefálico (cm) versus Peso corporal (g)”. Formatar os eixos “x” e “y”, sendo Diâmetro Cefálico (cm) e Peso corporal (g), respectivamente; Letra Times New Roman, tamanho 11; Verificar se os dados do gráfico seguem uma tendência linear. Se sim, calcula-se a correlação linear entre as variáveis x e y; 2º Passo: Fazer estudo de correlação linear entre x e y: Procedimento 1: Com a ferramenta FUNÇÃO: Posicione o cursor em um local abaixo do banco de dados para visualizar o resultado; Clicar em Inserir função Em selecionar uma categoria, escolha “Estatística” Selecione uma função: CORREL OK Em matriz 1: selecione todos os dados da variável x, em matriz 2: selecione todos os dados da variável y, inclusive com o título. Caso esqueça de selecionar o título, o programa calcula a correlação mesmo assim. Com isso sairá o resultado da correlação entre x e y = 0,9575 = 95,75% Diâmetro Cefálico (cm) Peso corporal (g) Diâmetro Cefálico (cm) 1 Peso corporal (g) 0,95751 mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 26 Procedimento 2: Com a FERRAMENTA ANÁLISE DE DADOS: Clicar em Inserir Ferramentas Análise de dados Clicar na função Correlação OK Em intervalo de entrada, selecionar tudo que compõe o banco de dados, inclusive o título Clicar também em “Rótulos na primeira linha”, pois caso não clique, o programa não conseguirá ler o banco de dados, pois você está informando a ele que a primeira linha do banco de dados são as variáveis Agrupados por coluna Clicar em Nova saída OK. O resultado será: PARA A REGRESSÃO LINEAR SIMPLES: Procedimento 1: Através da ferramenta FUNÇÃO: Para encontrar o valor de “a” (o intercepto), que é representado pela fórmula: CUIDADO para definir qual variável é x (independente) e qual é y (dependente), pois contrário o resultado de a e b será errado. Clique em Inserir função INTERCEPÇÃO Selecione os dados da variável y, inclusive o título, e os dados da variável y. Resultará: a = 40,675 Para encontrar o valor de “b” (o coeficiente angular, ou seja a inclinação da reta), que é representado pela fórmula: Clique em Inserir função INCLINAÇÃO Selecione os dados da variável y, inclusive o título, e os dados da variável y. Resultará: b = 8,35 Portanto a equação de previsão será: y = a + bx, ou seja, y = 40,675 + 8,35x, que representa: Peso = 40,675 + 8,35. Diâmetro Cefálico ²² ² xxn xyxxy a n x x n yx xy b ² ² mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 27 Procedimento 2: Através da ferramenta ANÁLISE DE DADOS: Clique em Ferramentas Análise de dados Regressão OK Selecione separadamente a variável y e a variável x, inclusive os títulos Clique em rótulos Nova planilha. O que iremos utilizar segue abaixo: Estatística de regressão R múltiplo 0,957527 R-Quadrado 0,916858 R-quadrado ajustado 0,906466 Erro padrão 3,975707 Observações 10 Onde o Coeficiente de determinação (R²) é igual a 0,9169, ou seja, 91,69% dos dados estão sendo explicados pela equação y = 40,675 + 8,35x, e 0,0831 = 8,31% não estão sendo explicados pela reta encontrada. Coeficientes Interseção 40,675 Diâmetro Cefálico (cm) 9,73 O quadro acima mostra os coeficientes a e b da reta de regressão. Procedimento 3: Através do GRÁFICO DE DISPERSÃO: Clique em algum dos pontos do gráfico com o botão direito: Clicar em Adicionar linha de tendência Clicar em Linear Ir em Opções: Clicar em exibir equação do gráfico e Exibir valor de R² no gráfico, e sairá a y = 40,675 + 8,35x e R² = 91,69%. Assim: mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 28 Fazendo previsões matemáticas com uso da equação de regressão linear: Se o diâmetro cefálico for de 2,5cm, 3cm e 3,5cm, assim, a projeção para cada um dos diâmetros estipulados será de: mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 29 Nota de Aula 4 – Medidas Descritivas para dados não agrupados 1. INTRODUÇÃO: Para a maioria das pessoas, estatística significa descrever números da forma mais entendível possível, como por exemplo, as taxas mensais de desemprego no Brasil após a alta do dólar no mercado atual, o índice de falências empresariais ocorridas no Brasil de 2010 para cá, a proporção de mulheres que assumem cargos de CEO no mercado brasileiro nos últimos dois anos, a proporção de eleitores que votarão em um determinado candidato nas próximas eleições, o nível de satisfação de clientes de uma determinada loja de conveniência de um determinado Shopping Center, dentre outros. Todos esses exemplos representam descrições estatísticas de um conjunto de dados coletados sobre algum fenômeno e para isso não é preciso usar a inferência estatística ainda, pois o objetivo aqui é apenas descrever estatisticamente essas informações. A descrição estatística dos dados verifica a localização central e a variabilidade desses dados através de médias, medianas, modas, variâncias, desvios-padrão e coeficientes de variação. Ainda, há métodos ilustrativos que possibilitam uma melhor interpretação deles, como os gráficos, dos quais pode-se citar os histogramas, os diagramas de ramo-e-folhas, os diagramas de pontos, os gráficos de caixa (box-blot), dentre outros. A descrição dos dados se dá em duas formas, tanto para dados agrupados em classes como para dados não agrupados. Esta nota de aula verificará apenas os dados não agrupados, e está divido em medidas de tendência central e medidas de dispersão. 2. MEDIDAS DE TENDÊNCIA CENTRAL As chamadas medidas de tendência central têm por objetivo verificar o centro da distribuição dos dados, ou seja, verificar através de medidas específicas o centro do conjunto de dados. As medidas de tendência central mais utilizada são a média aritmética, a moda e a mediana. As usadas com menos frequências são as médias geométricas, harmônicas, quadráticas, cúbicas e biquadráticas. As outras medidas de posição usadas com menos intensidade são as separatrizes, que englobam: a própria mediana através dos decis, dos quartis e dos percentis. Para início desta nota de aula, a primeira medida de tendência central a ser analisada é a média aritmética simples, como segue: mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 30 2.1. Média Aritmética Simples: É definida como sendo o quociente da soma de todos os valores de um conjunto de dados pelo total de valores deste conjunto. Média amostral Média populacional n x X n i i 1 N x N i i 1 , Onde xi = Valores da variável n = Número de valores da amostra N = Número de valores da população OBS1: A média por ser influenciada por todos os valores do conjunto de dados é considerada como uma medida sensível, ao contrário das outras medidas de tendência central existentes. Propriedades: a) A média de um grupo de dados sempre será única, independente da sua localização; b) A soma algébrica dos desvios tomados em relação à média é sempre nula: n i i Xx 1 0 c) O resultado de multiplicar a média pela quantidade “n” de valores da variável x é igual a soma dos “n” valores da variável; d) Somando-se ou subtraindo-se uma constante “c” (valor invariável) a todos os valores de uma variável, a média do conjunto ficará aumentada ou diminuída dessa constante, respectivamente, de forma análoga, se multiplicar ou dividir, a média ficará multiplicada ou dividida, respectivamente. n cx X n i i 1 e n cx X n i i 1 . e n c x X n i i 1 Falando ainda de média, há a média aparada, que não é tão utilizada na prática estatística pois a mesma tende a manipular o resultado final desta medida de tendência central, mas vale a pena conhecer o que é este tipo de medida como segue no próximo tópico. 2.1.1. Média Aparada: Uma média aparada é calculada aparando-se certa porcentagem dos maiores ou menores valores do conjunto de dados. Por exemplo, para calcular a média aparada de 10%, deve-se eliminar 10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valoresque sobraram. Podendo-se usar de forma arbitrária a porcentagem a ser retirada da amostra para um novo cálculo. Ao mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 31 contrário da média aritmética, a média aparada é uma medida resistente, pois não sofre influência dos valores extremos. A segunda medida de tendência central a analisar é a moda, como segue no próximo tópico. 2.2. Moda (Mo): Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante. Na Estatística, como o próprio nome sugere, a Moda é aquele elemento que mais vezes aparece no conjunto de dados. Não é muito sensato dizer que a moda é uma medida de tendência central, pois nem sempre ela representa o centro do conjunto de dados, visto que ela identifica o(s) valor(es) que ocorre(m) com maior frequência, podendo ser único, se existir, como pode também não existir. Nesse caso, é mais correto chamá-la de medida de posição. Quando dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda. Das diferentes medidas de tendência central, a moda é a única medida que pode ser usada com dados em nível nominal de mensuração, conforme o exemplo 1: Exemplo 1: Um estudo sobre tempos de reação de pessoas em um teste foi composto por 30 canhotos, 50 destros e 20 ambidestros. Embora não possamos tomar a média numérica dessas características, podemos afirmar que a moda é destro, que é a característica com maior frequência. Quando no conjunto há apenas um valor que se repete além dos demais de forma máxima, chama- se este conjunto de unimodal, bem como se tiver dois valores que se repete além dos demais, de forma máxima e na mesma quantidade é bimodal, assim acima de 2 modas é multimodal. Se o conjunto de dados não tiver nenhum valor que se repete além dos demais de forma máxima, o conjunto de dados é amodal. OBS2: Se o conjunto de dados tiver os valores: 1, 1, 2, 2, 3, 3, o conjunto é multimodal, pois todos os valores se repetem 2 vezes, ou seja, a frequência é a mesma para todos. Agora se for: 1, 2, 3, 4, é amodal, pois não há repetição de valores. E se for: 10, 10, 10, 10 é unimodal, pois o valor 10 é o que ocorre com maior frequencia. A terceira medida de tendência central a ser analisada é a mediana. Muitos confundem a mediana com a média, mas são medidas completamente diferente, tanto na sua forma de encontrar quanto na sua interpretação, como segue no próximo tópico. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 32 2.3. Mediana (Md): A mediana é uma medida de tendência central que ocupa a posição central dos dados observados, quando estes estão ordenados em ordem crescente ou decrescente (rol), tendo uma mudança na sua realização se a quantidade de dados é par ou ímpar. Sendo assim, se o conjunto de dados (n) é constituído por um número ímpar de dados, a mediana é o valor que fica no centro dos dados ordenados que pode ser encontrado através da seguinte notação: 2 1n Pelo exemplo 2, como segue, é possível verificar como é a realização da mediana para uma quantidade ímpar de valores. Exemplo 2: Notas de alunos de um determinado professor de matemática: 8 7 3 4 8 Solução: Ordenar os dados: 3 4 7 8 8 Mediana (Md) = Interpretação: Agora, se o conjunto de dados (n) é constituído por um número par de dados, a mediana é a média aritmética dos dois valores que ficam na posição central dos dados ordenados que pode ser encontrado através da seguinte notação: 2 1 22 nn Pelo exemplo 3, como segue, é possível verificar como é a realização da mediana para uma quantidade par de valores. Exemplo 3: Notas de alunos de um determinado professor de matemática: 8 7 3 4 8 9 Solução: Ordenar os dados: 3 4 7 8 8 9 Mediana (Md) = Interpretação: A mediana tem como vantagem a não afetação por valores extremos, ao contrário da média aritmética, por isso a mediana é uma medida mais “robusta” (forte) que a média, pois na média qualquer alteração nos dados, modifica-se o valor da média, e a mediana nem sempre isso acontece. Depois de verificado as três medidas de tendência central que são utilizadas com maior freqüência, dentre as três, a média aritmética é a medida mais usada na tomada de decisão, pois a mesma é encontrada mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 33 com uso de todos os valores do conjunto de dados, ao passo que a mediana e a moda não utiliza todos eles, e sim alguns ou nenhum dos valores (amodal), apresentado resultados “distorcidos” da realidade dos dados apresentados. Quando se descreve os dados, além das medidas de tendência central, é necessário analisar a variabilidade dos dados, pois através destas pode-se tirar algumas conclusões mais consistentes na tomada de decisão. Assim, o próximo item mostrar as medidas de variabilidades mais utilizadas no campo estatístico. 3. MEDIDAS DE DISPERSÃO: Ao se fazer a descrição dos dados, além de verificar o centro da distribuição deles através das medidas de tendência central é prescindível verificar também se os dados se comportam de forma homogênea ou heterogênea, e isso será possível através das medidas de dispersão. Essa verificação é importante, pois através delas podem-se tomar decisões mais consistentes e eficazes. Um exemplo disso eram que os bancos, há uns anos atrás, costumavam exigir que os clientes formassem filas separados para os diversos guinches, mas atualmente passaram adotar a fila única. O motivo dessa modificação foi que o tempo médio de espera era o mesmo para ambos os formatos de filas, não afetando a eficiência dos caixas, mas a adoção de fila única ocorreu ao fato de os clientes preferirem tempos de espera com menor variação. Assim, é que milhares de bancos efetuaram essa modificação que resultou em uma variação menor (e clientes mais satisfeitos), mesmo que a média de tempo de atendimento não tenha sido afetada. Com isso, pode-se concluir que as medidas de dispersão avaliam a variabilidade dos dados com relação à sua média. As medidas de dispersão mais usadas são a amplitude total, variância, desvio padrão e coeficiente de variação. 3.1. Variância (S²): A variância é uma medida de dispersão que mensura a variabilidade dos dados, através da soma do quadrado dos desvios pela quantidade de valores da variável menos um (n-1) no caso amostral, e por N se for populacional. Pela propriedade “b” da média aritmética, verifica-se que a soma dos desvios será sempre zero, fazendo com que o pesquisador suponha que não há desvio (ou variabilidade) no conjunto de dados analisado, mas se todos os valores não forem iguais, haverá variabilidade sim, mas mesmo assim sempre somando os desvios o resultado será zero. Nesse caso, para que esse problema seja contornando, eleva-se os desvios ao quadrado, ocasionando a não anulação dos mesmos. Com isso, a notação matemática da variância é: mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 34 Variância amostral Variância populacional 1 1 2 2 n Xx S n i i N x n i i 1 2 2 , onde xi = Valores da variável xi = Valores da variável X = Média aritmética simples µ = Média populacional n = Número de valoresda amostra N = Número de valores da população Propriedades: a) A variância de uma constante “c” é igual a zero; b) Ao somar ou subtrair uma mesma constante “c” a todos os valores do conjunto de dados, a variância não ficará alterada; c) Se multiplicar ou dividir cada valor do conjunto de dados por uma mesma constante “c”, a variância ficará multiplicada ou dividida, respectivamente, pela constante ao quadrado (c²). Mas, mesmo elevando os desvios ao quadrado, surge o seguinte questionamento: E se ao invés de elevar cada desvio ao quadrado e depois somar, não seria melhor utilizar o módulo, em que os desvios resultam em valores absolutos e depois utilizar a soma deles? Ou seja, assim: n i i Xx 1 ? E após isso, dividir tudo pela quantidade de valores (n), obtendo aí o desvio médio dado pela seguinte notação n Xx DM n i i 1 ? A resposta para essa pergunta é não, pois o módulo fará com que os desvios negativos fiquem positivos, apresentando uma realidade distorcida dos dados. Ao elevar ao quadrado, todos os desvios são elevados ao quadrado e não somente alguns, portanto, o melhor a ser utilizado é a variância porque ela dá certeza absoluta que as amostras são diferentes. Já o módulo não dá essa informação de variabilidade, ao contrário, ele nos dá evidências de que as amostras são iguais. Por exemplo: Suponha que uma turma fez uma prova e a média desta foi 7,0, e um aluno tirou 8,0, ou seja, a dispersão foi de 1 ponto para mais (8 - 7 = 1 ponto). Se outro aluno tirar 6,0, a dispersão é 1 ponto para menos (6 – 7 = -1 ponto). Se usar o módulo, a dispersão ao invés de ser -1 e 1, será 1 e 1, mostrando que não há dispersão das notas dos dois alunos, ou seja, ao invés de um aluno ter tirado a nota 6 e o outro a nota 8, ambos tiraram a nota 8, pois o desvio com o uso do módulo foi 1 ponto para mais. Mas mesmo a variância sendo considerada a ideal para tomar decisões sobre a variabilidade dos dados, a mesma apresenta um grande problema com unidade de medida dos dados que a compõem, pois mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 35 estes serão elevados ao quadrado, dificultando assim a sua interpretação, pois se a unidade de medida for em metro, será metro quadrado, se for em centímetro, ficará centímetro ao quadrado e assim por diante. Para contornar esse problema e verificar os dados com a unidade de medida original, aconselha-se tirar a raiz quadrada da variância. Nesse caso, chega-se a outra medida de dispersão, o chamado desvio padrão, mas antes de analisar esta medida de dispersão, faz-se necessário se atentar para as seguintes observações: OBS3: Para um melhor entendimento da divisão por “n-1” na fórmula da variância e não por “n” apenas, é que a variância trabalha encima de “n-1” valores, pois se subtende que pelo menos um valor é a própria média (não havendo dispersão de um valor, nesse caso). Portanto, a variabilidade será entre “n-1” valores e não “n”. Por exemplo, sejam os seguintes valores: 1, 2 e 3, a média é “2”, ou seja, um valor é a própria média, mas dois valores não, ou seja, 2 = n-1 = 3-1 = 2. Mas isso não tem 100% de certeza não, pois tem casos em que a média não é igual ao conjunto de valores. OBS4: Observe que no cálculo da variância amostral (S²), deve-se dividir a soma dos quadrados dos desvios por “n-1”e não por “n” apenas. Isso se dá, pois através de estudos que serão vistos em Estimação de Parâmetros, a variância amostral (S²) tende a estimar de forma distorcida a variância populacional (²) se for dividido apenas por “n”, então para que S² seja um estimador não viciado ou não tendencioso de ² deve-se dividir por “n-1”. Há uma demonstração que prova que E(S²) = ², mostrando que a esperança da variância amostral é igual a variância populacional, ou seja, a variância amostral com divisão da sua fórmula por “n-1” representa de forma eficaz e inferencial a variância populacional, sem ter analisado a população em si. OBS5: Quando o tamanho da amostral é suficientemente grande (é usual considerar um valor de n superior a 30) não há praticamente diferença entre S² e ², assim pode-se dividir por “n-1” ou por “n”, respectivamente que o resultado será aproximadamente o mesmo, pois, para comprovação S²/² será aproximadamente 1, não fazendo diferença nenhuma nos cálculos. Agora, se n for menor que 30, essa divisão será bem menor que 1 mostrando que não é a mesma coisa, devendo assim não deixar de dividir por n-1 se for o amostral e por n se for o populacional. Após, as observações anteriores, faz-se necessário verificar a medida de dispersão realmente utilizada na tomada de decisão, o desvio padrão. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 36 3.2. Desvio Padrão (S): O desvio padrão é uma medida de variabilidade dos valores com relação à média deles, mas ao contrário da variância, esta medida utiliza-se à mesma unidade de medida dos dados originais, por isso esta é utilizada com maior frequência que a variância (S²). A notação matemática do desvio padrão, que é a raiz quadrada da variância é como segue: 1-n )(x n 1i 2 i X S A última medida de dispersão a ser analisada é o coeficiente de variação, como segue no próximo tópico. 3.3. Coeficiente de Variação de Pearson (CV): O coeficiente de variação é uma medida de dispersão relativa que avalia o quanto o desvio padrão representa com relação à média aritmética de um conjunto de dados. Assim, quanto menor for o CV, mais homogêneo será o conjunto de dados, ou seja, com menor variabilidade entre eles, caso contrário haverá uma grande variabilidade. Assim, a notação do coeficiente de variação é a seguinte: 100 X S CV Mas para afirmar se os dados são ou não passíveis de grandes ou pequenas variabilidades, adota-se o ponto de corte percentual como segue: Se CV < 50% (Há baixa dispersão entre os dados, ou seja, eles são homogêneos) Se CV 50% (Há alta dispersão entre os dados, ou seja, eles são heterogêneos) mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 37 Exercício 1: Estudo de análise de risco no desenvolvimento de doenças através da Estatística Descritiva: O sódio é um metal alcalino utilizado para dar sabor e tempo de prateleira aos produtos doces e salgados. O excesso do consumo desse tipo de metal pode causar ao organismo do ser humano a hipertensão, problemas cardíacos, cálculos renais, retenção de líquidos, dentre outros. A Tabela Brasileira de Composição de Alimentos (TACO, Ministério da Saúde) informa que para cada 1 e ½ fatia de pão de forma (50g) deve-se ter em média 0,190g de sódio com margem de erro de 0,019g para mais (não podendo ultrapassar 0,209g) para não comprometer a saúde de seus consumidores. Assim, um engenheiro de alimentos tirou uma amostra de 5 fatias aleatórias, por pacote de pão de forma (de 500g) da marca Pullman, de 10 tipos disponíveis nos supermercados de Fortaleza e anotou-se as seguintes quantidades de sódio, sendo: Calcule e Interprete: a) Média b) Moda c) Mediana d) Variância e) Desvio Padrão f) Coeficiente de Variação. Os dados são homogêneos ou heterogêneos? g) De acordo o Ministério da Saúde, quais marcas estão reprovadas com relação a quantidade de sódio existente? Tipos de Pão de Forma Sódio (g) Zero % 0,208g 12 grãos zero 0,219g Integral 0,152g 12 grãos vitagrão 0,164g Vitagrão granola 0,143g Tradicional (sem casca) 0,219g Tradicional (com casca) 0,218g Tradicional XL 0,219g Milho 0,159g Coco 0,141g mailto:kleisonn@yahoo.com.brNotas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 38 4. SEPARATRIZES: Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um conjunto de dados, pois são afetados, de forma exagerada por valores extremos, ou seja, são medidas sensíveis. Então analisar outras medidas de posição, com as separatrizes, se faz necessário, assim segue as medidas: Quartis: Dividem os valores ordenados (em ordem crescente ou decrescente) da variável em quatro partes iguais através de três quartis (Q1, Q2 e Q3), ou seja, (25% abaixo, 50% abaixo e acima, 25% acima). Exemplo 4: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas, calcule os quartis: 2; 5; 6; 9; 10; 13; 15 OBS: O conjunto de dados é ÍMPAR (n = 7), assim: 2 5 6 9 10 13 13 Q1 = P25 Md = Q2 = P50 = D5 Q3 = P75 Solução: valor n Q 2 4 17 4 1 1 = 5 anos 25% das pessoas tem idade abaixo de 5 anos e 75% acima. valor n MdQ 4 2 17 2 1 2 = 9 anos 50% pessoas tem idade abaixo de 50% anos e 3 acima. valor n Q 5,5 4 121 4 13 3 = Pega-se o 6º valor = 13 anos 75% tem idade abaixo de 13 anos e 25% acima. Exemplo 5: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas, calcule e interprete os quartis: 1; 1; 2; 3; 5; 5; 6; 7; 9; 9 OBS: O conjunto de dados é PAR (n = 10), mas ao dividir os dados ao meio sobram 5 valores para um lado e 5 para o outro, ou seja, ao dividir fica uma quantidade ímpar para um lado e para o outro, assim: Quantidade Ímpar de Valores Quantidade Ímpar de Valores 1 1 2 3 5 5 6 7 9 9 Q1 = P25 (5 + 5)/2 = 5 Q3 = P75 mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 39 5 2 55 2 65 2 1 2 10 2 10 2 1 22 2 nn MdQ Quartis: Ao dividir o conjunto de dados em duas partes iguais, ficam 5 valores para um lado e 5 valores para o outro, ou seja, uma quantidade ímpar para um lado e uma quantidade ímpar para o outro, assim, para calcular o quartil 1 e quartil 3, deve-se utilizar a fórmula para o caso ímpar e não par, assim: 23 4 110 4 1 1 valor n Q 78 4 110*3 4 13 3 valor n Q Exemplo 6: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas, calcule e interprete os quartis: 1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13 OBS: O conjunto de dados é PAR (n = 12). Ao dividir os dados ao meio ficam 6 valores para um lado e 6 para o outro, ou seja, fica uma quantidade par para um lado e uma quantidade par para o outro, assim, as fórmulas devem ser, nesse caso as pares, assim: Quantidade Par de Valores Quantidade Par de Valores 1 1 2 3 5 5 6 7 9 9 10 13 Q1 = (2+3)/2 = 2,5 Q2 = (5 + 6)/2 = 5,5 Q3 = (9+9)/2 = 9 5,5 2 65 2 76 2 1 2 12 2 12 2 1 22 2 nn MdQ Quartis: Ao dividir o conjunto de dados em duas partes iguais, ficam 6 valores para um lado e 6 valores para o outro, ou seja, uma quantidade par para um lado e uma quantidade par para o outro, assim, para calcular o quartil 1 e quartil 3, deve-se utilizar a fórmula para o caso par, assim: 5,2 2 32 2 43 2 1 4 12 4 12 2 1 44 1 nn Q anos mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 40 9 2 99 2 109 2 1 4 36 4 36 2 1 4 3 4 3 3 nn Q anos Decil: Divide o conjunto de dados em 10 partes iguais: D1 = 10%, D2 = 20%,.., D10 = 100% Decil 1 = Representa os 10% menores e os 90% maiores Percentil: Divide a série em 100 partes iguais: P1 = 1%, P2 = 2%,.., P100 = 100% Assim: Md = Q2 = D5 = P50 Q1 = P25 Q3 = P75 5. BOX-PLOT Quando tentamos descrever a aparência de uma pessoa conhecida, tendemos a focar características como altura, peso, idade e comprimento do cabelo. Do mesmo modo, quando descrevem distribuição de dados, estatísticos estão propensos a indicar a tendência central, dispersão, assimetria e outras características. No entanto, diz-se que uma imagem vale mais por mil palavras. A foto de uma pessoa é muito mais útil para provocar uma impressão em relação à aparência do que uma lista de seus atributos. Figura 1: Modelo de Box-Plot Da mesma maneira que uma representação gráfica de uma distribuição é muito mais eficiente do que uma lista de estatísticas (LEVIN, FOX e FORDE, 2012). E dentre as representações gráficas utilizadas, existe o Box-Plot (também conhecido como Box and whisker plot), que foi proposto em 1977 por John Tukey. Assim, o Box-Plot (Figura 1) é um tipo de representação gráfica conveniente para revelar tendências centrais, dispersão, distribuição dos dados e a presença de outliers (dados discrepantes). A construção de um Box-plot exige o “resumo dos cinco números”, ou seja, o menor valor do conjunto de dados, o primeiro quartil, o segundo quartil, o terceiro quartil e o maior valor do conjunto de dados. mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 41 5.1. Interpretação do Box-Plot: O gráfico de Box-plot interpreta-se da seguinte forma: • A caixa (Box) propriamente contém a metade 50% dos dados (Q2 = Mediana). O limite superior da caixa indica o percentil de 75% dos dados (Q3) e o limite inferior da caixa indica o percentil de 25% (Q1). A distância entre esses dois quantis (Q3 – Q1) é conhecida como intervalo interquartílico (IIQ ou Tamanho da caixa). • Limite Inferior: Percentil 1 e Limite Superior: Percentil 9; • A linha no meio da caixa indica o valor de mediana (Q2) dos dados. • Se a linha mediana dentro da caixa não é equidistante (ter a mesma distância) dos extremos, diz-se então que os dados são assimétricos (à direita ou à esquerda). • Os extremos do gráfico indicam o valor mínimo e máximo, a menos que valores outliers estejam presentes. • Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers. 5.2. O que é melhor utilizar: Amplitude Total ou o Intervalo Interquartílico? Para descrever a distribuição de um grande número de dados, a amplitude total perde grande parte de sua confiabilidade, pois ela utiliza apenas os valores extremos, tornando uma medida grosseira de variabilidade. Já o intervalo interquartílico usa os valores concentrados em torno do centro de uma distribuição, visto que esta medida inclui 50% dos valores do meio na distribuição quando estes são organizados em ordem de tamanho. Exemplo 7: Sejam os conjuntos de dados: Conjunto de dados 1: 40 48 53 56 62 65 94 Resultados: Amplitude Total = 94 – 40 = 54 Q1 = 48 Q3 = 65 IIQ = Q3 – Q1 = 65 – 48 = 17 Média aritmética = 59,71 Desvio Padrão = 17,28 CV = 29% Conclusão: Pela amplitude total, a variabilidade dos dados não difere o que não é verdade, o que justifica o não grande uso dessa medida. Conjunto de dados 2: 40 48 53 62 85 94 Resultados: Amplitude Total = 94 – 40 = 54 Q1 = 48 Q3 = 85 IIQ = Q3 – Q1 = 85 – 48 = 37 Média aritmética = 63,67 Desvio Padrão = 21,43 CV = 34% mailto:kleisonn@yahoo.com.br Notas de Aula Introdução à Estatística
Compartilhar