Baixe o app para aproveitar ainda mais
Prévia do material em texto
TEMA: INTRODUÇÃO A ESTATÍSTICA AULA 2 Autor – Celso G. Van-Dúnem Paquete MD, Analytics Objectivos • Capacitar os técnicos com conhecimento básicos sobre estatística; • Fornecer bases para uso e aplicações do método estatístico; • Apresentar os cálculos das principais medidas de tendência central e de dispersão para dados não agrupados; Sumário • Introdução • O Método Estatístico • Medidas de Tendência Central • Média • Moda • Mediana • Medidas de Variabilidade • Desvio Padrão • Variância • Distribuição Normal Ramos da estatística Estatística Descritiva é o ramo da estatística que envolve a organização, o resumo e a representação dos dados. Inferencial ou Indutiva é o ramo da estatística que envolve o uso de uma amostra para chegar a conclusões sobre uma população. Uma ferramenta básica no estudo da estatística inferencial é a probabilidade. A colecta, a organização e a descrição dos dados estão a cargo da Estatística Descritiva, enquanto a análise e a interpretação desses dados ficam a cargo da Estatística Indutiva ou Inferencial. O método estatístico Identificação do Problema Recolha de dados Critica dos dados Apresentação dos dados Análise e interpretação Séries estatísticas • Denominamos série estatística toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. • Uma série estatística é um conjunto de dados ordenados segundo uma característica comum, as quais servirão posteriormente para se fazer análises e inferências. Séries Estatísticas Séries Estatísticas Série Temporal ou Cronológica Série Geográfica ou Territorial Série Específica ou Qualitativa Série Mista ou Composta Série de Distribuição de Freqüências Série de Distribuição de Frequências • É a mais importante e a mais utilizada em estatística. • Na distribuição de frequência, os dados são ordenados segundo um critério de magnitude, em classes ou intervalos, permanecendo fixos o fato, o local e a época. Isto é, embora o fenómeno estudado seja único, este poderá sofrer uma subdivisão em classes Tabela de distribuição de frequência • Para que uma variável estudada seja observada mais adequadamente, podemos dispor ordenadamente seus valores em uma tabela. Essa tabela é chamada de distribuição de frequências ou tabela de frequências. • Distribuição de Frequência é uma série estatística onde os dados se encontram dispostos em categorias ou classes juntamente com as respectivas frequências. Frequência Absoluta Ou Frequência Simples (Fi) Nº de vezes que cada modalidade da variável se repete na amostra ou população, Frequência relativa (fi) é obtida dividindo-se a frequência simples pelo número total de observações. Frequência acumulada é a soma das frequências dessa classe com todas as anteriores. A frequência acumulada da última classe é igual ao tamanho n da amostra. Tabela de distribuição de frequência • Uma distribuição de frequência é uma tabela que mostra classes ou intervalos dos valores com a contagem do número de ocorrências em cada classe ou intervalo. A frequência f de uma classe é o número de ocorrências de dados na classe. • As distribuições de frequências são representações nas quais os valores da variável se apresentam em correspondência com suas repetições Variável Frequência Absoluta (f) Frequência relativa Frequência Acumulada 1 6 0,2 6 2 9 0,3 15 3 6 0,2 21 4 4 0,13 25 5 2 0.07 27 6 1 0,03 28 7 2 0,07 30 Tabelas De Contingência ou Tabela 2X2 • Muitas vezes os elementos da amostra ou da população são classificados de acordo com duas variáveis qualitativas. • Os dados devem então ser apresentados em tabelas de contingência, isto é, em tabelas de dupla entrada, cada entrada relativa a uma das variáveis. • As tabelas de contingência podem apresentar frequências relativas em percentagens, além das frequências. Tabelas • Uma tabela resume os dados por meio do uso de linhas e colunas, nas quais são inseridos os números. Uma tabela compõe-se de: 1. Corpo – conjunto de linhas e colunas que contem informações sobre a variável em estudo. 2. Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas. 3. Coluna Indicadora – parte da tabela que especifica o conteúdo das linhas. 4. Linhas – rectas que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as colunas. 5. Casas ou Células – espaço destinado a um só numero. 6. Titulo – conjunto de informações (as mais completas possíveis) localizado no topo da tabela. • Existem, ainda, elementos complementares que são: a fonte, as notas e as chamadas, os quais devem ser colocados no rodapé da tabela. Tabela de Distribuição de Frequência Excel Tabela Dinâmicas • Uma Tabela Dinâmica é uma ferramenta poderosa para calcular, resumir e analisar os dados que lhe permitem ver comparações, padrões e tendências nos dados. • Um relatório de Tabela Dinâmica é um meio interactivo de resumir rapidamente grandes quantidades de dados. Use um relatório de Tabela Dinâmica para analisar detalhadamente dados numéricos e responder perguntas inesperadas sobre seus dados. Um relatório de Tabela Dinâmica é projectado especialmente para: • Consultar grandes quantidades de dados de várias maneiras amigáveis. • Subtotalizar e agregar dados numéricos, resumir dados por categorias e subcategorias, bem como criar cálculos e fórmulas personalizados. • Filtrar, classificar, agrupar e formatar condicionalmente o subconjunto de dados mais útil e interessante para permitir que você se concentre nas informações desejadas Tabela de Distribuição de Frequência Excel 1. Ter a base de dados 2. Dados bem tabulados 3. Variáveis bem definidas Tabela de Distribuição de Frequência Excel 1. Menu inserir 2. Grupo Tabelas 3. Opção Tabela Dinâmica Tabela de Distribuição de Frequência Excel 1. Seleccionar uma tabela ou intervalo 2. Escolher onde pretende colocar o relatório da tabela dinâmica Tabela de Distribuição de Frequência Excel 1. É criada nova folha de calculo Depois de criar uma Tabela Dinâmica, você verá a Lista de Campos. Você pode alterar o design da tabela dinâmica adicionando e organizando seus campos. Nessa janela usamos para criar a tabela dinâmica arrastamos os campos para as áreas abaixo de acordo com a disposição que desejamos Tabela de Distribuição de Frequência Excel 1. Campos da tabela dinâmica Campos da tabela dinâmica = Variáveis que temos na Base de dados. Quatro áreas 1. Filtros 2. Colunas 3. Linhas 4. Valores Tabela de Distribuição de Frequência Excel 1. Tabela de distribuição de frequências Tabela de Distribuição de Frequência Excel 1. Opções da tabela dinâmica Medidas de Estatística Descritiva • Medidas descritivas - conhecidas par parâmetros quando analisamos a população e estatísticas quando se trata da amostra - permitem-nos sumariar os dados através de um só valor e devem obedecer a algumas propriedades para serem boas medidas de descrição dos fenómenos em estudo • Quando as medidas de tendência central e as de dispersão são calculadas sobre a população, elas são chamadas de parâmetros. Por outro lado, quando essas medidas são obtidas considerando-se uma amostra retirada de uma população, elas são chamadas de estatísticas. Medidas de Estatística Descritiva M ed id as d e Es ta tí st ic a D es cr it iv a Medidas de Localização Medidas de posição ou de tendência central Média Mediana Moda Medidas de tendência não-central (Quantis) ou Separatrizes Quartis Decis Percentis Medidas de dispersão Absolutas Amplitude do intervalo de variação Amplitude do intervalo interquartis Desvio absoluto médio Variância Desvio Padrão Relativa Coeficiente de Variação Medidas de Assimetria e Curtose Medidas de assimetria Medidas de achatamento ou curtose Medidas de Posição ou de tendência central • As mais importantes são as medidas de tendência central pois representam os fenómenospêlos seus valores centrais, em torno dos quais tendem a concentrar-se os valores observados. • Servem para dar uma ideia acerca dos valores médios da variável em estudo. • Medidas de estatística descritiva que nos dão uma indicação do valor central ou médio dos dados observados. • MÉDIA • MEDIANA • MODA Média Aritmética • É o quociente da divisão da soma dos valores da variável pelo número deles. • É a soma de todos os valores observados dividida pelo numero de observações. • Soma de todos os valores da variável, dividida pela frequência total (número total de observações X= Média da amostra ∑ (sigma maiúscula) = Somatório Xi = valores individuais observados n = dimensão da amostra 𝑋 = 𝑖=1 𝑛 𝑋𝑖 𝑛 𝑋 = 𝑋1 + 𝑋2 + 𝑋3 +⋯𝑋𝑛 𝑛 Media de uma amostra da população (para dados desagregados) O subscrito i indica a posição da medida; Xi é a i-ésima observação, num conjunto de n observações. Portanto X1 representa a primeira observação, X2 representa a segunda e assim por diante. Média no Excel – Contar tamanho da amostra • Saber a quantidade de dados da Variável • =CONTAR.VAL (dados) • Para calcular a Média no Excel • =MÉDIA(dados) Características da média • 1ª Propriedade da Média - A soma algébrica dos desvios tomados em relação à média é nula. • É influenciada por valores extremos que tomam um peso significativo no calculo da media; • Pode não corresponder a um valor concreto da variável; • Para os atributos qualitativos (variáveis nominais) não faz sentido calcular a media pois os valores da variável não são morénicos e se o forem funcionam como meros códigos. • media aritmética não é, de modo nenhum, uma medida satisfatória para todos os dados estatísticos Características da média • A media aritmética e a medida mais familiar e mais correntemente utilizada. • E uma medida influenciada por todos os valores observados. Qualquer alteração num destes valores produz uma modificação no valor da media. • a media poderá tomar um valor diferente de todos os observados. • O valor da média pode ser enviesado (torcido) por apenas alguns valores extremos. • A média poderá deixar de ser representativa se a distribuição for altamente assimétrica devido a alguns valores extremos. • A media aritmética possui duas propriedades matemáticas : • A 1ª - sempre nula a soma das diferenças entre os valores observados e a media. • A 2ª a soma dessas mesmas diferenças, quando elevadas ao quadrado, é sempre um valor mínimo. Identificando Outlaiers • Um outlier é um valor que está muito afastado dos demais valores do conjunto de dados. • Enquanto alguns outliers são dados válidos, outros podem ocorrer por causa de erros no registro dos dados. Um conjunto de dados pode ter um ou mais outliers, causando lacunas em uma distribuição. • As conclusões que são tomadas de um conjunto de dados que contém outliers podem ser falhas Média no Excel – Identificando Outlaiers Média no Excel – Identificando Outlaiers 1º Selecciona os valores da variável Média no Excel – Identificando Outlaiers 1. Selecciona os valores da variável 2. Menu inserir 3. Grupo Gráficos 4. Gráfico de Dispersão Média no Excel – Identificando Outlaiers 1. Identificar os pontos mais distantes da maioria Mediana (Md) • número que se encontra no centro de uma série de números, estando estes dispostos segundo uma ordem. • Num conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. • Se a variável em estudo tem n ímpar. Nesse caso a mediana será o valor da variável que ocupa o posto de ordem n+1/2 • Se, porém, a série dada tiver um número par de termos, a mediana será, por definição, qualquer dos números compreendidos entre os dois valores centrais da série. Convencionou- se utilizar o ponto médio. • Quando n=nº par, somam-se os dois valores do meio de dividimos por 2 para obter a mediada. Mediana no Excel • Para calcular a Mediana • =MED(conjunto de dados) Características da Mediana • Quando há muitos valores repetidos e/ou outlayers a moda é mais recomendável que a mediana • E determinada pelo numero de observações e não pelo seu valor. Deste modo, os valores extremos, quer sejam grandes ou pequenos, não afectam o valor da mediana. • E uma medida muito utilizada sobretudo para distribuições fortemente acinéticas por não ser afectada por valores extremes. • Alem da mediana que, por definição, divide um conjunto ordenado de valores em duas partes iguais, existem outras medidas que dividem o conjunto de valores em 4, 10 e 100 partes iguais, não são de tendência central, podem ser consideradas medidas de posição, Essas medidas são os quartis, os decis e os percentis. Moda (Mo) • Moda ou o valor mais frequente da distribuição ou ainda o valor que mais observações apresenta no conjunto dos dados. • Algumas vantagens como medida de estatística descritiva: e fácil de calcular e interpretar e não e afectada por valores extremos • Uma distribuição de frequências poderá ter mais que uma moda e, nesse caso, diz-se bimodal, trimodal Moda no Excel • =MODO.SIMPLES(Valores da variável) Características da moda • É a única medida de tendência central que pode ser aplicada a dados qualitativos nominais. • É, em geral, menos utilizada que a media e a mediana • A moda não existe em algumas distribuições enquanto que noutras poderá existir mais que urna moda. Neste ultimo caso a distribuição diz-se multimodal. • O valor da moda não sofre a influencia de valores extremos. Medidas de Dispersão ou de Variação • A medidas de localização não são suficientes, por si só, para caracterizar de forma adequada a distribuição de frequências de uma variável e, por essa razão, devem ser sempre acompanhadas de uma medida que de uma indicação da dispersão dos valores da variável. • As medidas de dispersão servem para verificarmos a representatividade das medidas de localização, pois e muito comum encontrarmos variável que, apesar de terem a mesma media, são compostas de valores bem distintos. • Como os próprios termos dispersão e variação o indicam, este tipo de medidas de estatística descritiva identificam o modo como os valores observados se afastam das medidas de tendência central. Amplitude do intervalo de variação ou Amplitude Total • É a diferença entre os valores máximo e mínimo da variável. R= 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛 Amplitude do intervalo de variação R = Amplitude do inervado de variação Xmax= Valor máximo da variável Xmin= Valor mínimo da variável a amplitude total é instável, por se deixar influenciar pelos valores extremos, que são, na sua maioria, devidos ao acaso. A variância e o desvio padrão são medidas que fogem a essa falha, pois levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados. Amplitude do intervalo de variação no Excel • 1º Calcular o valor máximo do conjunto de dados • =MÁXIMO( dados ) Amplitude do intervalo de variação no Excel • 1º Calcular o valor mínimo do conjunto de dados • =MÍNIMO ( dados ) Amplitude do intervalo de variação no Excel • 1º Calcular a amplitude R= 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛 Características da Amplitude do intervalo de variação • A sua utilização tem como principal desvantagem o facto de ter em conta apenas os dois valores extremos que a variável toma e, portanto, não ser sensível aos valores intermédios. • Oscila muito conforme a existência de valores extremos • Normalmente não é uma boa medida representativa da variabilidade dos dados, • É a medida de dispersão de mais fácil calculo resumindo-se a uma subtracção entre os dois valores extremes observados. • Apenas considera dois valores ignorando os valores típicos da distribuição o que poderá dar uma ideia errada da verdadeira dispersão da variável. Variância • Para dados desagregados, a variância e a soma do quadrado das diferençasentre os valores da variável e a media, dividida pelo numero total de observações. 𝜎2 = 𝑋1 − 𝜇 2+ 𝑋2 − 𝜇 2 + 𝑋3 − 𝜇 2+⋯ 𝑋𝑁 − 𝜇 2 𝑁 Variância (dados desagregados) σ2 = 𝑖=1 𝑁 𝑋𝑖 + 𝜇 2 𝑁 σ2(Sigma) = Variância para população σ = Desvio Padrão para População X1= valores individuais observados μ (Mú)= Média na População N= População ∑ = Somatório Xi = valores individuais observados n = Amostra S = Desvio Padrão para amostra S2 = Variância para a amostra SDQ = Soma do Quadrado dos Desvios S2 = 𝑆𝐷𝑄 𝑛 − 1 Quando se utilizam valores retirados de uma amostra de pequena dimensão e mais correcto dividir a soma de quadrados por n-1, em vez de n, no calculo da variância e do desvio-padrão. S2 = 𝑆𝐷𝑄 𝑛 − 1 Variância no Excel • Função da variância • =VARA (dados) Características da Variância • A variância da amostra é usada para calcular o quão variada é uma amostra • Quando não há variabilidade em uma amostra , todos os valores são iguais e a variância é igual a zero. À medida que os valores dos dados se espalham ainda mais, a variabilidade aumenta. • Na realidade, você quase sempre usará o desvio padrão para descrever a dispersão dos valores em um conjunto de dados. • No entanto, a variação pode ser útil quando você está usando uma técnica como ANOVA ou Regressão e está tentando explicar a variação total em um modelo devido a factores específicos. Desvio padrão • Descreve o quanto os meus dados estão desviados em relação média. • É a raiz quadrada da variância Desvio padrão S = Desvio Padrão para amostra S2 = Variância para a amostra = Raiz QuadradaS = S2 A média + 1 desvio padrão= 34,1% dos dados A média - 1 desvio padrão= 34,1% dos dados A média ± 1 Desvio padrão =68% dos dados A média + 2 desvios padrão= 47,5 % (34,1%+13,4%) dos dados A média - 2 desvios padrão= 47,5% (34,1%+13,4%) dos dados A média ± 2 Desvios padrão =95% dos dados Desvio Padrão no Excel • Função para desvio padrão • =DESVPADA( dados) Características do desvio padrão • Apresenta um valor mais fácil de ser comparado a média pode não ao quadrado como a variância. • O desvio-padrão e afectado por todos os valores observados e, portanto, qualquer alteração nestes provoca uma alteração do primeiro. • O seu valor pode ser fortemente influenciado por apenas alguns valores extremos. Por essa razão, a sua utilização é menos aconselhada em distribuições altamente assimétricas • O desvio-padrão é uma quantidade essencialmente positiva. • O desvio-padrão só é nulo se todos os valores da distribuição forem iguais entre si, isto é, se não houver variabilidade. • O desvio-padrão é da mesma natureza da variável X e depende também de sua magnitude. Coeficiente de Variação • O coeficiente de variação é a razão entre o desvio padrão e a média. O resultado é multiplicado por 100, para que o coeficiente de variação seja dado em percentagem • Para comparar duas distribuições quanto à variabilidade, deve-se usar medidas de variabilidade relativa, tais como o coeficiente de variação de Pearson (CV), • É uma medida relativa de dispersão, útil para a compreensão em termos relativos do grau de concentração em torno das medias, de distribuição de frequências distintas. • E dada pela relação, em termos percentuais, entre o desvio-padrão e a media da distribuição Cv = 𝜎 𝜇 .100 CV = Coeficiente de Variação X= Média da amostra s=Desvio padrão da amostra σ(Sigma) = Desvio padrão para população μ (Mú)= Média na População Cv = 𝑠 X .100 Coeficiente de Variação no Excel Cv = 𝑠 X .100 Coeficiente de variação • Quanto maior o coeficiente de variação, maior o nível de dispersão em torno da média. Geralmente é expresso em porcentagem. • Sem unidades, permite a comparação entre distribuições de valores cujas escalas de medida não são comparáveis. • O coeficiente de variação mostra a extensão da variabilidade dos dados de uma amostra em relação à média da população. Características do coeficiente de variação • Em termos práticos, é usual considerar-se que um coeficiente de variação superior a 50% indica alto grau de dispersão relativa e, consequentemente, uma pequena representatividade da media como medida estatística. Para valores do coeficiente de variação inferiores a 50%, a media será tanto mais representativa quanto menor o valor deste coeficiente. • Um coeficiente de variação de 66,67% indica que a dispersão dos dados em relação à média é muito grande, ou seja, a dispersão relativa é alta. Um coeficiente de variação de 3,64% indica que a dispersão dos dados em relação à média é pequena. Estatística descritiva dos dados Distribuição Normal • Distribuição de Probabilidade Normal • A distribuição normal foi estudada inicialmente no seculo XVIII, quando uma analise de erros experimentais levou a uma curva em forma de sino. • A distribuição normal recebe o nome de distribuição gaussiana, em homenagem ao cientista alemão Karl Friedrick Gauss, que foi o primeiro a utiliza-la em 1809. • A distribuição normal é a mais importante das distribuições contínuas de probabilidade, e tem sua origem associada aos erros de mensurações. A distribuição normal desempenha papel preponderante na estatística, e os processos de inferência nela baseados têm larga aplicação. Distribuição Normal • A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da média (x), que recebe o nome de curva normal ou de Gauss. • Como a curva é simétrica em torno de x, a probabilidade de ocorrer valor maior do que a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5. Distribuição Normal 1. As curvas em forma de sino caracterizam-se pelo fato de apresentarem um valor máximo na região central. 2. A média, a mediana e a moda coincidem e estão no centro da distribuição; 3. O gráfico da distribuição normal tem aspecto típico: é uma curva em forma de sino, simétrica em tomo da média; 4. Como a curva é simétrica em tomo da média, 50% dos valores são iguais ou maiores do que a média e 50% dos valores são iguais ou menores do que a média. Bibliografia Givaldo Oliveira Dos Santos, Bioestatística, Instituto Federal de Educação, Ciências e Tecnologia de Alagoas Departamento de Educação a Distância Universidade Aberta do Brasil Larson, Ron Estatística aplicada / Ron Larson, Betsy Farber ; tradução José Fernando Pereira Gonçalves ; revisão técnica Manoel Henrique Salgado. -- São Paulo : Pearson Education do Brasil, 2015. Vieira, Sónia, 1942- Introdução à bioestatística [recurso electrónico)/ Sónia Vieira. - Rio de Janeiro : Elsevier, 2011. 345 p., recurso digital; Crespo, António Arnot Estatística fácil. - 19.ed. actual. - São Paulo : Saraiva, 2009. Luz, José Gilvan da. Estatística, Aracaju : Gutemberg, 2010. Elizabeth Reis, Estatística Descritiva, Edições Silabo, 7ª Edição Lisboa, 2008 Guimarães, Paulo Ricardo Bittencourt. Métodos quantitativos estatísticos 1.ed. rev.. -Curitiba, PR : IESDE Brasil, 2012. Links uteis • Criar uma Tabela Dinâmica para analisar dados da planilha - https://support.microsoft.com/pt-br/office/criar-uma-tabela- din%C3%A2mica-para-analisar-dados-da-planilha-a9a84538-bfe9- 40a9-a8e9-f99134456576 https://support.microsoft.com/pt-br/office/criar-uma-tabela-din%C3%A2mica-para-analisar-dados-da-planilha-a9a84538-bfe9-40a9-a8e9-f99134456576 Softwares de estatística • O IBM® SPSS® Statistics é o software estatístico líder mundial usado para resolver problemas de negócios e pesquisa por meio de análise ad-hoc, teste de hipóteses e análise preditiva. As organizações usam o IBM SPSS Statistics para entender dados, analisar tendências, prever e planejar para validar suposições e obter conclusões precisas. https://www.ibm.com/support/pages/downloading-ibm-spss- statistics-25 https://www.ibm.com/support/pages/downloading-ibm-spss-statistics-25 Softwares de estatística Softwares de estatística • Epi Info™ é um conjunto de ferramentasde software interoperáveis de domínio público projectado para a comunidade global de profissionais e pesquisadores de saúde pública. Ele fornece formulário de entrada de dados fácil e construção de banco de dados, e análises de dados com estatísticas epidemiológicas, mapas e gráficos. https://www.cdc.gov/epiinfo/por/pt_index.html Softwares de estatística Softwares de estatística • PAST é um aplicativo analisador de dados freeware que foi categorizado por nossos editores na categoria calculadoras e disponibilizado por Oyvind Hammer para Windows. • Complexo aplicativo de análise de dados científicos em forma de estatística que desenha gráficos e plotagens com interface semelhante a outros softwares de planilhas. https://past.en.lo4d.com/windows PAST: Paleontological statistics software Softwares de estatística Softwares de estatística • O projecto jamovi foi fundado para desenvolver uma plataforma estatística gratuita e aberta, de uso intuitivo e capaz de fornecer os mais recentes desenvolvimentos em metodologia estatística. https://www.jamovi.org/ Softwares de estatística
Compartilhar