Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 01 Para que serve a ESTATÍSTICA? Apresentar, descrever e interpretar informações; Para tirar conclusões a partir de grandes populações, com base em informação obtida a partir de amostras; Para melhorar os processos; Obtenção de previsões confiáveis; Essenciais no estudo de situações em que os fatores de interesse apresentam grande variabilidade. Auxilia na tomada de decisões e para obter conclusões, a partir de informações numéricas. Fornece procedimentos para COLETA, ANÁLISE e INTERPRETAÇÃO DE DADOS. Dados: números dentro de um contexto – que será transformado em informação. 2 tipos de dados: Observacional: coleta de informações na população sem intervenção do pesquisador. Amostra: quando uma parte da população é pesquisada. Censo: quando toda a população é pesquisada. Experimental: há intervenção do pesquisador e depois coleta para avaliar as consequências. AS DUAS GRANDES ÁREAS ESTATÍSTICAS: Estatística descritiva: coleta de dados, organização e sintetização dos dados. Estatística inferencial: consiste em inferir, deduzir ou tirar conclusões a partir de uma amostra. O pesquisador faz uma interferência para depois coletar os dados, analisar e fazer inferências. Fases Definição do problema Planejamento: Estudar causa de óbitos relacionados ou não a Imunodeficiência em pacientes infectados pelo HIV – causas ligadas a Aids competem com outras causas, por exemplo doenças cardiovasculares. Coleta de dados Crítica dos questionários Apuração dos resultados Apresentação dos dados: tabular e gráfica Análise e interpretação dos dados Classificação das variáveis Características de interesse: variável (IMC) pode ser obtida através da manipulação de outras variáveis (Kg e m2) Para avaliar obesidade do indivíduo é utilizado o IMC, que é definido entre o Kg e m2 Tipos de variáveis Categóricas ou Qualitativas: resultado da observação é expresso em categorias, que serão diferentes a partir de uma característica não-numérica. Nominal: dados que são apenas nomes, rótulos ou categorias – sexo, cor da pele, estado civil. (Macete: pode ser considerado um adjetivo). Ordinal: dados que são dispostos em uma ordem – nível de escolaridade, grau de satisfação, classe social. (macete: possui uma hierarquia entre eles, ou seja, sempre tem um dado que é melhor, um regular e outro que é pior) Quantitativas: resultado da observação é expresso através de números que irão representar contagens ou medidas. Contínua: medição, adquiri um valor em um intervalo, existindo outros valores intermédios – salário mensal, altura, peso, comprimento, idade (macete: usa vírgula) Discreta: expressa o valor de uma contagem, formam um conjunto finito ou infinito que se pode enumerar – número de filhos, número de alunos, idade, número de reclamações de um empresa, número de copos de água tomados em um dia, número de automóveis que uma pessoa tem. ( macete: não usa vírgula, portanto é um número inteiro) Aula 02 Os dados podem ser obtidos de forma primária ou secundária, sendo através do preenchimento de fichas ou resposta ao questionário, alguns são por meio de medições ou avaliações e depois de coletados devem ser armazenados e sistematizados em uma planilha de dados. O objetivo do projeto é estudar algumas características dos ursos marrons, como peso e altura ao longo da vida. Organização e apresentação dos dados Dados brutos: aqueles que não sofreram qualquer processo de síntese ou análise. Podem ser apresentados em TABELAS e GRÁFICOS Tabelas: dados em uma forma ordenada e resumida, apresenta os dados agrupados de forma que o manuseio, visualização e compreensão sejam simplificados. O que uma tabela precisa ter: • Seja suficientemente completa para ser entendida, dispensando consulta ao texto; • Contenha somente dados necessários ao seu entendimento; • Seja estruturada da forma mais simples e objetiva; • Inclua os dados logicamente ordenados e apresente dados, unidades e símbolos consistentes com o texto. • Tente trocar de orientações (linhas por colunas) para melhorar a apresentação, quando possível. É mais fácil fazer comparações ao longo das linhas do que das colunas. • Não analise a tabela descrevendo-a, mas sim comentando as principais tendências sugeridas pelos dados. Elementos Título: O quê? Quando? Onde? Corpo da tabela: conjunto das linhas e colunas contendo informações sobre a variável em estudo Cabeçalho: Conteúdo das colunas Rodapé: informações pertinentes e fonte de dados Tipos de frequência simples Frequência absoluta: fi (n) número de repetições de um valor individual Frequência relativa: fri (%) calculado entre a divisão da frequência simples absoluta e o número total dos dados e multiplica por 100 Frequência absoluta acumulada: Fi conserva o primeiro da absoluta e soma os demais Frequência relativa acumulada: Fri (%) divide o número da absoluta acumulada pelo total e multiplica por 100 ou conserva o primeiro número da frequência relativa e vai somando com os demais. Construção de tabela de uma variável quantitativa Dados brutos: conjunto de dados numéricos Rol: organiza os dados brutos de forma crescente ou decrescente Amplitude total (At): At = Xmax - Xmim É a diferença entre o maior valor observado e o menor valor observado Número de classes (K): total de classes de uma variável Amplitude de classes (h): divisão entre a amplitude total e o número de classes h= At/K Ponto médio da classe: valor do centro do intervalo da classe mi=li + ½ + hi li: 1º número inferior da classe; hi: amplitude da classe Ou, utiliza a os dois valores da classe, soma e divide por 2. Apresentação gráfica Os gráficos devem conter título e escala Incluir unidade de medida No rodapé deve conter a fonte Gráfico de setores Adequado quando for para análise da participação de cada categoria em relação ao total – frequência deve somar 100%. O gráfico de setores é especialmente indicado para apresentar variáveis nominais, desde que o número de categorias seja pequeno Não serve para fazer comparações ou evoluções temporais Gráfico de barras ( Colunas) Compara a distribuição de frequência de uma mesma variável. Usado para apresentar variáveis qualitativas, sejam nominais ou ordinais Gráfico de linhas Utilizado quando uma das variáveis é tempo Possível observar intensas flutuações Várias séries cobrindo um grande período de tempo Cartograma A frequência das categorias de uma variável são projetadas nas áreas especificas do mapa Histograma Gráfico com barras verticais com barras unidas devido ao caráter contínuo dos valores Distribuição de frequência de um conjunto de dados É possível a observação a partir da distribuição do conjunto de dados e também percepção do valor central e dispersão dos dados em torno do valor central Utilizado tanto em frequências absolutas quanto em relativas (%), quando a amplitude das classes são iguais Histograma (valores desiguais) Quando a amplitude das classes for desigual é utilizado a densidade: d= fr/amplitude da classe Tipos de Histogramas Aula 03 Medidas de tendência central É um valor que melhor representa o conjunto de dados. As três medidas mais comuns são: média, moda e mediana. Se forem calculadas para dados de amostras são chamadas de Estatísticas da Amostra. Se forem calculadas para dados populacionais são chamadas de Parâmetros Populacionais. Média: Soma dos valores dividida pelo número de observações X= i/n i: valor/ n: número total A média é sensível a valores extremos, pois um ou mais valores discrepantes podem distorcer o valor Não pode ser utilizado como medida de tendência central em distribuições muito assimétricas Quando é utilizado a variável discreta o valor da média pode não pertencer ao conjunto de valores possíveis da variável Moda (Mo) : valor mais frequente do conjunto de dados Não é afetada por valores extremos e é utilizada para fins descritivos, já que dentre as medidas de tendência, é a mais variável de amostra para amostra. Unimodal: únicovalor modal; Bimodal: dois valores modais; Multimodal: mais de dois valores modais; Amodal: nenhum valor modal. Mediana: Divide os dados em partes iguais (50% abaixo dela e 50% acima) e o valor ocupa a posição central Não é afetada por valores extremos, porque não depende dos valores e sim da posição das mesmas OBS: NA HORA DE CALCULAR SEMPRE LEMBRAR DE ARRUMAR OS VALORES EM ORDEM CRESCENTE Relações entre as medidas Simétrica: quando a moda, média e mediana são coincidentes Assimétrica à esquerda ou negativamente assimétrica: quando a média é menor do que a mediana e moda Assimétrica à direita ou positivamente assimétrica: quando a média é maior do que a mediana e moda Separatrizes Permite calcular valores da variável que dividem a distribuição em partes iguais Mediana: divide ao meio 50% Quartis: divide em 4 partes 25% Decis: divide em 10 partes 10% Centis ou percentis: divide em 100 partes 1% Relação entre as separatrizes Quartis Q1, Q2 e Q3 são os percentis de P25, P50 e P75 Decis D1, D2, ....... D9 são os percentis P10, P20, ...... P90 Md = Q2 = D5= P50 Necessário ordenar os dados em forma crescente para calcular L (localização do percentil) i (percentil) n (tamanho da amostra) L=i/100xn Quando L for inteiro, o percentil é somado ao valor seguinte e dividido por 2. Quando L não for inteiro, o percentil é o elemento que ocupa a posição L, de forma arredondada para o mais próximo, sempre arredonda pra mais, nunca pra menos. Medidas de dispersão Avaliar quanto os dados estão dispersos – grau de afastamento ou de concentração entre os valores observados Absolutas Expressa na mesma unidade de medida da variável • Amplitude total: não é uma boa medida de dispersão, pois utiliza valores extremos do conjunto de dados; • Semi-interquartilíca ou desvio quartil: consiste na diferença entre os quartis 3 e 1 ( 75 e 25) que corresponde a 50% das informações; não é afetado por valores extremos, quando a medida de tendência a ser utilizada for a mediana deve-se usar desvio quartil DQ = amplitude interquatilíca/2 = Q3-Q1/2 • Desvio médio • Variância Desvio padrão: raiz quadrada da variância e é calculado quando os dados são simétricos S: desvio padrão, Xi : valor observado, X: média aritmética dos dados, n: tamanho da amostra Desvio padrão mede a variação entre os valores: Valores próximos uns dos outros, o desvio padrão será pequeno e os dados homogêneos Valores distantes uns dos outros, o desvio padrão será grande e os dados heterogêneos Relativas Comparar a variabilidade de duas ou mais distribuições Coeficiente de variação de Pearson CV: coeficiente de variação, S: desvio padrão, X: média CV=S/X vezes 100 CV for menor ou igual a 15% tem baixa dispersão CV for entre 15% e 30% tem média dispersão CV for maior ou igual a 30% tem elevada dispersão Medidas de assimetria: para avaliar o grau de assimetria da distribuição de frequências Sk= X-Mo/S Quando for amodal1, calcula com a mediana – Sk=X-Mo/S Sk for igual a 0 – distribuição simétrica Sk for maior que 0 – distribuição assimétrica + Sk for menor que 0 – distribuição assimétrica – Diagramas em caixas – Box-plot Método alternativo ao histograma; Usado para variável quantitativa; Revelam tendências centrais, dispersão, distribuição dos dados e presença de outliers – valores extremos; Útil para comparar 2 ou mais conjuntos; Não é tão sensível a valores extremos como média e desvio padrão; 1. Mediana é o traço do centro do retângulo; 2. Dispersão é representada pela altura do retângulo (Q – Q1); 3. Proximidade da linha da mediana em relação a Q1 e Q3 informa sobre a assimetria; 4. Mediana localizada + ou – no centro do retângulo é simetria; 5. Mediana próxima de Q1 – assimetria positiva; 6. Mediana próxima de Q3 – assimetria negativa. Pontos que estão fora do intervalo são valores considerados atípicos ou discrepantes (outliers), ou seja, valores muito grandes ou pequenos em relação aos demais - * ou º Variáveis quantitativas Gráfico de dispersão: investigação de 2 variáveis é necessário análise gráfica dos dados; Com o gráfico é possível observar se existe relação entre as variáveis e se ela é linear – relação visualizada no gráfico de dispersão lembra o desenho de uma reta; Criança mais pesada ao nascer terá o peso maior em um mês.
Compartilhar