Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva http://images.google.com.br/imgres?imgurl=http://static.hsw.com.br/gif/population-six-billion-1.jpg&imgrefurl=http://martabolshaw.blogspot.com/2008/03/estatstica-descritiva.html&usg=__4dC9fNTyTam3joK0x6JX0mfXEdQ=&h=329&w=400&sz=15&hl=pt-BR&start=7&tbnid=nfv_vsRvJTKCGM:&tbnh=102&tbnw=124&prev=/images?q=estat%C3%ADstica&gbv=2&ndsp=18&hl=pt-BR&sa=N –Objetivo: Contribuir com a sistematização da produção do conhecimento, propiciando ao graduando a aplicação dos fundamentos quantitativos no campo profissional e acadêmico. –Programa: • Conceitos básicos e técnicas de Estatística Descritiva • Teoria das Probabilidades • Variáveis Aleatórias e Distribuições de Probabilidades •Números Índices Conteúdo http://images.google.com.br/imgres?imgurl=http://pt.dreamstime.com/estat%C3%ADstica-thumb2835750.jpg&imgrefurl=http://pt.dreamstime.com/statistic-image2835750&usg=__4jSz7ixTV2QRETmqU_SU-C5_jN4=&h=350&w=263&sz=32&hl=pt-BR&start=70&tbnid=iqNkf-2xBesHhM:&tbnh=120&tbnw=90&prev=/images?q=estat%C3%ADstica&gbv=2&ndsp=18&hl=pt-BR&sa=N&start=54 Introdução Estatística fornece subsídios ao analista para: coletar, organizar, descrever, resumir, analisar e apresentar dados. http://images.google.com.br/imgres?imgurl=http://blog.uncovering.org/archives/uploads/2007/2006031400_innovation-1-tm.jpg&imgrefurl=http://blog.uncovering.org/archives/2007/03/tecnologias_do.html&usg=__eMGxuyWyol08FDevFDTXdg9XhAw=&h=441&w=518&sz=64&hl=pt-BR&start=2&um=1&tbnid=-g8mt_R1mSuw5M:&tbnh=112&tbnw=131&prev=/images?q=investiga%C3%A7%C3%A3o&hl=pt-BR&rlz=1R2SNYO_pt-BR&um=1 Vocabulário básico da Estatística ➢ Variável corresponde a uma característica de um item ou de um indivíduo População consiste em todos os itens ou indivíduos em relação aos quais você deseja tirar uma conclusão Amostra corresponde à parcela da população selecionada para análise Parâmetro medida numérica que descreve uma característica de uma população Estatística medida numérica que descreve uma característica de uma amostra Estatística Descritiva e Inferencial Inferencial Permite utilizar informações incompletas para tomar decisões e tirar conclusões satisfatórias. Descritiva Permite resumir as principais características de um conjunto de dados por meio de tabelas, gráficos e resumos numéricos. http://images.google.com.br/imgres?imgurl=http://www.sc-profit.com.br/GLOBALIZA%C7%C3O%20-%203.JPG&imgrefurl=http://www.sc-profit.com.br/consultoria/financas.htm&usg=__oZD7OZWoR8WVmzjO-wuYk79SBC4=&h=480&w=640&sz=113&hl=pt-BR&start=1&um=1&tbnid=gr7d8fCOQYTvRM:&tbnh=103&tbnw=137&prev=/images?q=finan%C3%A7as+corporativas&hl=pt-BR&rlz=1R2SNYO_pt-BR&um=1 Técnicas da Estatística Descritiva Tabelas de frequência - servem para agrupar informações de modo que estas possam ser analisadas, resumindo, assim, uma lista volumosa de dados. As tabelas podem ser de frequência simples, ou de frequência em faixa de valores, percentuais, etc. Gráficos – a representação gráfica auxilia o analista na visualização de diferentes aspectos de um conjunto de dados. Podem ser elaborados gráficos de diferentes tipos: diagrama de barras, diagrama em setores, histograma, box-plot, ramo-e- folhas, diagrama de dispersão, etc. Medidas descritivas – permitem levantar importantes informações sobre o conjunto de dados tais como: a tendência central, variabilidade, simetria, valores extremos, valores discrepantes, etc. Técnicas da Estatística Inferencial Estimação - consiste em utilizar um conjunto de dados incompletos, chamado de amostra, e nele calcular estimativas de quantidades de interesse. Estas estimativas podem ser pontuais (representadas por um único valor) ou intervalares. Teste de Hipóteses – consiste em levantar suposições acerca de uma quantidade não conhecida e utilizar dados incompletos para criar uma regra de escolha. Tipos de Investigação Quantitativa Questionário Dados Quantitativos População Amostra Variável Discreta Contínua Qualitativa Roteiro Dados Qualitativos Similaridade Análise do Discurso Atributos Origem dos dados Os dados podem: Ser publicados pelo governo, indústria, etc. Ser resultados de experimentos Ser resultados de pesquisa Os dados podem ser: Primários: obtidos diretamente das fontes de informações e dados Secundários: dados já coletados e que estão disponíveis em arquivos, banco de dados, publicações, etc. Tipos de variáveis Qualitativas (categóricas): Atributos, qualificam o elemento da população Nominais: sexo, bairro, time de futebol, etc. Ordinais: classe social, cargo, classificação, etc. Quantitativas: Permitem atribuir um valor numérico ao elemento da população. Discreta: nº de filhos, nº de crimes, etc. Contínua: peso, salário, altura, etc. Variáveis Qualitativas Nominais: As observações são nomeadas ou classificadas Não há ordem ou hierarquia Não é possível realizar operações aritméticas As estatísticas são realizadas baseadas em frequência (moda, distribuição de frequência) Variáveis Qualitativas Ordinais: Existe uma relação de ordem entre os elementos (maior que) que pode ser estabelecida para todo e qualquer par de elementos do conjunto em análise Variáveis Quantitativas Nível intervalar: ❖ Quando se designa arbitrariamente a uma categoria o valor zero e, a partir desse marco, constrói-se a escala. As categorias mantém uma relação de ordem, além de intervalos iguais de medição. ❖ Não há um ponto nulo natural. Nível de razão ❖ O valor representa a ausência do fenômeno é, portanto, absoluto. Há um ponto na escala onde não existe a propriedade. ❖ Permite saber se um número é o dobro ou o triplo de outro. Nominal (Categórica): As operações aritméticas como a adição, a subtração, a multiplicação e a divisão não fazem qualquer sentido em dados nominais. Assim, mesmo quando os dados nominais são numéricos, cálculos como soma ou média não são admissíveis. Ordinal As observações podem ser ordenadas em termos de qualidade Tal como os dados obtidos de uma escala nominal, os obtidos de uma escala ordinal podem ser numéricos ou não numéricos. Também aqui não faz sentido qualquer manipulação obtida por operador aritmético. Intervalar A escala intervalar possui a propriedade que o intervalo entre observações pode ser expresso em termos de uma unidade fixa de medida. A unidade fixa de medida exigida por uma escala intervalar, significa que os dados têm necessariamente de ser numéricos. Então, já faz sentido somar, subtrair, multiplicar e dividir Razão Os dados têm propriedades intervalares e faz sentido dividir duas observações. As variáveis distância, peso, comprimento e tempo medem-se através de escalas de razão, exigindo necessariamente a presença de um zero (que representa a não existência de valor). Ex.: variável indicando o preço de um automóvel O ponto zero corresponde ao valor de um automóvel sem preço (gratuito). Deste modo, comparando o preço de R$ 35000 com o de R$17500, pode deduzir que o primeiro custa duas vezes mais do que o segundo. Os dados obtidos por uma escala de razão são também sempre numéricos. Importância tipo mensuração A escolha do tipo de a análise estatística mais conveniente para os dados de uma determinada variável depende da escala de medição usada para essa variável. A escala de medição determina a quantidade de informação contida nos dados e, portanto, a forma mais apropriada para resumir os dados e a realizar a análise. Análise Exploratória de Dados Consiste em resumir e organizar os dados coletados Utiliza-se tabelas, gráficos ou medidas numéricas para resumir os dados Através da observação de padrões se regularidades os dados são interpretados Dados Qualitativos Os dados qualitativos são, por definição, caracterizados por palavras ou categorias, sendo relativamente simples a forma de osorganizarmos. Sua organização é normalmente feita calculando o número de respostas em cada uma das categorias, seguido da percentagem correspondente. Dados Qualitativos Os dados são organizados na forma de uma tabela de frequências, onde se: • apresenta o número de elementos de cada uma das categorias ou classe – frequência absoluta. • apresenta a frequência relativa de cada uma das categorias ou classe. Obs: A frequência relativa é dada pelo quociente entre a frequência absoluta e a dimensão da amostra, ou seja: Dados Qualitativos Quando a variável é qualitativa podemos representar os dados em gráficos de barras ou setores (pizza). Na horizontal ficam as categorias e na vertical as frequências observadas em cada uma das classes. Arredondamento estatístico Opta-se sempre pelo menor erro. Exemplos: Obs: Se a casa a partir da qual (valor Y) os valores serão desprezados for igual a 5: - Se após Y houver outros números (diferentes de zero), o valor anterior (X) deve ser acrescido de uma unidade. - Se após Y não houver números diferentes de zero: - Se X for par, deve ser deixado como está. - Se X for ímpar, deve ser acrescido de uma unidade. Exemplo 1: Perguntou-se a cada um dos 25 alunos de uma turma qual atração musical gostariam de contratar para sua festa de formatura. Os resultados foram: R C J P C P J J P R P O R J R R P R O P O C N P P Observações Cuidado com valores muito discrepantes, podem conduzir a conclusões equivocadas Gráficos de setores adaptam-se muito bem às variáveis qualitativas nominais Nos gráficos de setores a repartição do disco corresponde às frequências relativas de cada valor de variável Os gráficos de barras adaptam-se bem às variáveis quantitativas nominais e às variáveis qualitativas ordinais Dados Quantitativos Os dados são organizados na forma de uma tabela de frequência, no entanto convém efetuar distinção entre dados discretos e contínuos. Dados discretos A construção da tabela de frequências é análoga à que foi feita para os dados qualitativos, mas em vez de categorias consideram-se os valores distintos que surgem na amostra, os quais vão constituir classes. Exemplo 2: Numa turma, os alunos registaram o nº de irmãos, tendo-se obtido a seguinte amostra: 1 – 2 – 2 – 1 – 3 – 0 – 0 – 1 – 1 – 2 – 1 – 1 – 1 – 0 – 0 – 3 – 4 3 – 1 - 2 Para o caso de termos dados discretos com valores muito distintos e para situações com dados contínuos é usual proceder- se ao agrupamento dos dados em intervalos de classes. Questões: - Quantas classes considerar? - Qual amplitude de classe a ser adotada? Existem algumas regras que nos podem ajudar. a) Tabela de Truman L. Kelley b) k = 5 para n ≤ 25 e k 𝑛 para n > 25 c) Regra de Sturges Para uma amostra de dimensão n, o nº de classes k é dado por k 1 + 3,22 log n Etapas para a construção de tabelas de frequência com classes Dados contínuos ou discretos com valores muito distintos 1) Definição das classes a) Determinar a amplitude da amostra (máximo - mínimo) b) Dividir esta amplitude pelo número de classes, k. c) Tomar para amplitude de classe, h, um valor aproximado por excesso do valor obtido em b). d) Construir as classes de modo que tenham todas a mesma amplitude e cuja união contenha todos os elementos da amostra. 2) Contagem do número de elementos de cada classe. Exemplo 3: A tabela a seguir fornece informações sobre sexo, período, idade (anos), procedência, renda familiar, número de disciplinas matriculado(a), peso (kg) e altura (cm) de 31 alunos matriculados na disciplina ESTATÍSTICA I, período 2018/2, turma B. Variáveis qualitativa Procedência Variáveis qualitativa Variável sexo Considerações acerca de dados agrupados Não apresentam valores totais A definição das classes é arbitrária Os pontos médios nem sempre são os representantes mais fiéis das classes, pois os dados podem se distribuir de forma desigual dentro delas podem se distribuir de forma desigual dentro delas As estatísticas que são calculadas com base nos dados agrupados (médias, desvios padrão etc...) são estimativas dos valores reais apenas Atualmente, com as facilidades computacionais, cada vez menos se trabalha com dados agrupados. Histograma Histogramas são ferramentas muito comuns na análise exploratória dos dados O formato de suas colunas dá pistas sobre a similaridade com distribuições de probabilidades conhecidas (unidade posterior) Permite visualmente analisar os valores extremos e quão frequentes são na distribuição dos dados observados Histograma - Construção Determinam-se o máximo e o mínimo dos dados Divide-se a amplitude dos dados em um número conveniente de intervalos de classe de tamanhos iguais (não obrigatório) Contam-se a quantidade de observações que caem em cada um desses intervalos (frequência) Altura do retângulo acima de um intervalo de classe é igual à frequência Histograma O histograma fica distorcido quando ele é construído com intervalos de amplitudes diferente Solução: histograma de densidade ➢ Um histograma de densidade é formado por retângulos adjacentes, tendo por base um intervalo de classe e por área a frequência relativa (ou absoluta), por forma que a área total coberta pelo histograma seja igual a 1, ou seja, a altura do retângulo correspondente à classe i é: 𝑓𝑖 𝐴𝑖 onde Ai representa a amplitude da classe i Obs.: Se todas as classes tiverem a mesma amplitude, a construção do histograma é facilitado considerando-se para alturas dos retângulos as frequências relativas (ou absolutas). Não se pode esquecer que a área total ocupada será igual h e não igual a 1. Histograma – Construção – Ex. 3 Idades 1. Determina-se a Amplitude total dos dados: Max – Min 27 – 18 = 9 2. Escolhe-se o número de classes K (nº inteiro): 31 = 5,47 1 + 3,22log(31) = 5,8 3. Se possível, constrói-se classes de mesma amplitude h AT/k h 9/5 = 1,8 2 anos 4. Agrupamentos em classes + frequência simples de classes Exemplo: Distribuição de frequências das idades dos estudantes de Estatística I Exemplo: idades Observações No momento de determinar o nº de classes, use o bom senso de modo a garantir observar como os valores se distribuem No cálculo da largura da classe, arredonde convenientemente Frequentemente temos que “arredondar” a amplitude das classes e, consequentemente, arredondar também os limites das classes. Exemplo peso Peso mínimo: 43 Peso máximo: 90 Amplitude variação: 47 Determinação k: ➢ k = 5, largura de cada classe= 9,4 (10) ➢ k = 6, largura de cada classe= 7,83 (8) Exemplo: Peso Densidade de frequência Gráficos das Distribuições de Frequências 0 2 4 6 8 11 12 13 14 15 16 17 Fr e q u ên ci as A b so lu ta s Histograma (Var. Discreta) Operações Fechadas 0 2 4 6 8 10 0 |--- 1 1 |--- 2 2 |--- 3 3 |--- 4 4 |--- 5 Fr e q u ên ci as A b so lu ta s Pontos Atingidos Histograma (Var. Contínua) 0 2 4 6 8 11 12 13 14 15 16 17 Polígono de Frequências Operações Fechadas 0 2 4 6 8 10 0 |--- 1 1 |--- 2 2 |--- 3 3 |--- 4 4 |--- 5F re q u ên ci as A b so lu ta s Pontos Atingidos Polígono de Frequências Tabela de Contingência Utilizados para resumir dados relativos a duas variáveis qualitativas ou categóricas Uma variável é representada nas linhas e a outra nas colunas Cada célula ou cruzamento possível mostrará a frequência de observações que com as frequência de observações que com as características daquela linha e coluna Os totais de cada linha e de cada coluna são denominados totais marginais Exemplo 1 Cada elemento da tabela fornece a frequência observada da realização simultânea das variáveis sexo (x) e número de acidentes (y). No exemplo anterior, observa-se 87 ocorrências de pessoas do sexo feminino que não sofreram acidente enquanto 15,sofreram. A linha dos totais fornece a distribuição da variável acidente, enquanto que o total das colunas, a distribuição da variável sexo As distribuições separadas (das margens) são chamadas de distribuições marginais enquanto que a tabela forma a distribuição conjunta das variáveis x e y Exemplo 2: Quer-se identificar se existe ou não dependência entre sexo e curso escolhido, baseado em uma amostra de 200 alunos de Economia e Administração. Estes dados estão agrupados na tabela abaixo: Em porcentagem Exemplo: Análise duas variáveis: ▪ x = nível de instrução ▪ y = natureza instituição ensino Ramo-e-Folha Um gráfico útil e simples para representar a distribuição de frequências de uma variável quantitativa com poucas observações é o diagrama de ramo-e-folhas. Em um diagrama de ramo-e-folhas, cada número é separado em um ramo (por exemplo, as entradas dos dígitos na extremidade esquerda) e uma folha (por exemplo, o dígito mais à direita). Você deve ter tantas folhas quanto entradas no conjunto de dados original. Um diagrama de ramo-e-folhas tem a vantagem de que o gráfico contém os valores originais dos dados. A lista a seguir apresenta os números de mensagens de enviadas no mês passado por usuários de telefonia celular em um andar de um dormitório universitário. 155 159 144 129 105 145 126 116 130 114 122 112 112 142 126 118 118 108 122 121 109 140 126 119 113 117 118 109 109 119 139 139 122 78 133 126 123 145 121 134 124 119 132 133 124 129 112 126 148 147 Menor valor: 78 Maior valor: 159 Sejam os dados ordenados: 2,3 – 2,6 – 2,8 – 3,1 – 3,3 – 3,4 – 3,4 – 3,5 – 3,9 – 4,2 – 4,3 – 4,4 – 4,5 – 4,8 – 5,3 – 5,5 – 5,5 – 5,7 – 5,8 – 6,2 – 6,4 – 6,7 – 6,9 – 7,0 – 7,0 – 7,2 – 7,6 – 8,1 – 8,2 – 9,1 – 9,6 – 10,2 – 12,3. Menor valor: 2,3 Maior valor: 12,3 Um aspecto interessante de um diagrama de ramo-e- folhas é que ele combina as vantagens de um histograma (permite uma apreensão visual da forma da distribuição) sem que se percam os dados originais. Observe que se tivéssemos acesso apenas ao diagrama de ramo-e-folhas do exemplo dado, sem conhecermos os dados originais, ainda assim seria possível reconstruir todos os dados (bastaria sabermos que os números que estão na coluna dos ramos correspondem às partes inteiras dos dados e que os que estão nas colunas das folhas correspondem às partes decimais). Gráfico de Dispersão Gráfico onde pontos no plano cartesiano são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados Ex:
Compartilhar