Prévia do material em texto
Análise, representação e redução de dados INTRODUÇÃO Já vimos, que o objetivo da Estatística é o estudo de Populações, isto é, conjunto de indivíduos (não necessariamente pessoas) com características comuns. A uma característica comum, que assume valores diferentes de indivíduo para indivíduo, chamamos variável. Já vimos que um dos conceitos fundamentais em Estatística é o de amostra. Quando falamos em amostras, entendemos conjuntos de dados, que representam convenientemente as Populações. Como organizar os dados? Os dados são organizados na forma de uma tabela de frequências. No entanto convém fazer distinção entre os dados discretos e contínuos, já que a construção da tabela de frequências se processa, de um modo geral, de forma diferente. TABELA DE FREQUÊNCIAS A tabela de frequências, apresenta o número de elementos – frequência absoluta de cada uma das categorias e a frequência relativa, onde: Frequência relativa = n – dimensão da amostra nᵢ - frequência absoluta n Ni Organização de dados discretos Exemplo – Numa turma do curso de EISC, os alunos registaram o nº de UC realizadas com aproveitamento no 1º semestre, tendo-se obtido a seguinte amostra: 2 3 3 2 4 1 1 2 2 3 2 2 2 1 1 4 5 4 2 3 A tabela de frequências correspondente à amostra anterior é a seguinte: Classes F. A. F.R. F.A.A. F.R.A. 1 4 0,20 4 0,20 2 8 0,40 12 0,60 3 4 0,20 16 0,80 4 3 0,15 19 0,95 5 1 0,05 20 1,00 Total 20 1,00 ----- ----- Representação gráfica de dados ❖Variáveis discretas – diagrama de barras Uma representação gráfica adequada para dados discretos, é o diagrama de barras. Diagrama de barras – representação gráfica que consiste em marcar num sistema de eixos coordenados, no eixo dos xx, o valor das classes e nesses pontos barras verticais de altura igual à frequência absoluta ou frequência relativa. Representação gráfica de dados 4 8 4 3 1 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 fr e q . A b s o lu ta ( a lu n o s ) (nº de UC …) Diagrama de barras DIAGRAMA CIRCULAR O gráfico circular , também conhecido como gráfico de sectores é um diagrama circular onde os valores de cada categoria estatística representada são proporcionais às respectivas frequências. ✓Este gráfico pode vir acompanhado de suas respectivas percentagens. ✓É utilizado essencialmente para dados qualitativos. DIAGRAMA CIRCULAR Obs.: Os ângulos dos sectores são proporcionais às frequências das classes. Por exemplo uma classe com uma frequência relativa igual a 0.10, terá no diagrama circular um sector com um ângulo igual a 360x0.10 = 36 graus. Características: ✓a área do gráfico equivale á totalidade de casos (100%). ✓cada sector representa a percentagem de cada categoria. DIAGRAMA CIRCULAR Exemplo: tipo de sangue de 50 alunos: DIAGRAMA CIRCULAR ETAPAS 1. Definição das classes a) Determinar a amplitude da amostra (R), isto é, a diferença entre o valor máximo e o mínimo da amostra; b) Dividir esta amplitude pelo número de classes, k ( a definir posteriormente); c) Tomar para amplitude de classe, h, um valor aproximado por excesso, do valor obtido em b); d) Construir as classes de modo a que tenham todas a mesma amplitude e cuja união contenha todos os elementos da amostra. ETAPAS 2. Contagem do número de elementos de cada classe: ➢ Conta-se o número de elementos da amostra, que pertencem a cada classe. Analogamente ao que foi considerado no caso dos dados discretos, esses valores serão as frequências absolutas das classes. NÚMERO DE CLASSES A CONSIDERAR (K) Existe uma regra empírica, que nos dá um valor aproximado para o número de classes que se devem considerar e que é a seguinte: ➢ Para uma amostra de dimensão n, o número de classes é dado pelo menor inteiro k tal que .n k 2 NÚMERO DE CLASSES A CONSIDERAR (K) Observações: 1) A regra enunciada anteriormente para determinar o número de classes, é uma de várias regras existentes. 2) A metodologia utilizada para a construção de classes não é única. Pode-se, por exemplo, decidir construir as classes fechadas à direita e abertas à esquerda. Organização de dados contínuos Ex.: Consideremos a amostra constituída pelas notas obtidas num exame de P.E., em uma determinada turma de EISC: 12.1 8.9 16.2 8.2 9.8 15.1 14.5 13.4 14.7 7.5 8.8 12.4 16.1 15.2 13.5 13.8 14.6 15.5 7.8 12.5 13.2 11.0 10.5 Organização de dados contínuos De acordo com a metodologia apresentada anteriormente, temos: ❖ Amplitude da amostra: ❖ Valor de k: O número de classes é dado pelo menor inteiro k, tal que 7,85,72,16 =−=R nk 2 5=k Organização de dados contínuos ❖ Amplitude de classe - h valor aproximado por excesso 8,174,1 5 7,8 →=== h k R h Organização de dados contínuos Tabela de frequências Classes Freq. Abs. Freq. Rel. [7.5 - 9.3[ 5 0.2174 [9.3 – 11.1[ 3 0.1304 [11.1 – 12.9[ 3 0.1304 [12.9 – 14.7[ 6 0.2609 [14.7 – 16.5[ 6 0.2609 TOTAL 23 1 Representação gráfica de dados ❖Variáveis contínuas – Histograma Ao contrário do caso discreto, agora as classes já não são pontos isolados, mas sim intervalos. Assim, a representação gráfica já não pode ser diagrama de barras, mas sim histograma. Histograma – para representação gráfica de dados contínuos, usa-se um histograma, formado por uma sucessão de rectângulos adjacentes, tendo cada um por base um intervalo de classe e por área a frequência relativa (ou frequência absoluta). Representação gráfica de dados 0 5 3 3 6 6 0 1 2 3 4 5 6 7 [5.7 - 7.5[ [7.5 - 9.3[ [9.3 - 11.1[ [11.1 - 12.9[ [12.9 - 14.7[ [14.7 - 16.5[ fr eq u ên ci a a b so lu ta classes Notas do teste de P.E. Aspectos apresentados por um histograma As distribuições mais comuns apresentados pelos dados são: ❖Distribuições simétricas ❖Distribuições enviesadas ❖Distribuições com caudas longas ❖Distribuições com vários “picos” ou modas Distribuições simétricas – a distribuição de frequências faz-se de forma aproximadamente simétrica, relativamente a uma classe média Distribuições enviesadas- a distribuição das frequências faz-se de forma acentuadamente assimétrica, apresentando valores substancialmente mais pequenos num dos lados, relativamente ao outro. Distribuições com caudas longas – a distribuição das frequências faz-se de tal forma que existe um grande número de classes nos extremos, cujas frequências são pequenas, relativamente às classes centrais. Distribuições com vários “picos” ou modas – a distribuição das frequências apresenta 2 ou mais “picos” a que chamamos moda Dados bivariados Por vezes a População que se pretende estudar aparece sobre a forma de pares de valores, isto é cada indivíduo ou resultado experimental contribui com um conjunto de dois valores. A representação gráfica utilizada é o diagrama de dispersão ou de pontos. Diagrama de dispersão – é uma representação gráfica para os dados bivariados, em que cada par de dados (x, y) é representado por um ponto de coordenadas (x, y), num sistema de eixos coordenados. Dados bivariados Exemplo 1 – Considere os seguintes dados, que representam o número de faltas não autorizadas por ano e a distância (em km) a que os empregados de determinada fábrica estão de casa. distância (x) nº faltas (y) 1 8 3 5 4 8 6 7 8 6 10 3 12 5 14 2 16 4 18 2 Diagrama de dispersão ou de pontos 0 1 2 3 4 5 6 7 8 9 0 2 4 6 8 10 12 14 16 18 20 n º fa lt a s (y ) distância (x) distância vs nº faltas Comentário O gráfico mostra uma ligeira associação, de sentido contrário, entre o nº de faltas e a distância. Assim, quanto maior é a distância, menor é a tendência para faltar! Dados bivariados Exemplo 2 – Considere os seguintes dados que representam as medidas em mm, de ossos do braço e da perna, de 5 espécies de animais. ESPÉCIE Braço (Úmero) Perna (Fémur) A 312 430 B 335 458 C 286 407 D 312 440 E 305 422 Diagrama de dispersão A B C D E 400 410 420 430 440 450 460 470 280 290 300 310 320330 340 p er n a ( fé m u r) braço (úmero) medidas (em mm) do braço vs perna Comentário Verifica-se uma associação linear entre as medidas dos ossos do braço e da perna, isto é, aos maiores valores de x (braço) correspondem os maiores valores de y (perna). Esta conclusão seria de esperar, pois de um modo geral se as pessoas são grandes, são-no de braços e pernas! Dados bivariados Exemplo 3 – Considere os seguintes dados, que representam as notas obtidas por 10 alunos nas disciplinas de Estatística e Inglês. Estatística (x) Inglês (y) 12 14 13 15 10 10 11 17 18 16 16 12 12 15 14 12 18 14 18 12 Diagrama de dispersão 0 2 4 6 8 10 12 14 16 18 0 2 4 6 8 10 12 14 16 18 20 In g lê s Estatística Estatística vs Inglês Comentário Aparentemente não existe nenhuma associação linear entre as notas obtidas nas duas disciplinas, uma vez que os pontos se encontram dispersos.