Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 2 Representações Grá cas de Dados Objetivo: Compreender a importância de se sintetizar (resumir) a informação dos dados estatísticos para futuras modelagens probabilísticas e inferenciais. A Análise Exploratória de Dados, como o próprio termo indica, é uma fase artesanal de extração de informação de um conjunto quase sempre desordenado e caótico de dados coletados de um certo estudo. Assim, é preciso muitas vezes intu- ição sobre como trabalhar convenientemente esses dados a m de que informações valiosas possam vir à tona. A primeira tentativa de resumir os dados é feita através de grá cos con- venientemente escolhidos para dar voz à informação. (Aqui cabe ressaltar que, da mesma forma que todo discurso tem uma intenção do falante por trás do que emite, também o grá co terá uma intencionalidade que deve ser observada a priori.) A fase seguinte consiste em se obter medidas-resumo que possam nos auxiliar a caracterizar a distribuição dos dados e nos preparar para um possível modelo de probabilidade que se ajuste a esses dados. 1 Tabelas e Distribuição de Frequências Como dissemos na aula anterior, dependendo da natureza da variável (qualitativa, quantitativa, nominal, ordinal, discreta ou contínua) teremos um direcionamento do que podemos fazer como síntese de informação. 1.1 Tabela de Frequência para Variáveis Qualitativas Como a variável em estudo é qualitativa, só podemos contar quantas obser- vações no estudo têm o atributo em questão. É o que comumente chamamos de informação no domínio da frequência, pois não há um característico numérico in- trínseco à mensuração. Exemplo 1 (Publicado no O Globo, 29/04/2011) Pesquisadores do Instituto de Segurança Pública (ISP) zeram em 2009 e 2010 uma pesquisa sobre vítimas de estupro, tendo obtido os seguintes resultados. Em 2009, de 4120 vítimas registradas, 3002 eram do sexo feminino e 1118 eram do sexo masculino ou não identi cado (o 1 gênero não consta no registro); já em 2010, de 4589 vítimas registradas, 3751 eram do sexo feminino e 838 eram do sexo masculino ou não identi cado. Um resumo da informação via tabela de frequência poderia ser da forma: Categoria 2009 2010 Mulheres 3:002 3:751 Homens ou sem identi cação 1:118 838 Vemos que não há muito mais a oferecer como síntese. Poderíamos apenas acrescentar mais informação, ou então usar a frequência relativa (%), como nos exemplos abaixo: Categoria 2009 2010 Mulheres 3:002 3:751 Homens ou sem identi cação 1:118 838 Total 4:120 4:589 Categoria 2009 2010 Mulheres 72; 9% 81; 2% Homens ou sem identi cação 27; 1% 18; 2% Total 100% 100% A vantagem da última tabela é que podemos já ter uma ideia de aumento ou redução no índice de estupros de 2009 a 2010. 1.2 Tabela de Frequência para Variáveis Quantitativas Dis- cretas Quando a variável é quantitativa discreta, devemos resumir a informação através de uma tabela que represente a frequência com que cada valor observado aparece no estudo. Assim, seja o seguinte exemplo: Exemplo 2 Numa pesquisa realizada em 20 domicílios de classe A do Rio de Janeiro, com o objetivo de contabilizar o número de lhos por família, um pesquisador obteve os seguintes dados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4 ,2, 1, 3, 1, 2, 1, 1, 1. A variável do estudo é quantitativa discreta (número de lhos por família). As- sim, poderíamos sintetizar a informação dos dados através da seguinte tabela, con- tendo tanto a frequência absoluta, quanto a frequência relativa (em percentual). É importante ter a frequência relativa pois ela é uma espécie de probabilidade empírica e isso nos ajudará a conceber mais tarde um modelo de probabilidade para a variável em estudo. No. de Filhos Frequência Frequência Relativa (%) 0 5 5 20 = 0; 25 = 25% 1 10 10 20 = 0; 50 = 50% 2 3 3 20 = 0; 15 = 15% 3 1 1 20 = 0; 05 = 5% 4 1 1 20 = 0; 05 = 5% Total 20 20 20 = 1; 00 = 100% 2 1.3 Tabela de Frequência para Variáveis Quantitativas Con- tínuas Quando a variável é quantitativa contínua (seus resultados se situam num in- tervalo da reta real), então devemos resumir a informação através de uma tabela que represente a frequência com que cada valor observado aparece dentro de um dado intervalo, chamado de classe. Vejamos como construir uma tabela de frequência a partir de um exemplo: Exemplo 3 Um pesquisador, contratado pela empresa de Telefonia Celular A, de- seja estudar o tempo (em minutos gastos) por mês pelos seus assinantes. Para isso, ele seleciona uma amostra aleatória de 30 clientes e obtém os seguintes dados: 102, 124, 108, 86, 103, 82, 71, 104, 112, 118, 87, 95, 103, 116, 85, 122, 87, 100, 105, 97, 107, 67, 78, 125, 109, 99, 105, 99, 101, 92. Como a variável tempo é quantitativa contínua (mesmo mensurando-a em unidades de minutos), a ideia é construir uma tabela de frequências em classes. A primeira pergunta que surge é: quantas classes utilizar? Não há resposta absoluta para essa questão e em geral é por tentativas que escolhemos a melhor. Claro que um número pequeno de classes não vai revelar uma boa distribuição dos dados e tampouco um número excessivo de classes, pois caríamos potencialmente com uma frequência ou nenhuma frequência por cada classe... Em geral testamos inicialmente um número de classes k, dado por k �= pn ou então k = 1 + 3; 3 log n onde n é o número de observações coletadas e log é o logaritmo decimal. No nosso caso, teríamos k = 5, pois n = 30 e p n = 5; 477225::: Vamos construir agora nossa tabela de frequências com os seguintes passos: Passo 1) Obtenha os valores máximo e mínimo da amostra: Valor mínimo = 67 e Valor máximo = 125. Passo 2) Escolha o número de classes para a tabela de frequência: k = 5 (pela nossa discussão anterior). Passo 3) Calcule a amplitude total dos dados (A) (a diferença entre o valor máximo e o valor mínimo). No nosso exemplo, temos A = 125� 67 = 58. Passo 4) Calcule a amplitude das classes (h) onde h := A k . Assim temos h = 58 5 = 11; 6, que arredondaremos para h = 12. 3 Passo 5) Calcule os limites das classes. O limite inferior da classe é o valor mais baixo que pertence a ela e o limite superior é o mais alto. Use o valor mínimo (67) como limite inferior da primeira classe. Passo 6) De na as 5 classes (intervalos), a saber: [67; 79), [79; 91), [91; 103), [103; 115) e [115; 127]. Passo 7) Conte quantas observações se situam em cada classe, respeitando os intervalos fechados à esquerda e abertos à direita, e coloque as observações numa tabela do tipo abaixo. Classes Frequência Frequência Relativa (%) 67 ` 79 3 10% = 3 30 � 100% 79 ` 91 5 16; 67% = 5 30 � 100% 91 ` 103 8 26; 66% = 8 30 � 100% 103 ` 115 9 30% = 9 30 � 100% 115 ` 127 5 16; 67% = 5 30 � 100% Total 30 100% = 30 30 � 100% Veremos depois que a tabela de frequências para dados quantitativos contínuos enseja a construção de um grá co extremamente importante na Estatística chamado Histograma. Voltaremos a esse exemplo mais tarde. 2 Representação Grá ca de Dados A representação grá ca é uma forma importante de veicular informações sin- tetizadas de estudos, sobretudo na mídia. Por isso, é importante os professores explorarem esse rico material em sala de aula, pois os alunos não poderão adquirir um letramento estatístico adequado sem aprender a interpretá-los. Nossa sugestão é que você, professor, peça aos alunos para trazerem recortes de jornais ou revis- tas com grá cos para a sala de aula, e proponha discussões não somente sobre os seus aspectos estruturais (geometria, função, etc.) mas também a intencionalidade do discurso grá co. Assim os alunos poderão adquirir cidadania e espírito crítico através da educação estatística, pois é possível encontrar na mídia muitos grá cos intencionalmente mal construídos em suas escalas para gerar uma interpretação er- rônea dos dados coletados. Além disso, deve-seenfatizar em sala de aula o papel da representação grá ca no processo de análise estatística de dados e muita atenção deve ser dada à especi cidade de cada grá co para os estudos estatísticos. 2.1 Grá co em Setores para Variáveis Qualitativas Esse tipo de grá co, também conhecido como grá co de pizza, é usado quando desejamos enfatizar numa mensuração categórica qual a partipação de cada categoria no todo observado. O ângulo de cada setor corresponde ao produto da frequência relativa de cada categoria com os 360� (ou 2� radianos) da circunferência. Assim voltando ao exemplo 1, temos a seguinte veiculação na mídia: 4 Embora vários programas de computador, como Excell, fazem os grá cos automaticamente, vejamos como os ângulos são calculados para a construção a mão via compasso e esquadro a ser proposta em sala de aula aos alunos, dialogando assim com o conteúdo de geometria aprendido classes anteriores. Para o grá co em setor de 2009, o percentual de participação do sexo femi- nino foi de 72,9%. Assim, o ângulo referente ao setor feminino é dado por 0; 729� 360� = 262� 260 2400 ou 0; 729� 2� �= 4; 58 Já para o grá co em setor de 2010, o percentual de participação do sexo feminino foi de 81,2%. Assim, o ângulo referente ao setor feminino é dado por 0; 812� 360� = 292� 190 1200 ou 0; 812� 2� �= 5; 10 2.2 Grá co em Barras para Variáveis Qualitativas ou Quan- titativas Discretas Esse tipo de grá co tem uma certa similaridade de intenção com o grá co em setores, exceto pelo fato de que não estamos mais interessados em enfatizar a partic- ipação de cada categoria no todo considerando todas as categorias conjuntamente. A ideia é expressar informações individualizadas, e representadas por barras cuja 5 altura representa a frequência nas categorias. Vejamos o exemplo a seguir, repre- sentando em barras o número de cópias de jornais (em milhares de exemplares) em alguns países. Número de cópias de jornal que circulam diariamente 72.047 58.247 30.000 25.467 23.848 18.343 8.941 6.551 6.281 5.697 0 10.000 20.000 30.000 40.000 50.000 60.000 70.000 80.000 Jap ão EU A Rú ssi a Ale ma nh a Índi a Ingl ate rra Fra nça Bra sil Itáli a Pol ôni a País Mil har es de exe mp lar es Vemos que aqui a intenção não é comparar qual a fatia de participação dos jornais publicados no Japão na soma de todas as publicações de países em estudo. A comparação é no sentido de informações isoladas. Vemos também que não existe um lugar geométrico de nido para a variável qualitativa país. Portanto, qualquer ordem é possivel de ser escolhida (a ordem escolhida aí foi a decrescente para enfatizar os maiores editores de jornais). Quando a variável é quantitativa discreta, então o lugar geométrico está bem de nido e as barras são construídas nesses pontos, com altura igual (ou proporcional) à frequência observada. Cabe observar que alguns autores distinguem grá co em barras (barra hor- izontal) e grá co em colunas (barras verticais). Não faremos no entanto essa dis- tinção. Abaixo se encontra um exemplo de barras horizontais veiculado no jornal O Globo de 30 de abril de 2011. 6 2.3 Grá co em Linha para Variáveis Quantitativas Esse tipo de grá co é usado sobretudo quando temos observações temporais de uma variável em estudo e desejamos representá-la no tempo (abscissa) a m de reconhecer possíveis tendências e/ou sazonalidade (comportamento periódicos repetidos). O exemplo a seguir ilustra bem a utilidade do grá co em linha para a evolução do preço do dólar comercial ao longo de um certo período de tempo. Evolução do preço do dólar comercial 0.0 0.5 1.0 1.5 2.0 2.5 12/98 02/99 04/99 06/99 08/99 Data Va lo r d o dó la r Outro exemplo extraído do jornal O Globo de 30 de abril de 2011, referente ao crescimento da população brasileira desde o século 19, encontra-se a seguir. 7 2.4 Histograma para Variáveis Quantitativas Contínuas A ideia agora é representar uma gura geométrica compacta para que possamos futuramente pensar num modelo probabilístico contínuo para a variável em estudo. Voltemos ao exemplo 3 do tempo (em minutos gastos) por mês pelos assinantes da Telefonia Celular A. O grá co das frequências por intervalo dado por Classes Frequência 67 ` 79 3 79 ` 91 5 91 ` 103 8 103 ` 115 9 115 ` 127 5 Total 30 num histograma teria a seguinte caracterização: 8 2.5 Diagrama de Ramo-Folha para Variáveis Quantitativas Contínuas Esse grá co tem a mesma proposta do histograma, isto é, mostrar onde se situam as maiores incidências da variável, mas o grá co é construído com os próprios valores numéricos. Tomemos novamente o exemplo 3 do tempo (em minutos gastos) por mês pelos assinantes da Telefonia Celular A. Os valores vão de 67 a 125. A ideia é tomar as dezenas como os ramos e as unidades com as folhas. Assim os ramos vão de 6 a 12 e dispomos as folhas da seguinte forma: Observe que, girando o grá co acima para a esquerda, temos uma ideia de histograma e de como seria uma função que cobrisse a última folha de cada ramo, conforme a imagem abaixo. 9 2.6 Diagrama de Dispersão para a relação de duas variáveis quantitativas Esse grá co de pares ordenados no plano cartesiano é usado quando desejamos avaliar a relação recíproca entre duas variáveis quantitativas de interesse. Por ex- emplo, suponha que desejemos saber se há uma relação entre número de faltas em sala de aula e média nal das provas numa dada disciplina. Para isso, suponha que tomemos uma amostra de 7 alunos obtendo o seguinte conjunto de pares de dados dos alunos. Aluno Faltas Média Final 1 8 78 2 2 92 3 5 90 4 12 58 5 15 43 6 9 74 7 6 81 Assim, cada aluno representa um par ordenado de informação (x; y), onde x representa o número de faltas e y a média nal. O diagrama de dispersão, também conhecido na literatura como scatter plot, é a representação grá ca desses pares ordenados. Com os dados acima, teríamos o seguinte grá co. 10 O que podemos depreender, ao menos intuitivamente, a partir do grá co acima? Que parece haver uma relação quase linear entre faltas e média nal na disciplina, e que quanto maior o número de faltas mais baixa tende a ser a média nal e vice-versa. Esse grá co é de extrema importância para que possamos medir a correlação linear entre duas variáveis quantitativas em estudo, o chamado coe ciente de correlação. Agora que já sabemos como representar gra camente de diversas formas os nossos dados coletados podemos começar a resumir a informação de um ponto de vista numérico. Esse será o objetivo a ser alcançado pela próxima aula. Com os recursos de que dispõe, construa tabelas e/ou grá cos que achar conve- nientes para resumir pictogra camente os seguintes dados: Exercício 1 Área dos continentes em milhões de km2: América, 42.960; Europa: 10.498; Ásia: 43.608; África: 30.335; Oceania: 8.923; Antártida: 16.500. (Fonte: Atlas Geográ co Mundial da Folha de São Paulo.) Exercício 2 Lucro líquido em US$ bilhões, das companhias em Bolsa: 1990: 1; 0; 1991: �1; 4; 1992: 1; 5; 1993: 3; 8; 1994: 11; 5; 1995: 6; 4; 1996: 11; 4. (Fonte: Economática.) Exercício 3 Mercado Brasileiro de chocolate: � Divisão por empresas: Lacta: 35,4%; Nestlé: 31,6%; Garoto: 22,0%; Neug- bauer: 3,6%; Ferrero Rocher: 0,9%; outros: 6,5%. (Fonte: Eletropaulo.) � Produção e Consumo em mil toneladas: Ano 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 Produção 196 220 251 294 296 305 329 313 327 327 Consumo 169 199 237 292 305 302 332 295 322 298 (Fonte: Folha de São Paulo, 24 de julho de 2002) 11 Exercício 4 Para um dado teste de QI, selecionou-se uma amostra de 15 pessoas e registrou-se o tempo em minutos para fazê-lo, obtendo-se os seguintes valores: 30, 20, 10, 40, 25, 20, 10, 60, 15, 40, 5, 30, 12, 10, 10. Faça um histogramae um diagrama de ramos e folhas para os dados coletados. Exercício 5 (Fórum de Discussões) Proponha uma atividade prática em sala de aula para a geração de dados estatísticos com o propósito de caracterização grá ca dos resultados obtidos. 12
Compartilhar