Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal Rural do Rio de Janeiro Instituto de Cïı>½ncias Exatas Departamento de Matem̈ı>½tica NOTAS DE AULA II - EDA Conteúdo 1 Introdução 4 1.1 O que é uma pesquisa estat́ıstica . . . . . . . . . . . . . . . . . . . . 4 1.2 Apresentação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.1 Exemplos para Motivação . . . . . . . . . . . . . . . . . . . . 9 * 2 Lista de Tabelas 1.1 Dados da Turma de Economia . . . . . . . . . . . . . . . . . . . . . . 10 1.2 Sexo e Nº de alunos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3 Sexo e Nº de alunos por turma . . . . . . . . . . . . . . . . . . . . . 11 1.4 Sexo e Matéria Predileta . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5 Tabela de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6 Matéria Predileta e Turma . . . . . . . . . . . . . . . . . . . . . . . . 12 1.7 matŕıculas de professores e alunos . . . . . . . . . . . . . . . . . . . 12 1.8 Frota de véıculos no munićıpio de Niterói . . . . . . . . . . . . . . . . 16 1.9 Cálculo das áreas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.10 Evolução dos ı́ndices, INPC e IRSM . . . . . . . . . . . . . . . . . . . 18 1.11 Medidas da circunferência do tronco de pés de laranja . . . . . . . . . 22 1.12 Tabela da Esquerda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.13 Tabela da Esquerda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3 Caṕıtulo 1 Introdução 1.1 O que é uma pesquisa estat́ıstica ”A pesquisa cient́ıfica é um processo de aprendizado dirigido. O objetivo dos mé- todos estat́ısticos é tornar este processo o mais eficiente posśıvel”. BOX, G.E.P., HUNTER, W.G., HUNTER, J.S. Statistics for Experimenters. Canadá: John Wi- ley, 1978 A palavra ”Estat́ıstica”vem de status, que significa em latim Estado. Com essa pa- lavra faziam-se as descrições de dados relativos aos Estados, tornando a Estat́ıstica um meio de administração para os governantes. Mais recentemente se passou a falar em estat́ıstica em várias ciências de todas as áreas do conhecimento humano. Po- demos então definir a estat́ıstica como sendo ”um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos”. Uma pesquisa estat́ıstica consiste em um trabalho de identificação, reunião, trata- mento, análise e apresentação de informações (dados) para satisfazer certa necessi- dade. Quantos somos? Quem vai vencer a eleição para prefeito na cidade do Rio de Ja- neiro? Qual é a maior torcida do Brasil? Quantas escolas municipais há no Brasil? Respostas a essas perguntas, em geral, são obtidas a partir de uma pesquisa esta- t́ıstica. 4 Freqüentemente nos deparamos com informações estat́ısticas nos jornais, televi- são, empresas públicas ou privadas, etc. Por exemplo, quando a direção do Metrô do Rio de Janeiro informa que transporta 500.000 passageiros por dia, estamos lidando com uma estat́ıstica do número de passageiros do metrô. Tal estat́ıstica foi obtida com base na análise do movimento diário ao longo de um determinado peŕıodo de tempo e dessas análises resultou um número que pretende dar uma idéia do movi- mento diário de passageiros. É claro que isso não significa que todos os dias circulam exatamente 500.000 passageiros, mas tal número representa uma estimativa do nú- mero de passageiros. Um outro exemplo que presenciamos periodicamente no Brasil são os Censos Demo- gráficos, que são levantamentos realizados pelos governos com o objetivo de conhecer as caracteŕısticas de sua população, suas condições sócio-econômicas, suas caracteŕıs- ticas culturais e religiosas, etc. Temos também os Censos Econômicos, com os quais se pretende conhecer as caracteŕısticas da população formada pelos estabelecimentos econômicos do páıs; assim podemos ter o Censo Industrial, o Censo Agropecuário, etc. Nas pesquisas censitárias, o objetivo é que todos os elementos da população tenham os seus dados levantados. Nos censos demográficos, isso significa que todas as pes- soas e domićılios têm que ser visitados; já no censo industrial, todas as empresas que desenvolvam atividades industriais têm que ser pesquisadas. Com esses exemplos, vê-se que o conceito de população de uma pesquisa estat́ıstica é bem amplo, não se restringindo a seres humanos; ela é definida exatamente a partir dos objetivos da pesquisa. Podemos então definir uma população como sendo o con- junto de elementos para os quais se deseja estudar determinada(s) caracteŕıstica(s). Os dados de uma pesquisa estat́ıstica podem ser obtidos por: � observação: quando o pesquisador não pode controlar as caracteŕısticas de 5 interesse. � experimentos: quando o pesquisador controla parcialmente as caracteŕısticas de interesse. Exemplo 1 Suponha que se deseja estudar a relação entre os gastos de consumo e a renda de um determinado grupo de indiv́ıduos. Uma pesquisa pode constar da escolha, por sorteio, de alguns indiv́ıduos do grupo e da coleta das informações sobre as caracteŕısticas de interesse nestes indiv́ıduos. Exemplo 2: Deseja-se comparar duas variedades de cana de açúcar, com respeito a um tipo de adubação. São escolhidos dois ńıveis de adubo (“ausente”, “presente”, por exemplo) e algumas mudas de cada uma das variedades são plantadas sob cada um destes ńıveis. No primeiro exemplo, o pesquisador apenas observa as caracteŕısticas de interesse nos indiv́ıduos sorteados, e no segundo exemplo, ele controla uma das caracteŕısticas: o ńıvel de adubo utilizado no experimento. Em ambos os casos, os dados estão sujeitos a variações do “acaso”, ou seja, podem ser afetados por condições qua não podem ser controladas ou observadas. Por meio de uma análise de dados, busca-se uma forma de regularidade ou pa- drão, ou modelo, presente nas observações. Dados = modelo + reśıduos (D=M+R) Os reśıduos (ou erros) são a diferença entre as observações e o modelo proposto. A Análise Exploratória de Dados ( EDA ) é um conjunto de técnicas que busca estabelecer a melhor relação D=M+R para um particular conjunto de dados. Podemos identificar três grandes áreas da Estat́ıstica, que, no entanto, não for- mam ramos isolados: � Amostragem e Planejamento de Experimentos - processo de obtenção dos da- 6 dos; � Estat́ıstica Descritiva - organização, apresentação e sintetização dos dados; � Estat́ıstica Inferencial - conjunto de métodos para a tomada de decisão nas situações onde existam incertezas e variações. 1.2 Apresentação dos dados Iniciaremos este caṕıtulo com algmas definições importantes: Definïı¿½̈ı¿½o 1.2.1 Variável É uma caracteŕıstica qualquer do objeto em estudo e pode ser classificada como: � variável qualitativa- quando apresenta como posśıveis realizações uma quali- dade ou atributo do objeto em estudo; � variável quantitativa - quando apresenta como posśıveis realizações, números resultantes de uma contagem ou mensuração. As variáveis qualitativas podem ainda ser divididas em: � variáveis qualitativas nominais- se não existe nenhuma ordem em suas posśı- veis realizações ou � variáveis qualitativas ordinais- se existir uma ordem em suas posśıveis rea- lizações. As variáveis quantitativas podem ainda ser divididas em: � variáveis quantitativas discretas-se seus posśıveis valores formam um conjunto finito ou enumerável � variáveis quantitativas cont́ınuas- se seus posśıveis valores formam um inter- valo ou união de intervalos de números reais. 7 Esquematicamente, podemos representar a divisão das variáveis por NOMINAL QUALITATIVA ↗ ↗ ↘ ORDINAL VARIÁVEL ↘ DISCRETA QUANTITATIVA ↗ ↘ CONTÍNUA Definïı¿½̈ı¿½o 1.2.2 População É um conjunto de indiv́ıduos (ou objetos) tendo pelo menos uma variável comum observávele que é alvo do estudo. Definïı¿½̈ı¿½o 1.2.3 Amostra É qualquer subconjunto da população. Definïı¿½̈ı¿½o 1.2.4 Amostra Aleatória É uma amostra representativa da população, é selecionada de tal forma que todos os membros da população tenham a mesma chance (probabilidade) de serem seleciona- dos para compor a amostra. A seleção da amostra pode ser feita de várias maneiras, dependendo, entre outros fatores, do grau de conhecimento que temos da população, da quantidade de recursos dispońıveis a assim por diante. Cabe ressaltar que este item será apresentado mais para frente. Definïı¿½̈ı¿½o 1.2.5 Censo É um levantamento estat́ıstico (pesquisa) que abrange todos os elementos de uma população. Definïı¿½̈ı¿½o 1.2.6 Parâmetro É uma medida numérica que descreve uma caracteŕıstica de uma população. São valores fixos, geralmente desconhecidos e usualmente representados por caracteres 8 gregos. Por exemplo, µ (média populacional), ρ (proporção populacional), σ (desvio- padrão populacional), σ2 (variância populacional). Definïı¿½̈ı¿½o 1.2.7 Estat́ıstica É uma medida numérica que descreve uma caracteŕıstica de uma amostra. Re- presentada por caracteres latinos. Por exemplo, x̄ (média amostral), p (proporção amostral), s (desvio-padrão amostral), s2 (variância amostral). Ao estudar uma variável, o principal interesse do pesquisador é, em geral, co- nhecer a distribuição desta variável através de seus valores. Podemos representar a distribuição dos valores de uma variável utilizando uma tabela de frequências, ou representando gráficamente seus valores. 1.2.1 Exemplos para Motivação Exemplo 1 Considere os dados da Tabela 1.1 onde temos informações sobre a turma, o sexo, a matéria predileta (Português, Matemática, História, Geografia ou Ciências) no 2º grau e a nota (número de questões certas) em um teste de múltipla escolha com 10 questões de matemática, ministrado no primeiro dia de aula dos ca- louros do curso de Economia. As três primeiras variáveis são qualitativas, enquanto nota é uma variável quantitativa discreta. Como podemos resumir essas informações de uma forma mais clara e objetiva? Afinal, o que nos interessa é saber quantas mulheres e quantos homens há em cada turma, quantas pessoas tiraram nota 10, quantas pessoas escolheram, por exemplo, o Português como materia predileta e assim por diante. Para isso, vamos construir tabelas ou distribuições de freqüência para os dados apresentados 9 Turma Sexo Predileta Nota Turma Sexo Predileta Nota Turma Sexo Predileta Nota A F H 5 A M M 2 B F G 6 A M M 8 A M G 4 B F M 4 A F P 8 A M G 9 B M M 6 A F H 6 A M M 7 B F P 5 A M C 5 A M M 1 B M G 3 A M H 6 A F P 8 B F M 5 A F M 8 A F G 5 B M P 3 A F P 4 A M G 9 B M M 4 A F H 2 A M P 5 B F C 8 A M C 6 A F M 8 B F H 3 A F P 8 A F G 6 B M G 4 A M H 3 A F P 9 B M P 5 A M M 5 A M M 8 B M P 4 A F P 5 B F H 6 B M H 6 A F G 5 B M M 3 B M M 6 A M C 7 B F P 4 B M G 6 A M H 4 B M H 8 B M H 6 A F M 7 B M G 10 B M H 6 A F P 7 B F M 5 B F M 8 A F M 6 B F P 7 B F M 8 A M G 6 B F P 5 B F G 5 A M H 9 B M M 6 B M C 5 A F M 8 B F M 5 A M P 5 B M G 5 A M G 6 B F H 8 A F M 7 B F G 5 A M P 5 B M G 6 A F M 5 B F M 5 A F M 5 B M G 2 Tabela 1.1: Dados da Turma de Economia Por exemplo, a Tabela 1.2 mostra a distribuição de frequência dos alunos por sexo. Sexo Número de alunos Masculino 41 Feminino 39 Total 80 Tabela 1.2: Sexo e Nº de alunos 10 A tabela 1.3 mostra a distribuição dos alunos por turma e sexo. Sexo Nºde alunos turma A turma B Total Masculino 21 20 41 Feminino 21 18 39 Total 42 38 80 Tabela 1.3: Sexo e Nº de alunos por turma Podemos construir ainda, uma tabela que mostra a distribuição dos alunos por sexo e materia predileta, ver Tabela 1.4 Sexo Materia Predileta História Matemática Português Geografia Ciências Total Masculino 8 11 6 12 4 41 Feminino 6 15 11 6 1 39 Total 14 26 17 18 5 80 Tabela 1.4: Sexo e Matéria Predileta Definïı¿½̈ı¿½o 1.2.8 Tabela de Frequências É uma das formas mais simples de apresentação de dados. Podemos representar a distribuição dos valores de uma variável utilizando uma tabela de frequências como a que aparece no exemplo acima. Regra geral, uma tabela de frequência pode ser representada da seguinte forma: Tabela 1.5: Tabela de frequências Variável Frequência Proporção Porcentagem Freq. acumulada (ni) (fi) (%) (fa) ńıvel 1 n1 f1 100× f1 n1 ńıvel 2 n2 f2 100× f2 n1 + n2 ... ... ... ... ńıvel k nk fk 100× fk n1 + n2 + . . .+ nk Total n = n1 + n2 + . . .+ nk 1 = f1 + . . .+ fk 100 n em que 11 � n é o número total de observações do conjunto; � k é o número de ńıveis da variável em questão; � i é o ı́ndice que indica o ńıvel da variável; � ni é o núumero de observações para o ńıvel i da variável; � fi = ni/n é a proporção de casos no ńıvel i da variável. � (fa) = n1 + n2 + . . .+ nk é a soma de casos até o ńıvel k da variável. A Tabela 1.6 mostra a importânciade se calcular uma proporção quando estamos interessados em comparar dois conjuntos de dados de tamanhos diferentes. Propor- cionalmente, temos mais alunos que preferiram História, na Turma B (fi = 18, 42) do que na Turma A (fi = 16, 67), apesar das frequências serem as mesmas (ni = 7) Matéria Frequência Proporção Frequência Proporção Frequência Proporção Predileta Turma A (ni) Turma A (fi) Turma B (ni) Turma B (fi) Total Total Português 10 23,81 7 18,42 17 21,25 Matemática 14 33,33 12 31,58 26 32,50 História 7 16,67 7 18,42 14 17,50 Geografia 8 19,05 10 26,32 18 22,50 Ciências 3 7,14 2 5,26 5 6,25 Total 42 100,00 38 100,00 80 100,00 Tabela 1.6: Matéria Predileta e Turma Exemplo 2 A tabela 1.7 representa a distribuição de frequência dos dados referen- tes as matŕıculas de professores e alunos em escolas do munićıpio de Niterói em 2009. Escola de Ensino Fundamental Matŕıculas de professores Matŕıcula de alunos Privada 1751 25280 Pública Estadual 1186 21328 Pública Municipal 947 18432 Pública Federal 29 280 Tabela 1.7: matŕıculas de professores e alunos Uma outra forma de se apresentar os dados é por meio da utilização de gráficos. Existem vários tipos de gráficos que podem ser utilizados para representar tanto as 12 variáveis qualitativas quanto as variáveis quantitativas. Para construir estes grá- ficos, no caso de variáveis qualitativas, consideraremos as frequências com que os ńıveis das variáveis aparecem em um conjunto de dados. Podemos apresentar os dados do Exemplo 2 utilizando gráficos de Barras, como mostram as Figuras 1.1 , 1.2 e 1.3: privada estadual municipal federal Distribuição dos professores tipo de escola nº d e m at rí cu la s 0 50 0 10 00 15 00 Figura 1.1: Distribuição das matŕıculas dos professores. Barra vertical. Gráfico de Barras Vertical da Figura 2.1 prof<-c(1751,1186,947,29) escola<-c(”privada”,”estadual”,”municipal”,”federal”) barplot(prof, names.arg=escola) names(prof)<-c(”privada”,”estadual”,”municipal”,”federal”) barplot(prof, names.arg=escola, main=”Distribuição dos professores”, col=c(2,3,4,5),xlab=”tipo de escola”,ylab=”nº de matŕıculas”) 13 federal municipal estadual privada Distribuição dos professores tipo de escola 0 500 1000 1500 Figura 1.2: Distribuição das matŕıculas dos professores. Barra horizontal. Gráfico de Barras Horizontal da Figura 2.2 555555558k7 14 alunos professores Distribuição de professores e alunos matrícula n. d e m at rí cu la s 0 50 00 10 00 0 15 00 0 20 00 0 25 00 0 Figura 1.3: Distribuição das matŕıculas dos professores e alunos Gráfico de Barras Horizontal (lado a lado) da Figura 2.3 alunosprof<- matrix(c(1751,1186,947,29,25280,21328,18432,280), nrow=4, ncol=2, dimnames=list(c(”privada”, ”estadual”, ”municipal”, ”federal”), c(”professores”, ”alunos”))) barplot(alunosprof[,2:1],beside=TRUE,ylab=”n. de matŕıculas”,xlab=”matŕıcula”, col=c(”blue”,”red”,”green”,”orange”),main=”Distribuição de professores e alunos”) Definïı¿½̈ı¿½o 1.2.9 Gráfico de Barras: É um dos gráficos mais utilizados para representar variáveis qualitativas. Algu- mas observações devem ser feitas sobre este gráfico. 1. O gráfico tem apenas uma escala, a que representa a frequência ou porcentagem em cada ńıvel da variável; 2. A largura da barra utilizada não tem nenhum significado especial além do apelo visual; 15 3. Para facilitar a compreensão e análise, é prefeŕıvel que as barras sejam apre- sentadas segundo uma ordem sistemática. O critério mais utilizado é ordená- las por sua magnitude; 4. As barras devem ser colocadas, de preferência, no sentido horizontal pois desta forma o nome dos ńıveis da variável podem ser melhor visualizados. Exemplo 3 A Tabela 1.8 apresenta os dados sobre a frota de véıculos no munićıpio de Niterói no ano de 2009. Frota frequência Frota frequência Frota frequência Automóveis 15188 Onibus 1969 Outros 1268 Motocicletas 11962 Motonetas 3201 Caminhonetes 8058 Caminhões 1895 Tabela 1.8: Frota de véıculos no munićıpio de Niterói A variável aqui considerada, Frota, é também uma variável qualitativa. Esta variável tanto pode ser representada por um gráfico de barras quanto por um gráfico de setores. Mostraremos abaixo a representação por um gráfico de setores. Gráfico de Setores É também um gráfico bastante utilizado para representar variáveis qualitativas. É muitas vezes chamado de Gráfico de Torta ou Gráfico de Pizza. Neste gráfico, um ćırculo representa 100% das observações e cada ńıvel da variável é representado por um setor de área proporcional à frequência observada. Algumas observações podem ser feitas a respeito da construção deste gráfico: � Não é um gráfico recomendado quando se quer representar subdivisões dos ńıveis da variável; � Não é recomendado quando o número de ńıveis da variável é muito grande. Como se calcula da área para cada setor: 43541→ 360 x = 360×15188 42273 15188→ xauto x =125.5° 16 Frota área Frota área Frota área Automóveis 125.5° Onibus 16.2° Outros 10.64° Motocicletas 98.8° Motonetas 26.5° Caminhonetes 66.7° Caminhões 15.7° Tabela 1.9: Cálculo das áreas automóveis(45.28%) motocicletas(5.85%) caminhonetes(24.02%) motonetas(5.65%) ônibus(9.54%) caminhões(5.87%) outros(3.78%) Frota 2009 − Niterói_RJ Figura 1.4: Gráfico de Setores para a frota de véıculos de Nitéroi 17 Gráfico de Setores da Figura 2.4 frota<-c(15188, 1962, 8058,1895, 3201, 1969,1268) names(frota)<-c(”automóveis”,”motocicletas”,”caminhonetes”,”motonetas”,”̂onibus”, ”caminhões”, ”outros”) title(”Frota 2009 - Niterói-RJ”) porc<-round(frota*100/sum(frota),2) rotulos<-paste(”(”,porc,”%)”,sep=) pie(frota, main=”Frota 2009: Niterói-RJ”,labels=rotulos, col=rainbow(7),pch=rep(20,6) ) Exemplo 4 A tabela 1.10 mostra a evolução dos ı́ndices ”́Indice Nacional de Preço ao Consumidor (INPC)”e do ”́Indice de Reajuste do Salário Mı́nimo (IRSM)”, du- rante o primeiro semestre de um ano fict́ıcio Mes Jan Fev Mar Abr Mai Jun Jul INPC 28.8 24.8 27.5 28.3 26.8 30.3 31.0 IRSM 27.9 25.8 26.8 28.2 28.4 30.5 29.2 Tabela 1.10: Evolução dos ı́ndices, INPC e IRSM A variável aqui considerada, Índice, é uma variável quantitativa. Um gráfico que pode ser utilizado para representá-las, é o gráfico de linhas. Ver Figura 1.5 Gráfico de Linhas da Figura 2.5 mes=c(01,02,03,04,05,06,07) inpc=c(28.8 , 24.8,27.5,28.3,26.8,30.3,31.0) irsm=c(27.9,25.8, 26.8 , 28.2 , 28.4, 30.5, 29.2) plot(mes,inpc,type=”b”,xlab=”mes”,ylab=”Indice”,main=”Comportamento dos ı́ndi- ces”,col=”blue”,ylim=c(24,35),lwd=2) lines(mes,irsm, col=”red”, lwd=2,type=”b”) legend(5,33,c(”inpc”,”irsm”),col =c(”blue”,”red”), pch=rep(20,2)) 18 ● ● ● ● ● ● ● 1 2 3 4 5 6 7 24 26 28 30 32 34 Comportamento dos índices mes In di ce ● ● ● ● ● ● ● ● ● inpc irsm Figura 1.5: Gráfico de linhas Definïı¿½̈ı¿½o 1.2.10 Gráfico de Linhas: É o mais comum dos gráficos e um dos mais simples, representando os ńıveis das variáveis em coordenadas retangulares. Observações sobre a construção do gráfico de linhas: � É um gráfico particularmente útil para representar séries de tempo. O tempo é representado no eixo X e a série no eixo Y . � É comum representar-se mais de uma série no mesmo gráfico. Exemplo 5 A tabela a seguir mostra a produção de véıculos no peŕıodo de um ano. Fonte:ANFAVEA (21/03/2018). 19 Ano Automóveis Caminhões Onibus Jan 168.528 4.482 1.069 Fev 194.395 5.314 1.358 Mar 227.919 5.952 1.686 Abr 182.095 5.900 1.492 Mai 241.013 7.576 2.132 Jun 202.546 6.797 2.236 Jul 215.471 7.093 2.276 Ago 250.135 8.488 2.192 Set 228.733 7.599 1.687 Out 240.452 8.241 1.528 Nov 239.244 8.166 1.665 Dez 204.949 7.436 1.322 A representação desta variável é feita também por um gráfico de linhas. Ver Figura 1.6 ● ● ● ● ● ● ● ● ● ● ● ● Produção de veículos ano P ro du çã o ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●B C A 26 0 1 2 3 4 5 6 7 8 9 10 11 12 ● ● ● auto cami bus Figura 1.6: Gráfico de linhas 20 Gráfico de Linhas da Figura 2.6 ano<-1:12 auto=c(168528,194395,227919,182095,241013,202546,215471,250135, 228733,240452,239244,204949) auto1=auto/1000 cami1=cami/100 cami=c(4482, 5314, 5952, 5900, 7576, 6797, 7093, 8488, 7599, 8241,8166,7436) bus=c(1069,1358 ,1686, 1492, 2132, 2236, 2276, 2192, 1687, 1528, 1665, 1322) bus1=bus/100 plot(ano,auto1,type=”b”,lwd=2,axes=F,main=”Produção de véıculos”, xlab=”ano”,ylab=”Produção”,col=”blue”,ylim=c(5,260)) lines(ano, cami1,col=”orange”,type=”b”,lwd=2) lines(ano, bus1,col=”red”,type=”b”,lwd=2) axis(2,c(10,45,170 ,260 ), c(”B”,”C”,”A”,260 )) axis(1,1:12 ) legend(8,170,c(”auto”,”cami”,”bus”),col =c(”blue”,”orange”,”red”), pch=rep(20,2)) Definïı¿½̈ı¿½o 1.2.11 Gráfico de Colunas: Uma alternativa ao Gráfico de Linha, é representar a variável por um gráfico de Colunas. Neste gráfico, os ńıveis das variáveis são também representados por barras, só que verticais. É, em geral, utilizado para representar séries de tempo. Observações sobre a construção do gráfico: 1. As duas escalas estão presentes, no eixo X representamos o tempo e no eixo Y os ńıveis da variável; 2. Pode ser utilizado para representar mais de uma série. Neste caso as colunas aparecem juntas. Vamos representar os dados da tabela 1.10 por um gráfico de colunas. Exemplo 6 Os dados que iremos apresentar agora são medidas da circunferência, em mm, do tronco de pés de laranjeiras e sua respectiva idade em dias. Suponha que estamos interessados em observar se há relação entre o tamanho da circunferência 21 J F Mr A Ma Jn Jl gráfico de colunas 0 20 40 60 80 10 0 Figura 1.7: Gráfico de Colunas Idade Medidas da circnferencia (em dias) Arvore 1 Arvore 2 Arvore 3 Arvore 4 Arvore 5 118 30 33 30 32 30 484 58 69 51 62 49 664 87 111 75 112 81 1004 115 156 108 167 125 1231 120 172 115 179 142 1372 142 203 139 209 174 1582 145 203 140 214 177 Tabela 1.11: Medidas da circunferência do tronco de pés de laranja com a idade da árvore, para isto podemos representar os dados utilizando um gráfico de dispersão. As figuras abaixo mostram estas representações: � A Figura 1.8 mostra a dispersão dos dados. � A Figura 1.9 coloca no diagrama de dispersão, uma reta de regressão linear, 22 que mais tarde veremos é um recurso para estimar valores. ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 500 1000 1500 50 10 0 15 0 20 0 Dispersão entre idade e circunferência idade em dias ci rc un fe rê nc ia e m m m Figura 1.8: Dispersão entre idade e circunferência ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 500 1000 1500 50 10 0 15 0 20 0 Dispersão entre idade e circunferência idade em dias ci rc un fe rê nc ia e m m m Figura 1.9: Dispersão entre idade e circunferência, com reta de regressão 23 Gráfico de dispersão da Figura 2.8 data(Orange) attach(Orange) plot(age ,circumference,xlab=”idade em dias”,ylab=”circunferência em mm”, main=”Dispersão entre idade e circunferência do tronco de pés de laranjeiras”) Gráfico de dispersão da Figura 2.9 data(Orange) attach(Orange) plot(age ,circumference,xlab=”idade em dias”,ylab=”circunferência em mm”, main=”Dispersão entre idade e circunferência do tronco de pés de laranjeiras”) abline(lm(circumference age ),col=4,lwd=2) Exemplo 7 A Tabela abaixo mostra o teor dos nutrientes; Potassio e Magnésio, em folhas se soja, quando se varia a dose anual de adubo. Teores de nutrientes Dose anual de K2O(Kg/ha):X K, Y1 (g/Kg) Mg Y2(mg/Kg) 0 6 10,5 40 11 7,9 80 18 6,4 120 22 5,8 160 25 5,5 200 21 5,2 Fonte: PAB(1997) vol. 32(12) pg.1235-1249. Na Figura 1.10, mostramos o diagrama de dispersão entre as variáveis X e Y1. Observando a disposição dos pontos, verificamos que quando aumentamos a dose anual do adubo parece haver uma tendência de aumento do teor do nutriente K nas folhas de soja. No caso do Magnésio, ao contrário, quando aumentamos a dose de adubo, a concentração do nutriente diminui. 24 ● ● ● ● ● ● 0 50 100 200 10 15 20 25 Pótassio Óxido de Potássio k ● ● ● ● ● ● 0 50 100 200 5 6 7 8 9 10 Magnésio Óxido de Potássio m g Figura 1.10: Diagrama de dispersão: K2O versus Potássio Gráfico de Dispersão. Figura 2.10 k2o=c(0,40,80,120,160,200) k=c(6,11,18,22,25,21) mg=c(10.5,7.9,6.4,5.8,5.5,5.2) par(mfrow=c(1,2)) plot(k2o,k,main=”Pótassio”,col=”red”,lwd =3,xlab=”Óxido de Potássio”) plot(k2o,mg,main=”Magnésio”,col=”red”,lwd =3,xlab=”Óxido de Potás- sio”) cor(k2o,k) cor(k2o) Definïı¿½̈ı¿½o 1.2.12 Diagrama de dispersão Quando as variáveis envolvidas são ambas quantitativas (não agrupadas), um procedimento bastante útil para se verificar a associação entre as variáveis é o grá- fico de dispersão, que nada mais é do que a representação dos pares de valores em um sistema cartesiano. Para desenhar este gráfico basta plotar em um eixo car- tesiano o conjnto de valores das variáveis consideradas,se X = (x1, x2, · · · , xn) e Y = (y1, y2, · · · , yn) então plotamos os pares (xi, yi). 25 Exemplo 8 O conjunto de dados abaixo mostra as informações sobre os alunos dfe uma determinada turma, obtidas em um curso de Estat́ıstica Básica: Vamos construir uma tabela de frequências para a vaŕıavel ”Peso”, neste caso, vamos criar um artif́ıcio para representar esta variável em uma tabela de frequências. Os ńıveis das variáveis serão representados por intervalos de classe em que, � xi é o ponto médio do intervalo ( representa agora o valor da variável naquele intervalo); � ni é a frequência de cada classe. Classe xi ni fi % 45 ` 55 50 10 0.23 23% 55 ` 60 57,5 7 0.16 16% 60 ` 70 65 11 0.25 25% 70 ` 80 75 9 0.20 20% 80 ` 90 85 7 0.16 16% Total – 44 1 100% Regras para encontrar o número de classes k para construir uma Tabela de Frequências para variáveis quantitativas cont́ınuas: Diversos autores indicam regras diferentes para a determinação do número de classes para uma distribuição de frequências e, consequentemente, o histograma. Na tabela abaixo, são apresentados as principais regras encontradas na literatura que levem em conta apenas o tamanho da amostra n. De maneira geral, é indicado ”bom senso”na determinação do número de classes de uma tabela de frequências . O ”bom senso”deve levar em consideração as seguints questões: � O número de classes deve ser moderado. � Como há um agrupamento de valores nas classes, há perda de informação. � Se o número de classes for muito grande ocorre uma perda menor de informa- ção, mas a eficiência do resumo fica prejudicada; 26 Aluno Sexo Idade Altura Peso Fumante? TV OpTV Ex.F. Ativ. Nº de irmãos 1 M 20 1,75 68,0 N 10 M 2 S 1 2 F 18 1,65 53,5 N 5 R 5 M 1 3 F 20 1,65 51,0 N 3 R 5 M 3 4 F 21 1,70 68,0 N 3 R 2 S 0 5 F 19 1,75 87,0 N 20 B 5 M 2 6 F 18 1,65 51,0 N 3 R 2 S 0 7 M 17 1,70 64,0 N 4 R 6 A 1 8 M 21 1,74 63,5 N 0 N 0 S 5 9 M 19 1,64 54,3 N 18 B 2 S 0 10 M 20 1,79 77,0 N 14 B 3 M 0 11 M 18 1,70 53,0 N 2 R 3 M 2 12 M 21 1,76 69,0 N 2 R 1 S 0 13 M 18 1,73 66,0 N 6 M 4 M 4 14 F 20 1,62 56,0 N 3 R 0 S 2 15 M 20 1,73 65,0 N 2 R 0 S 8 16 F 20 1,74 58,0 N 9 M 2 S 1 17 F 19 1,65 67,0 N 4 R 0 S 1 18 M 18 1,85 80,0 N 3 R 0 S 1 19 M 21 1,77 66,0 N 2 R 0 S 2 20 M 20 1,67 64,0 N 1 R 10 A 1 21 F 20 1,65 59,0 N 8 M 2 S 1 22 M 20 1,66 56,0 N 3 R 0 S 3 23 F 19 1,60 52,0 N 6 M 2 S 2 24 F 19 1,60 45,0 N 15 B 2 S 1 25 M 19 1,83 70,0 N - - 2 S 1 26 M 19 1,70 70,0 N 23 B 6 A 0 27 F 23 1,58 58,0 N 2 R 2,5 M 2 28 M 21 1,87 76,0 N 22 B 2 S 1 29 F 21 1,58 51,0 N 20 M 2 S 4 30 M 26 1,82 75,0 N 5 B 3 M 4 31 F 29 1,60 52,0 N 20 R 0 S 2 32 M 23 1,82 72,0 N 5 B 2 S 0 33 M 20 1,83 85,0 N 14 B 2 S 3 34 M 50 1,68 71,0 N 15 B 5 M 3 35 M 23 1,77 82,5 N 15 B 2 S 2 36 F 21 1,69 53,0 N 10 M 2 S 1 37 M 20 1,83 - N 6 N 2 S 1 38 M 20 1,76 74,0 N 0 N 6 A 4 39 M 23 1,81 85,0 N 1 R 0 S 1 40 F 20 1,63 57,5 N 2 B 0 S 2 41 M 32 1,85 87,5 S 15 R 2 S 1 42 M 20 1,70 60,0 S 3 B 3 M 3 43 F 19 1,70 78,0 N 14 R 4 M 0 44 M 20 1,82 80,0 N 1 R 1 S 2 45 M 19 1,82 55,0 N 20 B 0 S 2 27 � Um número muito pequeno de classes resume demais e ocorre perda excessiva de informação. Apresentaremos abaixo um conjunto de regras utilizadas para determinar o nú- mero de classes de uma tabela de frequência. Tabela : Regras para o número de classes de uma distribuição de frequências. Regra Propriedade Raiz quadrada de n Apropriado como valor inicial, fornece valores baixos para n pequeno (n < 50). k = √ n Pode ser indicado para valores de n entre 80 e 120 Raiz quadrada de 2n Apropriado para valores baixos de n, cresce muito rápido para valores k = √ 2n moderados (n > 50). Não é indicado paran > 80. Regra do Logaritmo Muito parecido com o método de Sturges, natural fornece valores ligeiramente maiores para n pequeno, k = 3 + lnn porém a situação se inverte para n >. Indicado para valores elevados de n Sturges O método mais consagrado fornece valores baixos para n pequeno, e cresce muito k = 1 + 3.32x log1 0n devagar. Indicado para valores elevados de n. Vamos agora contruir um histograma para a variável peso. Construção do Histograma para a variável Peso.Figura 2.11 peso=c(68.0, 53.5, 51.0, 68.0, 87.0, 51.0, 64.0, 63.5, 54.3, 77.0, 53.0, 69.0, 66.0, 56.0,65.0, 58.0, 67.0, 80.0, 66.0, 64.0, 59.0, 56.0, 52.0, 45.0, 70.0, 70.0 , 58.0, 76.0 , 51.0, 75.0 , 52.0, 72.0 , 85.0, 71.0 , 82.5 , 53.0, 74.0, 85.0 , 57.5 , 87.5 , 60.0 , 78.0, 80.0 , 55.0 ) hist(peso,freq=F,col=”green”, breaks=c(45,55,60,70,80,90), main=”Histograma para a variável Peso”,xlab=”Peso”,ylab=”densidade”) 28 Histograma para a variável Peso Peso de ns id ad e 50 60 70 80 90 0. 00 0 0. 00 5 0. 01 0 0. 01 5 0. 02 0 0. 02 5 0. 03 0 Figura 1.11: Histograma do Peso Definïı¿½̈ı¿½o 1.2.13 Histograma: O histograma é um gráfico que representa números pela área e não pela altura. É utilizado, em geral, para representar distribuições de variáveis cont́ınuas quando os dados estão agrupados em classes de frequência. Embora tenha a aparência de um gráfico de colunas, não deve ser confundido com ele. Podemos construir histogramas de frequências, de proporção ou de porcentagem. A distribuição nas diversas classes é representada por blocos constrúıdos da seguinte forma: � a base do bloco é o comprimento do intervalo de classe; � a altura do bloco é a densidade, de frequências, de proporção ou de porcentagem na classe. A densidade na classe i é definida por di = ni 4i , no caso de frequências, di = fi4i , no caso de proporção, di = 100× fi 4i , no caso de porcentagem, 29 em que 4i representa o comprimento do intervalo da i-ésima classe. Observações: � A área do bloco obtido é a quantidade representada naquela classe. � A área total do histograma representa 100% das observações. Logo, a área total de um histograma de frequências é igual a n, a de um histograma de proporção é igual a 1 e a de um histograma de porcentagem é igual a 100%. � A área entre dois valores quaisquer fornece uma aproximação para a frequência (ou proporção ou porcentagem) no intervalo limitado por eles. Definïı¿½̈ı¿½o 1.2.14 Poligono de Frequência: O poĺıgono de frequências é constrúıdo de forma semelhante a do histograma. Une-se o ponto médio das classes na altura determinada pela densidade. Para fe- char o poĺıgono unimos os extremos da figura com o eixo das abcissas, nos quais estariam os pontos médios de uma classe imediatamente anterior e outra imedia- tamente posterior. Embora a área total abaixo do poĺıgono de frequências também seja igual a 100% das observações, não podemos aproximar a frequência entre dois pontos pela área delimitada por eles. Ver Figura 1.12 Histograma para a variável Peso Peso de ns id ad e 50 60 70 80 90 0. 00 0 0. 00 5 0. 01 0 0. 01 5 0. 02 0 0. 02 5 0. 03 0 ● ● ● ● ● Figura 1.12: Histograma com Poligno de frequência 30 Histograma com poligono de frequência. Figura 2.12 peso=c(68.0,53.5,51.0,68.0,87.0,51.0,64.0,63.5,54.3, 77.0,53.0,69.0,66.0,56.0,65.0,58.0,67.0,80.0,66.0,64.0, 59.0, 56.0, 52.0,45.0,70.0,70.0,58.0,76.0,51.0,75.0,52.0,72.0,85.0,71.0, 82.5,53.0,74.0,85.0,57.5,87.5,60.0,78.0,80.0,55.0) hist(peso,freq=F,col=”green”,main=”Histograma para a variável Peso”,xlab=”Peso”, ylab=”densidade”,breaks=c(45,55,60,70,80,90)) h=hist(peso,freq=F,xlab=”Peso”,col=”green”,ylab=”densidade”, main= ”Histograma para a variável Peso”,breaks=c(45,55,60,70,80,90)) points(hmids, hdensity,”b”,col=”red”,lwd=3) Definïı¿½̈ı¿½o 1.2.15 Histograma Alisado: Se houvesse um número suficientemente grande de observações poder-se-ia ir di- minuindo os intervalos de classe e o histograma iria ficando cada vez menos irregular ate atingir um caso limite, com uma curva bem mais suave. Esta curva é chamada de histograma alisado. Ver Figura 1.13 Histograma para a variável Peso Peso de ns id ad e 50 60 70 80 90 0. 00 0 0. 00 5 0. 01 0 0. 01 5 0. 02 0 0. 02 5 0. 03 0 Figura 1.13: Histograma Alisado 31 Histograma Alisado Figura 2.13 peso=c(68.0,53.5,51.0,68.0,87.0,51.0,64.0,63.5,54.3, 77.0,53.0,69.0,66.0,56.0,65.0,58.0,67.0,80.0,66.0,64.0, 59.0, 56.0, 52.0,45.0,70.0,70.0,58.0,76.0,51.0,75.0,52.0,72.0,85.0,71.0, 82.5,53.0,74.0,85.0,57.5,87.5,60.0,78.0,80.0,55.0) hist(peso,freq=F,col=”green”,main=”Histograma para a variável Peso”, xlab=”Peso”,ylab=”densidade”,breaks=c(45,55,60,70,80,90)) h1=density(peso) lines(h1,col=”red”,lwd=3) Definïı¿½̈ı¿½o 1.2.16 Ogiva: É o gráfico representativo de uma distribuição acumulada de frequências e consta de uma poligonal ascendente. No eixo horizontal colocam-se as extremidades de classe e no eixo vertical, as frequências acumuladas (ou proporção acumulada, ou porcentagem acumulada). Definïı¿½̈ı¿½o 1.2.17 Ramo e folhas: A forma de uma distribuição é uma caracteŕıstica importante de um conjunto de dados. Um procedimento alternativo para resumir um conjunto de dados, com o objetivo de se ter uma idéia da forma da distribuição é o ramo-e-folhas. Uma vantagem do ramo-e-folhas sobre o histograma é que não perdemos informações sobre os dados. Observações sobre a construção de um ramo-e-folhas: 1. Não existe regra fixa para a construção de um ramo-e-folhas. A idéia básica é dividir cada observação em duas partes: a 1ª, o ramo, é colocada à esquerda de uma linha vertical; a 2ª, a folha, é colocada à direita desta linha. 2. Todos os ramos devem ter o mesmo comprimento. 3. Se ao fazer uma escolha de ramos obtivermos ramos muito carregados, podemos fazer uma sub-divisão neles. Exemplo 1 Os dados seguintes representam as pontuações obtidas por 48 estudantes, em um 32 determinado teste. 75 98 42 75 84 87 65 59 63 86 78 37 99 66 90 79 80 89 68 57 95 55 79 88 76 60 77 49 92 83 71 78 53 81 77 58 93 85 70 62 80 74 69 90 62 84 64 73 Como o menor e o maior dos dados anteriores são, respectivamente, 37 e 99, vamos considerar para ramo o d́ıgito das dezenas: 33 3 7 4 2 9 5 3 5 7 8 9 6 0 2 2 3 4 5 6 8 9 7 0 1 2 4 5 5 6 7 7 8 8 9 9 8 0 0 1 3 4 4 5 6 7 8 9 9 0 0 2 3 5 8 9 cada dado deve ser lido da seguinte forma: 3|7 significa 37 Exemplo 2 Admitamos que as alturas, em cm, de um conjunto de plantas, duas semanas depois de se ter lançado a semente à terra, eram: 7.5 9.8 4.2 7.5 8.4 8.7 6.5 5.9 6.3 8.6 7.8 3.7 9.9 6.6 9.0 7.9 8.0 8.9 6.8 5.7 9.5 5.5 7.9 8.8 7.6 6.0 7.7 4.9 9.2 8.3 7.1 7.8 5.3 8.1 7.7 5.8 9.3 8.5 7.0 6.2 8.0 7.4 6.9 9.0 6.2 8.4 6.4 7.3 Nota: estes dados são fict́ıcios e foram obtidos dos dados do Exemplo 1, dividindo- se por 10 cada uma das pontuações. A representação destes dados em um gráfico de ramo e folhas é precisamente igual à dos dados das pontuações, mas com a indicação de como se deve fazer a leitura não haverá ambiguidade: neste caso, cada dado deve ser lido da seguinte forma: 3|7 significa 3,7 cm 3 7 4 2 9 5 3 5 7 8 9 6 0 2 2 3 4 5 6 8 9 7 0 1 2 4 5 5 6 7 7 8 8 9 9 8 0 0 1 3 4 4 5 6 7 8 9 9 0 0 2 3 5 8 9 Como aumentar o número de ramos? Na representação anterior consideramos 7 ramos e o intervalo entre ramos su- 34 cessivos foi de 10 unidades. É como se tivessemos considerado as classes [30, 40[, [40, 50[, [50, 60[, [60, 70[, [70, 80[, [80, 90[, [90, 100[, para agrupar os dados. Suponhamos que em vez de considerar estas classes, de amplitude 10, estivésse- mos interessados em considerar classes de amplitude 5, a saber [30, 35[, [35, 40[, [40, 45[, [45, 50[, [50, 55[, [55, 60[, [60, 65[ [65, 70[, [70, 75[, [75, 80[, [80, 85[, [85, 90[, [90, 95[e[95, 100[ . Entâo a representação anterior teria o seguinte aspecto: 3 7 4 2 4 9 5 3 5 5 7 8 9 6 0 2 2 3 4 6 5 6 8 9 7 0 1 2 4 7 5 5 6 7 7 8 8 9 9 8 0 0 1 3 4 4 8 5 6 8 9 9 0 0 2 3 9 5 8 9 Um Exemplo. Cosidere os dados da variável, peso ao nascer, de 45 crianças de uma certa lo- calidade, durante os últimos 5 anos; 2 2 3 4 5 4 3 7 4 6 5 2 3 4 5 5 6 4 6 7 7 8 9 2 3 4 5 3 9 2 6 3 4 6 5 4 3 2 5 4 3 5 5 7 8 9 6 4 3 4 35 Apresentaremos abaixo duas tabelas de frequência que podeŕıamos fazer: Na pri- meira tabela a primeira conterá as observações dentro do intervalo 2 ` 3 . Como este é o ramo com maior número de observações, poderiamos está interessados em descriminalas. Uma forma de fazer isto é quebrar esta intervalo em dois outros intervlos, por exemplo, 2 ` 2, 5 e de 2, 5 ` 3. Tabela 1.12: Tabela da Esquerda Classe xi ni 2 ` 3 2,5 26 3 ` 4 3,5 7 4 ` 5 4,5 5 5 ` 6 5,5 4 6 ` 7 6,5 3 Total – 45 Tabela 1.13: Tabela da Esquerda Classe xi ni 2 ` 2,5 2,25 12 2,5 ` 3 2,75 14 3 ` 4 3,5 7 4 ` 5 4,5 5 5 ` 6 5,5 4 6 ` 7 6,5 3 Total – 45 36
Compartilhar