Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Estadual Paulista “Júlio de Mesquita Filho” Bioestatística: ANÁLISE EXPLORATÓRIA DE DADOS: MEDIDAS DE TENDÊNDIA CENTRAL E VARIABILIDADE E GRÁFICO BOX - PLOT Assis-SP FREI Note O trabalho está bom,.nullnullcuidado com a ausência de informações nos gráficos.nullnullOs outliers podem e devem ser avaliados Bioestatística: ANÁLISE EXPLORATÓRIA DE DADOS: MEDIDAS DE TENDÊNDIA CENTRAL E VARIABILIDADE E GRÁFICO BOX -PLOT Ana Paula Carvalho, Beatriz Cruz, Isabela Alves, Julia Le Du Fortes de Alcamin, Lilian Rodrigues e Marcelo Duarte 2017 ATIVIDADE 5 Brasil 1. Calcule as medidas de tendência central e variabilidade para cada capital para a série de anos, em seguida, em uma tabela, apresente em ordem decrescente essas medidas para todas as capitais. Faça um breve comentário Tabela 1. Medidas de tendência central e variabilidade da ocorrência policiais de crimes de posse para uso de drogas ilegais nas capitais brasileiras de 2004 a 2007 Capital Média Desvio Padrão Coeficiente de variação (%) Florianópolis 116.67 57.61 49.4 Porto Velho 94.06 18.15 19.3 Porto Alegre 67.90 79.49 117.1 Belo Horizonte 58.77 17.54 46.9 Goiânia 55.56 9.61 17.3 Curitiba 41.26 34.08 82.6 Manaus 40.18 12.53 31.2 Rio de Janeiro 37.50 6.99 18.6 Vitória 35.05 10.56 30.1 Salvador 31.11 5.37 17.3 Campo Grande 28.38 7.86 27.7 Rio Branco 27.80 4.43 15.9 São Paulo 25.25 2.90 11.5 Palmas 25.13 9.12 36.3 Natal 21.82 5.20 23.9 Boa Vista 18.90 8.30 43.9 Brasília 16.54 2.27 13.7 Cuiabá 15.42 6.57 42.6 Fortaleza 10.91 6.66 61.1 São Luis 10.82 2.95 27.3 Belém 10.82 0.90 8.2 João Pessoa 10.71 4.45 41.6 Maceió 7.91 6.13 77.5 Teresina 5.35 6.89 128.9 Recife 5.34 6.52 122.0 Macapá 3.65 4.456 122.1 Aracaju 0 0 0 Fonte: UNODOC, 2014 Podemos observar que a maior ocorrência se dá em Florianópolis e em segundo lugar está Porto Velho, com um menor desvio padrão, o que indica que sua média também é significativamente alta em relação as demais do país. Nas últimas posições temos várias capitais da região norte e da região nordeste, enquanto no topo, estão em maior quantidade as capitais da região sul e da região sudeste. 2. Apreensões de cocaína Tabela 2. Apreensões de Cocaína nas capitais brasileiras Capitais Média São Paulo 2743.93 Mato Grosso do Sul 1348.46 Amazonas 1179.76 Mato Grosso 942.16 Rondônia 619.74 Pará 529.46 Paraná 498.60 Rio de Janeiro 484.04 Goiás 474.97 Ceará 420.67 Minas Gerais 365.83 Santa Catarina 281.64 Rio Grande do Sul 230.76 FREI Note Sempre utilizar a média e o desvio padrão Acre 222.54 Bahia 132.59 Paraíba 117.90 Maranhão 108.17 Tocantins 106.56 Roraima 82.26 Espírito Santo 77.53 Rio Grande do Norte 63.41 Pernambuco 57.83 Amapá 29.09 Piauí 19.10 Sergipe 7.54 Alagoas 5.56 A região do Brasil que possui em média a maior apreensão de cocaína, de acordo com os dados, é o estado de São Paulo com mais de 2000 Kg apreendidos, após se encontra o estado do Mato Grosso do Sul, com cerca de 1300 Kg. Podemos observar que a maioria dos estados do Norte e do Nordeste se encontram em posições mais baixas do ranking o que indica em média uma menor apreensão de cocaína em relação aos demais estados das demais regiões. Tabela 3. Apreensão de cocaína nas regiões brasileiras e no Distrito Federal Regiões Média Sudeste 3671.33 Centro – Oeste 2806.80 Norte 2779.40 Sul 1011.00 Nordeste 932.77 Distrito Federal 41.21 Entre as regiões do Brasil observamos que a que apresenta a maior média de apreensões de cocaína (em kg) é a região sudeste com 3.671,33Kg. A região que se encontra em última colocação é a região do Distrito Federal com em média 41,21 Kg de cocaína apreendidas. FREI Note IDEM ANTERIOR 3. Apreensões de maconha nas regiões do Brasil de 2004 a 2007 Tabela 4. Apreensões de maconha nos estados do Brasil de 2004 a 2007 Estados Média Mato Grosso do Sul 67967.30 Paraná 38400.49 São Paulo 24953.93 Minas Gerais 6678.44 Rio de Janeiro 5962.87 Bahia 3033.50 Pernambuco 2447.89 Rio Grande do Sul 1840.63 Santa Catarina 1788.37 Espírito Santo 1744.49 Goiás 953.19 Alagoas 672.73 Rio Grande do Norte 669.74 Ceará 636.09 Piauí 463.63 Maranhão 418.39 Mato Grosso 316.43 Paraíba 235.79 Sergipe 67.29 Tocantins 58.47 Pará 50.57 Rondônia 20.11 Acre 11.71 Amazonas 11.50 Roraima 6.90 Amapá FREI Note IDEM ANTERIOR Em relação as apreensões de maconha entre as regiões do Brasil, observamos que o estado onde isso mais ocorreu foi o Mato Grosso do Sul, com em média 67.967 Kg apreendidos. Após seguem-se em grande maioria estados da região Sul e Sudeste, salvas algumas exceções da região Nordeste como Bahia e Pernambuco. A grande maioria dos estados do Nordeste e quase todos do Norte estão rankiados mais abaixo, indicando em média uma menor apreensão de maconha em relação aos demais. Tabela 5. Apreensões de maconha nas do Brasil de 2004 a 2007 Regiões Média Centro-Oeste 70414.59 Sul 42029.49 Sudeste 39379.80 Nordeste 9428.97 Distrito Federal 331.82 Em relação a apreensão de maconha, as regiões do Brasil se mostram diferentes das apreensões de cocaína, estando em primeiro lugar a região Centro-Oeste ao invés da região sudeste, com 70.414,59 Kg apreendidos em média durante o período de 2004 a 2007 no Brasil. Em segundo lugar vem a região sul e em último vem o Distrito Federal novamente com apenas 331,82 Kg apreendidos durante o período em questão. Gráfico Box-Plot Trabalho Feminino 1. Calcule medidas de Tendência Central e Variabilidade para o período para cada grupo de países, apresente em uma única tabela. Tabela 1. Trabalho feminino no mundo Grupos de países 2006 2007 2008 2009 2010 2011 2012 2013 2014 Omoutros Média D.P C.V.% 27.6 7.8 28.2 28 7.2 26 27.8 7.2 26.1 27.8 7.3 26.1 28.2 7.3 25.8 28.3 7.3 25.7 28.5 7.4 25.9 28.8 7.3 25.3 29 7.2 25 AL Média D.P. C.V.% 66.2 6.2 9.4 67.2 7 10.3 67.5 6.6 9.7 68.9 6.8 9.8 69.2 6.5 9.4 69.7 6.3 9.1 70 6.2 9 70.1 6.2 8.4 70.4 6.2 8.9 EURO Média D.P. C.V.% 78.4 5.2 6.7 78.9 5.2 6.6 79.3 4.8 6 80.4 4.7 5.9 80.6 4.4 5.5 81 4 5 81.5 3.4 4.9 82 4 4.7 82.1 3.4 4.6 AFR Média D.P. C.V.% 93.1 8.1 8.7 92.9 8.3 8.9 92.8 8.5 9.2 92.7 8.5 9.2 92.7 8.5 9.2 92.8 8.1 8.8 92.7 8.1 8.7 92.7 8.1 8.7 92.7 8.1 8.7 Fonte: Omoutros = Oriente Médio e Outros AL = América Latina EURO =Europa AFR = África 2. Tome o resultado médio de cada país e faça uma comparação dos quatro grupos utilizando o gráfico box-plot. Comente os resultados. 3. Figura 1. Box-Plot dos grupos de países Fonte: Podemos observar que o Oriente Médio e Outros possui a maior amplitude, então possui uma maior variabilidade em relação aos outros grupos. Também é possível perceber que ogrupo da África apresenta um outlier, ou seja, um ou mais resultados estão “fugindo do padrão”. Podemos afirmar que todos esses grupos de países possuem percentagens menores que 100%, ou seja, a média está abaixo de 100%, então existem menos mulheres no mercado de trabalho do que homens, desta forma, o Oriente Médio é o grupo que possui a maior desigualdade entre os gêneros; em seguida está a América Latina, Europa e depois África. 4. Os resultados comparativos das regiões são o que você esperava? Qual explicação você pode dar para os resultados obtidos? Era esperado que esses grupos de países tivessem uma desigualdade entre os gêneros, porém o inesperado foi que a África possui menos desigualdade do que os outros. Provavelmente há menos desigualdade na África porque lá é um continente explorado por outros continentes, e há muita pobreza, e isso faz com que tanto homens quanto mulheres ingressem no mercado de trabalho. FREI Note Ausência da medida no eixo Y FREI Note BOM! 5. Para cada grupo de países, faça uma análise utilizando box-plot para comparar o ano de 2006 com o ano de 2014 (serão quatro gráficos, um para cada grupo de países). Comente os resultados. Figura 1. Oriente Médio e Outros Não houve grande mudança no Oriente Médio nos anos de 2006 e 2004. É possível observar que a média praticamente igual, há apenas diferença entre as medianas, que dividem a distribuição. E aparentemente podemos dizer possuem quase a mesma variabilidade, amplitude. Tanto 2006 quanto 2014 a desigualdade continuou com 60%, ou seja, apenas 40% das mulheres estão inseridas no mercado de trabalho. Em 2006 a mediana se encontra a esquerda do centro da caixa, então a distribuição será desviada. Já em 2014 a mediana está do lado direito, então a distribuição é distorcida. Figura 2. América Latina Na América Latina houve grande diferença entre os valores máximos e mínimos. Em 2006 os valores máximo e mínimo eram 75% e 53%, respectivamente; e em 2014 subiu para 80% e 65%. Em 2006 a média estava no centro, mas em 2014 a média aumentou devido ao aumento da percentagem de mulheres no mercado de trabalho. Nesse grupo de países ainda há desigualdade em 20% e 80% das mulheres no mercado de trabalho. Em 2006 a caixa se encontra numa destruição simétrica e em 2014 a destruição se encontra desviada porque a mediana está a esquerda do centro da caixa. Figura 3. Europa Em 2006 a menor percentagem de mulheres trabalhando era de 70% e a maior 87%, em 2014 o valor mínimo diminuiu em relação ao máximo, sendo 80% e 88%, respectivamente, ou seja, em 2014 havia no mínimo 80% das mulheres inseridas no mercado de trabalho. Podemos observar também que há um outlier no ano de 2014, então um ou mais valores estão fora do padrão, e também podemos dizer que nas duas caixas, tanto na de 2006 quanto na de 2014, a mediana está perto do centro, então a distribuição é aproximadamente simétrica, e a variabilidade entre esses dois anos mudou, em 2006 havia maior amplitude, variabilidade e em 2014 essa amplitude diminuiu. Figura 4. África O peso mediano é quase igual para os dois anos. A menor percentagem de mulheres trabalhando em 2006 e 2014 é de 75% e 85%, respectivamente; já a maior percentagem se encontra em 105% e 103%, mais ou menos, ou seja, o número de mulheres no mercado de trabalho aumentou de 2006 para 2014, e inclusive está acima de 100%, portanto podemos dizer que há mais mulheres no mercado de trabalho do que homens. A variabilidade continua igual. As duas medianas se encontram ao lado direito da caixa, então podemos dizer que a distribuição é deixada distorcida. FREI Note EM TODOS OS GRÁFICOS AUSÊNCIA DA INDICAÇÃO PARA O EIXO Y Casamento 1. Utilize uma medida de tendência central que não seja afetada por valores extremos para resumir a variável em estudo e com essa medida preencha a última coluna da planilha de dados chamada de MedResumo (pesquise como fazer esse cálculo no excel, é mais fácil!). 1º Mediana como medida de tendência central não afetada por valores extremos. AFR AL EURO Omoutros 20.70 23.00 31.80 24.20 20.20 24.00 29.80 28.50 22.00 23.50 31.50 25.40 21.00 24.00 27.70 24.90 28.00 23.70 30.10 23.10 24.85 21.80 31.10 25.60 17.15 22.70 31.90 26.30 26.75 28.60 25.00 29.70 30.25 22.80 23.40 30.90 23.50 24.60 29.55 20.45 22.15 20.85 20.80 22.00 30.00 21.20 27.10 2. Utilize o gráfico box-plot para avaliar os grupos de países (AFR, EURO, etc.) para a medida resumo apresentada na coluna MedResumo. Gráfico Box Plot utilizando a mediana dos grupos. 3. Faça um breve comentário sobre os resultados obtidos. Em geral mulheres do continente africano casam se por volta dos 20 a 22 anos, porém apresentam uma maior variabilidade nas idades de seu primeiro casamento. Na América Latina as mulheres casam se por volta dos 24 anos, resultado apresenta um dado discrepante (outlier) representado pelo asterisco. As mulheres europeias casam se mais tardiamente por volta do 30 anos de idade. E no último grupo, representado no gráfico por Omoutros, as mulheres se casam por volta dos 24 ou 25 anos. Mortalidade Infantil 1. Use um gráfico de box plot para comparar os resultados dos anos de 1985 e 2015. Faça comentários. 2. 3. A mortalidade Infantil nos continentes teve grande queda se comparados os anos de 1985 com 2015, em 1985 a cada 1000 crianças nascidas vivas em média 70 morriam, após 30 anos a cada 1000 nascimentos menos de 20 crianças morrem. Houve grande redução na mortalidade infantil, bem como na variância desse número entre os grupos de países. 4. Utilize um gráfico boxplot para comparar cada grupo de países no primeiro ano e no último ano da série de tempo em relação às mortalidade infantis. Faça comentários. Gráfico- Mortalidade Infantil na América Latina nos anos de 1985 e 2015. O número médio mortalidade infantil diminui na América Latina. A variância na média entre os países é boa já que o valor médio deles está próximo de 15 a 20. A Bolívia tem a maior taxa de morte infantil da América Latina, com valor médio de quase 40 crianças em 1000. Em 1985 a Bolívia tinha a média de mortalidade 2 vezes maior que os outros países da América. Gráfico- Mortalidade Infantil na Europa nos anos de 1985 e 2015. Quando comparado aos outros grupos de países a Europa foi a que teve menor número médio de mortalidade infantil. O país com maior número de crianças mortas em 1985, saindo um pouco do padrão médio dos países foi Portugal, representado no gráfico pelo outlier em vermelho. Em em 2015 a Finlândia sai do padrão médio dos países porém pelo lado positivo, a cada 1000 crianças nascidas duas em média vem a óbito, isto é representado no gráfico pelo outlier verde. Gráfico- Mortalidade Infantil na África nos anos de 1985 e 2015. Na África houve queda na mortalidade infantil assim como na variância entre os países do grupo, com duas cidades com dados que não se encaixam representados pelos pontos verdes. O primeiro ponto com número de mortalidade infantil inferior a 5, deve ser desconsiderado pois é da Dinamarca um país que na verdade é pertencente a Europa. E o segundo outlier é Moçambique, com maior número médio de mortalidade Infantil dos países estudados da África. Gráfico 9- Mortalidade Infantil no Oriente Médio nos anos de 1985 e 2015. No oriente médio a taxa de mortalidade infantil também caiu assim como nos outros grupos de países, porém o Afeganistãoe o Paquistão ainda apresentam uma taxa muito alta. Vacinação Utilize o gráfico boxplot para comparar os percentuais de crianças vacinadas (BCG) de cada país nos dois anos. Planilha de dados Vacina. Podemos observar que houve um aumento na média de crianças vacinadas com a BCG de 1992 para o ano de 2015, além do mais houve uma diminuição na variação dos dados claramente observadas ao compararmos os dois box-plots, ao longo do tempo. Para os dados de 2015, o 3° quartil e o valor máximo parecem ser o mesmo valor enquanto para o de 1992 existe uma diferença clara entre os dois dados. Em último lugar, temos também uma diminuição na quantidade de outliers nos dados de 2015 o que indica mais uma vez que os demais valores estão de fato próximos da média e que houve uma melhora na quantidade de crianças vacinadas ao longo dos anos. Educação 1. Medidas de tendência central e variabilidade. Tabela 1. Expectativa de escolaridade para homens e mulheres em diversos países ao longo dos anos Podemos observar que ao longo dos anos a expectativa de escolaridade vem aumentando nos dois sexos, porém tem se mostrado em todos os anos analisados maior para as mulheres em comparação com os homens, durante o mesmo período. 2. Box-Plot Em relação a expectativa de escolaridade das mulheres, as análises acima indicam que além de haver um aumento na expectativa ao longo dos anos, a variação entre os dados tem diminuído, o que indica que não somente o número aumentou em média, mas também que os valores obtidos estão bem próximos da média obtida que está em torno de 14 anos no período de 2014. Em relação aos homens, ocorre mais ou menos o mesmo, porém a média está um pouco mais baixa em comparação com a média feminina, cerca de 13 anos, embora tenha de fato aumentado desde a primeira coleta de dados em 2006.
Compartilhar