Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Aplicada à Segurança Pública SIRLEI ALVES CHAVES E MARCELLE GOMES FIGUEIRA 1ª Edição Brasília/DF - 2020 Autores Sirlei Alves Chaves e Marcelle Gomes Figueira Produção Equipe Técnica de Avaliação, Revisão Linguística e Editoração Sumário Organização do Livro Didático....................................................................................................................................... 4 Introdução ............................................................................................................................................................................. 6 Capítulo 1 Estatística ........................................................................................................................................................................ 7 Capítulo 2 Séries estatísticas e gráficos ...................................................................................................................................18 Capítulo 3 Estatística Descritiva .................................................................................................................................................30 Capítulo 4 Fontes de dados de informações socioeconômicas e urbanas ...................................................................51 Capítulo 5 Estatísticas criminais .................................................................................................................................................66 Capítulo 6 Panorama das bases de dados sobre criminalidade e violência no Brasil .............................................82 Referências ..........................................................................................................................................................................89 4 Organização do Livro Didático Para facilitar seu estudo, os conteúdos são organizados em capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões para reflexão, entre outros recursos editoriais que visam tornar sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta para aprofundar seus estudos com leituras e pesquisas complementares. A seguir, apresentamos uma breve descrição dos ícones utilizados na organização do Livro Didático. Atenção Chamadas para alertar detalhes/tópicos importantes que contribuam para a síntese/conclusão do assunto abordado. Cuidado Importante para diferenciar ideias e/ou conceitos, assim como ressaltar para o aluno noções que usualmente são objeto de dúvida ou entendimento equivocado. Importante Indicado para ressaltar trechos importantes do texto. Observe a Lei Conjunto de normas que dispõem sobre determinada matéria, ou seja, ela é origem, a fonte primária sobre um determinado assunto. Para refletir Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As reflexões são o ponto de partida para a construção de suas conclusões. 5 ORgAnIzAçãO DO LIvRO DIDátICO Provocação Textos que buscam instigar o aluno a refletir sobre determinado assunto antes mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor conteudista. Saiba mais Informações complementares para elucidar a construção das sínteses/conclusões sobre o assunto abordado. Gotas de Conhecimento Partes pequenas de informações, concisas e claras. Na literatura há outras terminologias para esse termo, como: microlearning, pílulas de conhecimento, cápsulas de conhecimento etc. Sintetizando Trecho que busca resumir informações relevantes do conteúdo, facilitando o entendimento pelo aluno sobre trechos mais complexos. Sugestão de estudo complementar Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo, discussões em fóruns ou encontros presenciais quando for o caso. Posicionamento do autor Importante para diferenciar ideias e/ou conceitos, assim como ressaltar para o aluno noções que usualmente são objeto de dúvida ou entendimento equivocado. 6 Introdução Este Livro Didático destina-se aos alunos do Curso Superior de Tecnologia em Segurança Pública da Faculdade Unyleya e apresenta uma introdução conceitual do campo da Estatística e algumas aplicações. As aplicações correspondem a problemas contextualizados que exigem a análise de certos dados apresentados e a escolha de um método conveniente para tratá-los estatisticamente. Sendo assim, ao longo de cada capítulo, serão discutidas, desenvolvidas e ampliadas algumas técnicas estatísticas, a fim de, posteriormente, serem aplicadas em situações-problema. Vale ressaltar que as questões apresentadas constantemente, exigirão que o estudante se posicione criticamente em relação a elas, isto é, a partir de resultados estatísticos, o estudante deverá fornecer critérios para a tomada de decisão na solução de problemas. Apesar do forte caráter das aplicações, é importante lembrar que, em todos os momentos, o rigor característico da linguagem matemática está presente, uma vez que um dos objetivos deste livro é articular teoria e prática. Vale observar, ainda, que não existe preocupação de esgotar os conceitos abordados, embora estejam incluídas referências que servirão de suporte ao aprofundamento dos estudos. Objetivos » Servir de instrumento de reflexão, discussão e problematização em torno de temas e questões fundamentais presentes na prática da Segurança Pública. » Entender e usar de forma eficiente e eficaz informações estatísticas extraídas de um banco de dados. » Analisar relatórios estatísticos visando avaliar e tomar decisões acertadas; enfatizar o desenvolvimento do pensamento estatístico e avaliar a credibilidade do valor das inferências feitas a partir de dados, não só para aqueles que consomem, mas, também, para aqueles que produzem. » 7 Introdução do capítulo O capítulo 1 discorre sobre conceitos básicos e fundamentais pertinentes à Estatística Básica. Outrossim, procura expor a importância da Estatística na execução do raciocínio crítico, no cotidiano ou durante este curso. Objetivos Esperamos que, ao término deste capítulo, você seja capaz de: » Identificar os objetivos da ciência estatística. » Identificar os variados tipos de aplicação da estatística. » Reconhecer os elementos fundamentais da estatística. » Identificar e escolher adequadamente um método estatístico para análise de populações. » Classificar dados estatísticos. » Estabelecer um critério para coleta de dados. 1CAPÍTULO EStAtÍStICA 8 CAPÍTULO 1 • EStAtÍStICA Conceitos básicos Figura 1. Estatística Fonte: https://www.shutterstock.com/pt/image-vector/analytics-colorful-round-illustration-vector-analysis-656455276. Há tempos a Estatística é observada como tabelas e gráficos. Hoje, com a globalização mundial, estar informado sobre as diversas áreas da vida, tais como nas mais variadas atividades profissionais como Economia, Agronomia, Administração, Biologia, etc., é de essencial importância. Importante A Estatística é uma ferramenta indispensável para transformar dados em informações. Suas técnicas são aplicadas para organizar, apresentar, analisar e interpretar dados. Não obstante seu estudo e análise dos dados fuja à noção de estatística, verdadeiramente é imprescindível o seu uso. Por ser uma ciência relativamente nova, a Estatística ainda não tem o seu devido valor na atualidade. No entanto, a Estatística está presente em diversos lugares, tais como outdoors que apresentam as últimas estatísticas do quantitativo de acidentes e/ou mortes em acidentes de automóveis e até programas de esportes que discutem a chance de determinado time de futebol ser campeão. Com o progresso da era digital, o uso da Estatística e suas técnicas é imprescindível na resolução dos cálculos, que outrora eram esgotantes,no entanto, hoje são resolvidos prontamente por softwares específicos. Ao ouvir a palavra estatística, logo se imagina taxas de acidentes, indices de mortalidade, litros por quilômetros, entre outras, no entanto, a Estatística é um ramo da Matemática que utiliza números para detalhar fatos. É dividida em dois ramos: Estatística Descritiva e Inferência Estatística. 9 EStAtÍStICA • CAPÍTULO 1 A Estatística descritiva é responsável pela coleta, organização, resumo, e geralmente pela simplificação das informações, pois, em alguns exemplos são complexas. A finalidade da Estatística descritiva é facilitar os entendimentos, descrevê-los e analisá-los para que sejam interpretados de maneira suficientemente clara. A Inferência Estatística retrata o estudo e a análise dos dados amostrais, sendo empregada para definir o caminho a ser seguido ante a problemática de eventos aleatórios. Apesar de a Estatística já dispor de técnicas sofisticadas, a utilização da Estatística Descritiva pode resolver inúmeros problemas do cotidiano. Consequentemente, o estudo da Estatística é indipensável em inúmeros cursos de graduação, tendo como conteúdo inicial a aprendizagem da Estatística Descritiva. Importante A palavra Estatística tem duas perspectivas: Estatística: aponta uma coleção de informações, agrupadas com o de oferecer dados a respeito de qualquer operação. Estatística: aponta um movimento especializado e técnico, com processo de coleta, catalogação, estudo e compreensão de informações quantitativas e aplicação dos dados na tomada de decisões. Divisão da Estatística Figura 2. Estatística básica MODA (MO) MÉDIA (Me) MEDIANA (Md) Nº TERMOS = PAR Organize em Rol A mediana é encontrada pela média dos dois valores centrais. É calculada somando-se todos os valores de um conjunto de dados dividindo- se pelo número de elementos desse conjunto. Me = 𝑥𝑥1+𝑥𝑥2+𝑥𝑥3+⋯+𝑥𝑥𝑥𝑥𝑥𝑥 Representa o valor central de um conjunto de dados. Termo que mais se repete em um conjunto de dados. Fonte: https://www.facebook.com/PROFCADOSORIO/posts/1519761421499545. https://www.facebook.com/PROFCADOSORIO/posts/1519761421499545 10 CAPÍTULO 1 • EStAtÍStICA Estatística é uma ciência exata que analisa a coleta dos dados. Frequentemente, é realizada a descrição dos dados para assimiliar as particularidades de uma população. Por exemplo, o grande banco SCHAVES pretende promover a estreia de um produto; é necessário saber a respeito da descrição socioeconômica dos consumidores, logo, todos os clientes de todas as suas agências formam a população a ser estudada. A Faculdade Unyleya, com um dos polos no Estado do Rio de Janeiro – mede o grau de confiança dos seus colaboradores através de uma pesquisa junto aos demais polos distribuídos em grande parte do Brasil, sendo a população de interesse, aqui, o conjunto de colaboradores do estado do Rio de Janeiro. Com esses dois exemplos, verifica-se que o conceito de população de uma pesquisa estatística é mais amplo; ela é definida exatamente a partir dos objetivos da pesquisa. Mais precisamente, população é o conjunto de elementos (pessoas, animais, domicílios ou objetos) para os quais se deseja estudar determinada característica. Embora tenham populações bastante distintas, os dois exemplos das pesquisas expostas possuem em geral os eventos almejados alcançados com base nas informações abordadas ante o subconjunto da população, ou seja, a amostra – parte da população, selecionada de maneira criteriosa, para, efetivamente, proporcionar as informações para o estudo. Há inúmeras razões para se trabalhar com pesquisas por amostragem – em geral, custo e tempo são as mais comuns. Mas, além de serem mais baratas e rápidas, as pesquisas por amostragem, quando bem planejadas, podem fornecer resultados quase tão precisos quanto aqueles fornecidos por censo, em que todos os elementos da população são investigados. Exemplos clássicos são os recenseamentos elaborados a cada década, tanto no Brasil quanto em outros países. Seu objetivo é elevar a quantidade de dados a respeito dos habitantes, com o intuito de conceder incentivos para responsáveis por estabelecer as políticas públicas. Figura 3. População e amostra População Amostra Fonte: Elaborada pelos autores. 11 EStAtÍStICA • CAPÍTULO 1 A amostra específica de uma população é adquirida ao se escolher eventualmente os componentes que constituirão a amostra, e isso possibilita realizar inferências sobre a população. No exemplo anterior, a amostra é estruturada por uma parcela dos acadêmicos universitários do Rio de Janeiro. Atenção Um censo compreende angariar informações importante de uma população completa. Logo, se a população for pequena, é usualmente inviável conseguir todos os dados da população. Em sua maior parte, os dados devem ser obtidos de estudos de uma amostra aleatória. Censo e amostragem: ao apreciar os componentes de uma população de estudo, fazemos um censo e ao retirarmos uma parcela da população para uma análise estatística, temos, então, uma amostragem. Geralmente, a execução de um censo exige tempo e uma elevada despesa, por esse motivo, o Brasil realiza o censo a cada década. O censo torna-se acessível se a população for pequena e seus elementos forem acessíveis. termos e conceitos importantes de Estatística Quando falamos no estudo do perfil socioeconômico dos universitários de uma cidade, subentende- se que se trata de algumas variáveis, como, por exemplo: renda familiar, idade, escolaridade dos pais, número de filhos na família, etc. Vale ressaltar a diferença das categorias das variáveis; só assim é possível realizar a análise estatística adequada a cada uma delas. Importante Quando a relevância estiver focada em uma variável de determinado grupo, é considerada como: » Qualitativa: é o resultado de determinada ordenação de tipos ou atributos. Logo: › Nominal: seus valores não obrigam um ordenamento natural, tais como: sexo ou cor dos olhos. › Ordinal: seus valores devem possuir um ordenamento natural, tais como: classe social ou grau de instrução. » Quantitativa: seu objetivo é mensurar algo, ou seja, seus dados apontam quantidades, é considerada como: › Discreta: é avaliada em números, ou seja, um conjunto enumerável, finito ou infinito, fazendo sentido somente com números inteiros, tais como: número de bactérias por litro de água, número de filhos ou número de carros. › Contínua: é avaliada em resultados numéricos de medições, podendo assumir valores decimais, tais como: peso, altura, tempo ou renda. 12 CAPÍTULO 1 • EStAtÍStICA Figura 4. variáveis estatísticas Variáveis Qualitativas Quantitativas Nominais Ordinais Discretas Contínuas Duas Categorias Ex.: Sexo (homem, mulher) Três ou mais categorias, têm uma ordem, que pode ser crescente ou decrescente. Ex.: Nível de Colesterol Sérico (ug/dl) Deficiente (<10,0) Baixo (10,0 a 19,9) Aceitável (20,0 a 49,9) Alto (> 50,0) Três ou mais categorias sem ordem hierárquica. Ex.: Estado conjugal (casado, solteiro, viúvo e divorciado) Os números são inteiros. Ex.: Número de filhos. 0, 1, 2, 3, 4. Medidas em escala contínua, números com casas decimais. Idade, altura (cm), nível de colesterol. Fonte: https://veterinariaexemplar.wordpress.com/2018/08/23/bioestatistica-variaveis/ Segundo Regina Maria Sigolo Bernardinelli (2012, p. 14), as variáveis são classificadas em: Variável qualitativa nominal: não existe ordenação em seus possíveis resultados. Exemplos: sexo, turma, hábito de fumar; Variável qualitativa ordinal: existe certa ordem em seus possíveis resultados. Exemplos: tamanho (P, M, G), classe social (baixa, média, alta), grau de instrução (1º grau, 2º grau, grau superior), estado civil. Variáveis quantitativas discretas: seus possíveis valores formam um conjunto finito ou enumerável de números que resultam frequentemente de uma contagem. Exemplos: número de olhos,idade (em anos), cine (número de vezes que vai ao cinema por semana); Variáveis quantitativas contínuas: seus possíveis valores formam um intervalo de números reais que resultam, normalmente, de uma mensuração. Exemplos: peso, altura, salário. https://veterinariaexemplar.wordpress.com/2018/08/23/bioestatistica-variaveis/ 13 EStAtÍStICA • CAPÍTULO 1 técnicas de amostragem e tamanho amostral » Inferência estatística: é o método de conseguir dados de uma população através de conclusões verificadas na amostra. » Amostragem: é a técnica de remoção de dados dos “n” subsídios amostrais, em que deverá seguir uma metodologia adequada (tipos de amostragem). Sua finalidade é alcançar amostras essenciais da população. Desta observação deseja-se conseguir informações fidedignas suplantadas para a população. Figura 5. Amostragem Inferência Amostragem População Amostra Fonte: Elaborada pelos autores. O Plano de Amostragem define o regime de amostragem a ser aplicado aos produtos, através da amostra recolhida. Vejamos: 1º Definir os objetivos da pesquisa. 2º População a ser amostrada – parâmetros a serem estimados (objetivos). 3º A unidade amostral é definida pela escolha dos dados que formarão a amostra. 4º Forma de seleção dos elementos da população. Tipo de amostragem: » Aleatória simples » Sistemática 14 CAPÍTULO 1 • EStAtÍStICA » Estratificada » por Conglomerados 5º Tamanho da amostra. Exemplo: Moradores de uma grande comunidade (população-alvo) Unidade Amostral: Domicílios (residências) Elementos da População: Família por domicílio Vamos explicar a utilização de cada tipo de amostragem: » Amostragem aleatória simples: é o método de amostragem probabilística em que os componentes do universo estão representados no marco amostral e têm a mesma probabilidade de serem escolhidos para a amostra. O processo de amostragem casual simples consiste em escolher uma amostra “n” a partir da população “N”. Tais elementos que pertencerão à amostra “n” são selecionados aleatoriamente. Exemplo: Deseja-se escolher 50 elementos de uma população de 500, logo, enumera-se a população de 1 a 500 e realiza-se o sorteio, assim sendo, os 50 elementos formarão a amostra. » Amostragem sistemática: é um método de amostragem não aleatório, ou seja, os elementos da população não apresentam ordenação e a amostra é retirada periodicamente. Exemplo: Considere uma população de 5.000 indivíduos e pretende-se conseguir uma amostra com 100 indivíduos. Primeiramente, dividimos a população em 100 partes de 50 indivíduos. Escolhemos, aleatoriamente, um número entre 1 e 50 para retirar o primeiro indivíduo, por exemplo, o número 24. Portanto, a amostra será extraída com períodos de 5 e 50 indivíduos. Sendo assim: 24, 74, 124, 174, …, 4.974. 15 EStAtÍStICA • CAPÍTULO 1 Atenção Muita atenção aos períodos de variação. Ocasionalmente, ocorrerão ciclos em que a amostra apresentará a mesma particularidade, ou seja, poderá ser variada, logo, ao escolher, por exemplo o 3º, 5º e o 9º elementos, e posteriormente se contarmos 3, 5 e 9 e, consequentemente, até coletar a amostra esperada. » Amostragem Estratificada: baseia-se em decompor a população em divisões homogêneas, desde que seja mais homogênea que a população toda, de acordo com a variável de estudo. A amostra estratificada proporcional assegura que os todos elementos da população disponham da mesma possibilidade de fazer parte da amostra. Exemplo: Suponha que um estudo tem o objetivo de uma particularidade, renda familiar, da popualção da região Sudeste do Brasil. Sendo assim, a população é composta por todos os cidadãos que residem na região Sudeste do Brasil. Considera-se cada classe como um dos estados da região Sudeste. Em cada estado será escolhida uma quantidade de elementos proporcionalmente à população de cada estado da região. » Por Conglomerados: a população é dividida em grupos. Essa partilha é realizada de maneira que os dados de cada conglomerado sejam distintos entre si e os conglomerados, de igual modo, sejam diferentes. Portanto, cada amostragem por conglomerado é uma representação da população como um todo. Agora, explicaremos como fazer o cálculo para cada tipo de amostragem » Cálculo do Tamanho da Amostra para Amostragem Aleatória Simples › Parâmetro: característica da população. › Estatística: característica descritiva de elementos de uma amostra. › Estimativa: valor atribuído por uma estatística para aferir o parâmetro populacional. › Erro amostral: diferença entre o valor estatístico e o valor que almeja estimar do parâmetro. › Erro amostral tolerável: quando o observador declara falhar na estimativa dos parâmetros de interesse de uma população. Ex.: o resultado de uma pesquisa de satisfação com um produto de limpeza: Produto A = 60%, com 2% de erro amostral tolerável (58%-62%). 16 CAPÍTULO 1 • EStAtÍStICA Importante Fórmula para cálculo do tamanho da amostra: Sejam: » N – tamanho da população, ou seja, número de elementos. » N – tamanho (número de elementos) da amostra. » 0n – uma primeira aproximação do tamanho da amostra. » 0E – o erro amostral tolerável. Um primeiro cálculo do tamanho da amostra pode ser feito, mesmo sem conhecer o tamanho da população, através da seguinte expressão: 0 2 0 1n E = Conhecendo o tamanho N da população, podemos corrigir o cálculo anterior, por: 0 0 N . nn N n = + Exemplo 1: Pretende-se realizar uma pesquisa por amostragem para verificar algumas particularidades da população de 200 famílias que moram em um bairro da zona oeste do Rio de Janeiro. As características do estudo são, em particular, porcentagens, por exemplo, famílias que estão incluídas em programas de alimentação popular, que possuem casa própria, etc. Para uma amostra aleatória simples, com confiança elevada, que o erro amostral não exceda 4% (Eq = 0,04), qual deve ser o seu tamanho mínimo? Uma primeira aproximação: ( )0 2 1n 625 famílias 0,04 = = Alterando, de acordo com o tamanho N da população, temos: ( ) ( )400 . 625 250.000n 244 famílias 400 625 1.025 = = = + Exemplo 2: Considere os propósitos e os valores determinados no exemplo 1.Sendo assim, se a população do município fosse aumentada para N = 700.000 famílias residentes, qual deveria ser o tamanho da amostra? Solução: O dado de 0n continua o mesmo do caso anterior 0(n 625)= , pois 0n independe de N. Realizando o acerto para o novo valor de N, temos: 17 EStAtÍStICA • CAPÍTULO 1 Resolução: ( ) ( )700.000 . 625 4.375.00000n 624 famílias 700.000 625 700.625 = = = + Note que, no exemplo 2, observamos que a correção com o tamanho N da população quase não modificou o cálculo realizado inicialmente para o tamanho da amostra ( 0n 625 e n 624= = ). Geralmente, quando a população é grande, ou seja, milhares de elementos, a aferição da amostra, ou seja, o seu tamanho, pode ser calculado conforme a expressão a seguir, sem a necessidade de considerar o tamanho exato, N. 0 2 0 1n n E = = Sintetizando Vimos até agora: » O conceito de Estatística. » Os tipos de aplicações da estatística: descritiva e inferencial. » Os componentes (identificar a população ou amostra, as variáveis e coletar e descrever os dados) dos problemas estatísticos descritivos. » A caracterização dos tipos de dados: quantitativos (de natureza numérica) e qualitativos (de natureza categórica). » Técnicas de amostragem e tamanho amostral. 18 Introdução do capítulo Agora que você já aprendeu como coletar os dados, no capítulo 2 estudará algumas técnicas estatísticas para organizar esses dados em tabelas. Você verá que para cada tipo de variável, qualitativa ou quantitativa, existe uma tabela adequada para apresentar os dados. Objetivos Esperamos que, ao término deste capítulo, você seja capaz de: » Descrever dados qualitativos de uma pesquisa estatística. » Determinar métodos gráficos para retratar dados quantitativos. » Interpretar e utilizar dados apresentadosgraficamente. » Selecionar a forma mais apropriada para demonstrar um conjunto de dados em um gráfico. 2CAPÍTULO SÉRIES EStAtÍStICAS E gRáFICOS 19 SÉRIES EStAtÍStICAS E gRáFICOS • CAPÍTULO 2 Tabelas e gráficos Figura 6. Tabelas e gráficos Fonte: https://www.shutterstock.com/pt/image-illustration/hand-drawing-business-statistics-data-graphs-751171291. As apresentações de dados, tais como tabelas e gráficos, parecem estar em todos os lugares, sinalizando tudo, desde como o mercado das ações tem se comportado nos últimos anos (meses, semanas, dias, minutos) até resultados das eleições, nos mínimos detalhes. Vivemos em meio a uma sociedade de informações instantâneas e todos querem saber o resultado, no entanto, dispensam os detalhes. A abundância de gráficos e tabelas não é ruim, mas é preciso ser cauteloso, pois algumas dessas apresentações são incorretas ou até enganosas, algumas vezes intencionalmente, outras, por acaso; ou seja, o objetivo neste capítulo é organizar e apresentar os dados em tabelas e gráficos, de modo a facilitar o seu manuseio e entendimento do fenômeno que se pretende demonstrar. variáveis qualitativas Ao coletar os dados, é necessário ordená-los de modo que essa aglomeração de informações seja transformada em dados que representem evento de estudo. » Classificação simples: a organização dos dados de uma variável qualitativa deve ser feita a partir da construção de uma tabela com os valores observados. 1 – Nenhum, 2 – Fundamental, 3 – Médio e 4 – Superior. Admita o conjunto de valores para a resposta: 3 3 2 2 3 1 3 4 4 2 2 1 4 2 3 2 3 3 3 3 2 2 2 3 3 3 2 2 3 1 3 3 3 3 1 1 2 3 2 3 3 2 3 2 3 3 3 3 3 3 20 CAPÍTULO 2 • SÉRIES EStAtÍStICAS E gRáFICOS Os dados acima estão dispostos na tabela a seguir: tabela 1. grau de instrução do pai do candidato, vestibular 2019 Grau de Instrução Frequência nenhum 5 Fundamental 15 Médio 27 Superior 3 Total 50 Fonte: Elaborada pelos autores. Importante Elementos de uma tabela: » Título: deve esclarecer o que integra a tabela. É composta da explicação dos conteúdos, da referência e sua data. » Corpo: composto pelas colunas e linhas onde estão inseridas as informações da tabela. » Cabeçalho: localizado na parte superior da tabela, nomeia, com uma ou várias distinções, as informações das colunas. » Coluna indicadora: demonstra a primeira coluna e indica os assuntos das linhas. » Fonte: fornece a instituição e/ou o indivíduo responsável pelas informações compostas na tabela. » Classificação dupla Ao observar os dados da Tabela 1, podemos analisá-los mais detalhadamente. Então, as informações da primeira coluna, grau de instrução dos pais, pode conter o dado sexo ou curso que o candidato escolheu. tabela 2. grau de instrução do pai por sexo do candidato, vestibular 2019 Grau de Instrução Frequência Masculino Feminino Total nenhum 3 2 5 Fundamental 5 10 15 Médio 14 13 27 Superior 2 1 3 Total 24 26 50 Fonte: Elaborada pelos autores. Observe que a quarta coluna possui o somatório das frequências relativas referente à variável grau de instrução. Estas frequências devem ser ordenadas no corpo da tabela de acordo com 21 SÉRIES EStAtÍStICAS E gRáFICOS • CAPÍTULO 2 as categorias da outra variável de classificação. Na Tabela 2 a variável escolhida foi sexo, já na Tabela 3 faremos uso da variável área escolhida. Assim, faremos, a seguir, uma tabela com dupla classificação. Para isso, fazendo uso do modelo anterior, admita que dos 50 postulantes acima, 30 são homens e 20 mulheres, outrossim, 10 candidatos optaram por Ciências Exatas, 25 por Ciências Humanas e 15 por Ciências Biológicas. Diante dessas informações, podemos apresentar a tabela da seguinte forma: tabela 3. grau de instrução do pai do candidato pela área escolhida, vestibular 2019 Grau de Instrução Frequência Total Biológicas Exatas Humanas nenhum 1 1 3 5 Fundamental 3 4 8 15 Médio 5 8 14 27 Superior 2 0 1 3 Total 11 13 26 50 Fonte: Elaborada pelos autores. variáveis quantitativas Na quantitativa discreta, quando houver poucos valores distintos da variável, devemos construir uma tabela similar à Tabela 1, em que serão colocados na coluna indicadora os diferentes dados da variável. Suponha: se os candidatos fossem questionados sobre quantidade de filhos na sua família, teríamos o seguinte resultado: Tabela 4. Número de filhos na família do candidato, Vestibular 2019 Número de filhos Frequência 0 5 1 26 2 9 3 5 4 3 5 2 Total 50 Fonte: Elaborado pelos autores. Se houver um vasto número valores distintos para a variável discreta, ou para a quantitativa contínua, devemos construir uma tabela com a distribuição em classe de frequências. Dados brutos São chamados brutos na condição como foram apurados. Aos serem ordenados, crescentes ou decrescentes. 22 CAPÍTULO 2 • SÉRIES EStAtÍStICAS E gRáFICOS Os dados, na condição como são coletados são chamados de dados brutos. Depois de ordenados, em ordem crescente ou decrescente, são nomeados de rol. Considere que recolhemos a idade de 50 alunos do curso de Administração. Observe a seguir: Dados brutos: 19 22 19 21 25 26 24 23 28 19 17 20 18 23 29 18 18 20 20 22 26 18 20 27 24 19 20 19 24 17 20 19 17 28 22 19 25 20 22 20 18 18 27 23 19 25 19 24 23 20 Com a disposição dos dados brutos, a verificação da maior e da menor idade do grupo apresenta certa dificuldade. Para facilitar o estudo, vamos dispor os dados em rol, ordenados de forma crescente. Observe: Rol 17 17 17 18 18 18 18 18 18 19 19 19 19 19 19 19 19 19 20 20 20 20 20 20 20 20 20 21 22 22 22 22 23 23 23 23 24 24 24 24 25 25 25 26 26 27 27 28 28 29 Figura 7. Gráfico dos dados brutos (Rol) Fr eq uê nc ia s Idades 17 18 19 20 21 22 23 24 25 26 27 28 25 29 0 1 2 3 4 5 6 7 8 9 10 Fonte: Elaborada pelos autores. Após a ordenação em rol, ficou bem simples apurar a idade do estudante mais jovem e o mais velho, 17 e 29 anos, respectivamente. 23 SÉRIES EStAtÍStICAS E gRáFICOS • CAPÍTULO 2 Representação gráfica A representação gráfica é um instrumento muito relevante, pois oferece uma informação clara, afetiva e rápida. O gráfico constitui um importante instrumento de representação de dados, fornecendo uma comunicação rápida, clara e efetiva, proporcionando melhor visualização de dados de uma distribuição de frequências. Um gráfico necessita de pronta compreensão do evento, proporcionar clara análise dos seus dados e ainda auxiliar na apresentação das informações estatísticas. Gráfico de pontos Neste gráfico, as informações numéricas do conjunto de dados quantitativo são caracterizadas por um ponto na escala horizontal; caso os valores (pontos) se repitam, devem ser sobrepostos verticalmente. Gráfico 1. Número de filhos na família do candidato, Vestibular 2019 Fr eq uê nc ia Número de filhos 0 0 1 2 3 4 v 5 6 v 5 v 10 v 15 v 20 v 25 v 30 v Fonte: Elaborado pelos autores. Gráficos de colunas e barras São utilizados para demonstrar a distribuição de frequências de variáveis qualitativas e quantitativas. As categorias são reproduzidas em coluna, em que sua altura representa frequência absoluta ou frequência relativa. Observe o gráfico a seguir: 24 CAPÍTULO 2 • SÉRIES EStAtÍStICAS E gRáFICOS Gráfico 2. Número de filhos na família do candidato, Vestibular 2019 Número de filhos Fr eq uê nc ia R el at iv a 0,52 0,18 0,10 0,10 0,06 0,04 2 0,0 0,1 0,2 0,3 0,4 0,5 0 1 2 3 4 5 Fonte: Elaborado pelos autores. Podemos, ainda, apresentar os dados em gráfico de barras, basta expor as categorias no eixo vertical e as frequências no eixo horizontal. Veja a distribuição de frequências no gráfico a seguir: Gráfico 3. Grau de instrução do pai do candidato, Vestibular 2019 5 15 27 3 Nenhum G ra u de FundamentalMédio Superior 0 5 10 15 Frequência 20 25 30 Fonte: Elaborado pelos autores. Gráfico de setores Geralmente usado pelas variáveis qualitativas. É formado ao dividirmos o círculo em setores, proporcionalmente, e cada setor corresponde à frequência simples ou relativa de uma das categorias da variável. Observe a representação no gráfico de setores a respeito do grau de instrução do pai do candidato: 25 SÉRIES EStAtÍStICAS E gRáFICOS • CAPÍTULO 2 Gráfico 4. Grau de instrução do pai do candidato, Vestibular 2019 Título do Gráfico Fonte: Elaborado pelos autores. Histogramas Figura 8. Histogramas Fonte: https://www.shutterstock.com/pt/image-vector/multiple-bar-chart-colored-vector-multibar-1428897815. Histogramas são gráficos utilizadoS para exibir a frequência absoluta e a frequência relativa das dimensões em cada intervalo. Os valores da variável quantitativa são separados em intervalos de classes; tais intervalos compõem a escala do eixo horizontal. A frequência absoluta ou relativa dos dados em cada intervalo é definida por uma barra vertical disposta sobre o intervalo de classe e sua altura refere-se à frequência absoluta ou relativa do intervalo de classe. 26 CAPÍTULO 2 • SÉRIES EStAtÍStICAS E gRáFICOS O histograma que representa a distribuição em classes de frequências da Tabela 5 está apresentado no Gráfico 5: Gráfico 5. Histograma da idade de 50 estudantes de Administração Histograma Classe de Idade 0 2 4 6 Fr eq uê nc ia 8 10 12 14 16 16 18 20 22 24 26 28 30 15 10 8 7 4 3 3 Fonte: Elaborado pelos autores. Os histogramas, em grupos grandes, permitem mais adequada exposição visual dos grupos de dados, facilitando a identificação das medidas individuais. No entanto, cada observação é conhecida de algum formato em um gráfico de pontos e visivelmente clara em um gráfico de ramo e folhas. Distribuição de frequência Esses dados podem ser organizados numa tabela de distribuição em classes de frequências. Elementos de uma distribuição de frequência Os dados de uma tabela de distribuição de frequências apresentam alguns elementos tais como: a proporção de estudantes com menos de 26 anos, quantos estudantes têm 24 anos ou mais. Esses elementos estão na Tabela 6 e são definidos da seguinte forma, vejamos: Atenção O somatório de todas as frequências relativas em uma amostra deve totalizar 100% ou 1. 27 SÉRIES EStAtÍStICAS E gRáFICOS • CAPÍTULO 2 Figura 9. Resumo de distribuição de frequência Amplitude da Classe (h) Classe s Limite Inferior Limite Superior Frequência relativa Frequência relativa acumulada Frequência acumulada Frequência simples ou absoluta Ponto médio da classe Número de filhos Total Fonte: Elaborada pelos autores. tabela 5. Distribuição em Classes de Frequências para a variável idade Número de filhos Xi fi Fi fri Fri 16 18 17 3 3 0,06 0,06 18 20 19 15 18 0,30 0,36 20 22 21 10 28 0,20 0,56 22 24 23 8 36 0,16 0,72 24 26 25 7 43 0,14 0,86 26 28 27 4 47 0,08 0,94 28 30 29 3 50 0,06 1,00 Total 50 Fonte: Elaborada pelos autores. » Ponto médio da classe (Xi): seu cálculo é realizado para descobrir o valor que representa a média dos limites da classe. Observe o cálculo da média da quarta classe: 4 22 24X 23 2 + = = » Frequência simples ou absoluta (fi): é a quantidade de vezes que uma variável assume algum valor, observe a seguir quantas observações temos na quarta classe: F4 = 8 » Frequência acumulada (Fi): é o somatório de todas as classes anteriores até a classe atual ou a que se deseja. Observe a frequência acumulada para a a quarta classe: F4 = F1 + F2 + F3 + F4 = 3 + 15 + 10 + 8 = 36 28 CAPÍTULO 2 • SÉRIES EStAtÍStICAS E gRáFICOS » Frequência relativa (fri): geralmente é apresentada na forma de porcentagem; seu cálculo é realizado através da divisão da frequência absoluta e o total de observações; seu resultado pode ser apresentado de três formas: fração, decimal ou porcentagem. Vejamos o cálculo da fri da quarta classe: 4 4 f 8fr 0,16 ou1 6% n 50 = = = Atenção A soma de todas as frequências relativas de uma amostra totaliza 100% ou 1. » Frequência relativa acumulada (Fri): É o somatório das frequências relativas até a classe que se deseja, observe o cálculo de Fri para a sexta classe temos: 6 4 F 47Fr 0,94 ou 94% n 50 = = = O cálculo pode ser feito de outra forma. Veja a seguir: Fr4 = Fr1 + Fr2 + Fr3 + Fr4 + Fr5 + Fr6= 0,06 + 0,30 + 0,20 + 0,16 + 0,14 + 0,08 = 0,94 Aproveitando o exemplo anterior, vamos fazer uma tabela de distribuição de frequências de acordo com a variável referente à idade dos alunos. Analisando os dados, podemos observar que o mais jovem tem 17 anos e o mais velho 29 anos de idade, logo, para as idades apresentadas temos uma Amplitude de 12 anos. » Amplitude total (At): é o cálculo da diferença do maior valor da última classe pelo menor valor da primeira classe = 29 – 17 = 12. Importante Para a construção das classes de frequências, observe algumas regras: » Todas as observações precisam estar contidas nas classes. » O menor e o maior valor, obrigatoriamente, devem estar na primeira e na última classe respectivamente. » Todos os valores devem estar dispostos em suas respectivas classes. » A quantidade de classes é variável, podendo ser 5 e 15 classes, é imprescindível que todas sejam do mesmo tamanho. 29 SÉRIES EStAtÍStICAS E gRáFICOS • CAPÍTULO 2 Cada intervalo de classe tem que possuir seu tamanho; para isso, realizamos o seguinte cálculo: At 12h 2 k 6 = = = . Logo, considerando a segunda regra, o limite inferior da primeira classe será 16, como o tamanho de cada classe dever ser 2, as seis classes serão: 16 a 18, 18 a 20, 20 a 22, 22 a 24, 24 a 26 e 26 a 28. O valor da maior classe é 29, portanto, aumentaremos uma unidade na última classe para atender ao que rege a segunda regra, ou seja, a última classe será 28 a 30. tabela 6. Distribuição em classes de frequências para a variável idade Número de filhos Frequência 16 18 3 18 20 15 20 22 10 22 24 8 24 26 7 26 28 4 28 30 3 Total 50 Fonte: Elaborada pelos autores. Todos os intervalos de classes, obrigatoriamente, devem ser fechados à esquerda e abertos à direita, portanto, a idade 18 anos pertence à segunda classe e não à primeira. Note que na primeira classe a idade 17 anos aparece três vezes, logo, sua frequência é igual a 3, e assim sucessivamente nas demais classes. Quando os dados estão ordenados na tabela de distribuição em classes de frequências, percebe-se apenas as frequências das classes, ou seja, na terceira classe temos 10 estudantes entre 20 e 22 anos de idade. Sintetizando Vimos até agora: » Como categorizar os dados qualitativos, ou seja, reconhecer as classes de categorias, definir as frequências e representá-las nos gráficos de barras e de pizza. » Como apresentar os dados quantitativos, reconhecer classes de categorias, definir as frequências e representá-las nos gráficos de pontos, de ramos e folhas e em histogramas. 30 Introdução do capítulo Este capítulo apresenta conceitos de parâmetros para comparação relativa, métodos para obter medidas de tendência central, medidas de variabilidade e assimetria. Objetivos Esperamos que, ao término deste capítulo, você consiga: » Compreender o significado do termo estimação. » Descrever e comparar estimativas. » Construir intervalos de confiança para médias e proporções populacionais utilizando dados amostrais. » Calcular e interpretar medidas de tendência central. » Calcular e analisar as medidas de variabilidade. » Calcular e analisar as medidas de posicionamento relativo. 3CAPÍTULO EStAtÍStICA DESCRItIvA 31 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 Parâmetros para comparação relativa Estimação de parâmetros Figura 10. Amostragem, obtendo dados População Dados Teoria da Probabilidade Amostra Inferência Análise exploratória dos dados Fonte:https://ine.ufsc.br/. Os valores numéricos usados para caracterizar uma população são chamados de parâmetros estatísticos. Conforme a observação, torna-se quase improvável mensurar todos os elementos de uma população. Consequentemente, os investigadores atuam com dados amostrais ou experimentais. Assim sendo, as inferências estatísticas são fundamentadas nas distribuições amostrais e na teoria probabilística. Estimativas de parâmetros são métodos pelos quais os dados são adquiridos de amostras com o objetivo de realizar inferências sobre dados populacionais. As estimativas podem ser por ponto, é alcançadas a partir de um único valor amostral para estimar o parâmetro populacional, ou por intervalo, é obtida pela construção de um intervalo e sua probabilidade preestabelecida, geralmente são fixadas em 95% ou 99% e são chamadas de nível de confiança. Um estimador deve ser não viciado ou não aviesado – ao serem retiradas todas as amostras de tamanho n de uma população, a média das estimativas alcançadas em todas as amostras aceitáveis será o valor do parâmetro desejado; deve ser consistente – não é viciado, quando n aumenta sua variância tende a zero e tende para o infinito; deve ser eficiente – é aquele que apresenta menor variância. https://ine.ufsc.br/ 32 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA Importante Vamos recordar: » Parâmetro: propriedade descritiva dos dados da população. » Estatística: procedimento realizado com os dados de uma amostra. » Estimador: parte da estatística utilizada com o objetivo de estimar algum parâmetro. Observe o exemplo 1: O prefeito da cidade de Seropédica, região metropolitana do Rio de Janeiro, aspira aferir se um novo projeto educacional será bem aceito. Após o expor aos residentes do município, os encarregados por executar o projeto avaliam o valor aproximado do parâmetro π = proporção de favoráveis, em meio aos indivíduos que residem no município. A prefeitura de Seropédica resolveu estimar este parâmetro, logo, vai analisar uma amostra aleatória simples de de n = 400 moradores e medir o valor da estatística P = proporção de habitantes favoráveis ao projeto na amostra. Veja a tabela a seguir: tabela 7. Estimação ilustrada População Amostra – Todos os moradores do município; – Os moradores da população estão divididos em dois: prós ou contra o projeto; – Parâmetro de interesse: π = proporção de favoráveis Sim Não π 1 = π – ɳ moradores do município selecionados aleatoriamente; – Cada elemento da amostra é classificado como favorável ou contrário ao projeto; – Estatística; P = proporção de favoráveis na amostra, isto é: nº de favoráveis na amostra ɳ P = Qual o valor de π? π = P ± erro amostral Fonte: Elaborada pelos autores. 33 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 ,O erro amostral ou variabilidade amostral, que aparece na ilustração acima, é o resultado do cálculo da diferença da estimativa da amostra e parâmetro da população. Observe o exemplo 2: Para estudar o efeito da merenda escolar, introduzida nas escolas da cidade de Seropédica, região metropolitana do Rio de Janeiro, pretende-se realizar um estudo com uma amostra de n = 100 crianças da rede municipal de ensino. Diante das inúmeras características de interesse, almeja- se avaliar o parâmetro µ = ganho médio de peso, dentre todas as crianças da rede municipal de ensino, durante o primeiro ano letivo. Da amostra de crianças em estudo, pretende-se calcular a estatística x = ganho médio de peso, no primeiro ano letivo, das 100 crianças em observação. A estatística x deve ser utilizada como um estimador do parâmetro µ . Veja, a seguir, alguns parâmetros e as respectivas estatísticas, que são usadas para estimá-los. Lembre-se de que as expressões para o cálculo de algumas estatísticas, tais como a média x e o desvio padrão S, foram vistas nas aulas anteriores. tabela 8. Parâmetros estatísticos Parâmetros – Características da população Estatísticas – características da amostra π = proporção de alguma característica, em meio aos dados da população. P = proporção de elementos com o atributo, dentre os que serão observados na amostra. µ = média de alguma variável quantitativa, nos elementos da população. x = média da variável, seu cálculo deve ser feito com os dados da amostra. σ = desvio padrão de uma variável, dentre os elementos da população. S = desvio padrão da variável, seu cálculo deve ser feito com os dados da amostra. Fonte: Elaborada pelos autores. Ao analisar uma parte da amostra, foi encontrado um valor chamado de estimativa. Perceba, se na amostra de n = 400 moradores da cidade de Seropédica, exemplo 1, encontrarmos 240 favoráveis, logo, temos a seguinte estimativa para o parâmetro π . 240P 0,60 ou 60% 400 = = Entretanto, não devemos confiar que este valor coincida com o valor do parâmetro π , pois terá uma variação devido ao que chamamos de erro amostral, conforme ilustração do exemplo 2. A estimativa é tão mais precisa quanto menor for o seu erro amostral. Um dos fundamentais propósitos na teoria da estimação é aferir um limite superior provável de um erro amostral. O valor encontrado é a base para estimarmos a exatidão da estimativa. 34 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA Distribuição amostral da população Figura 11. Histograma de distribuição Fonte: http://nbcgib.uesc.br/lec/professores/ivan?layout=edit&id=136. Como devemos separar as amostras? » Por levantamentos amostrais: é adquirida de uma população bem definida, mediante procedimentos normatizados e ordenados pelo investigado. » Planejando experimentos: tem como objetivo examinar o resultado de uma variável sobre outra. O investigador deve ser experiente para controlar os fatores externos, com a finalidade de mensurar o resultado desejado. » Por estudos observacionais: a seleção dos dados é feita sem que o investigador tenha o controle sobre os dados, à exceção sobre eventuais erros grosseiros. Problemas: » Ausência de conhecimento acerca dos parâmetros. » Ausência de conhecimento acerca da distribuição, ou seja, sobre o comportamento dos dados e a maneira como se distribuem. » Ausência dos parâmetros e da curva de distribuição. Considere a seguinte pergunta, relativa ao exemplo 1; o valor de P (proporção de favoráveis numa amostra de n = 400 moradores da cidade de Seropédica) vai ser um valor aproximado da proporção π , que alude aos moradores do município? Com o valor de π desconhecido, responderemos a esta pergunta indiretamente, através do conhecimento de como são atribuídos os possíveis valores de P. Distintos valores de P podem ser alcançados por diferentes amostras de n elementos, retiradas da população, mediante iguais circunstâncias. A cada amostra analisada, dispomos um valor para P. A distribuição do conjunto http://nbcgib.uesc.br/lec/professores/ivan?layout=edit&id=136 35 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 para valores de P, equivalentes às prováveis amostras de tamanho n, configura distribuição amostral de P. Suponha que a população em estudo seja bastante grande, outrossim, para cada observação, a probabilidade de ele ser favorável seja sempre igual a π , independentemente dos elementos já observados. A figura a seguir mostra o modelo de probabilidades, referente a cada observação, admitindo o verdadeiro valor de π conhecido e igual a 0,70. Figura 12. Processo de amostragem População: Habitantes da cidade separados em adeptos (sim) e avessos (não) ao projeto. Amostragem aleatória simples Para cada elemento observado Resultado Probabilidade Sim Não 0,70 0,30 Amostra (400 moradores) Um valor para a estatística P Fonte: Elaborada pelos autores. Modelo de probabilidades associado ao processo de amostragem do exemplo 1, com 0,70.π = Estimação de uma proporção Que porcentagem de peças numa grande remessa apresenta defeito? Qual a proporção de bolas numa urna são amarelas? Qual a proporção de constituintes aprova um projeto? Qual aprobabilidade de um aluno do curso primário não ser vacinado? Tais questionamentos e outras paralelas são respondidas fazendo uso de dados amostrais para estimar o parâmetro populacional. 36 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA Importante Estimativa de proporção populacional é similar à de médias populacionais. Por exemplo, os intervalos de confiança para grandes amostras se baseiam numa distribuição amostral que é aproximadamente normal, fazendo uso da estatística amostral (neste caso, a proporção amostral) como estimativa pontual do verdadeiro parâmetro (proporção populacional). O desvio padrão da distribuição amostral de P, Pσ , também conhecido como erro padrão de P, pode ser estimado pelos dados da amostra, usando a expressão a seguir, onde P é a proporção do atributo da amostra: ( ) P P. 1 P S n − = Ainda sobre o exemplo 1, considere uma amostra de n = 400 elementos, temos 60% de favoráveis. Sendo assim, P = 0,60 (ou 60%) e erro padrão é dado por: ( ) ( )( ) P P P. 1 P 0,60 0,40 S S 0,0245 n 400 − = = = = Tendo como parâmetro o nível de confiança de 95%, temos um erro amostral máximo provável de (1,96) PS = (1,96)(0,0245) = 0,048 (ou 4,8%). Desta forma, podemos dizer que o intervalo: 60,0% ± 4,8% (isto é, o intervalo de 55,2% a 64,8%) contém, com 95% de confiança, o parâmetro π = proporção de favoráveis em toda a população de moradores de Seropédica. O esquema a seguir ilustra o intervalo de confiança para o parâmetro π , com nível de confiança de 95%. Figura 13. Intervalo de confiança para o parâmetro π P – (1,96) Sp P – (1,96) Sp P Fonte: Elaborada pelos autores. 37 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 Estimação de uma média Para estimar a média da população, usando os elementos de uma amostra aleatória, parece lógico usar-se a média da amostra, x . Devemos estimar o parâmetro µ (média da variável quantitativa), com base na x (média da variável observada numa amostra aleatória simples), seguiremos as propriedades da estimação de uma proporção, logo, em grandes amostras, a distribuição amostral de x , da mesma forma, aproxima-se de uma distribuição normal. Para estimar o erro padrão da média amostral, a partir do desvio padrão amostral, S, devemos utilizar a seguinte a expressão: 2 2 x S x nxS , onde S n 1n ∑ − = = − Se a amostra for grande, avalia-se o erro amostral máximo provável por xzS , onde z é obtido de acordo com o nível de confiança desejado, por exemplo: Tabela 9. Níveis de confiança área 0,800 0,900 0,950 0,980 0,990 0.995 0,998 z 1,282 1,645 1,960 2,326 2,576 2,807 3,090 Fonte: Elaborada pelos autores. Ainda sobre o exemplo 2, observa-se uma amostra aleatória simples de n = 100 estudantes das escolas municipais, matriculadas no primeiro ano letivo, onde serviam uma comida maravilhosa, acharam as seguintes informações sobre ganho de peso durante o ano. Aumento médio de peso dos estudantes da amostra: x 6,0 kg= ; Desvio padrão dos pesos das estudantes da amostra: S 2,0 kg= . Com o objetivo de estimar o parâmetro ganho médio de peso da populaçãoµ = , podemos calcular uma estimativa para o erro padrão da média amostral. x S 2,0S 0,2kg n 100 = = = O provável erro amostral máximo é 95% de confiança, logo, ( )( )1,96 0,2 0,392kg= , o que resulta ao intervalo de 95% de confiança para µ , sendo assim, 6,000 0,392kg± . Portanto, de acordo com o acompanhamento da amostra das 100 crianças da rede municipal de ensino da cidade de Seropédica, região metropolitana do Rio de Janeiro, sendo assim, conclui- se que o intervalo de 5,608 a 6,392kg possuem ganho médio de peso, µ , com 95% de confiança. 38 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA Figura 14. Intervalo de confiança para o parâmetro µ 5,608 6,000 6,392 (6,000 ± 0,392kg) Intervalo de 95% de confiança para 𝜇𝜇 Ganho de peso em kg Fonte: Elaborada pelos autores. Soluções para tamanho conhecido da população. Faz-se a seguinte correção no cálculo do erro padrão: ( ) P P. 1 P N nS n N 1 − − = − Na verdade, o conhecimento deste valor só é relevante em populações pequenas. Onde foi introduzido o seguinte fator de redução, na estimativa do erro padrão: N n N 1 − − Então, temos as seguintes expressões para estimativas de erro padrão: tabela 10. Estimativa de erro padrão Ao estimar uma proporção π : Ao estimar uma média µ : ( ) P P. 1 P N nS n N 1 − − = − x S N nS N 1n − = − Fonte: Elaborada pelos autores. Observe o exemplo 3: Para averiguar o êxito de um sistema de prevenção de acidentes de trabalho, realizaram uma pesquisa e o programa foi praticado em 10 empresas, escolhidas aleatoriamente, da região Sudeste. As informações a seguir apresentam o percentual de diminuição de acidentes de trabalho nas empresas analisadas. 39 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 tabela 11. Estudo experimental Amostra Estatísticas 20 15 23 11 29 5 20 18 17 Média: x 18= Desvio padrão: S = 6,65 Fonte: Elaborada pelos autores. Considere que exista N = 30 empresas na região. Portanto: ( ) ( )x S N n 6,65 30 10S 2,10 . 0,83 1,74 N 1 30 1n 10 − − = = = = − − ( ) ( )xtS 2,262 . 2,08 4,7= = Portanto, o intervalo de 95% de confiança para a média µ . 18,0 4,7 pontos± . Amostra aleatória simples Para determinar o tamanho da amostra, utilizaremos o processo de amostragem aleatória simples. As fórmulas para o cálculo do tamanho, n, da amostra são obtidas das expressões dos intervalos de confiança fixando, por dedução, o nível de confiança e o erro amostral tolerado. Ainda, admitiremos que existam condições para a observação de uma amostra razoavelmente grande, que tolere o uso da distribuição normal, na representação das distribuições amostrais de x e de P. Dispondo do valor z da distribuição normal, conforme o nível de confiança desejado, assim como o valor 0E relativo ao erro amostral tolerado, usa-se as seguintes fórmulas para a determinação de n. tabela 12. Estimadores Ao estimar uma proporção π : Ao estimar uma média µ : ( )2 0 2 0 z 1 n E π − π = 2 2 0 2 0 z n E σ = Fonte: Elaborada pelos autores. Quando o tamanho da população é conhecido, faz-se a seguinte correção para descobrir o tamanho da amostra (expressão aproximada): 0 0 N . nn N n = + 40 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA Quando a população for grande, adota-se o valor de 0n como o tamanho n da amostra. Como já vimos, observou-se que, depois de fixados o nível de confiança e o erro tolerável, o tamanho da amostra depende da variável em estudo, caracterizada pelo quadrado do desvio padrão, ou seja, a variância 2σ . Para a estimação de uma proporção, a variância é demonstrada em relação ao parâmetro π , por: ( )2 1σ =π − π . O parâmetro 2σ aparece no numerador das expressões do cálculo de n, logo, conclui-se que, quanto mais diversificada for a população em estudo, maior deverá ser o tamanho da amostra. Observe o exemplo 4: Considere, novamente, o problema de estimar o ganho médio de peso das crianças da rede municipal de ensino da Secretaria Municipal de Seropédica, durante o primeiro ano letivo (Exemplo 2). Considere que uma análise parecida foi feita em outro município, analisaram uma amostra de 80 jovens, que mostrou um desvio padrão S = 1,95kg. Fixando o nível de confiança em 95%, e tolerando um erro amostral de até 200 gramas (isto é, 0E 0,2kg= ), então, podemos definir o tamanho da amostra. Solução: z = 1,96 (pois vamos trabalhar com nível de 95% de confiança) e usaremos no lugar de 2σ o valor da variância amostral: ( )22S 1,95 3,8= = . Dado isso, temos o seguinte cálculo para tamanho mínimo de uma amostra aleatória simples: ( ) ( ) ( ) ( ) 22 2 2 0 22 2 0 0 z 1 1,96 . 3,8z n 365 crianças E E 0,2 π − π σ = ≈ = = No cálculo do tamanho da amostra, comumente, aproxima-se o valor z = 1,96 para z = 2, pois, facilita as contas, e ainda, compensa, em termos, o erro introduzido pela substituição de 2σ no lugar de 2S . Se tivéssemos utilizado o valor z = 2 no exemplo acima, obteríamos como resultado n =380 crianças. Medidas numéricas de tendência central Figura 15. Medidas estatísticas 1 y x Fonte: https://www.vivendoentresimbolos.com/2012/08/medidas-de-tendencia-central-media-moda.html. https://www.vivendoentresimbolos.com/2012/08/medidas-de-tendencia-central-media-moda.html 41 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 Apresentaremos a seguir as medidas numéricas descritivas de uma amostra, com o intuito de realizar inferências acerca das medições da população. Veremos algumas técnicas numéricas para representar os conjuntos de dados quantitativos. Média Figura 16. Média aritmética 3 Fonte: https://blog.professorferretto.com.br/moda-media-e-mediana-medidas-de-tendencia-central/. A média aritmética é a mais importante medida de posição, ela é analisada ao realizar o somatório de todos os elementos, posteriormente, dividir pela soma do número de medições. Provavelmente, já calculamos a média aritmética, pois a aprovação em qualquer disciplina necessita de uma média maior ou igual a sete. Notação: x. Ou seja: n ii 1 x X n == ∑ Atenção O símbolo n i 1 xi = ∑ significa o somatório dos números xi, com i variando de 1 a n. Exemplo: Digamos que o professor Sirlei tenha realizado cinco testes e você tenha tirado as seguintes notas: 10, 2, 9, 6 e 8, respectivamente. Para esta observação n = 5, logo, sua média é igual a: 10 2 9 6 8X 7 5 + + + + = = Como calcular a média de dados agrupados – Média ponderada https://blog.professorferretto.com.br/moda-media-e-mediana-medidas-de-tendencia-central/ 42 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA Quando agrupamos os dados, calculamos a média ponderada onde cada valor x tem peso igual a sua frequência fi, ou seja, k 1 1 2 2 k k i i k i 1 i 1 f X f X f X 1X f X n n fi= = + +… = = = ∑ ∑ Exemplo: Para a distribuição de frequências da Tabela 4, a média ponderada é calculada como segue: 0 . 5 1 . 26 2 . 9 3 . 5 4 . 3 5 . 2 81X 1,6 50 50 + + + + + = = = Ocasionalmente, encontraremos na média alguns valores que não poderão ser expressos na amostra, por exemplo, não há possibilidade de termos 1,6 filhos. O valor da média corresponde ao centro da distribuição do número de filhos por família, ou seja, é o ponto de equilíbrio. Se os dados estiverem agrupados, ou seja, dispostos em classes de frequência, devemos realizar o cálculo da média ponderada. Observe a distribuição de frequências da Tabela 5 e note como é realizado o cálculo da média ponderada: 17 . 3 1 9 .1 5 21 .1 0 23 . 8 25 . 7 27 . 4 29 . 3 1100X 22 50 50 + + + + + + = = = Sendo assim, conclui-se que os estudantes do curso de Administração apresentam uma média de 22 anos de idade. Mediana (Md) É representada pelo valor que está localizado no centro de uma amostra de n observações ordenadas. A mediana reparte o conjunto exatamente ao meio, logo, 50% dos dados estarão em ambos os lados. Seu cálculo sujeita-se à quantidade de n de observações. Importante Quando n for ímpar – após a ordenação dos dados, o valor da mediana ocupará posição central. Vejamos: quanto às notas dos cinco testes de Estatística aplicados pelo professor Sirlei, ao ordenarmos os valores, temos: 2, 6, 8, 9, 10. Logo, n = 5, a mediana, ou seja, a posição central, é a 3ª observação, portanto, a mediana é 8. Quando n for par – após a ordenação dos dados, o valor da mediana ocupará posição central. Então, ainda sobre as notas dos testes aplicados pelo professor Sirlei, considere seis notas, ao ordenarmos as notas, temos: 2, 5, 6, 8, 9, 10. Logo, n = 6, a posição central encontra-se entre o 3º e o 5º termos, 6 e 8, respectivamente. A mediana das seis notas é: 6 8Md 7 2 + = = 43 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 Mediana para dados agrupados Mesmo com o agrupamento dos dados o cálculo da mediana permanece o mesmo, verifique se os dados estão ordenados e a mediana é localizada pela frequência acumulada. Tabela 13. Número de filhos na família do candidato, Vestibular 2019 Número de filhos Frequência (Fi) Fi 0 5 5 1 26 31 2 9 40 3 5 45 4 3 48 5 2 50 Total 50 Fonte: Elaborada pelos autores. Como n = 50, par, a mediana estará na média dos valores que estão no 25º e 26º elementos. Note pela frequência acumulada que os elementos do 1º ao 5º são zero, do 6º ao 31º são 1 e, portanto, o 25º e 26º elementos são iguais a 1, portanto a mediana será 1 1Md 1 2 + = = . Logo, a mediana é 1 filho por família. Importante Se os dados estiverem distribuídos em classes de frequências, veja a Tabela 8, o método para realizar o cálculo será totalmente diferente. Calcula-se a localização da mediana. Posteriormente, definimos a classe mediana, na frequência acumulada, onde se encontra a mediana. E finalmente realizamos o seu cálculo: ( )( )Pos Md Fi i Md li x h fi − − = + tabela 14. Distribuição em classes de frequências para a variável idade Número de filhos Xi fi Fi 16 18 17 3 3 18 20 19 15 18 20 22 21 10 28 22 24 23 8 36 24 26 25 7 43 26 28 27 4 47 28 30 29 3 50 Total 50 Fonte: Elaborada pelos autores. 44 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA Usaremos como exemplo os dados da Tabela 14 para calcularmos a mediana da variável idade. Sendo assim, ( ) 50 Pos Md 25 2 = = . De acordo com a coluna de frequência acumulada, podemos verificar que o 25º elemento está na classe 20 a 22 anos, logo, a mediana está na terceira classe. Assim, a mediana é: ( )( ) ( )Pos Md Fi i 25 18 Md li x h 20 x 2 21,4 fi 10 − − − = + = + = Consequentemente, para o conjunto de idade da Tabela 8, a idade mediana é 21,4 anos. Moda Mo Figura 17. Moda Moda Fonte: https://blog.professorferretto.com.br/moda-media-e-mediana-medidas-de-tendencia-central/. A moda é representada pelo valor que mais aparece com mais frequência no conjunto de dados. Considere que 12 alunos fizeram uma prova de Matemática e conseguiram as seguintes notas: 5, 4, 4, 4, 6, 9, 3, 6, 3, 1, 7 e 2. Neste exemplo, a nota com mais frequência é a nota 4, logo, a moda é Mo = 4. Atenção » Pode acontecer de surgir conjuntos com duas modas, 5, 8, 7, 8, 9, 9, 10. Conjunto bimodal. Mo = 8 e Mo = 9 » Há também conjuntos que não apresentam moda, 1, 6, 11, 17, 21. Conjunto amodal. » Temos ainda conjuntos com inúmeras modas. Conjunto polimodal. Moda para dados agrupados Se os dados estiverem agrupados em classes de frequências, o cálculo da moda se dará pela classe com maior frequência simples, posteriormente, utilizaremos a fórmula: 1Mo li x 1 2 ∆ = + ∆ +∆ https://blog.professorferretto.com.br/moda-media-e-mediana-medidas-de-tendencia-central/ 45 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 Usaremos a Tabela 14 como exemplo para calcular a moda, inicialmente, devemos verificar qual é a classe modal, para este exemplo é a segunda classe, idades de 18 a 20 anos. Note: 1 f2 f1 15 3 12∆ = − = − = 2 f2 f3 15 10 5∆ = − = − = Logo, o cálculo da moda é: 1 12Mo li x h 18 x 2 18 1,4 19,4 1 2 12 5 ∆ = + = + = + = ∆ +∆ + Medidas de dispersão ou de variabilidade São utilizadas para a determinação do grau de variação dos dados de uma observação em relação a sua média. Tais medidas investigam o distanciamento dos números de um conjunto até a média do mesmo conjunto, essas medidas são conhecidas como: amplitude, desvio padrão e variância. Amplitude A primeira medida de dispersão é conhecida como amplitude e determina a diferença entre o maior e o menor elemento de um conjunto de dados. variância e desvio padrão Figura 18. Medidas estatísticas Fonte: https://brasilescola.uol.com.br/matematica/medidas-dispersao-variancia-desvio-padrao.htm. O cálculo da variância e o desvio padrão indicam a ideia de dispersão em uma distribuição de dados. Sua resolução se dá ao considerar os desvios em relação à media. Posteriormente faz-se o cálculo da média dos quadrados dos desvios. Logo, considerando o conjunto X1, X2, X3, ..., Xn, a variância (S2), é calculada de acordo com a fórumla abaixo: https://brasilescola.uol.com.br/matematica/medidas-dispersao-variancia-desvio-padrao.htm46 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA ( )2n i2 i 1 X X S n 1 = − = − ∑ A variância é uma medida quadrática, sendo assim, precisamos trabalhar com a raiz quadrada da variância, logo, o desvio padrão (S), é: ( )2n i2 i 1 X X S S n 1 = − = = − ∑ Exemplo: Vamos fazer uso do exemplo dos cinco testes aplicados pelo professor Sirlei, nos quais o aluno recebeu as seguintes notas: 10, 2, 9, 6 e 8, respectivamente. Logo, a média é: n i i 1 1 10 2 9 6 8X X 7 n 5= + + + + = = =∑ Logo, a variância é calculada da seguinte forma: ( ) ( ) ( ) ( ) ( ) ( ) 2n 2 2 2 2 2 i2 i 1 X X 10 7 2 7 9 7 6 7 8 7 S n 1 5 1 = − − + − + − + − + − = = − − ∑ ( ) ( )2 22 2 23 5 2 1 1 9 25 4 1 1 40 10 4 4 4 + − + + − + + + + + = = = = E o desvio padrão é calculado assim: 2S S 10 3,2= = ≅ variância e desvio padrão para dados agrupados Para dados agrupados, cada valor atribuído a Xi tem sua frequência. Neste caso, a variância e o desvio padrão são dados, respectivamente, por: ( ) ( )2 2n n i i2 2i 1 i 1 X X X X S S S n 1 n 1 = = − − = → = = − − ∑ ∑ 47 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 Tabela 15. Número de filhos na família do candidato, Vestibular 2019 Número de filhos Frequência (fi) Xifi Fi(Xi – X )2 0 5 0 5(0 - 1,7)2 = 14,45 1 26 26 26(1 - 1,7)2 = 12,74 2 9 18 9(0 - 1,7)2 = 0,81 3 5 15 5(3 - 1,7)2 = 8,45 4 3 12 3(4 - 1,7)2 = 15,87 5 2 10 2(5 - 1,7)2 = 21,78 Total 50 81 74,10 Fonte: Elaborada pelos autores. Com base nas informações da Tabela 15, última coluna da tabela, calcularemos a variância e desvio padrão temos: ( )2n i2 2i 1 fi X X 74,10S 1,51 S S 1,51 1,2 n 1 49 = − = = ≅ → = = ≅ − ∑ Quando os dados estão agrupados em classes de frequências, cada valor Xi é a média de cada classe, ou seja, ponto médio da classe. De acordo com os dados da tabela a seguir, onde possuímos a média de idade X = 22 anos. tabela 16. Distribuição de classes de frequências com a variável idade Número de filhos Xi fi Xifi Fi(Xi – X)2 16 18 17 3 51 3(17 - 22)2 = 75 18 20 19 15 285 15(19 - 22)2 = 10 20 22 21 10 210 10(21 - 22)2 = 10 22 24 23 8 184 8(23 - 22)2 = 8 24 26 25 7 175 7(25 - 22)2 = 63 26 28 27 4 108 4(27 - 22)2 = 100 28 30 29 3 87 3(29 - 22)2 = 147 Total 50 1100 538 Fonte: Elaborada pelos autores. Sendo assim, temos: ( )2n i2 2 2i 1 fi X X 538S 10,98 anos S S 10,98 3,31 anos n 1 49 = − = = ≅ → = = ≅ − ∑ 48 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA Coeficiente de variação Fornece a variação dos dados adquiridos com relação à média. Logo, inúmeras vezes é mais apropriado fazer uso da medida de dispersão para demonstrar a variabilidade de um conjunto de dados. Então, devemos usar o coeficiente de variação (CV) para comparar o desvio padrão com a média, isto é, calcula-se o coeficiente de variação desta forma: SCV x = . Exemplo: Considere que para os 50 alunos do curso de Gestão Pública determinaram as suas respectivas alturas. A média e o desvio padrão dos homens e mulheres, em relação à altura, estão na tabela a seguir. tabela 17. Resumo das alturas de 50 estudantes de Administração Variável Média x Desvio Padrão (S) Altura – homens 183cm 8cm Altura – mulheres 166cm 5cm Fonte: Elaborada pelos autores. O coeficiente de correlação é indispensável e útil para fazer a comparação da diferença entre os conjuntos de dados, Note o cálculo do coeficiente de variação em relação à variável altura dos homens e das mulheres. Homens: S 8CV .1 00 .1 00 0,0437 .1 00 4,37% x 133 = = = = Mulheres: S 5 CV .1 00 .1 00 0,0301 .1 00 3,01% x 166 = = = = É possível observar no exemplo de conjuntos de dados observados, as mulheres expõem menor dispersão relativa em relação à altura dos homens. Portanto, conclui-se que as mulheres são mais baixas, no entanto, suas alturas são mais homogêneas. Figura 19. Medidas de assimetria Fonte: https://www.shutterstock.com/pt/image-vector/flat-icons-set-positve-negative-distribution-459187009. 49 EStAtÍStICA DESCRItIvA • CAPÍTULO 3 Essas medidas permitem uma investigação da tendência e da variabilidade do conjunto, ou seja, analisa o comportamento dos dados e sua distribuição. As medidas de assimetria complementam a análise dos dados no que diz respeito à forma da distribuição. A assimetria que também pode ser denominada de medida de enviesamento, indica o grau de deformação de uma curva de frequência. Tais medidas analisam a concentração dos dados em relação ao centro da distribuição. Desta maneira, é possível analisar se há maior concentração dos dados à esquerda, à direita ou se há uma regularidade na distribuição. Exemplos: » A classificação das rendas, em torno de um salário mínimo, da região Sudeste do Brasil, aponta uma maior ocorrência para os valores baixos; » Os diâmetros das rodas de bicicleta de uma linha de produção. A ordenação dos dados pode exibir formas distintas, mas serão utilizadas três formas como padrão: Simétrica, Assimétrica à direita e Assimétrica à esquerda. Figura 20. Assimetria Média Moda Mediana Assimétrica negativa / à esquerda (Média < Mediana < Moda) Assimétrica à direita (Média < Mediana < Moda) Simétrica (Média=Moda=Mediana) Fonte: https://cappei.com/curso-de-introducao-a-estatistica-2019-01/. Suas três formas não são por acaso, os modelos dão suporte aos modelos probabilísticos na inferência. De acordo com as informações, a média é o valor que equilibra a curva, a moda possui a maior frequência e a mediana faz a divisão do conjunto em dois, com frequências iguais. https://cappei.com/curso-de-introducao-a-estatistica-2019-01/ 50 CAPÍTULO 3 • EStAtÍStICA DESCRItIvA Importante Simétrica: é a curva chamada de simétrica ou padrão – quando a curva tem um formato de sino, bem simétrica em relação ao eixo que é determinado pela média. Nesse eixo as medidas de mediana e moda são iguais à média aritmética. O valor localizado no meio é o que possui a maior frequência e está localizado no centro da distribuição: = =d ox M M . Assimétrica à direita: essa curva é chamada de assimétrica à direita ou positiva, pois, como podemos observar, ela tem uma cauda à esquerda. Suas medidas estão numa desigualdade de ordem, o ponto de equilíbrio está deslocado para a direita: > >d ox M M . Assimetria à esquerda: denominada de assimétrica à esquerda ou negativa, ela tem sua cauda no sentido à direita e estabelece a relação de desigualdade, o ponto de estabilização está voltado para a esquerda: < <d ox M M . Sintetizando Vimos até agora: » O significado do termo estimação, descrever e comparar estimativas. » Estabelecer intervalos de confiança para médias e proporções populacionais utilizando dados amostrais. » Como calcular medidas de tendência central como a média, a mediana e a moda. » Como calcular medidas de variabilidade como a amplitude, a variância e o desvio padrão. » Como determinar o coeficiente de variação de uma distribuição e a medida de assimetria dela. 51 Introdução do capítulo Este capítulo apresenta algumas definições básicas acerca das estatísticas oficiais, suas fontes de dados e indicadores sociais. As estatísticas sociais têm por objetivo permitir que se conheca a realidade social, a partir de dados demográficos e das características de infraestrutura. O objetivo é permitir ao aluno compreender as fontes de dados e informações utilizadas para a formulação das políticas públicas, monitoramento de ações e elaboração de avaliações. Objetivos Esperamos que, após o estudo do conteúdo deste capítulo, você seja capaz de: » Identificar as fontes de estatísticas públicas. » Identificar tipos de dados e suas aplicações. » Identificar os principais indicadores sociais. » Reconhecer as principais propriedades de qualificação dos dados estatísticos. » Identificar como os indicadores sociais são utilizados no campo das políticas públicas. » Entender o papel da estatística na análise de dados em segurança pública. 4 CAPÍTULO FOntES DE DADOS DE InFORMAçÕES SOCIOECOnÔMICAS E URBAnAS52 CAPÍTULO 4 • FOntES DE DADOS DE InFORMAçÕES SOCIOECOnÔMICAS E URBAnAS As estatísticas públicas A cada dia temos um volume cada vez maior de dados e informações disponíveis, seja sobre as características demográficas da população, seu perfil socioeconômico, características do espaço urbano, tais como lugares com saneamento, energia elétrica e outros serviços públicos. Todos estes dados coletados pelo governo fazem parte desta disciplina, e também fazem parte de um conjunto de dados que são as estatísticas. Nos dias atuais, quando falamos e estudamos Estatística, a primeira coisa que pensamos são ideias que remetem a cálculos matemáticos, sobretudo probabilísticos, cálculos de média, porcentagens e todo um conjunto de métodos de análise matemáticos. Todavia, ao resgatarmos a história da origem e do desenvolvimento desta disciplina chamada “estatística”, vemos que ela está estreitamente relacionada com os debates acerca da própria criação do Estado. Uma das principais demandas de qualquer governante é conhecer as características da sua população, assim a Estatística se desenvolveu associada à ideia de coletar e apresentar dados quantitativos referentes às características demográficas e econômicas de uma população ou um território. Segundo Jannuzzi (2018, p. 9) Nenhum Estado, por menor que seja sua ambição civilizatória, pode prescindir das estatísticas, das informações sobre o “estado do Estado”. Estatísticas públicas ajudam pautar agendas políticas, qualificar debates públicos e subsidiar decisões técnico-políticas. Prestam-se para dimensionar a população e suas demandas, avaliar o nível médio de bem-estar, investigar as iniquidades sociais existentes e avaliar os efeitos da ação ou inação de suas políticas. Como mostrou a experiência histórica dos países desenvolvidos, o volume de recursos, a abrangência de temas investigados e a cobertura e regularidade das pesquisas refletem o escopo e escala que a sociedade confere às políticas públicas. Concepções mais amplas – ou mais estreitas – de Estado de Bem-Estar demandam sistemas mais complexos – ou mais modestos – de informação estatística. Ao conhecer a população, suas características, aspectos econômicos e sociais, os governos buscam dados que possam auxiliá-los a identificar problemas, formular políticas, projetar ganhos ou perdas econômicas e avaliar políticas. Estatísticas produzidas por agências estatais como a Fundação Instituto Brasileiro de Geografia e Estatística (IBGE), Instituto de Pesquisa Espaciais (INPE), Ministério do Trabalho, Ministério da Justiça, Secretarias Estaduais de Planejamento, dentre tantas outras, permitem que o Estado possa compreender a sociedade, sua dinâmica e identificar tendências. 53 FOntES DE DADOS DE InFORMAçÕES SOCIOECOnÔMICAS E URBAnAS • CAPÍTULO 4 O Estado, com estes dados, ganha maior capacidade de formular políticas, pois tem acesso a informações nas quais pode basear as suas decisões, trazendo mais racionalidade e objetividade para as suas ações. A população e os fenômenos sociais, que são parte da vida em sociedade, precisam ser conhecidos para que se possa governar. Como investir em escolas sem saber quantas crianças necessitam delas? Como construir hospitais sem saber onde mais se demanda deles? Como estabelecer uma política de segurança sem saber quais são as maiores incidências criminais e onde estão ocorrendo? Gráfico 6. Taxa de analfabetismo por cor ou raça, acima de 15 anos de idade, por grandes regiões – 2010 Fonte: IBGE (2011). No Gráfico 6 temos a representação dos dados para o ano de 2010. 5,9% da população branca era analfabeta, 14,4% dos pretos e 13% dos pardos. O gráfico nos permite ver que há uma desigualdade nas taxas de alfabetização no Brasil em relação às grandes regiões. As informações constantes na Tabela 1 e no Gráfico 1 são exemplo de como a estatística pode dar respostas para o tipo de pergunta que colocamos acima. Assim, para conhecer os fenômenos sociais precisamos recorrer aos métodos estatísticos, coletando dados de forma adequada, sendo possível que possamos apreender uma nova compreensão da dinâmica social. A utilização de métodos estatísticos nos permite afastar a subjetividade, o juízo de valor e buscar maior racionalidade nas análises. Nós somos parte da vida em sociedade e todos temos uma vivência, uma experiência, percepção sobre a dinâmica social; entretanto, para que seja possível compreender o mundo no qual vivemos precisamos organizar os fenômenos que vemos e vivenciamos, para que, assim, possamos compreendê-los. Sobre a necessidade de sistematizar e “simplificar” a realidade, para que ela possa ser compreendida, apresentamos a seguir um trecho do contoSobre o rigor na ciência, do escritor argentino Jorge Luis Borges: 54 CAPÍTULO 4 • FOntES DE DADOS DE InFORMAçÕES SOCIOECOnÔMICAS E URBAnAS […] Naquele império, a arte da cartografia alcançou tal perfeição que o mapa de uma única província ocupava uma cidade inteira, e o mapa do Império, uma província inteira. Com o tempo, estes mapas desmedidos não bastaram, e os colégios de cartógrafos levantaram um mapa do Império que tinha o tamanho do Império e coincidia com ele ponto por ponto. Menos dedicadas ao estudo da cartografia, as gerações seguintes decidiram que esse dilatado mapa era inútil e não sem impiedade entregaram-no às inclemências do Sol e dos invernos. (BORGES, 2002, p.12). Neste conto, Borges utiliza uma alegoria para falar sobre os riscos da busca pela “perfeição”, pelo “rigor” sem critérios na busca de uma “verdade”. O mundo é demasiado complexo e para apreender a sua complexidade há de ser simplificar. A Estatística, através dos indicadores sociais, nos oferece um meio seguro para realizar estas simplificações de forma válida e confiável, isto porque o papel da análise quantitativa, ou seja, da análise estatística, está circunscrita dentro de um contexto mais amplo através de uma ligação com o “método científico”, o que proporciona uma estrutura segura e mais geral para o estudo dos problemas sociais. Figura 21. Análise estatística Fonte: https://www.shutterstock.com/pt/image-photo/analyzing-gathering-statistical-data-growth-charts-1124867465. Ao utilizar dados estatísticos precisamos considerar algumas questões que dizem respeito à forma como estes dados foram coletados e quais são as suas principais características, ou seja, quais são seus pontos fortes, quais são as suas fragilidades. A primeira coisa que precisamos ter em mente, quando trabalhamos com dados estatísticos é: qual é o objeto da minha pesquisa? A segunda pergunta é qual tipo de estatística corresponde ao meu estudo ou minha demanda? Com base nestas duas perguntas é que vamos poder identificar se o dado que precisamos está disponível e avaliar se ele é adequado para o nosso estudo. 55 FOntES DE DADOS DE InFORMAçÕES SOCIOECOnÔMICAS E URBAnAS • CAPÍTULO 4 Importante Um destaque importante é diferenciar o que é dado, informação e conhecimento. Figura 22. Dado, informação e conhecimento Conhecimento Informação Dado Fonte: Elaborado pelos autores. Os dados são a quantificação das observações. Eles são os fatos básicos e não possuem significado associado. Eles são coletados e organizados de forma que possam vir a fornecer uma informação, mas são somente os valores de forma absoluta. O dado será transformado em uma informação no momento em que ele for interpretado. Um exemplo: Após um dia de vendas, tudo que foi vendido e os valores recebidos estão numa tabela simples. Estes valores são os dados tabela 18. tabela de vendas ITENS VALORES Pratos R$ 190,50 talheres R$ 20,50 Xícaras R$ 150,00 tigelas R$ 200,00 Copos R$ 50,00 Fonte: Elaborada pelos autores. Na tabela acima, os dados são R$ 190,50, R$ 20,50, R$ 150,00, R$ 200,00 e R$ 50,00. Quando fazemos a interpretação das variáveis da tabela temos as seguintes informações: nas vendas foram obtidos R$ 190,50 com os pratos, R$ 20,50 com talheres, R$150,00 com as
Compartilhar