Baixe o app para aproveitar ainda mais
Prévia do material em texto
AULA 4 – ESTATÍSTICA DESCRITIVA 4.1 PARÂMETROS PARA DESCRIÇÃO DOS DADOS Como você estudou anteriormente no curso, a análise descritiva envolve técnicas para organizar, resumir e descrever os dados de uma pesquisa. Para facilitar a descrição dos dados, são utilizados alguns parâmetros que serão apresentados a seguir, didaticamente divididos em cinco grupos: Parâmetros para comparação relativa; Distribuição de frequência; Medidas de tendência central; Medidas de dispersão; Análise de correlação. Estude a seguir sobre cada uma delas. 4.1.1 PARÂMETROS PARA COMPARAÇÃO RELATIVA Proporção É obtida a partir do cálculo de uma parte do conjunto sobre o seu total. Exemplo 1:Considere 10 pessoas retidas em uma delegacia, das quais 4 são homens. A proporção de homens é de 4/10 = 0,4, ou seja, temos 0,4 homens por pessoa retida na delegacia. Exemplo 2:Considere que 20 ocorrências são registradas em um município, das quais 10 são homicídios dolosos. A proporção de homicídios é de 10/20 = 0,5, ou seja, 0,5 homicídios por ocorrência registrada no município. Porcentagem As porcentagens são obtidas a partir do cálculo das proporções, simplesmente multiplicando- se o quociente obtido por 100 (a palavra porcentagem signi�ca “por cem”). Enquanto a soma das proporções é igual a 1, a soma das porcentagens é igual a 100, a menos que as partes não sejam mutuamente exclusivas e exaustivas. Exemplo: Considerando os exemplos de proporção, há 40% de homens entre as pessoas retidas e 50% de homicídios entre as ocorrências registradas no município Razão É o resultado de um número A em relação a um número B (“A dividido por B”). ANÁLISE ESTATÍSTICA CRIMINAL javascript:void(0); Exemplo: A razão de policiais por viatura no Brasil é de (policiais)/(viaturas) = 618.613 / 76.074 = 8,13, ou seja, há 8,13 policiais por viatura. Cabe ressaltar que a razão busca relacionar quantidades de itens diferentes, como: policiais por viatura, PIB por habitantes, recursos �nanceiros gastos pela polícia militar pelo total do efetivo da polícia militar etc. A seguir, você aprenderá a calcular a proporção, a porcentagem e a razão, a partir da tabela 6. Cálculos da proporção, porcentagem e razão – Tabela 6 Proporção de gastos com a subfunção policiamento Gasto com a função policiamento/Gasto total > 18.591.783.723,58/51.547.486.525,76 = 0,36 Para cada real gasto com segurança pública, 36 centavos são referentes à subfunção policiamento. Porcentagem de gastos com a subfunção policiamento 0,36 x 100 = 36% Cerca dos 36% dos gastos com a função segurança pública no Brasil são referentes à subfunção policiamento Razão de gastos com a subfunção policiamento por gastos com a subfunção defesa civil. Gastos com a subfunção policiamento/Gastos com a subfunção defesa civil > 18.591.783.723,58/1.630.080.129,49 = 11,40 Para cada real gasto com a subfunção defesa civil são gastos R$ 11,40 com a subfunção policiamento 4.1.2 DISTRIBUIÇÃO DE FREQUÊNCIAS A distribuição de frequência é o conjunto de mensurações de frequências para os dados observados. Frequência absoluta: É o número de vezes que o valor de uma determinada variável é observado. Frequência absoluta acumulada: É a soma das frequências absolutas dos valores inferiores ou iguais ao valor dado. Frequência relativa: É a razão da frequência absoluta pelo número total de observações. Frequência relativa acumulada: É a soma das frequências relativas dos valores inferiores ou iguais ao valor dado. Distribuição de frequência: : É uma forma de apresentar as frequências. São apresentadas as variáveis seguidas de suas frequências absolutas. Exemplo: número de homicídios ocorridos em 16 cidades distintas ANÁLISE ESTATÍSTICA CRIMINAL javascript:void(0); A seguir, você estudará a explicação dos conceitos relacionados à distribuição de frequência, com base na Tabela 8. Distribuição de frequências Histograma O histograma é um grá�co de barras justapostas, com a área das barras proporcional à frequência absoluta. Polígono de frequência É a representação grá�ca de uma distribuição de frequências absolutas. São grá�cos de linhas que unem os pontos médios das bases superiores dos retângulos de um histograma. Polígono de frequência acumulada É a representação grá�ca de uma distribuição de frequências absolutas acumuladas. São grá�cos de linhas que unem os pontos correspondentes ao limite superior da frequência acumulada. 4.1.3 MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central são indicadores que resumem a distribuição de um conjunto de dados. Esses indicadores devem ser utilizados quando se pretende comparar distintos grupos de dados. Por exemplo: comparações entre diferentes regiões ou comparações de uma mesma região em tempos distintos. Outras situações de utilização: MÉDIA MODA MEDIANA Exemplo: Considerando os dados hipotéticos vistos anteriormente, na tabela 7, as medidas de tendência central em relação à distribuição de homicídios por cidade são: Frequência absoluta Frequência absoluta acumulada Frequência relativa Frequência relativa acumulada ANÁLISE ESTATÍSTICA CRIMINAL javascript:void(0); Como calcular a média, a moda e a mediana? MÉDIA: Somam-se todos os homicídios ocorridos e divide-se por 16, que é o número de cidades. Média = (0+3+3+4+5+5+5+5+6+8+9+10+12+12+14+18)/16 = 119/16 = 7,4375 MODA: O valor que ocorreu com maior frequência absoluta. No exemplo citado, o valor 5 ocorreu mais vezes, 4 vezes. MEDIANA: Há duas fórmulas para calcular a mediana: Número de observação par: Mediana = (X(n/2) + X[(n/2)+1])/2 Número de observação ímpar: Mediana = X[(n+1)/2] Para o cálculo da mediana, o primeiro passo é a ordenação crescente das observações, como mostrado no exemplo anterior (cálculo da média). Após a ordenação das observações, identi�ca- se cada uma delas por um índice numérico. No exemplo citado “X 2” é igual a 3, ou seja, a cidade 2, nesta sequência de cidades em ordem crescente de número de homicídios, possui 3 homicídios. No mesmo exemplo, a mediana é calculada da seguinte forma: Outros conceitos: Para compreender melhor os cálculos das medidas apresentadas, conheça mais três: Taxa bruta- é o estimador mais simples para o risco de ocorrência de um evento, de�nindo-se como a razão entre o número de eventos ocorridos na área e o número de pessoas expostas à ocorrência desse evento. O cálculo da taxa é desenvolvido quando se precisa comparar a incidência de fenômenos entre diferentes regiões, com tamanho populacional diferente, ou uma mesma região onde a população varia com o tempo. O valor da taxa é calculado pela divisão do número de vítimas efetivas pelo tamanho da população de risco, ou seja, pelo tamanho da população que poderia sofrer esse crime, e o valor obtido é multiplicado por 100 mil. Quartis- São os valores que determinam uma divisão do conjunto de dados em quatro partes iguais. Decis- São os valores que determinam uma divisão do conjunto de dados em dez partes iguais. Veja no exemplo a seguir como calcular os demais conceitos estudados. Exemplo: Veja a Tabela 9 – Ocorrências de estupro registradas pelas polícias civis segundo unidade da federação (Brasil – 2010) ANÁLISE ESTATÍSTICA CRIMINAL javascript:void(0); clique aqui para acessar a tabela Para calcular a taxa por 100 mil habitantes de estupros considera-se a quantidade de registros de estupro como o numerador, a população como denominador e multiplica-se 100.000. Com base na Tabela 9, o cálculo da taxa de estupros em Rondônia é efetuado pela seguinte fórmula: (número de estupros ocorridos em Rondônia) x (100.000) = 678 x (100.000) = 43,39 (população em Rondônia) 1.562.409 A importância do cálculo da taxa é veri�cada, por exemplo, quando se observa que, apesar da Polícia Civil do Rio de Janeiro ter registrado 4.418 vítimas de estupro em 2010, a unidade da federação com maior incidência de estupros foi Roraima, com apenas 302 ocorrências registradas. Dada a diferença de tamanho entre a população dessas UFs, no Rio de Janeiroforam 27,63 vítimas para cada grupo de 100.000 habitantes e, em Roraima, 67,04 vítimas para cada grupo de 100.000 habitantes. Cálculos Para se determinar a taxa de uma região geográ�ca (que reúne várias UFs) não se deve calcular a média das taxas das UFs, pois esse cálculo não leva em consideração o tamanho da população de cada UF dentro da região geográ�ca. O correto é somar as vítimas de todas as UFs, a população de todas as UFs e realizar o cálculo da taxa média da região geográ�ca. Veja a seguir a diferença gerada a partir desses dois tipos de cálculo. Taxa da Região Sudeste: 10.719/80.364.410 x (100.000) = 13,34 Média das taxas das UFs da região Sudeste: (11,71 + 21,28 + 27,63 + 7,90)/4 = 17,13 Obs. A Lei Federal 12.015/2009 altera a conceituação de “estupro”, passando a incluir, além da conjunção carnal, os “atos libidinosos” e “atentados violentos ao pudor” Cálculos Moda: A amostra da taxa de estupro não apresenta moda, dado que, considerando as casas decimais, as taxas de estupro entre as 27 UFs não têm valores repetidos. Mediana: A mediana de uma série de observações é o número que �ca exatamente no meio da série quando os dados estão ordenados e o número de observações é ímpar. Caso o número de observações seja par, a mediana é a média aritmética de dois números do meio. Isso signi�ca ANÁLISE ESTATÍSTICA CRIMINAL https://prd.ead.senasp.gov.br/pluginfile.php/251260/mod_resource/content/29/undefined/Modulo3/assets/files/AC1VA_tabela_9.pdf javascript:void(0); que, para um conjunto de dados ordenados, a mediana ocupará o centro do conjunto Mediana: 21,28 Identi�cação dos quartis Os quartis dividem os dados em 4 partes iguais. A identi�cação dos quartis pode ser exempli�cada da seguinte forma: Identi�cação dos quartis para a taxa de estupros (por 100 mil hab.) entre as Unidades da Federação 4.1.4 MEDIDAS DE DISPERSÃO As medidas de dispersão são conjuntos de medidas que descrevem a variabilidade de um conjunto de dados e permitem veri�car como os dados estão distribuídos em torno da tendência central. São medidas de dispersão: Amplitude, Variância, Desvio padrão Imagine a seguinte situação: o dono de uma microempresa pretende saber, em média, quantos produtos são produzidos por cada funcionário em um dia. O chefe tem conhecimento que nem todos conseguem fazer a mesma quantidade de peças, mas pede que seus funcionários façam um registro de sua produção em uma semana de trabalho. Ao �m desse período, chegou-se à seguinte tabela: Para saber a produção média de seus funcionários, o chefe faz o cálculo da média aritimética de produção, isto é, a soma do número de peças produzido em cada dia dividida pela quantidade analisada de dias. A partir desse cálculo, temos a produção diária média de cada funcionário. Mas se observarmos bem a tabela, veremos que há valores distantes da média. O funcionário B, por exemplo, produz uma média de 12,8 peças por dia. No entanto, houve um dia em que ele produziu 16 peças e outro dia em que ele confeccionou apenas 10 peças. Será que o processo utilizado pelo dono da empresa é su�ciente para o seu propósito? Para esse exemplo, �cou fácil concluir que há uma grande variação entre a produção de cada funcionário. Mas e se essa fosse uma grande empresa, com mais de mil funcionários, ou se fosse observada a produção em um ano, será que conseguiríamos de�nir essa variação com tanta facilidade? O estudo da Estatisca apresenta medidas de dispersão que permitem a análise da dispersão dos dados. Inicialmente veremos a variância, uma medida de dispersão que mostra quão distantes os valores estão da média. Nesse caso, como estamos analisando todos os valores de cada funcionário, e não apenas uma “amostra”, trata-se do cálculo da variância populacional (var). O cálculo da variância populacional é obtido através da soma dos quadrados da diferença entre cada valor e a média aritimética, dividida pela quantidade de elementos observados. Observe o cálculo simpli�cado para esse exemplo: ANÁLISE ESTATÍSTICA CRIMINAL javascript:void(0); s2=∑i=1n(xi−x¯)2/n−1 Vamos então calcular a variância populacional para cada funcionário: Podemos a�rmar que a produção diária do funcionário C é mais uniforme do que a dos demais funcionários, assim como a quantidade de peças diárias de D é a mais desigual. Quanto maior for a variância, mais distantes da média estarão os valores, e quanto menor for a variância, mais próximos os valores estarão da média. Em algumas situações, apenas o cálculo da variância pode não ser su�ciente, pois essa é uma medida de dispersão muito in�uenciada por valores que estão muito distantes da média. Além disso, o fato de a variância ser calculada “ao quadrado” causa uma certa camu�agem dos valores, di�cultando sua interpretação. Uma alternava para solucionar esse problema é o desvio padrão, outra medida de dispersão. O desvio padrão (dp) é simplesmente o resultado positivo da raiz quadrada da variância. Na prática, o desvio padrão indica qual é o “erro” se quiséssemos substuir um dos valores coletados pelo valor da média. Vamos agora calcular o desvio padrão da produção diária de cada funcionário: Podemos ver a utilização do desvio padrão na apresentação da média aritimética, informando o quão “con�ável” é esse valor. Isso é feito da seguinte forma: média aritimética (x) ± desvio padrão (dp) Se o dono da empresa de nosso exemplo pretende concluir seu relatório com a produção média diária de seus funcionários, ele fará da seguinte forma: Funcionário A: 10,0 ± 1,41 peças por dia Funcionário B: 12,8 ± 2,32 peças por dia Funcionário C: 10,4 ± 1,36 peças por dia Funcionário D: 11,0 ± 2,45 peças por dia Fonte: MUNDO EDUCAÇÃO (Brasil). Variância e desvio padrão. Publicado por Amanda Gonçalves Ribeiro. Disponível em: https://mundoeducacao.bol.uol.com.br/matemaca/variancia-desvio- padrao.htm. Para que você entenda melhor os cálculos das medidas de dispersão, volte aos dados hipotéticos da tabela 7. se estivéssemos trabalhando com a variância amostral, dividiríamos pela quantidade de elementos observados subtraída de um (– 1). Nesse exemplo, teríamos: 5 dias – 1 = 4 dias. ANÁLISE ESTATÍSTICA CRIMINAL javascript:void(0); Amplitude: É a diferença entre o maior e o menor valor dos dados analisados. Se os dados são categóricos, a amplitude é a diferença entre o limite superior da última categoria e o limite inferior da primeira categoria. Como calcular a Amplitude? Para calcular a amplitude subtrai-se o maior número de homicídios (que é o da cidade 16 = 18) do menor número (que é o da cidade 3 = 0). Amplitude = 18 – 0 = 18 Variância: É a medida do grau de dispersão dos dados em torno da média. A variância mostra em que medida os dados estão agrupados ou dispersos. A variância é representada por s². Como calcular a variância? Para calcular a variância na amostra, primeiramente se subtrai o número de homicídios em cada cidade (X i) da média da amostra (X) e depois esse valor é elevado ao quadrado. Média: s2 = [2.(3 – 7,4375)]2 + (9 – 7,4375)2 + (0 – 7,4375)2 + (4 – 7,4375)2 + [4.(5 – 7,4375)]2 + (6 – 7,4375)2 + (8 – 7,4375)2 + (10 – 7,4375)2 . [2(12 – 7,4375)]2 + (14 – 7,4375)2 + (18 – 7,4375)2 = Média = 119/16 = 7,4375 Em seguida, são somadas as diferenças e o resultado é dividido pelo número de observação da amostra menos 1 (n-1). Novamente, X i representa o número de homicídios (X) que ocorreram na cidade i Desvio Padrão: É obtido calculando a raiz quadrada da variância. O desvio padrão é representado pelo símbolo “o” Como calcular o desvio padrão? Após descobrir o valor da variância, calcula-se sua raiz quadrada. Esse resultado é o valor do desvio padrão Nota: Todos os pacotes estatísticos, incluindo o Excel, fazem o cálculo da variância e do desvio padrão automaticamente. Resumindo... Após o diagnóstico da situação de um Estado, identi�ca-se que duas (2) regiões se destacam l l d i idê i d h i ídi ANÁLISE ESTATÍSTICA CRIMINAL javascript:void(0); pelas altas taxas de incidência de homicídiosComparando as medidas de dispersão das taxas municipais de homicídios para essas duas regiões, descobre-se que em uma delas os valores estão mais dispersos do que na outra região. Isso signi�ca que, na região onde os valores estão menos dispersos, o problema da alta incidência de homicídios está distribuído de forma ampla, atingindo grande parte dos municípios da região Na região onde os valores estão mais dispersos, ocorre o contrário: a incidência de homicídios está concentrada em alguns poucos municípios e outro conjunto signi�cativo de municípios tem incidência baixa de homicídios. Nesse caso, identi�car o grau de dispersão dos dados informará se é preciso planejar a ação tendo como foco todos os municípios da região ou apenas alguns que têm a situação mais precária 4.1.5 COEFICIENTE DE CORRELAÇÃO A análise de correlação tem como objetivo medir a intensidade ou grau de associação linear entre duas variáveis, mas sem determinar a relação funcional entre elas, ou seja, sem determinar que uma variável é responsável pela alteração da outra. A análise é feita por meio da interpretação do coe�ciente de correlação, permitindo identi�car se um fator está associado a outro. Veja o exemplo a seguir. Pelo coe�ciente de correlação, é possível saber se o desemprego está associado ao aumento da criminalidade, mas não é possível saber se é o desemprego que causa o aumento do crime ou se é o aumento do crime que leva ao aumento no desemprego. O coe�ciente de correlação mede a intensidade de associação linear entre duas variáveis. B: A associação entre número de homicídios e número de armas de fogo. O cálculo do coe�ciente de correlação é realizado com base na variância da amostra, através da seguinte fórmula: A interpretação desse coe�ciente é simples. Considerando que r é sempre um valor entre -1 e +1, temos: Se r = 0, não existe correlação;Quanto mais próximo de -1 ou de +1, mais forte é a correlação; Se r < 0, existe uma correlação negativa, ou seja, quando uma variável cresce a outra decresce. No exemplo, quando o número de armas de fogo decresce, o número de homicídios cresce; e Se r > 0, existe uma correlação positiva, ou seja, quando uma variável cresce a outra também cresce. No exemplo, quando o número de armas de fogo cresce, o número de homicídios cresce também. A interpretação do coe�ciente de correlação não permite fazer inferências (deduções) Considerando o exemplo da arma de ANÁLISE ESTATÍSTICA CRIMINAL javascript:void(0); inferências (deduções). Considerando o exemplo da arma de fogo e do homicídio, suponha que o coe�ciente de correlação seja 0,6, portanto positivo. Pode-se a�rmar que as duas variáveis se correlacionam positivamente, mas não é possível prever o número de homicídios com base no número de armas de fogo. Para se constatar a relação funcional entre as duas variáveis e fazer a inferência, é necessário a análise de regressão, apresentada na aula seguinte. ANÁLISE ESTATÍSTICA CRIMINAL javascript:void(0);
Compartilhar