Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 APOSTILA DE MÉTODOS E TÉCNICAS DE PESQUISA NAS CIÊNCIAS SOCIAIS II CONTEÚDO: 1. PLANEJAMENTO DE UMA PESQUISA: VARIÁVEIS e TAMANHO DE AMOSTRAS 2. TÉCNICAS DE AMOSTRAGEM 3. DISTRIBUIÇÃO DE FREQÜÊNCIAS DE DADOS CATEGORIZADOS E QUANTITATIVOS 4. REPRESENTAÇÕES GRÁFICAS 5. MEDIDAS DESCRITIVAS: MEDIDAS DE TENDÊNCIA CENTRAL (Moda, Mediana e Média) e MEDIDAS DE VARIABILIDADE (Desvio Padrão e Coeficiente de Variação) 6. INTRODUÇÃO AOS TESTES ESTATÍSTICOS INFERENCIAIS 7. TESTE NÃO-PARAMÉTRICO: Teste Qui-Quadrado. 8. CORRELAÇÃO LINEAR DE PEARSON 9. DISTRIBUIÇÃO NORMAL APÊNDICE A - ARREDONDAMENTO DE NÚMEROS APÊNDICE B - DISTRIBUIÇÃO QUI-QUADRADO BIBLIOGRAFIA BARBETTA, P. A. Estatística aplicada às Ciências Sociais. Florianópolis: Ed UFSC, 1999. BUSSAB, W.O., MORETTIN, P.A. Estatística Básica. 4.ed. São Paulo: Atual, 1995. BOLFARINE, H. BUSSAB, W.O. Elementos de amostragem. São Paulo: Edgard Blücher, 2005. COMBESSIE, J.C. O método em sociologia. São Paulo: Edições Loyola, 2004. GIL, A. C. Métodos e técnicas de Pesquisa Social. 5.ed. São Paulo: Atlas, 1999. HOEL, P.G. Estatística Elementar. São Paulo: Atlas, 1981. LEVIN, J. Estatística Aplicada a Ciências Humanas. 2.ed. São Paulo: Harbra,1987. TOLEDO, G.L., OVALLE, I. I. Estatística Básica. 2.ed. São Paulo: Atlas, 1983. VIEIRA, S.; WADA, R. O que é Estatística. São Paulo: Brasiliense, 1998. VOLPATO, G.L. Ciência: da filosofia à publicação. 4.ed. Botucatu: Ed. Tipomic, 2004. 2 O USO DA ESTATÍSTICA NAS PESQUISAS CIENTÍFICAS Aqueles que irão estudar estatística pela primeira vez, geralmente, a imaginam associada a números, construção de tabelas e gráficos, que serão usados no momento de organizar e apresentar os dados de uma pesquisa. Mas, a Estatística constitui, de fato, uma metodologia que pode estar presente nas diversas etapas de uma pesquisa, desde o seu planejamento, até a interpretação de seus resultados. No dia-a-dia, todos nós temos um pouco de cientistas e estatísticos, ainda que inconscientemente, uma vez que o uso informações estatísticas (via amostras) para concluir sobre o todo faz parte da atividade diária da maioria das pessoas. Quase que diariamente, temos “palpites” com relação a um todo ou acontecimentos futuros, com base em situações ou “experiências” que realizamos. Por exemplo, ao irmos ao supermercado, experimentamos uma uva para decidirmos se devemos ou não comprar uma porção daquele lote disponível, as cozinheiras normalmente verificam se o prato que está preparando tem ou não a quantidade adequada de sal, provando um pouco do tempero, podemos votar em algum candidato que prometesse resolver os problemas sociais, baseando-nos na simpatia ou confiança que colocamos no perfil do candidato, tomar um remédio para reduzir os incômodos de um resfriado. À medida que essas situações ocorrem, podemos, às vezes, confirmar ou sustentar nossas idéias; outras vezes, entretanto, não temos tanta sorte e, por isso, acabamos experimentando conseqüências desagradáveis. A verdade é que, nem todas as nossas previsões acabem se tornando realidade. De modo mais ou menos semelhante, um pesquisador tem idéias sobre a natureza da realidade, às quais ele denomina hipóteses, e freqüentemente testa suas idéias por meio de pesquisas sistemáticas. Tomemos alguns exemplos de hipóteses: - “famílias de um genitor produzem mais delinqüência que famílias de dois genitores”; - “A probabilidade de estudantes universitários do gênero masculino de terem experimentado maconha é maior que a probabilidade de estudantes do gênero feminino terem feito o mesmo”. Em qualquer uma das situações descritas, podemos observar que a Estatística apresenta duas funções: 3 1- Descrição e exploração dos dados – Estatísticas descritivas: os dados coletados são organizados/sintetizados para que possam evidenciar informações relevantes em termos dos objetivos da pesquisa. Fundamentalmente, quando se procede uma análise de dados busca-se alguma forma de regularidade ou padrão ou ainda modelo, presente nas observações. 2- Inferência Estatística: tomada de decisões com base em dados colhidos de uma amostra. O ato de generalizar resultados da parte (amostra) para o todo (população) é conhecido como inferência estatística. A estimação de parâmetros (característica dos elementos da população) é uma forma de inferência estatística. Uma outra forma de inferência estatística é a categoria dos testes estatísticos de hipóteses ou testes de significância. Esquematicamente, poderíamos em qualquer pesquisa que envolva estatística, observar algumas etapas para o seu desenvolvimento: Etapas de uma pesquisa: PROBLEMA COLETA DE DADOS DESCRIÇÃO DOS DADOS TOMADA DE DECISÃO Fases da estatística: PLANEJA- MENTO ESTATÍS- TICO COLETA DE DADOS ESTATÍSTI- CAS DESCRITI- VAS ESTATÍS- TICAS INFEREN CIAIS Conceitos envolvidos: Variável, população, amostra, objetivo, planejamento da coleta de dados (questionário, ..., pré-teste) Tabelas de distribuição de freqüência, %, gráficos, medidas de posição (média, mediana, moda, ...), medidas de variabilidade (desvio padrão, coeficiente de variação,...), etc Estimação de parâmetros e testes de hipótese 4 Planejamento de uma pesquisa Nas pesquisas científicas, precisamos muitas vezes coletar dados que possam fornecer informações capazes de responder às nossas indagações. Mas para que os resultados da pesquisa sejam confiáveis, tanto a coleta dos dados, quanto a sua análise, devem ser feitas de forma criteriosa e objetiva. Para que isto seja realizado com o menor custo possível, torna-se fundamental a etapa do planejamento da pesquisa. Assim, a organização do plano geral, primeira fase do trabalho estatístico, implica em obter respostas para uma série tradicional de perguntas, antes mesmo do exame das informações disponíveis sobre o assunto, perguntas que procuram delimitar melhor o problema a ser estudado, bem como os objetivos da pesquisa em que a metodologia Estatística será aplicada. As principais fases da elaboração do trabalho estatístico são as expostas a seguir. Definição do problema / formulação dos objetivos A primeira fase do trabalho estatístico consiste em uma definição ou formulação correta do problema a ser estudado. Além de considerar detidamente o problema objeto do estudo, o pesquisador deverá examinar outros levantamentos realizados no mesmo campo e análogos, uma vez que parte da informação de que necessita pode, muitas vezes, ser encontrada nesses últimos. Assim, o exame das informações disponíveis é, realmente, o grande trabalho inicial: reunir tudo que já foi publicado sobre o assunto, compilar a legislação específica, obter relatórios sobre atividades semelhantes ou correlatas, adquirir mapas da região geográfica, uma vez que a equipe provavelmente não será a pioneira sobre o tema e, portando, não deverá partir do “nada”; sempre que possível procurará analisar a experiência de trabalhos anteriores para não incidir nos mesmos erros, para ganhar ou para não perder tempo, para não pisar em terreno totalmente desconhecido. Ainda, os objetivos de uma pesquisa devem ser elaborados de forma bastante clara, já que as demais etapas da pesquisa tomam como base estes objetivos. Ex: Objetivo geral: Conhecer o perfil de trabalho de egressos do curso de Ciências Sociais do Brasil do período de 1985 a 2005. Para podermos darseqüência a esta pesquisa, precisamos especificar melhor o que queremos conhecer da população de egressos deste curso. Alguns destes objetivos poderiam ser: (1) Gênero, idade, naturalidade, instituição em que se graduou. (2) Conhecer o tempo de formação profissional. (3) Conhecer a área de atuação profissional. 5 (4) Conhecer o local de trabalho do egresso. (5) Rendimento mensal obtido com a atividade desenvolvida. (6) Avaliar o grau de satisfação com o trabalho. (7) Verificar a continuidade de estudos de formação: especialização, aperfeiçoamento, mestrado, doutorado, etc. População e amostra Um passo importante no delineamento da pesquisa (problema/objetivo) consiste na decisão de quem vai ser pesquisado. Segundo Barbetta, população alvo é o conjunto de indivíduos que queremos abranger em nosso estudo. São os elementos para os quais desejamos que as conclusões oriundas da pesquisa sejam válidas. Segundo ainda Barbetta, denomina-se população acessível, ou simplesmente população, o conjunto de elementos que queremos abranger em nosso estudo e que são passíveis de serem observados, com respeito às características que pretendemos levantar. Segundo Barbetta, a definição da população depende basicamente dos objetivos da pesquisa, das características a serem levantadas e dos recursos disponíveis. Em grandes populações torna-se interessante a realização de uma amostragem, ou seja, a seleção de uma parte da população (amostra) para ser observada. AMOSTRA: Uma parte dos elementos da população. AMOSTRAGEM: Ato de selecionar uma parte da população. Depois de os objetivos estarem explicitamente traçados, devemos decidir o tipo de levantamento a ser utilizado. Sob este aspecto há dois tipos de levantamento: Levantamento censitário (censo): abrange todo o universo; Levantamento por amostragem: abrange uma parte da população. Podemos ainda classificar as pesquisas quantitativas em dois tipos 1 de delineamentos: Survey – as características são observadas por meio de questionário (ou entrevista), sem interferência do pesquisador; Pesquisa experimental – pesquisador exerce controle sobre o método que será aplicado. 1 Para uma apresentação/definição mais detalhada, veja Gil (1999, cap. 2 e 6) 6 O planejamento da coleta de dados Definidos os objetivos, a população e o tipo de levantamento a ser realizado, precisamos pensar como deverá ser a coleta de dados. O modo pelo qual serão obtidas e onde serão coletadas as informações são as principais preocupações dessa etapa do trabalho. Em muitas situações não precisamos ir até os elementos da população para obter os dados, porque eles já existem em alguma publicação ou arquivo. Esses tipos de dados são denominados dados secundários. Exemplos de arquivos nos quais podemos buscar dados para uma pesquisa são: IBGE, SEE, MEC, FIOCRUZ, TSE, ONG’S, periódicos, jornais, etc. Em contrapartida, denominam-se dados primários aqueles que necessitam ser levantados observando diretamente cada sujeito constituinte da nossa pesquisa. É importante salientar que é na fase do planejamento da pesquisa que verificamos exaustivamente o que já existe de dados sobre o problema em estudo. Alguns autores defendem o uso dos dados secundários sempre que possível, baseados na argumentação de que eles podem reduzir drasticamente os custos de uma pesquisa; outros defendem que é mais seguro trabalhar com fontes primárias, argumentam que este tipo de fonte de dados oferece, em geral, informação mais detalhada e que é mais provável que as definições de termos e unidades figurem somente nas fontes primárias. Quando trabalhamos com dados primários em pesquisas do tipo survey, torna-se necessário construir um instrumento para que a coleta dos dados seja feita de forma organizada. Denomina- se este instrumento de questionário 2 . O questionário pode ser apresentado pessoalmente ao respondente ou remetido em correspondência postal. Na primeira hipótese, o entrevistador poderá ser um simples estafeta, para entrega e recebimento, ou uma pessoa mais habilitada, capaz de tirar dúvidas e prestar esclarecimentos, deixando que o informante preencha os quesitos. Quando a apresentação do questionário é feita por meio de um agente especializado, que registra as respostas dadas verbalmente pelo respondente, a um roteiro fixo pré-estabelecido, denominamos a situação de entrevista estruturada 3 . Em pesquisas que envolvem aspectos íntimos dos respondentes, deve-se dar preferência a um questionário anônimo, com o cuidado de que o respondente preencha o questionário individualmente e à vontade. 2 Para uma apresentação mais detalhada sobre a construção de um questionário, veja Barbetta (1999, cap.2) e Gil (1999, cap. 12) 7 A remessa por via postal dá grande percentual de evasão de respostas. A experiência tem demonstrado que, em geral, somente uma porcentagem pequena (em torno de 30%) dos questionários regressa. Ainda, neste tipo de levantamento (via postal), temos que nos lembrar da possível presença das variáveis “invisíveis”. Será que não há um elemento (variáveis) comum entre aqueles que se prontificam a responder e regressar o questionário que os diferencia daqueles que não atendem à solicitação do pesquisador? Pode haver, assim, variáveis que não há, a priori, como mensurar, distinguindo o grupo dos respondentes e dos não-respondentes. Nesse tipo de pesquisa, é relevante, então, que na metodologia o pesquisador descreva o percentual de retorno dos questionários e saliente, durante a discussão dos resultados, que pode haver variáveis (“invisíveis”) que delimitam a população à qual os resultados se aplicam. Variáveis e itens de um questionário Vamos chamar de variáveis as características que podem ser observadas (ou medidas) em cada elemento da população, sob as mesmas condições. Uma variável observada (ou medida) num elemento da população deve gerar um e apenas um resultado. Para algumas variáveis, esta propriedade parece ser intuitiva, facilmente respeitada e até mesmo intrínseca, por exemplo, idade, gênero, estatura, número de filhos e estado civil. Entretanto, esta propriedade parece ser não intuitiva, e até mesmo impossível de ser respeitada, para outras questões que os pesquisadores levantam junto à população em estudo, por exemplo: formas de lazer; esportes praticados; motivos da escolha para cursar determinada Faculdade; preferências musicais e de leitura do entrevistado; fontes de financiamento de uma instituição ou ONG. Neste caso, a questão em estudo não corresponde diretamente a uma variável, mas há diferentes modos de transformá-la em uma ou mais variáveis, como veremos adiante. As variáveis podem ser classificadas quanto ao tipo de mensuração: qualitativa (ou categórica) ou quantitativa. Quando os resultados possíveis de uma variável são atributos/categorias ou qualidades, a variável é dita qualitativa. Quando os resultados possíveis de uma variável são números resultantes de uma escala de contagem ou mensuração, dizemos que esta variável é quantitativa 4 . 3 Para uma apresentação mais detalhada sobre a construção de um questionário, veja Gil (1999, cap. 11) 4 Não devemos confundir variável quantitativa e método de análise quantitativo. Podemos estar tratando um objetivo por meio da análise quantitativa, mas a(s) variável(is) estudada(s) ser(em)qualitativa(s). A classificação de uma variável como quantitativa ou qualitativa se refere ao nível de mensuração desta variável, ou seja, como se classifica a resposta dada pelo indivíduo à variável: uma categoria (não ordenável - variável nominal ou ordenável – variável 8 Dentre as variáveis qualitativas, podemos ainda fazer uma distinção entre dois tipos: nominal, para a qual não existe nenhuma ordenação nos possíveis resultados, e ordinal, para a qual existe uma ordem entre as respostas possíveis. Assim, o nível nominal de mensuração envolve simplesmente o ato de nomear ou rotular a resposta dos indivíduos, ao passo que, quando o pesquisador vai além desse nível de mensuração e procura ordenar seus sujeitos em função do grau que apresentam de uma determinada característica, ele está trabalhando no nível ordinal de mensuração. Quadro 1. Exemplos de variáveis nominais VARIÁVEL CATEGORIAS GÊNERO Masculino, feminino SITUAÇÃO DO DOMICÍLIO Rural e urbano ESTADO CIVIL Solteiro, casado, divorciado, viúvo ENTIDADE MANTENEDORA Federal, estadual, municipal, particular PARTIDO POLÍTICO PFL, PSDB, PT, PMDB, PDT, ... PROFISSÃO Comerciário, bancário, profissional liberal, professor, metalúrgico, trabalhador rural, trabalhador doméstico, ... REGIÃO Norte, Nordeste, Centro-Oeste, Sudeste, Sul RAMO DE ATIVIDADE Agrícola, indústria, comércio, serviços CURSO Medicina, Ciências Sociais, Matemática, Direito, História, ... LINHA DE PESQUISA DA PÓS- GRAD. EM SOCIOLOGIA Sociologia Rural, Sociologia da Cultura, Teoria Sociológica, Sociologia da Educação, Sociologia do Trabalho, Sociologia Jurídica, Sociologia do desenvolvimento, Metodologia RELIGIÃO Católica, Evangélica, Budista, Muçulmana, Sem religião, Ao trabalhar com dados nominais, algumas vezes não há relação direta entre um item de um questionário e uma variável, como pode ser o caso nas variáveis: tipo de lazer, tipo de leitura e esporte praticado, uma vez que um respondente pode ter mais de um tipo de leitura, bem como tipo de lazer ou praticar mais de um esporte, violando a suposição básica de a variável assumir um e apenas um resultado, por respondente. Podemos, por outro lado, associar várias variáveis a este item, tais como: (1) quantidade de tipo de leitura realizada, (2) futebol (pratica ou não), (3) basquete (pratica ou não) e assim por diante. Uma outra possibilidade seria definir a variável “esportes que pratica”, tendo como possíveis respostas, todas as combinações de modalidades de esportes. Mas a análise destas respostas seria difícil, dado o grande número de possíveis alternativas. ordinal) ou uma quantidade. Por outro lado, uma análise quantitativa de um objetivo, pressupõe que faremos, pelo menos, uma contagem de quantos indivíduos responderam/pertencem a uma dada resposta para a variável em estudo 9 Quadro 2. Exemplos de variáveis ordinais VARIÁVEL CATEGORIAS CLASSE SÓCIO-ECONÔMICA classe baixa, classe média e classe alta TAMANHO DA EMPRESA Microempresa, pequena empresa, média empresa, grande empresa INFLUÊNCIA NA NEGOCIAÇÃO DO MERCOSUL Pouca influência, influência intermediária, muita influência BENEFÍCIO PARA O PAÍS Pouco benefício, benefício intermediário, muito benefício RENDA Alta, média, baixa NÍVEL DE SATISFAÇÃO muito satisfeito, pouco satisfeito, insatisfeito GRAU DE CONCORDÂNCIA discordo plenamente, discordo, indiferente, concordo, concordo plenamente NÍVEL DE ESCOLARIDADE Ensino Fundamental, Ensino Médio e Ensino Ensino Superior CONCEITO EM AVALIAÇÃO A, B, C, D, E O nível ordinal de mensuração fornece informações sobre a ordenação das categorias, mas não indica a magnitude das diferenças entre elas. Em contraposição, a variável quantitativa orienta-nos relativamente à ordem das categorias, bem como indica-nos a distância exata entre elas. Os resultados possíveis dessas variáveis são números de uma escala. Escalas quantitativas implicam unidades constantes de medida, as quais comportam intervalos iguais entre os vários pontos da escala. De modo análogo, as variáveis quantitativas podem sofrer uma classificação dicotômica: variáveis discretas, cujos resultados possíveis são resultantes de uma contagem, constituindo assim um conjunto finito ou enumerável de números e variáveis contínuas, cujos possíveis valores formam um intervalo de números reais e que resultam, normalmente, de uma mensuração. Quadro 3. Exemplos de variáveis quantitativas discretas VARIÁVEL Respostas possíveis Nº de filhos 0, 1, 2, 3, 4, ... Nº de residentes na casa 1, 2, 3, ... Nº de países 0, 1, 2, .... Nº de conflitos internos 0, 1, 2, 3, ... Nº de empregos gerados pela empresa 0, 1, 2, 3, 4, ... (que pode ser qualitativa à qual se atribui categorias ou qualitativa à qual se atribui quantidades como resposta). 10 Nº de anos de estudo 0, 1, 2, 3, ... Quadro 4. Exemplos de variáveis quantitativas contínuas VARIÁVEL Respostas possíveis Taxa de analfabetismo 0% taxa 100% Despesa governamental (%PIB) 0 Despesa Gov. 100% Rendimento Mensal 0 Rendimento IPTU 0 IPTU Índice de Gini 0 índice 1 IDH 0 IDH 1 PIB 0 PIB As variáveis quantitativas são mais informativas que as qualitativas. Dizer que há 30 anos um funcionário trabalha em uma empresa é mais informativo que dizer que ele trabalha há muito tempo. Do mesmo modo, dizer que uma pessoa tem 17 anos ou tem 65 anos é mais informativo que dizer que ela é adolescente ou que é da 3ª idade. Ainda, dizer que um aluno tirou uma nota 7,5 é mais informativo que dizer que ele tirou o conceito B. Podemos passar de uma escala quantitativa para uma escala qualitativa, categorizando as respostas, mas a recíproca não é possível. Por exemplo, podemos, com base nas idades indicadas em uma pesquisa, criar as categorias: criança, adolescente, adulto e 3ª idade, mas caso só tenhamos coletado as respostas por essas categorias não temos como “resgatar” a idade (em anos ou meses) dos participantes da pesquisa. Do mesmo modo, podemos categorizar as notas obtidas pelos alunos em uma avaliação nos conceitos A, B, C, D ou E, mas não sendo possível fazer o caminho contrário. Elaboração de um questionário Na condução de uma pesquisa, a construção de um questionário é uma etapa longa, que deve ser executada com muita cautela. Um aspecto fundamental nesta fase da pesquisa é o planejamento de como usar as respostas dos diversos itens para responder às indagações da pesquisa. O questionário também deve ser feito de forma a facilitar a análise dos dados. Segundo Gil (1999, p. 131), questionários com muitas questões abertas, frequentemente retornam com muitas não respondidas. 11 Tendo em mãos os objetivos da pesquisa claramente definidos, bem como a população a ser estudada, alguns aspectos da construção do questionário devem ser levantados: 1 – separar as características a serem levantadas Exemplo: Em uma pesquisa sobre matéria escolar, características a serem levantadas: a que mais gosta, a que menos gosta, a mais difícil, a mais fácil, notas nas avaliações dessas disciplinas e gênero. 2 – Fazer uma revisão bibliográfica para verificar como mensurar adequadamente algumas características. Exemplo: grau de satisfação – como medir satisfação?;classe sócio-econômica – como medir? Pelo IBGE? Por outra escala? 3- Estabelecer a forma de mensuração das características (variáveis) a serem levantadas. A unidade de medida que deve acompanhar as respostas. Para variáveis qualitativas, construir uma lista completa das alternativas, inclusive, quando necessário, as categorias outras e não tem opinião. 4- Elaborar uma ou mais perguntas para cada característica a ser observada. Exemplo: Grau de satisfação do aluno com a faculdade: segurança, estrutura física, corpo docente, biblioteca, atividades culturais, etc. 5- Verificar se a pergunta está suficientemente clara. Linguagem compreensível para todos os indivíduos da população; por exemplo, pesquisando o perfil dos catadores de lixo que passam na rua do aluno, verificar se a linguagem/ termos faz parte do cotidiano dos entrevistados. 6 – Verificar se a forma da pergunta não está induzindo a algumas respostas ou se a resposta da pergunta não é óbvia. Por exemplo, quando há poucas alternativas como resposta à questão. 7 – Fazer pré-teste ou pesquisa piloto: Antes de iniciar a coleta de dados através do instrumento selecionado, precisamos verificar se este instrumento está bom, aplicando o instrumento em alguns indivíduos com características similares aos indivíduos da população em estudo ou próprios da população. Somente pela aplicação efetiva do questionário é que podemos detectar algumas falhas que tenham passado despercebidas em sua elaboração, tais como: ambigüidade de alguma pergunta, resposta que não havia sido prevista, não variabilidade de respostas em alguma 12 pergunta, etc. O pré-teste também pode ser usado para estimar o tempo de aplicação do questionário. Ao trabalharmos com questionário devemos estar cientes que este deve ser completo, no sentido de abranger características necessárias para atingir os objetivos da pesquisa, mas ao mesmo tempo, não deve conter perguntas que fujam destes objetivos, pois quanto mais longo o questionário, menor tende a ser a qualidade e a confiabilidade das respostas. Além disso, questionários muito extensos apresentam alta probabilidade de não serem respondidos (GIL, 1999, p.129) EXERCÍCIOS 1. Para cada uma das variáveis abaixo indique o tipo: quantitativa (discreta ou contínua) ou qualitativa. a) Salário de sociólogos das várias instituições públicas e privadas existentes no Brasil. b) Número de respostas certas num teste com 15 itens aplicados a 50 alunos. c) Porcentagem da receita de municípios aplicada à cultura. d) Opinião dos sociólogos sobre a realização ou não de determinado evento. e) Região de procedência dos alunos da UNESP de Marília. f) Grau de instrução dos pais de alunos ingressantes na UNESP em determinado ano. g) Número de guerras civis do país desde o seu ingresso na ONU. h) Taxa de ocupação (população ocupada/população economicamente ativa) dos municípios do estado de São Paulo 2. Cite três situações de pesquisa, ou do cotidiano do cientista social, que tenha variáveis quantitativas e outras três nas quais as varáveis em questão são qualitativas. Faça a distinção entre variáveis contínuas e discretas. Técnicas de Amostragem Para trabalharmos em uma pesquisa científica com o levantamento por amostragem, a seleção dos elementos que serão efetivamente observados, deve ser feita sob uma metodologia adequada, de tal forma que os resultados da amostra sejam informativos e representativos para avaliar características de toda a população. 13 O termo inferência estatística se refere ao uso apropriado dos dados da amostra para se ter algum conhecimento sobre os parâmetros da população, generalizando os resultados para o todo (população) a partir de uma parte (amostra). Por que amostragem? Citaremos quatro razões para o uso de amostragem em levantamentos de grandes populações. 1. Economia: em geral, torna-se bem mais econômico o levantamento de somente uma parte da população. 2. Tempo: torna-se bem mais rápido o levantamento de somente uma parte da população. Exemplo desta necessidade: pesquisa eleitoral. 3. Confiabilidade dos dados: pode-se dar mais atenção aos casos individuais, evitando erros nas respostas e na transcrição dos dados. 4. Operacionalidade: é mais fácil realizar operações de pequena escala. Quando o uso de amostragem não é interessante? (a) Característica de fácil mensuração; (b) Necessidade de alta precisão; (c) População pequena. Tamanho de uma amostra aleatória simples O cálculo do tamanho de uma amostra aleatória, muitas vezes omitido, é um componente essencial no delineamento da pesquisa. O objetivo essencial desse cálculo é determinar a quantidade de elementos que comporão a amostra em número suficiente para obter resultados válidos, mas não mais do que é necessário, evitando-se assim gasto de tempo e de recursos financeiros desnecessários. Alguns princípios orientadores se fazem necessários. Um aumento no tamanho amostral conduzirá a um aumento na precisão das estimativas populacionais, mas o custo da amostragem também aumentará e, de modo geral, existe um limite de gasto disponível para esse levantamento. Assim, quanto maior o tamanho da amostra, maior o gasto de recursos financeiros; quanto menor a amostra, maior a probabilidade de se obter um estimador com precisão insuficiente. 14 Analisando a situação em que não se pode determinar o tamanho da população (N), o tamanho mínimo da amostra aleatória simples pode ser determinado através do cálculo de n0, considerado uma primeira aproximação para o cálculo do tamanho da amostra, dado por: 2 0 0 1 E n (I) sendo E0 o erro amostral tolerável 5 . A expressão acima apresentada mantém fixo o nível de confiança 6 de 95% e a variância populacional no caso de maior heterogeneidade da população, ou seja, quando a proporção do evento na população em estudo é de 0,5. Tabela 1. Tamanho de amostra (n0) em função do erro amostral tolerável 7 . E0 n0 0,010 10000 0,015 4444 0,020 2500 0,025 1600 0,030 1111 0,035 816 0,040 625 0,045 494 0,050 400 Conforme podemos observar na tabela anterior, quanto menor o erro amostral tolerável associado à amostra a ser observada, maior o tamanho da amostra necessário para se atendê-lo, sem levar-se em consideração o tamanho da população e trabalhando-se com o nível de confiança de 95% e proporção do evento na população igual a 0,5. Conhecendo-se o tamanho da população N, pode-se corrigir o cálculo de n0, obtido por I, para se ter o tamanho da amostra aleatória simples, n, através da expressão: 5 Erro amostral tolerável é a diferença tolerada, pelo pesquisador, entre o valor que a estatística pode acusar e o verdadeiro valor do parâmetro que se deseja estimar (Barbetta, 1999). 6 Nível de confiança é a probabilidade de o valor do parâmetro em estudo pertencer ao intervalo centrado na estimativa estatística do parâmetro e limites determinados pelo erro amostral tolerado. Neste caso, a probabilidade é de 0,95 ou 95%. Por exemplo, trabalhando-se com um E0 igual 2%, se obtivermos uma estimativa percentual igual a 40% para o parâmetro em estudo, teremos 95% de probabilidade de o valor verdadeiro do parâmetro populacional pertencer ao intervalo de 38% a 42%. 7 A descrição do erro amostral é, usualmente, feita em termos percentuais (por exemplo: 0,010 lê-se 1%). 15 0 0. nN nN n (II) Tabela 2. Tamanho de amostra (n) em função do tamanho da população, assumindo erro amostral tolerável igual a 0,025, nível de significância igual a 95%. N n0 n 100 1600 94 1000 1600 615 10000 1600 1379 100000 1600 1575 1000000 1600 1597 Com base na simulação dos cálculos para o tamanho de amostra aleatória simples, por meio das expressões I e II, observamos que o valor de n é sempre inferior ao valor de n0. Entretanto, à medida que o tamanho N da população, cresce, o valor de n aproxima-se do valor de n0. Desse modo, para uma população grande, pode-se adotar o valor de n0 como o tamanho n da amostra. Então, n = n0 = 1/E0 2 , (III) sem necessariamente levar em conta o tamanho exato da população. Podemos então, considerando as expressões I e II, estabelecer a seguinte relação n0 n A relação acima anunciada pode ser ilustrada na figura abaixo. 0 500 1000 1500 2000 2500 3000 0 10000 20000 30000 40000 50000 tamanho da população tam an ho da am os tra n0 n Figura 1. Gráfico comparativo entre as expressões I e II para o cálculo do tamanho de uma amostra aleatória simples 16 Conforme podemos observar na figura 1, quanto menor for o tamanho da população, mais importante será conhecer-se seu valor exato. Em populações pequenas, os valores de n0, e n são diferentes, ao passo que para populações grandes, a informação sobre o tamanho da população é irrelevante. Formas de amostragem 1. Aleatória ou casual: processo amostral em que cada membro da população tem a mesma chance de ser escolhido (Hoel, p.157). A seleção dos elementos que farão parte da amostra é feita sob alguma forma de sorteio ao acaso (Barbetta, p.41). Estas amostragens são particularmente interessantes por permitirem a utilização das técnicas clássicas de inferência estatística, facilitando a análise dos dados e fornecendo maior segurança ao generalizar resultados da amostra para a população. Tipos de amostragem aleatória: Simples, Estratificada, por Conglomerados, Sistemática e por múltiplos estágios (ou etapas). 2. Não-casual: como o próprio nome já diz, são aqueles processos amostrais em que os membros da população não têm a mesma chance de serem escolhidos. Exemplos: amostras intencionais ou por tipicidade (os elementos são retirados com auxílio de especialistas), amostras de voluntários, como ocorre em alguns testes sobre novos remédios e amostragem por conveniência, em que os elementos escolhidos são aqueles julgados como típicos da população que se deseja estudar, assemelha-se à amostragem intencional. AMOSTRAGEM ALEATÓRIA SIMPLES Para a seleção de uma amostra aleatória simples precisamos ter uma lista completa dos elementos da população. Este tipo de amostragem consiste em selecionar a amostra através de sorteio, sem restrição. Seja uma população com N indivíduos. Uma forma de extrair uma amostra aleatória simples de tamanho n, sendo n < N, é identificar os elementos da população em pequenos pedaços de papel e retirar, ao acaso, n pedaços ou usar as tabelas de números aleatórios ou, então, usar um gerador de números aleatórios. 17 A amostragem aleatória simples tem a seguinte propriedade: qualquer subconjunto da população, com o mesmo número de elementos, tem a mesma probabilidade de fazer parte da amostra. Em particular, temos que cada elemento da população tem a mesma probabilidade de pertencer à amostra. Exemplo: Retirar uma amostra aleatória, com E0 = 2,5%, de uma população de 40000 habitantes de uma cidade. Para E0 = 2,5% (=0,025) e N = 40000, n = tamanho da amostra = 1538 habitantes. AMOSTRAGEM ESTRATIFICADA Consiste em dividir a população em subgrupos, que denominamos de estratos. Estes estratos devem ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo. Devemos escolher um critério de estratificação que forneça estratos bem homogêneos, com respeito ao que se está estudando. A amostragem estratificada proporcional é um tipo particular de amostragem estratificada, no qual a proporcionalidade do tamanho de cada estrato da população é mantida na amostra. Exemplo: Retirar uma amostra aleatória, com E0 = 2,5%, de uma população de 50000 alunos da área de Ciências Humanas das Universidades Públicas Paulistas. Suponhamos que a população esteja constituída da seguinte maneira: Para E0 = 2,5% = 0,025 e N = 50000 alunos, n = tamanho da amostra = 1550 alunos. Uma amostra de 1550 alunos equivale a 3,1% da população de 50000alunos. Logo: População: Amostra: Sexo Noturno Diurno Masculino 4840 18580 Feminino 5160 21420 Total 10000 40000 Sexo Noturno Diurno Masculino 150 576 Feminino 160 664 Total 310 1240 18 AMOSTRAGEM SISTEMÁTICA Quando os elementos da população já apresentam alguma forma de ordenação, podemos utilizar essa ordenação na seleção da amostra aleatória a ser retirada. Exemplos de populações ordenadas: lista telefônica, prontuários escolares, prontuários médicos, prontuários policiais (boletins de ocorrência), número das casas de uma rua, número de tombo dos livros de uma biblioteca, etc. Consideremos uma população composta por N indivíduos (i.e., o tamanho da população é igual a N) e dela desejamos retirar uma amostra de n indivíduos (i.e., a amostra terá tamanho n). Definimos o intervalo de seleção S como: S = N n. Sorteamos um número entre 1 e S, o qual denominamos aqui por m. Então: O primeiro indivíduo da amostra é o de número m (ou m-ésimo indivíduo da população ordenada); O segundo indivíduo da amostra é o de número S + m; O terceiro indivíduo da amostra é o número 2.S + m; .... O n-ésimo indivíduo da amostra é o de número (n – 1).S + m. Exemplo: De um acervo de 60000 livros de uma biblioteca, deseja-se retirar uma amostra aleatória sistemática de 2400 livros (suficientes para estabelecermos E0 = 2%) a fim de se estimar a porcentagem de livros desaparecidos do acervo. Com base nos dados fornecidos sobre a biblioteca, temos N (tamanho da população) = 60000 livros e n (tamanho da amostra) = 2400 livros. Utilizando o número de tombo dos livros dessa biblioteca como referência na ordenação, para retirarmos a amostra aleatória sistemática, calculamos inicialmente o intervalo de seleção S: S = 60000 2400 = 25 19 Assim, o número de tombo (m) do primeiro livro que comporá a amostra está entre 1 e 25 (1 m 25). Suponhamos que m (número de tombo do primeiro livro a ser observado) = 8. A amostra aleatória sistemática será constituída dos seguintes livros: 1º livro da amostra: 8º livro (= m) do acervo; 2º livro da amostra: 33º livro (= S+m) do acervo; 3º livro da amostra: 58º livro (= 2.S+m) do acervo; ┋ 6000º livro da amostra: (2399 x 25) + 8 = 59983º livro do acervo. COMENTÁRIOS ADICIONAIS SOBRE AMOSTRAGEM O uso adequado das técnicas de amostragem ajuda a eliminar a tendenciosidade. Como a amostra não é “escolhida”, não existe a tendenciosidade aberta, que aparece quando determinado grupo de pessoas é escolhido para representar a população. No entanto, é preciso estar alerta para outras fontes de tendenciosidade. Se você faz uma pesquisa domiciliar durante o dia, não entrevista quem trabalha em horário diurno. A amostra é tendenciosa por não captar informação desse tipo de pessoa. Se você faz a pesquisa à noite, não entrevista quem sai à noite, aserviço ou a passeio. Nas pesquisas de opinião pública, existem muitas fontes de tendenciosidade. Sabe-se, por exemplo, que muitas pessoas respondem, quando perguntadas, o que se espera delas, ou o que lhes parece mais adequado, ou mesmo o que lhes parece mais conveniente. Assim, a próxima vez que você deparar com uma informação do tipo “o brasileiro toma, em média, 1,5 banhos por dia”, pergunte-se: É fácil obter dados reais sobre esse assunto? O que você diria à entrevistadora que bate à sua porta e lhe pergunta se você toma banho regularmente? A resposta de alguns pode não ser verdadeira. Dependendo do humor do entrevistado, no momento, poderá dar uma resposta rude, ou dizer qualquer coisa simpática. A tendenciosidade da resposta pode também ser causada por outros motivos. Por exemplo, em um país sob uma ditadura militar, as prévias eleitorais para o poder legislativo podem mostrar muito mais votos para os candidatos do governo que se observará na realidade, possivelmente pelo fato de as pessoas entrevistadas terem medo de dizer que irão votar contra o governo. 20 A tendenciosidade também pode ser trazida para a amostra pela maneira como se define a característica de quem deve ser entrevistado. Existe a tendência de procurar os “típicos” e excluir da amostra as pessoas que têm características menos definidas. Se você deve entrevistar negros, possivelmente escolherá uma amostra que exclui os pardos. Se você deve entrevistar mulheres com mais de 40 anos, possivelmente irá buscar as “com mais de 50” – apenas porque você não terá dúvida de que elas atendem à característica – “com mais de 40”. Também são feitas pesquisas com base em questionários publicados em jornais, revistas e internet ou em cartas enviadas pelo correio. Nesses casos, é preciso ter em conta que as pessoas que respondem são diferentes das que não respondem. Também é preciso ter em conta que o questionário publicado em jornal, revista ou internet só será visto pelo público desse jornal ou dessa revista. Por outro lado, também não se pode deixar de lembrar que o próprio entrevistador pode introduzir tendenciosidade nas respostas. Por exemplo, você pode obter mais opiniões favoráveis ao uso gratuito de ônibus em São Paulo, se você perguntar “O senhor acha que as pessoas muito idosas podem usar gratuitamente o serviço de ônibus nos horários de pouco movimento?”. No entanto, provavelmente aumentará o número de respostas negativas se perguntar: “O senhor acha que o governo deve pagar, com dinheiro dos impostos, o passeio de aposentados em ônibus urbano?” Em resumo, toda informação obtida através de amostras precisa ser analisada com cuidado. Quando a informação é obtida por meio de entrevistas ou questionários, precisa ser observada com muito mais cuidado. Exercícios 1. Uma Faculdade de Ensino Superior possui 2000 alunos. Descreva como retirar uma amostra aleatória simples dessa população com E0 = 3,5%. 2. O diretor de uma escola de Ensino Superior, na qual estão matriculados 1380 alunos no período diurno e 1420 alunos no período noturno, desejoso de conhecer o perfil sócio- cultural de seus alunos, resolveu fazer um levantamento, por amostragem, com E0 = 3,5%, dessa clientela. Mostre, para esse diretor, como retirar uma amostra aleatória estratificada proporcional, por período, adequada para representar o comportamento da população total de alunos. 21 3. Mostre como retirar uma amostra de 32 elementos de uma população ordenada formada por 2432 elementos. 4. A tabela abaixo apresenta a população de docentes do Ensino Superior do país, por região e gênero. Gênero Masculino Feminino Região Nº de docentes Nº de docentes Norte 6542 5464 Centro-Oeste 11102 9812 Nordeste 21491 18779 Sul 27249 23070 Sudeste 66524 51442 Total 132908 108567 Fonte: SINAES (http://sinaes.inep.gov.br:8080/sinaes/); acesso em 21/02/2007. Obtenha uma amostra estratificada proporcional dos docentes do Ensino Superior do país, por região e gênero simultaneamente, estabelecendo E0 = 5%. 5. Uma delegacia deseja fazer um levantamento amostral referente à distribuição de ocorrência dos delitos. No arquivo da delegacia, existem 245.672 boletins de ocorrência arquivados ordenadamente no período a ser analisado. Deseja-se extrair para esse levantamento uma amostra de 1% do total de boletins. Como podemos retirar essa amostra? 6. Determine o tamanho da amostra aleatória simples para um erro amostral tolerável estabelecido em 0,02 (ou 2,0%) e tamanho da população (N) igual a: 40, 400, 4000, 40000, 400000 e 4000000. 22 TABELAS DE DISTRIBUIÇÃO DE FREQÜÊNCIAS A coleta de dados, seja de uma amostra ou de uma população de elementos, é o passo inicial da análise estatística. Feita esta etapa, os dados originais ainda não se encontram prontos para análise, por não estarem ainda organizados. Por esta razão costuma-se denominá-los de dados brutos. O passo seguinte consistirá em introduzir técnicas que permitam organizar, resumir e apresentar esses dados, de tal forma que possamos interpretá-los à luz dos objetivos da pesquisa. Com os dados adequadamente resumidos e apresentados em tabelas e gráficos, podemos observar determinados aspectos relevantes, que possam ser cotejados com as hipóteses iniciais. Um dos primeiros passos para entendermos o comportamento de uma variável, em termos dos dados levantados, é resumir as informações por meio da construção de uma distribuição de freqüências. A distribuição de freqüências consiste na organização dos dados de acordo com a ocorrência (freqüência) dos diferentes resultados observados. Ela pode ser apresentada sob a forma tabular ou gráfica (Barbetta, 1999). Iniciaremos, aprendendo a descrever e explorar dados de variáveis qualitativas. É o caso de variáveis como sexo, estado civil, grau de instrução, etc. Distribuição de Freqüências de Dados Qualitativos Classificação simples Para construir uma distribuição de freqüências com dados de uma variável qualitativa bastar contar a quantidade de resultados (freqüência) observados em cada categoria (resposta). A montagem de tabelas de distribuição de freqüências é normatizada pela Resolução nº886 do Conselho Nacional de Estatística, de 26 de outubro de 1966, e publicadas pelo IBGE. Toda tabela deve ser auto-explicativa, sendo necessário um título que informe ao leitor o quê está sendo apresentado, onde e quando foram coletados os dados e, quando apresentadas em seqüência, serem numeradas consecutivamente em algarismos arábicos. As tabelas devem ser abertas lateralmente e ter sua estrutura formada por pelo menos três linhas horizontais, sendo duas que delimitam o cabeçalho e uma que faz o fechamento. Apresenta, em seu formato básico, duas colunas: a coluna da esquerda, indicando a variável em 23 estudo e as categorias de análise e uma coluna adjacente, intitulada “freqüência” ou “f”, indicando o número de sujeitos em cada categoria, bem como o número total de sujeitos. A substituição de um dado numérico em uma célula (no centro da tabela – resultante do cruzamento de uma linha com uma coluna) deve ser feita por um dos sinais abaixo, conforme o caso 8 : a) Dado numérico igual a zero não resultante de arredondamento, substituir por: - b) Dado numérico igual a zero resultante de arredondamento de um dado numérico originalmente positivo, sinal: 0 ou 0,0 ou 0,00 ou 0,000 etc. c) Dado numérico igual a zero resultante de arredondamento de um dado numérico originalmente negativo, sinal: - 0 ou - 0,0 ou - 0,00 ou - 0,000 etc. No rodapéde uma tabela devem ser colocadas as notas explicativas referentes às fontes dos dados, bem como as informações que não cabem na estrutura da tabela e que são importantes para o entendimento dos dados apresentados. As notas de rodapé devem ser identificadas por algarismos arábicos. Quando os dados forem retirados de alguma publicação, deve-se mencionar sua autoria. Quando uma tabela ocupar mais de uma página, não será delimitada na parte inferior repetindo-se o cabeçalho na página seguinte. Exemplo: Suponhamos que tenhamos coletado, em 03/10/2004, em uma classe do 3º ano do Ensino Médio da rede pública da cidade de Marília, as respostas dos 27 alunos, quanto às seguintes variáveis: Gênero, Nº de irmãos, Grau de instrução (completo) do pai, Grau de instrução da mãe, Trabalha e Pretende cursar o Ensino Superior. 8 Há outras substituições não mencionadas nesta apostila, veja a publicação Normas de Apresentação Tabular do IBGE (ISBN 85-240-0471-1, p.18). 24 Quadro 1. Dados de uma classe de 3º ano do Ensino Médio da rede pública da cidade de Marília quanto às seguintes variáveis: Gênero, Nº de irmãos, Grau de instrução (completo) do pai e da mãe, Trabalha e Pretende cursar Ensino Superior. Aluno Gênero Nº de irmãos Grau instrução do pai Grau instrução da mãe Trabalha Pretende Cursar Ensino Superior 1 F 1 Ensino Fundamental Ensino Fundamental Não Sim 2 F 2 Ensino Médio Ensino Fundamental Sim Não 3 F 1 Ensino Fundamental Ensino Fundamental Sim Não 4 M 3 Ensino Fundamental Ensino Médio Não Sim 5 M 2 Ensino Médio Ensino Fundamental Não Não 6 F 1 Ensino Superior Ensino Médio Não Sim 7 M 0 Ensino Médio Ensino Médio Não Sim 8 M 2 Ensino Fundamental Ensino Fundamental Sim Sim 9 M 2 Ensino Fundamental Ensino Médio Não Sim 10 F 1 Ensino Médio Ensino Fundamental Sim Sim 11 F 3 Ensino Fundamental Ensino Fundamental Sim Não 12 M 1 Ensino Superior Ensino Superior Não Sim 13 F 4 Ensino Médio Ensino Médio Não Sim 14 M 2 Ensino Fundamental Ensino Fundamental Não Não 15 F 3 Ensino Médio Ensino Superior Não Sim 16 F 3 Ensino Fundamental Ensino Médio Sim Sim 17 M 4 Ensino Fundamental Ensino Fundamental Sim Não 18 F 2 Ensino Fundamental Ensino Fundamental Não Sim 19 F 1 Ensino Superior Ensino Superior Não Sim 20 M 0 Ensino Superior Ensino Superior Sim Sim 21 M 2 Ensino Fundamental Ensino Fundamental Sim Sim 22 M 2 Ensino Superior Ensino Médio Não Sim 23 F 3 Ensino Médio Ensino Médio Não Sim 24 M 3 Ensino Fundamental Ensino Médio Não Sim 25 M 1 Ensino Médio Ensino Fundamental Sim Sim 26 M 2 Ensino Médio Ensino Superior Não Sim 27 M 2 Ensino Fundamental Ensino Fundamental Sim Não As variáveis “Gênero”, “Trabalha” e “Pretende Cursar Ensino Superior” são qualitativas nominais. As variáveis “Grau de instrução do Pai” e “Grau de Instrução da Mãe” são qualitativas ordinais e a variável “Número de Irmãos” é quantitativa discreta. Iniciaremos o tratamento de dados analisando primeiramente as variáveis qualitativas do tipo nominal. Para tal, usaremos para ilustração os dados referentes às variáveis “Gênero” e “Trabalha”. 25 A tabela 1 mostra a distribuição de freqüências da variável gênero. Tabela 1. Distribuição de freqüências do gênero dos alunos do 3º ano do Ensino Médio da rede pública da cidade de Marília em 03/10/2002. Gênero freqüência Masculino 15 Feminino 12 Total 27 A primeira coluna da tabela 1, intitulada “Gênero”, mostra as categorias (masculino e feminino) observadas para a variável Gênero, no conjunto de alunos em estudo. A segunda coluna, intitulada “freqüência”, resulta da contagem do número de alunos de cada categoria (masculino e feminino), bem como o número total de alunos (27). Observemos, ainda, que a tabela está encabeçada por um número (1) e por um título que dá ao leitor uma idéia da natureza dos dados apresentados. Uma rápida inspeção da distribuição de freqüências constante na tabela 1 revela que a classe é composta por mais alunos do gênero masculino. A tabela 2 mostra a distribuição de freqüências dos dados da variável acesso à internet. Tabela 2. Distribuição de freqüências, em números absolutos e relativos, da variável Traballha dos alunos do 3º ano do Ensino Médio da rede pública da cidade de Marília em 03/10/2004. Trabalha freqüência % Sim 11 41 Não 16 59 total 27 100 A primeira coluna da tabela 2 mostra as categorias estabelecidas para a variável “Trabalha”. A segunda coluna resulta da contagem de quantos alunos se identificam com cada categoria (sim ou não). A terceira coluna apresenta uma medida relativa da freqüência de cada categoria. Estas porcentagens são obtidas dividindo-se a freqüência de cada categoria pelo número total de observações e, em seguida, multiplicando-se por 100. Em fórmula: % = 100 x (f N), onde: f = freqüência da categoria, N = total de indivíduos. 26 Esta medida relativa é particularmente importante para comparar distribuições de freqüências quando os totais (tamanho da amostra ou da população) são diferentes, uma vez que permite padronizar (em 100) as distribuições de freqüências quanto ao tamanho. O valor da freqüência relativa de determinada categoria, expresso em termos de porcentagem, representa a freqüência com que aquela categoria ocorre em relação ao número/total 100. Tabela de Contingência ou Dupla Classificação Quando em uma mesma tabela de distribuição de freqüências tratamos duas variáveis em estudo denominamos a denominamos tabela de contingência ou de dupla classificação. Esse tipo de construção de tabela de distribuição de freqüências nos permite observar se as duas variáveis apresentam associação. Por exemplo, no exemplo sobre os alunos do 3º ano podemos construir uma tabela de contingência para as variáveis “Grau de instrução do Pai” e “Pretende Cursar o Ensino Superior” para avaliarmos se há associação entre essas variáveis. Outros exemplos de tabelas de contingência sobre os dados dos alunos do 3º ano seriam: “Grau de instrução da mãe” versus “Pretende cursar o Ensino Superior”; “Grau de instrução do pai” versus “Trabalha”; “Gênero” versus “Pretende cursar o Ensino Superior”; “Trabalha” versus “Pretende cursar o Ensino Superior”, entre outras. Voltando ao nosso exemplo hipotético sobre os alunos do 3º ano do Ensino Médio, podemos observar um exemplo da construção de uma tabela de contingência e utilização das porcentagens/freqüências relativas. Tabela 3. Distribuição de freqüências, em números absolutos e relativos, da variável Trabalha dos alunos do 3º ano do Ensino Médio da rede pública da cidade de Marília em 03/10/2002, segundo o gênero. Gênero Masculino Feminino Total Trabalha freqüência freqüência freqüência Sim 6 (40,0) 5 (41,7) 11 (40,7) Não 9 (60,0) 7 (58,3) 16 (59,3) Total 15 (100,0) 12 (100,0) 27 (100,0) 27 A tabela 3 indica, ao mesmo tempo, as freqüências e as porcentagens 9 da variável Trabalha por gênero e geral. Se ficarmos restritos apenas às freqüências, teremos dificuldades para tentar estabelecer diferenças (ou não) ligadas ao gênero em termos da variável “Trabalha”. Em contrapartida, as porcentagens revelam facilmente que não há diferença significativa entre gêneros quanto ao trabalho. No geral, 59% dos alunos do 3º ano não trabalham. Por gênero, as porcentagens estão próximas à observada no geral: entre os alunos do gênero masculino, 40% trabalham e entre as alunas, 41,7% trabalham. Suponhamos, agora, que estendendo este levantamento paratodos os 3º anos das escolas de Ensino Médio de Marília tenhamos obtido os seguintes dados hipotéticos. Tabela 4. Distribuição de freqüências, em números absolutos e relativos, da variável “Trabalha” dos alunos do 3º ano do Ensino Médio, segundo a entidade mantenedora. Escola Pública Particular Total Trabalha f f f Não 811 (30,0) 110 (30,0) 921 (30,0) Sim 1893 (70,0) 256 (70,0) 2149 (70,0) Total 2704 (100,0) 366 (100,0) 3070 (100,0) Observando a tabela, temos que a maioria (70%) dos alunos de escolas de ambas as entidades mantenedoras trabalha. Ainda, em ambos os tipos de escola (pública e particular) a porcentagem de alunos que trabalha é igualmente encontrada. Se a análise ficasse restrita às freqüências, teríamos dificuldade ao tentar estabelecer rapidamente diferenças (ou semelhanças) ligadas ao trabalho em termos do tipo de escola. Quando calculamos as porcentagens em relação aos totais de coluna, denominamos essa análise de perfil coluna, uma vez que a comparação será entre as colunas. Por outro lado, quando calculamos as porcentagens tomando, como total na fórmula de %, os totais de linha, denominamos essa análise de perfil linha. Exemplo do cálculo de perfil linha: 9 As porcentagens podem aparecer em uma tabela de distribuição de freqüências tanto como uma coluna de números entre parênteses adjacente à respectiva coluna de freqüências, sem título no cabeçalho (exemplo: tabela 3), como uma coluna de números adjacente à respectiva coluna de freqüências, intitulada “%” (exemplo: tabela 2). 28 Tabela 5. Distribuição de freqüências, em números absolutos e relativos, da variável Trabalha dos alunos do 3º ano do Ensino Médio da rede pública da cidade de Marília em 03/10/2002, segundo o gênero. Gênero Masculino Feminino Total Trabalha freqüência freqüência freqüência Sim 6 (54,5) 5 (45,5) 11 (100,0) Não 9 (56,3) 7 (43,7) 16 (100,0) Total 15 (55,6) 12 (44,4) 27 (100,0) Por meio da tabela 5, observamos que mais da metade dos alunos da sala do 3º ano do Ensino Médio é do gênero masculino. Tanto entre os alunos que trabalham como entre os alunos que não trabalham, a porcentagem de alunos do gênero masculino é próxima àquela da presença masculina na amostra, i.e., entre os alunos que trabalham a maioria é do gênero masculino e também entre aqueles que não trabalham, a maioria é do gênero masculino. A opção de escolha entre o cálculo do perfil coluna ou do perfil linha é feita pelo pesquisador e depende do objetivo da pesquisa, uma vez que a leitura/interpretação dos resultados é destinada a atender os objetivos propostos. Alguns pesquisadores optam por apontar na tabela tanto o perfil linha como o perfil coluna, colocando ao lado das freqüências entre parênteses o perfil linha e abaixo das freqüências, também entre parênteses, o perfil coluna. As tabelas 1, 2, 3 e 4 apresentam as distribuições de freqüência de dados (variáveis) qualitativos nominais. Posto que dados nominais são apenas “rotulados”, não apresentando qualquer forma de graduação, as categorias dessas distribuições não precisam ser construídas em nenhuma ordem específica. Em contraste, as categorias das variáveis ordinais representam o grau em que uma característica particular está presente. O arrolamento de tais categorias dessas variáveis nas distribuições de freqüências deve ser feito de tal forma que respeite essa ordem. Por essa razão, as categorias ordinais são sempre dispostas em ordem. Como exemplo, observemos a tabela 6 abaixo, referente à variável grau de instrução presente no Quadro 1. 29 Tabela 6. Distribuição de freqüências do grau de instrução dos pais dos alunos do 3º ano do Ensino Médio da rede pública da cidade de Marília em 03/10/2004. Grau de instrução freqüência Ensino Fundamental 13 Ensino Médio 9 Ensino Superior 5 Total 27 Observando a tabela 6, temos que à medida que aumenta o grau de instrução diminui a freqüência de pais de alunos do 3º ano do Ensino Médio em estudo. Perturbar a ordem de categorias ordinais reduz a legibilidade das informações. Tal efeito pode ser observado na tabela 7, na qual apresentamos uma versão “incorreta” da distribuição apresentada na tabela 6. Tabela 7. Distribuição de freqüências do grau de instrução dos pais dos alunos do 3º ano do Ensino Médio da rede pública da cidade de Marília em 03/10/2004. Grau de instrução freqüência Ensino Fundamental 13 Ensino Superior 5 Ensino Médio 9 Total 27 Exercícios 1. Construa tabelas de distribuição de freqüências para as variáveis: “grau de instrução do pai”, “grau de instrução da mãe” e “pretende cursar Ensino Superior” do quadro 1 (página 24). 2. Construa tabelas de contingência para as variáveis: “Pretende cursar Ensino Superior” versus “Trabalha”; “Pretende cursar Ensino Superior” versus gênero; “Pretende cursar Ensino Superior” versus “Grau de instrução do pai” do quadro 1 (página 24). 30 3. Total de docentes por titulação máxima, segundo a categoria da IES de vínculo. Categoria da IES de vinculo Doutorado Mestrado Especialização Graduação Notório Saber TOTAL Privada 20733 63201 57196 20092 25 161247 Pública 40597 27461 15016 7704 15 90793 TOTAL 61330 90662 72212 27796 40 252040 Fonte: SINAES (http://sinaes.inep.gov.br:8080/sinaes/), acesso em 22/02/2007. Obtenha os perfis percentuais linha e coluna e faça a leitura dos resultados por aquele que considerar mais adequado. 4. Total de Cursos de Graduação do Brasil, segundo a região do curso. Região Curso Graduação Presencial Curso Graduação a Distancia Curso Tecnológico Presencial Curso Tecnológico a Distancia TOTAL f Centro-Oeste 2034 19 304 3 2360 Nordeste 4101 90 414 2 4607 Norte 1506 26 141 2 1675 Sudeste 9942 88 2238 4 12272 Sul 4186 48 653 23 4910 TOTAL 21769 271 3750 34 25824 Fonte: SINAES (http://sinaes.inep.gov.br:8080/sinaes/), acesso em 22/02/2007. Calcule o perfil coluna percentual, arredondando os valores para inteiro, e faça a leitura dos resultados. Distribuição de Freqüências de Dados Quantitativos Veremos agora a construção de tabelas de distribuição de freqüências de variáveis quantitativas, bem como as interpretações que podemos fazer sobre essas distribuições. Variáveis discretas A construção de tabelas de distribuição de freqüências de dados resultantes de variáveis discretas, quando não houver grande quantidade de diferentes valores observados, pode ser feita 31 do mesmo modo que uma distribuição de freqüência de dados qualitativos ordinais. Quando a variável apresentar um grande número de diferentes valores, podemos usar a construção usada para as variáveis contínuas. Como exemplo, usaremos os dados da variável número de irmãos, presente no Quadro 1. A tabela 8 apresenta a distribuição de freqüências desses dados, construída por meio da contagem das repetições de cada resultado observado. Tabela 8. Distribuição de freqüências, em números absolutos e relativos, do nº de irmãos dos alunos do 3º ano do Ensino Médio da rede pública da cidade de Marília em 03/10/2002. Nº de irmãos f % 0 2 7,4 1 7 26,0 2 10 37,0 3 6 22,2 4 2 7,4 Total 27 100 A tabela 8 nos mostra que o nº de irmãos mais freqüente entre os alunos é 2 irmãos. Ainda, a maioria (85,2%) dos alunos têm entre 1 e 3 irmãos. Variáveis Contínuas Os valores das variáveis quantitativascontínuas espalham-se, muitas vezes, ao longo de uma extensa amplitude (diferença entre o maior valor da distribuição e o menor valor da distribuição), o que torna a distribuição de freqüências resultante não só longa, mas, também difícil de visualizar as tendências gerais dos dados. Além disso, para essas variáveis não faz muito sentido contar as repetições de cada resultado, pois, considerando que dificilmente os resultados se repetem, não chegaríamos a um resumo apropriado dos dados observados. Tomemos como ilustração a distribuição apresentada na tabela 9 a seguir. 32 Tabela 9. Taxa de urbanização de 52 cidades brasileiras, em 2002 (dados fictícios). Taxa f 55 1 56 1 57 1 58 1 59 2 60 3 61 4 62 4 63 5 64 4 66 4 68 3 69 2 73 4 75 3 77 3 80 2 84 2 88 1 91 1 94 1 Total 52 Nesse caso, a grande extensão da tabela dificulta, tanto quanto os dados brutos, a leitura e a interpretação dos resultados apurados. Esse fato impossibilita ou dificulta a visualização do comportamento e tendência da população amostrada como um todo. Por esse motivo recomenda- se nesses casos o agrupamento dos dados em classes. 33 DEFINIÇÕES: (1) AMPLITUDE TOTAL (AT): é a diferença entre o maior e o menor valor observado da variável em estudo. (2) Classes ou intervalos de classe: são os intervalos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Esses intervalos devem ser mutuamente exclusivos, tais que, quando reunidos, abrangem todo o conjunto de dados. Em outras palavras, as classes devem ser construídas de tal forma que todo resultado observado pertença a uma e apenas uma classe. Por simplicidade, e para facilitar a interpretação, consideraremos todas as classes com a mesma amplitude. (3) O Símbolo a | b indica a inclusão do valor a no intervalo e exclusão do valor b no intervalo. O símbolo a | b indica a exclusão do valor a no intervalo e a inclusão de b no intervalo. O símbolo a || b indica a inclusão de a e b no intervalo. O símbolo a ─ b indica a exclusão de a e b no intervalo. (4) Limite de classe: são os valores extremos do intervalo de classe, sendo o menor valor o limite inferior da classe e o maior valor, o limite Ensino Superior da classe. (5) Tamanho (ou amplitude) do intervalo de Classe (TC): é o comprimento da classe, sendo geralmente definida como a diferença entre seus limites Ensino Superior e inferior. É recomendável construir tabelas onde os intervalos de classe sejam iguais, i.e., de tamanho igual. Determinação do Número de Intervalos de Classe Para apresentar os dados sob a forma de distribuição de freqüências agrupadas, devemos levar em conta o número de classes que iremos empregar. Se esse número for pequeno, perde-se informação, uma vez que os dados originais ficarão comprimidos, deixando de evidenciar algumas características relevantes. Por outro lado, se forem utilizadas muitas classes, o objetivo de resumir os dados fica prejudicado, não realçando aspectos relevantes da distribuição. Alguns 34 autores aconselham um número de 5 a 20 classes, outros apresentam uma fórmula (de Sturges) para determinar o número ideal de classes. O número de classes, em uma distribuição de freqüências, é representado por K. A regra de Sturges estabelece que o número de classes é igual a: K = 1 + 3,22log10 n onde n = número de indivíduos (ou respostas) obtidas para a variável em estudo. Para obter exemplos da aplicação da fórmula de Sturges, veja Toledo e Ovalle (1983, p.55). Os exemplos acima mencionados revelam um dos inconvenientes resultantes da aplicação da fórmula de Sturges, que é o de propor um número demasiado de classes para um número pequeno de observações e, relativamente, poucas classes, quando o total de observações for grande. É importante que a distribuição conte com um número adequado de classes, para tal a escolha de k deve contar com a familiaridade do pesquisador com os dados, que lhe indicará quantas e quais classes devem ser usadas. ROTEIRO PARA A ELABORAÇÃO DE UMA TABELA DE FREQUÊNCIAS COM DADOS AGRUPADOS EM CLASSES Para a construção de uma tabela de freqüências, é conveniente adotar-se um roteiro que, embora baseado em critérios relativamente arbitrários, facilita e torna mais operacional o trabalho de quem irá montar a tabela. O roteiro proposto consta dos seguintes passos: (a) Encontrar a AT do conjunto de valores observados (b) Escolher o número de classes, que chamaremos de K. Alguns autores propõem que se escolha entre um número mínimo de 5 e máximo de 20 classes, ressaltando , todavia, que quanto maior o número de observações, maior deverá ser o número de classes e vice-versa. (c) Determinar o tamanho do intervalo de classe (TC), através de: TC = AT K Quando chegarmos a um resultado não muito conveniente, convém arredondar o valor do tamanho do intervalo de classe (TC) para um número mais adequado, que facilite os cálculos. (d) Determinar os limites das classes, escolhendo-se, preferencialmente, números inteiros. (e) Construir a tabela de freqüências. 35 PONTO MÉDIO (PM): é o valor que representa a classe, para efeito de cálculo de outras estatísticas. PM = Limite inferior da classe + Limite Ensino Superior da Classe 2 Representações Gráficas É fato conhecido que as informações numéricas são mais facilmente assimiladas quando são apresentadas na forma de gráficos, uma vez que fornecem, em geral, uma visualização mais fácil e legível das informações do que as tabelas. Iniciamos apresentando o gráfico de setores e o gráfico de barras, que são particularmente úteis na representação de distribuições de freqüências de dados categorizados. Gráfico de Setores O gráfico de setores (ou setorial) é um dois mais simples recursos gráficos, posto que consiste em um círculo cujos setores, i.e., partes do mesmo círculo, soma 100%. Assim, para construir um gráfico de setores, basta fazer uma relação entre um ângulo, em graus, e a freqüência observada em cada categoria, lembrando que um círculo tem 360°. Divide-se, desse modo, a área total de um círculo em subáreas (setores) proporcionais às freqüências. setor (categoria) = 360° x (f N), onde f = freqüência da categoria; N = total ode indivíduos observados 36 Exemplo: Distribuição dos Cursos de Graduação do Brasil, pelas regiões do país. Região Nº de cursos de Graduação Área Centro-Oeste 2360 33° Nordeste 4607 64° Norte 1675 23° Sudeste 12272 171° Sul 4910 69° TOTAL 25824 360° Fonte: SINAES (http://sinaes.inep.gov.br:8080/sinaes/), acesso em 22/02/2007. Temos que: setor (Centro-Oeste) = 360° x 2360/25824 = 33° setor (Nordeste) = 360° x 4607/25824 = 64° setor (Norte) = 360° x 1675/25824 = 23° setor (Sudeste) = 360° x 12272/25824 = 171° setor (Sul) = 360° x 4910/25824 = 69° Distribuição percentual dos cursos de Graduação no Brasil, por região (N = 25824) 9% 18% 6% 48% 19% Centro-Oeste Nordeste Norte Sudeste Sul Fonte: SINAES (http://sinaes.inep.gov.br:8080/sinaes/), acesso em 22/02/2007. 37 O gráfico de setores tem apelo visual muito grande e deve ser usado quando se quer passar informação geral. Entretanto, ele não é muito adequado para a representação gráfica de variáveis com muitas categorias (exemplo, no estudo do mês do nascimento do aluno), quando se deseja transmitir padrões de comportamento,tendências ou precisão. Gráfico de Barras Verticais O gráfico de barras verticais (ou colunas) visa comparar grandezas por meio de retângulos de igual largura e alturas proporcionais às respectivas grandezas. Na construção desse tipo de gráfico, marcamos as categorias na linha de base horizontal (ou eixo dos X) e as respectivas freqüências (ou freqüências relativas - %) são localizadas na linha vertical (ou eixo dos Y). As freqüências de cada categoria são indicadas, então, por barras retangulares, que só devem diferir em comprimento, e não em largura, a qual é arbitrária. Quanto mais alta a barra, maior a freqüência de ocorrência. Salientamos, ainda, que as barras devem vir separadas umas das outras pelo mesmo espaço, o qual deve ser suficiente para que as legendas que identificam as diferentes barras não tragam confusão ao leitor 10 . Quando, entretanto, as legendas não forem breves, é preferível usarmos o gráfico de barras horizontais, que se prestam à mesma finalidade que os gráficos de barras verticais. A única diferença entre os gráficos de barras horizontais e os de barras verticais reside na direção dos retângulos. Exemplo: População de docentes do Ensino Superior do país, por região. Região Nº de docentes Norte 12006 Centro-Oeste 20914 Nordeste 40270 Sul 50319 Sudeste 117966 Total 241475 Fonte: SINAES (http://sinaes.inep.gov.br:8080/sinaes/); acesso em 21/02/2007. 10 Como regra prática, alguns autores, sugerem tomar o espaço entre as barras como aproximadamente a metade de suas larguras. 38 População de docentes das Instituições de Ensino Superior do país, por região (N=241475) 0 20000 40000 60000 80000 100000 120000 Norte Centro- Oeste Nordeste Sul Sudeste região Nº d e d oc en tes Fonte: SINAES (http://sinaes.inep.gov.br:8080/sinaes/); acesso em 21/02/2007. O gráfico de setores ilustra, de modo fácil e rápido, dados que podem ser subdivididos em algumas categorias. Comparativamente, o gráfico de barras pode “acomodar” qualquer quantidade de categorias e, portanto, é mais usado em pesquisas. Para efetuar uma análise comparativa de várias distribuições, podemos construir um gráfico de barras múltiplas (ou agrupadas). Exemplo: Taxa de mortalidade infantil/por mil por sexo. Homens Mulheres Região % % Norte 37,8 27,3 Nordeste 58,9 46,3 Sudeste 29,7 21,5 Sul 25,9 19,6 Centro-Oeste 28,8 23,4 Brasil 39,4 30,0 Fonte: IBGE/DPE/Depto. de População e Indicadores Sociais. Estimativas referem-se, em média, ao período de 1993/1994. 39 Taxa de mortalidade infantil/mil por sexo 0 15 30 45 60 Norte Nordeste Sudeste Sul Centro- Oeste região ta xa /m il Homens Mulheres Histograma O Histograma é um gráfico usado para a representação de distribuições de freqüências de variáveis quantitativas. Sua construção é feita de modo análogo ao gráfico de colunas com os retângulos, entretanto, justapostos. Neste gráfico, as barras são unidas a fim de respeitar (e enfatizar) a noção de ordem de grandeza das classes (do valor menor para o maior). Em um histograma, sobre cada classe tem-se um retângulo, cuja altura corresponde à freqüência observada desta classe. No caso de dados agrupados em intervalos de classe, são os pontos médios dos intervalos de classe que se colocam no eixo dos X. Exemplo: retomando a distribuição de freqüências apresentada na tabela 6, referente ao nº de irmãos dos alunos da 5ª série, podemos construir o histograma apresentado a seguir. Histograma referente ao nº de irmãos dos alunos da 5ª série matutina da rede pública de Marília 0 2 4 6 8 10 12 0 1 2 3 4 Nº de irmãos f Podemos dizer que o histograma seja uma “versão” do gráfico de barras para as variáveis quantitativas. Nos gráficos de barras, onde a variável observada é nominal, as barras são 40 apresentadas separadamente, ao passo que nos histogramas, em que a variável analisada é quantitativa, as barras são colocadas justapostas. Polígono de Freqüências Outra representação gráfica comumente usada é o polígono de freqüências. Este tipo de gráfico é bastante usado para mostrar tendências/padrões, tendendo a sugerir muito mais continuidade do que discriminação; daí sua particular utilidade na representação de dados longitudinais 11 e quantitativos. Para construí-lo, toma-se a categoria ou o valor da variável (ponto médio, no caso de uma classe), que chamaremos, aqui, por x e a correspondente freqüência (f). Colocam-se os pares (x, f) como pontos num par de eixos cartesianos. Esses pontos são, a seguir, unidos por segmentos de retas, ligando os pontos extremos ao eixo horizontal 12 . Exemplo: Distribuição do rendimento mensal (em salários mínimos – s.m.) de 40 pessoas entrevistadas em Marília, em 11/10/2002 (dados fictícios). Rendimento (em s.m.) f Ponto Médio (x) 0 | 4 23 2 4 | 8 9 6 8 | 12 4 10 12 | 16 2 14 16 | 20 2 18 Total 40 11 Alguns autores também denominam este tipo de representação gráfica por Gráfico de Linhas, quando construído para variáveis ordinais. 12 Quando construído para variáveis ordinais, não ligamos os pontos extremos ao eixo horizontal. 41 Distribuição da renda (em s.m.) de 40 pessoas entrevistadas em Marília em 11/10/2002 0 5 10 15 20 25 0 2 6 10 14 18 22 renda (em s.m.) f Exemplo: Popularidade do governo FHC. Grau de aprovação da maneira como FHC estava administrando o país, em 1999. aprovação desaprovação Fev/96 60 29 Mar/97 70 22 Out/97 60 30 Jan/98 57 33 Mar/98 54 36 Jul/98 60 30 Dez/98 60 38 Mar/99 35 56 Fonte:Jornal Estado de São Paulo de 09/04/99. Grau de aprovação da maneira como o preseidene FHC estava administrando o país, em 09/04/99. 0 10 20 30 40 50 60 70 80 Fe v/ 96 A go /9 6 Fe v/ 97 A go /9 7 Fe v/ 98 A go /9 8 Fe v/ 99 mês % aprovação desaprovação 42 Finalizando o tema representações gráficas, devemos salientar que, embora os gráficos constituam excelente forma de apresentar dados, eles podem também servir para enganar, uma vez que o visual deles pode estar “maquiado”, por meio da ausência da apresentação da escala ou por distorções entre a relação entre os eixos X e Y. Sem escalas, aumentos irrisórios podem ser transformados em “aumentos evidentes”, pelo menos visualmente (exemplo: Sonia Vieira, p. 33 – “O que é Estatística”). As distorções entre a proporção entre os eixos X e Y podem ser obtidas, puxando o gráfico no sentido vertical (“acentua” a tendência observada no gráfico – exemplo: Vieira, p. 35) ou puxando o gráfico no sentido horizontal (“ameniza” ou “esconde” a tendência observada no gráfico). A impressão também é falsa se tirarmos parte do gráfico. O crescimento (ou decrescimento) da curva fica muito mais impressionante. Desse modo, devemos prestar atenção nos gráficos, pois o visual pode estar “maquiado”. Exercícios 1. Construa uma representação gráfica para as distribuições abaixo. (a) Total de docentes por titulação máxima, segundo a categoria da IES de vínculo. Categoria da IES de vinculo Doutorado Mestrado Especialização Graduação Notório Saber TOTAL Privada 20733 63201 57196 20092 25 161247 Pública 40597
Compartilhar