Baixe o app para aproveitar ainda mais
Prévia do material em texto
Código Logístico 58573 Fundação Biblioteca Nacional ISBN 978-85-387-6484-7 9 7 8 8 5 3 8 7 6 4 8 4 7 Estatística Aplicada IESDE BRASIL S/A 2019 Cesar Akira Yokomizo Todos os direitos reservados. IESDE BRASIL S/A. Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200 Batel – Curitiba – PR 0800 708 88 88 – www.iesde.com.br CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ Y53e Yokomizo, Cesar Akira Estatística Aplicada / Cesar Akira Yokomizo. - 1. ed. - Curitiba [PR] : IESDE Brasil, 2019. 178 p. Inclui bibliografia ISBN 978-85-387-6484-7 1. Estatística. 2. Probabilidades. I. Título. 19-57060 CDD: 519.5 CDU: 519.2 © 2019 – IESDE BRASIL S/A. É proibida a reprodução, mesmo parcial, por qualquer processo, sem autorização por escrito do autor e do detentor dos direitos autorais. Projeto de capa: IESDE BRASIL S/A. Imagem da capa: everything possible/Sergey Nivens/Shutterstock Cesar Akira Yokomizo Doutor e mestre em Administração de Empresas pela Universidade de São Paulo (USP), mestre em Administração de Empresas pela Fundação Getulio Vargas (FGV-SP), especialista em Engenharia de Redes e Sistemas de Telecomunicações pelo Instituto Nacional de Telecomunicações (Inatel), economista e engenheiro da computação pela Universidade de São Paulo (USP). Docente da Fundação Instituto de Administração (FIA-SP) e do Senac São Paulo. Professor convidado em escolas de negócios de referência. Palestrante profissional e consultor autônomo em estratégia organizacional e gestão da inovação. Utiliza os métodos quantitativos aplicados aos negócios. Tem experiência profissional com projetos técnicos e de gestão em organizações públicas e privadas no Brasil, França, Alemanha e Portugal. Sumário Apresentação 7 1 Estatística descritiva: conceitos e aplicações 9 1.1 Pesquisa 10 1.2 Pesquisa quantitativa 13 1.3 Métodos estatísticos: a estatística descritiva 19 2 Estatística descritiva: análise de dados 25 2.1 Tipos de variáveis 25 2.2 Distribuição de frequências 31 2.3 Gráficos 34 3 Estatística descritiva: medidas-resumo 41 3.1 Medidas de posição 41 3.2 Medidas de dispersão 49 3.3 Gráfico box-plot 54 4 Noções de probabilidade 59 4.1 Propriedades 60 4.2 Probabilidade condicional 64 4.3 Teorema de Bayes 67 5 Distribuições de probabilidade 73 5.1 Valor médio de variável aleatória discreta 75 5.2 Distribuição de Bernoulli 80 5.3 Distribuição binomial 81 5.4 Distribuição hipergeométrica 83 5.5 Distribuição de Poisson 85 6 Inferência estatística: amostragem 91 6.1 Variável aleatória contínua normal 92 6.2 Função de densidade de probabilidade normal 96 6.3 População e amostra 101 6.4 Amostragem 103 7 Inferência estatística: estimação 109 7.1 Métodos quantitativos: inferência estatística 109 7.2 Estimação por ponto 111 7.3 Estimação por intervalo 113 8 Inferência estatística: teoria da decisão 131 8.1. Teste de hipótese para média 132 8.2 Teste de hipótese para proporção 143 9 Introdução à análise multivariada de dados: regressão e correlação 149 9.1 Associação entre variáveis quantitativas 150 9.2 Estimação dos parâmetros 152 9.3 Modelos preditivos 158 Gabarito 163 Apresentação A área dos métodos quantitativos, em particular a estatística, é historicamente considerada muito difícil e, portanto, reservada a alguns poucos capazes de entendê-la. Porém, nos anos recentes, por conta do avanço computacional, os cálculos, embora difíceis e desafiantes, tornam- -se necessários, pois abrem espaço para a tomada de decisão qualificada cujo alicerce reside nos resultados obtidos. Nesse contexto, áreas diversas, como as ciências sociais, ciências naturais, ciências da saúde, ciências sociais aplicadas, ciências exatas, apenas para citar algumas, têm incluído crescentemente o uso da estatística em suas pesquisas e se apropriado dos novos achados. Também no mundo corporativo, o uso da estatística tem possibilitado iniciativas que ampliam a competitividade das organizações. Esta é a área da estatística aplicada: a junção das técnicas estatísticas com a realidade organizacional ou social. Como precedente da análise de dados, é necessário um aprofundamento sobre o objetivo da pesquisa a ser desenvolvida. Esse objetivo ultrapassa a fronteira do cálculo e invade a compreensão do assunto específico. Por isso, ele precisa trazer alguma contribuição para o indivíduo, para a organização ou para a sociedade. Nesta obra, você aprenderá a pensar em objetivos melhores para a sua pesquisa, pois somente com uma inequívoca declaração do objetivo será possível entender qual é a técnica estatística que melhor contribui para que o pesquisador alcance aquele propósito. Portanto, objetivo da pesquisa e objetivo específico da técnica estatística precisam ser convergentes. Nesse contexto, esta obra apresentará três técnicas estatísticas, a saber: (1) estatística descritiva, (2) inferência estatística e (3) regressão linear simples. Ao conhecer os propósitos de cada uma, será possível eleger a técnica mais adequada para a pesquisa. A primeira técnica a ser apresentada será a estatística descritiva. Por meio de tabelas, gráficos e medidas estatísticas, ela tem o intuito de descrever um conjunto de dados. Com base nessa descrição, será possível identificar se os indivíduos têm comportamentos parecidos (grupo homogêneo) ou se os comportamentos são diferentes (grupo heterogêneo). Isso é particularmente interessante para a tomada de decisão, pois, sobre grupos mais homogêneos, espera-se que as iniciativas sejam mais assertivas. É o que acontece, por exemplo, quando uma empresa elege um público-alvo e, assim, segmenta o mercado. A próxima técnica a ser apresentada será a inferência estatística. Pesquisas de campo para coleta de dados costumam ser custosas, demoradas e, muitas vezes, operacionalmente difíceis de conduzir. Por isso, é raro pesquisar toda a população (censo). Imagine, então, poder chegar a resultados próximos daqueles que seriam observados se toda a população fosse pesquisada, mas com base em apenas uma parte dessa população. A inferência estatística permite isso, pois produz Estatística Aplicada8 afirmações sobre o todo considerando apenas parte desse todo. Pesquisas eleitorais de intenção de voto, por exemplo, lançam mão dessa técnica. Por fim, a última técnica a ser apresentada será a regressão linear simples. Suponha que exista uma relação preditiva entre os anos de educação de uma pessoa e seu salário. Que fantástico seria se pudéssemos estimar uma variável de interesse, o salário, por exemplo, baseando-se em outra variável, anos de educação. A técnica de regressão linear simples possibilita gerar modelos preditivos: com base em um histórico, pretende-se predizer sobre o futuro. Embora existam outras técnicas estatísticas, essas três trazem uma contribuição enorme ao uso prático dos métodos quantitativos para a tomada de decisão. Nas discussões recentes sobre a robotização e a consequente substituição (ou eliminação) do trabalho humano, algumas previsões dão conta de que muitas profissões e muitas atividades que hoje são desenvolvidas por nós, humanos, deixarão de existir. Quando nos detemos mais especificamente para o avanço computacional nos métodos quantitativos, é surpreendente a velocidade e o poder de processamento das máquinas. Dificilmente um ser humano será tão rápido e tão preciso quanto a máquina na execução das contas. Mas a genialidade humana, felizmente, não repousa aí: ela está em ter uma visão holística de um ambiente complexo e nele decidir. Especificamente para as pesquisas em estatística aplicada, há dois momentos em que essa genialidade aparece: (1) no planejamento da pesquisa de campo, desde a concepção do objetivo até seu desenvolvimento, e (2) na tomada de decisão qualificada e aplicada, com base nos resultados obtidos. Aliás, é aí que reside competitividade das organizações ou a expansão do conhecimento da humanidade. E, nesse ponto, portanto, máquina nenhuma nos substituirá.Seja bem-vindo a esta obra e use-a para tomar decisões melhores. Uma boa leitura! 1 Estatística descritiva: conceitos e aplicações Muitos associam os métodos quantitativos e, particularmente, a estatística a cálculos complicados e resultados que pareçam ter pouca aplicabilidade em nosso dia a dia. Ledo engano. A estatística está menos restrita a números em si e tem, cada vez mais, contribuído de forma decisiva no suporte à tomada de decisão qualificada em diferentes áreas do conhecimento, como marketing, finanças, logística, operações, gestão de pessoas, economia e contabilidade. Por um lado, o avanço computacional nos anos recentes contribuiu para que cálculos complicados pudessem ser automatizados, reduzindo o tempo de execução de uma pesquisa de forma jamais vista antes. Por outro lado, a tomada de decisão, em especial no mundo dos negócios, tem sistematicamente migrado de uma ênfase mais subjetiva para uma abordagem em que o embasamento quantitativo tenha papel de destaque. Os métodos quantitativos são utilizados para extrair informações potencialmente úteis, com base em dados disponíveis (ou feitos disponíveis), de modo que gestores consigam tomar decisões sistematicamente melhores. Nesse sentido, é necessário entender o conceito de pesquisa quantitativa e como esse conceito direciona os métodos quantitativos mais adequados para cada situação. Ao longo deste capítulo, teremos como objetivo descrever quais são as relações entre pesquisa, pesquisa quantitativa e métodos quantitativos, expor como conduzir uma pesquisa quantitativa, com base no desenvolvimento de um questionário, e descrever as relações entre métodos quantitativos e tomada de decisão. Imaginemos este cenário: alguém X sabe preparar um delicioso bolo de chocolate. Em determinado momento do processo de elaboração do tal bolo, alguém X sabe que precisa incluir fermento para que a massa do bolo cresça e, assim, o bolo fique fofinho e delicioso. Ainda que alguém X não consiga explicar exatamente o motivo, sabe que o fermento faz o bolo crescer. É evidente que não conseguir explicar o crescimento do bolo não descaracteriza o conhecimento que existe na elaboração do bolo. Esse tipo de conhecimento pode ser considerado “popular” (também chamado de senso comum) e é passível de ser transmitido entre gerações pela educação informal e, muitas vezes, com base na imitação e na experiência pessoal. Agora, nesse mesmo contexto, imaginemos que alguém Y esteja curioso acerca dos reais ou verdadeiros motivos que fazem o bolo crescer com base na aplicação do fermento e comece a investigar propriedades do ingrediente. Eis que, em dado momento, alguém Y descobre que o fermento, quando adicionado à massa, promove processos químicos e biológicos que acabam produzindo compostos gasosos, e são esses gases que expandem a massa, dando origem a pequenos buracos e, como consequência, o bolo fica macio. É de notar que a natureza desse outro tipo de conhecimento é diferente da primeira. Esse conhecimento tem caráter mais científico e é passível Estatística Aplicada10 de transmissão por meio de capacitação adequada, sendo um conhecimento obtido por meio de procedimentos científicos, de maneira mais lógica e racional (MARCONI; LAKATOS, 2010). O que diferencia ambos os casos são os métodos e os instrumentos que resultaram no conhecimento: como é que se chegou a determinada conclusão? Nesse contexto, convém distinguir pesquisa e método. De maneira coloquial, pesquisa é o quê se pretende investigar, e método é como se pretende investigar. Assim, há geração de conhecimento com uma base menos popular e, portanto, mais científica. É evidente que o quê e como estão proximamente relacionados, mas é particularmente importante destacar a relação cronológica de ambos em uma investigação: primeiramente, define-se o quê e, apenas depois, define-se como. Tanto a pesquisa quanto os métodos podem ter natureza qualitativa ou quantitativa. Para fins deste material, a pesquisa e os métodos quantitativos são de particular interesse. É esse o motivo pelo qual, a seguir, serão abordados os seguintes temas: pesquisa, pesquisa quantitativa e métodos quantitativos. 1.1 Pesquisa A pesquisa, também usualmente chamada de investigação ou estudo, é um processo sistemático para a construção do conhecimento humano, seja pela geração de novos conhecimentos, seja pela contribuição para o detalhamento, a refutação, a ampliação ou a atualização de conhecimentos preexistentes. Em caráter geral, trata- se do conjunto de atividades orientadas e planejadas pela busca do conhecimento. É da natureza da pesquisa seu caráter científico, pois pressupõe que seus achados tenham como pilares provas observáveis, empíricas e mensuráveis. Com base na formulação e em testes de hipóteses, dados são coletados por meio da observação e experimentação. É nesse ponto que se distingue ciência e opinião (ou, como apresentado, senso comum). Por exemplo, suponha que um empresário perceba que o lucro de sua empresa de produção de lâmpadas esteja em queda constante. Uma de suas hipóteses é que a linha de produção esteja ineficiente, por isso, decide coletar dados diretamente nas lâmpadas que saem da linha de produção. Para sua surpresa, é constatado que 63% das lâmpadas são produzidas com defeitos, portanto há evidência de que a linha de produção está com problemas. É importante notar que o fato de 63% das lâmpadas estarem com defeito não é apenas opinião, mas uma evidência irrefutável. Ademais, é de sistematizar o raciocínio da pesquisa: • formulação da hipótese: linha de produção ineficiente; • coleta de dados nas lâmpadas que saem da linha de produção; e • dados observáveis: 63% das lâmpadas estão com defeitos. Do ponto de vista da gestão, no mesmo exemplo da produção de lâmpadas, a coleta de dados e a identificação de 63% de lâmpadas com defeitos permitem que o gestor proponha ações como suspensão imediata da produção, para evitar mais desperdício, ou mesmo a contratação de outra pesquisa, para identificar e descrever Vídeo Estatística descritiva: conceitos e aplicações 11 com mais precisão quais são as causas exatas dos defeitos (será que se trata de uma anomalia no maquinário? Problemas de calibragem dos equipamentos? Ou imperícia por parte dos funcionários da produção?). É de enfatizar que o uso mais notável da pesquisa não é o cálculo complexo em si, mas as melhores decisões que podem ser tomadas com base em tais cálculos. Assim, do ponto de vista da gestão, a pesquisa não é o fim em si, mas o meio pelo qual o gestor consegue tomar decisões melhores. Embora muitas vezes haja uma tentação de se partir diretamente para a coleta de dados (o que é compreensível, muitas vezes, por conta da urgência causada pela escassez de tempo ou pela ansiedade de se chegar rapidamente aos resultados), o primeiro passo no planejamento de uma pesquisa é a definição clara de um objetivo. É comum a declaração de objetivo enfatizar o cálculo que será feito ou o método da pesquisa que será utilizado. Exemplo (ruim): “o objetivo desta pesquisa é calcular medidas estatísticas da produção de lâmpadas em nossa empresa”. Outro exemplo (ruim): “o objetivo desta pesquisa é entrevistar funcionários da linha de produção da nossa empresa”. Essas declarações não refletem a real intenção daquele que planeja a pesquisa ou, pelo menos, podem ser consideradas imprecisas ou incompletas. É preferível a seguinte declaração de objetivo: “o objetivo da pesquisa é aumentar a eficiência da produção de lâmpadas em nossa empresa” (exemplo bom). Para isso, eventualmente, medidas estatísticas podem ser calculadas e entrevistas com funcionários da linha de produção podem ser conduzidas. Portanto, o objetivo fim da pesquisa não é apenas “calcular medidas estatísticas” ou “entrevistar funcionários da linha de produção”, mas “aumentar a eficiência da produção de lâmpadas”, como pode ser observado no Quadro 1 a seguir. Quadro 1 – Exemplo de objetivo de pesquisaObjetivo primário (principal) Objetivos secundários Aumentar a eficiência da produção de lâmpadas em nossa empresa. Calcular medidas estatísticas da produção de lâmpadas em nossa empresa. Entrevistar funcionários da linha de produção de nossa empresa. Fonte: Elaborado pelo autor. Com base em uma declaração de objetivo nobre, é necessário identificar qual é o tipo de pesquisa e quais são os métodos de pesquisa que podem contribuir mais decisivamente para atingir esse objetivo. Em linhas gerais, existem dois tipos de pesquisas: pesquisa qualitativa e pesquisa quantitativa. Além de cada tipo apresentar procedimentos e métodos específicos, eles se distinguem na natureza intrínseca. A pesquisa qualitativa tem como natureza a profundidade, portanto, a pertinência para adoção de uma pesquisa qualitativa está na tentativa de identificar e descrever detalhes de um dado fenômeno de interesse por meio da observação, da narrativa ou da percepção. O interesse repousa nas particularidades e experiências individuais. Fenômenos que requerem uma vertente mais qualitativa são aqueles que apresentam algum tipo de interesse, seja por sua reconhecida particularidade, seja por sua relação com o pesquisador. Exemplo: “identificar e descrever as iniciativas internas que promovem a inovação no Google (que é considerada uma Estatística Aplicada12 organização reconhecidamente inovadora, portanto de interesse em uma pesquisa sobre inovação)”. Outro exemplo: “identificar e descrever as percepções dos funcionários quanto às condições de trabalho em nossa empresa”. Por outro lado, a pesquisa quantitativa busca a generalização. O interesse é identificar e descrever preferências e tendências em geral. O objetivo é descrever (e, talvez, até mesmo compreender) os fenômenos por meio da coleta de dados numéricos, que apontarão preferências, comportamentos e outras ações dos indivíduos que pertencem a determinado grupo ou sociedade. Exemplo: “identificar qual é o percentual dos alunos que estão satisfeitos com a instituição de ensino (nota maior do que 8 em uma escala de 0 a 10)”. Outro exemplo: “com dois pontos percentuais para mais ou para menos, qual é o percentual de votos que tem um candidato na véspera do segundo turno de uma corrida eleitoral para presidência?”. A natureza de uma pesquisa qualitativa é, portanto, da busca pela profundidade e, de uma pesquisa quantitativa, é da abrangência. De maneira visual, pode-se estabelecer uma relação entre profundidade de análise desejada e abrangência ou generalização da análise, como apresentada na Figura 1 a seguir. Figura 1 – Profundidade e abrangência das pesquisas científicas Profundidade da análise Abrangência da análise Pesquisa qualitativa Pesquisa quantitativa Composição qualitativa e quantitativa Fonte: Nielsen; Olivo; Morilhas, 2018, p. 116. Se, por um lado, na pesquisa qualitativa, o estudo é conduzido sobre um ou poucos casos de interesse, por outro lado, na pesquisa quantitativa, espera-se um número de respondentes (ou de casos) “grande o suficiente”. Se o objetivo é a generalização, “grande o suficiente” significa que o conjunto de dados representa bem o fenômeno de interesse. Quanto à coleta de dados, pode-se afirmar que, na pesquisa qualitativa, ela acontece de maneira menos estruturada, podendo ter como fonte a observação de um fenômeno, a condução de uma entrevista ou de uma interação social, apenas para citar alguns exemplos. Já na pesquisa quantitativa, a coleta de dados é mais estruturada, em geral, por meio de um questionário com perguntas mais objetivas e menos passíveis à subjetividade do respondente. Espera-se que, ao final, depois dessa fase de coleta de dados, sejam aplicadas ferramentas estatísticas para a análise de dados. Nesse sentido, a pesquisa qualitativa pode ser considerada mais exploratória, mais inicial do ponto de vista da compreensão do fenômeno de interesse. De outra parte, a pesquisa quantitativa pode ser considerada mais conclusiva. Estatística descritiva: conceitos e aplicações 13 Por fim, o Quadro 2, a seguir, apresenta um resumo das principais diferenças entre pesquisa qualitativa e quantitativa. Quadro 2 – Comparação entre pesquisa qualitativa e quantitativa Pesquisa qualitativa Pesquisa quantitativa Objetivo Compreender qualitativamente as razões e as motivações subjacentes. Quantificar os dados e, eventualmente, extrapolar os resultados da amostra para a população de interesse. Estrutura da amostra Reduzido número de casos não representativos. Grande número de casos representativos. Tipo de coleta de dados Menos estruturado. Mais estruturado. Análise de dados Qualitativa, sem a utilização de ferramentas estatísticas. Quantitativa, com a utilização de ferramentas estatísticas. Conclusão A compreensão inicial do fenômeno de interesse. Um curso final de ação. Fonte: Elaborado pelo autor com base em Nielsen; Olivo; Morilhas, 2018, p. 155. A condução de uma boa pesquisa começa com a definição de um objetivo nobre, um objetivo que mereça ser investigado. Na área das ciências sociais aplicadas, da qual fazem parte a administração, a economia e a contabilidade, apenas para citar algumas, são exemplos de objetivos nobres: (a) aumentar o faturamento da minha empresa, (b) identificar países que tenham características semelhantes de desenvolvimento ou (c) identificar nível ótimo de alavancagem de determinado grupo de empresas. Com base nas características intrínsecas das pesquisas qualitativa e quantitativa, esta obra tem como enfoque a vertente quantitativa, cujos planejamento e pesquisa de campo merecem cuidados, os quais serão abordados a seguir. 1.2 Pesquisa quantitativa Como apresentado anteriormente, a pesquisa quantitativa almeja a generalização sobre determinado fenômeno de interesse, ainda que alcançar esse objetivo implique uma série de premissas e seja carregado de limitações para sua operacionalização. Uma das maneiras de se alcançar o objetivo da generalização é por meio de uma boa amostragem. Para esse ponto, convém entender a distinção e a relação entre população e amostra. Com base na declaração do objetivo da pesquisa, é necessário reconhecer quem são os objetos da pesquisa (ou objetos do estudo), e aos objetos da pesquisa é atribuído o nome de indivíduo. Por exemplo, em uma pesquisa sobre a satisfação de discentes sobre o curso que estão fazendo, cada discente regularmente matriculado é um indivíduo dessa pesquisa. É de notar, portanto, que definir quem é o indivíduo da pesquisa está intimamente ligado ao objetivo da pesquisa. Nesse sentido, deve-se perceber que, embora a nomenclatura indivíduo possa remeter a uma pessoa, isso não é obrigatório: em uma pesquisa sobre os carros de determinado município, cada carro desse município é um indivíduo da pesquisa. Vídeo Estatística Aplicada14 De volta à discussão sobre população e amostra, à totalidade dos indivíduos atribui-se a nomenclatura de população (ou universo). Na pesquisa sobre satisfação de discentes sobre o curso que estão fazendo, a população é composta por todos os discentes regularmente matriculados. No limite, cabe inclusive a discussão sobre se a população, nesse exemplo, precisa incluir também aqueles que solicitaram trancamento nos últimos seis meses. Ou excluir aqueles que, embora regularmente matriculados, não estejam frequentando as aulas há mais de quatro semanas consecutivas. Não há critério universal único: o que determina a definição da população de uma pesquisa inclui a aderência ou a compatibilidade com o objetivo da pesquisa que fora delineado, mas, em situações variadas, isso não é suficiente. Essa compatibilização, por outro lado, não trata apenas de uma vontade do pesquisador em alcançar o objetivo da pesquisa, senão também da factibilidade de acesso que terá aos indivíduos da população. Por exemplo, no caso da pesquisa de satisfação de discentes, caso a opção seja por uma coleta de dados presencial, a população pode ser definidacomo aqueles discentes que estejam regularmente matriculados e que frequentem o campus presencialmente na semana de 25 a 29 de março. Portanto, a definição sobre a população precisa compatibilizar, de um lado, o objetivo da pesquisa e, de outro, a factibilidade de acesso aos indivíduos. Uma vez entendido como definir a população, vale o comentário sobre o censo. Quando todos os indivíduos participam do estudo, a pesquisa produzirá afirmações sobre a população como um todo. É evidente que a tomada de decisão fica potencialmente mais rica quando as afirmações recaem sobre a população como um todo e não apenas sobre parte dela. Por outro lado, inspecionar todos os indivíduos pode ser uma tarefa demorada, custosa, operacionalmente difícil e, algumas vezes, até mesmo impossível. Suponha uma pesquisa eleitoral de intenção de votos para presidência: se a população puder ser definida como todos que tenham um título de eleitor válido, vale imaginar a complexidade logística para se conseguir respostas de intenção de voto de todos os indivíduos. Em outro exemplo, suponha que, em uma linha de produção de lâmpadas, precisemos mensurar o tempo médio que a lâmpada funcione até queimar. É claro que, se esperarmos cada lâmpada queimar, para, então, poder calcular a média de tempo, não restará nenhuma lâmpada no estoque para que possamos vender. Desse modo, em muitas situações do nosso dia a dia, convém considerar trabalhar com uma parte da população. Na pesquisa quantitativa, a essa parte da população atribui-se a nomenclatura de amostra. Se, por um lado, qualquer parte da população constitui uma amostra, não é toda amostra que pode ser considerada boa para fins estatísticos. Uma amostragem melhor distingue-se por estas duas características: representatividade e aleatoriedade. Uma amostra é mais representativa quanto mais fidedignamente conseguir representar a população. Por exemplo: suponha que 58% de dada população de interesse seja composta por mulheres e 42% por homens; considerando-se apenas a variável gênero, uma amostra representativa terá essa mesma proporção de mulheres e homens. Por sua vez, uma amostra pode ser considerada aleatória quando cada indivíduo tem chances iguais de ser selecionado para compor a amostra. No mesmo exemplo anterior, supondo que precisemos eleger 1.000 mulheres para a amostra, cada uma das mulheres da população tem chance igual de ser selecionada para Estatística descritiva: conceitos e aplicações 15 compor a amostra (por sorteio, por exemplo). Essas características de representatividade e aleatoriedade serão detalhadas com mais rigor adiante, quando, oportunamente, também será lançada à luz a interessante discussão sobre tamanho ideal de amostra. Se entendida a diferença e a relação entre população, amostra e indivíduo, é chegada a hora de aprofundar o conceito de variável. Em uma pesquisa, variável é uma característica de interesse do indivíduo. No exemplo sobre pesquisa de satisfação de discentes, se o indivíduo é um discente regularmente matriculado no semestre corrente, idade e nota atribuída à infraestrutura da escola podem ser consideradas variáveis, pois qualificam o indivíduo. Embora ambas sejam variáveis, elas carregam papéis diferentes na pesquisa: a variável idade serve para caracterizar o respondente do ponto de vista demográfico – e, por esse motivo, esse tipo de variável é nomeado de variável demográfica. Variáveis demográficas contribuem para alcançar o objetivo da pesquisa de forma indireta: suponha que, ao utilizar a variável idade para segmentar em dois grupos, discentes com mais de 25 anos e discentes com menos de 25 anos, descubra-se que discentes do grupo com menos de 25 anos forneçam notas sistematicamente menores para a variável nota atribuída à infraestrutura. Se isso for realmente observado, o gestor pode tentar tomar alguma ação especificamente para esse grupo. Já a variável nota atribuída à infraestrutura da escola contribui diretamente para o objetivo da pesquisa e, por isso, no senso comum, esse tipo é chamado de variável da pesquisa. Variáveis demográficas podem também ser variáveis da pesquisa quando o objetivo é descrever determinada população ou amostra. A seguir, na Tabela 1, está um exemplo fictício dos resultados obtidos em uma pesquisa de satisfação de discentes sobre o curso que estão fazendo. Tabela 1 – Exemplo de pesquisa de satisfação de discentes sobre o curso Nome Gênero Percepção quanto à didática dos professores Nota atribuída à infraestrutura da escola escala [1-4] Idade Adriano Masculino Satisfeito 3 22 Bruna Feminino Muito satisfeito 3 36 Carlos Masculino Muito satisfeito 4 31 Diana Feminino Insatisfeito 1 18 Evandro Masculino Satisfeito 2 19 Fonte: Elaborada pelo autor. Sweeney et al. (2014) e Nielsen et al. (2018) classificam as escalas em quatro tipos: • Escala nominal: os números ou rótulos são utilizados para nomear ou categorizar indivíduos. Exemplo: a variável gênero está apenas nomeando indivíduos. Supondo agora que se resolva alterar a forma de armazenar os dados, sendo 1 = Masculino e 2 = Feminino: não significa que 2 seja maior ou melhor do que 1, trata-se apenas de um modo de nomear os indivíduos. • Escala ordinal: os números ou rótulos são utilizados para nomear e ordenar os indivíduos; portanto, quando dois indivíduos são comparados, é possível afirmar que Estatística Aplicada16 um tem mensuração maior do que o outro, mas não é possível mensurar quão maior. Exemplo: quando são comparados indivíduos sobre a percepção quanto à didática dos professores, entende-se que alguém muito satisfeito esteja mais satisfeito do que alguém que esteja apenas satisfeito, e que alguém satisfeito esteja mais satisfeito do que alguém insatisfeito, mas, em ambos os casos, não se consegue afirmar quanto mais satisfeito alguém X está em relação a alguém Y. • Escala intervalar: os intervalos mostram a ordenação e a distância entre os indivíduos quanto a uma determinada característica. Exemplo: nota atribuída à infraestrutura da escola, em uma escala de 1 a 4, em que 1 seja a menor nota disponível e 4 seja a maior nota disponível, sabe-se que Carlos atribuiu 2 pontos mais em relação a Evandro (nota 4 versus nota 2, por exemplo). • Escala de razão: assim como a escala intervalar, apresenta a ordenação e a distância entre os objetos, mas tem como referencial o zero absoluto, o que permite identificar a magnitude absoluta. Exemplo: variável idade: quem tem 36 anos é mais velho do que quem tem 19 anos, sendo 0 anos o equivalente ao zero absoluto = recém-nascido. Conhecer escalas é de particular interesse em pesquisas quantitativas, pois, a menos que o pesquisador tenha acesso a bases de dados já prontas (pagas ou gratuitas), será necessário elaborar um questionário para a obtenção de dados, coletar dados em campo e formar sua própria base. Antes de prosseguir, vale este comentário sobre bases de dados já prontas: em ciências sociais aplicadas, bases de dados (ou banco de dados) disponíveis no Brasil ainda são relativamente raras, pois, na maior parte das vezes, o objetivo daquele que coletou e disponibilizou dados é diferente do objetivo daquele que está com uma investigação em curso. Isso abre margem para uma prática questionável na condução de uma pesquisa: alterar o objetivo da pesquisa consoante com a base de dados disponível. Está claro que é mais fácil alterar o objetivo de pesquisa do que elaborar questionário, coletar dados e formar a própria base, ainda mais com as diferentes fontes de restrição para a condução da pesquisa: tempo, recursos financeiros e humanos, complexidade logística, apenas para citar algumas. Porém uma mensagem merece ser reforçada: para se conseguir a riqueza de um objetivo de pesquisa delineado, na maior parte das vezes, não haverá atalhos fáceis ou óbvios, contudo, caso exista uma base de dados que contribua inequívoca e significativamente para atingir seu objetivo de pesquisa, certamente vale considerá-la.Após a definição de objetivo da pesquisa, indivíduos, população, amostra e variáveis (demográficas e da pesquisa) – com as respectivas escalas, avalia-se se há bases de dados disponíveis sobre as quais se possam rodar as ferramentas estatísticas e, assim, atingir o objetivo da pesquisa. Caso não sejam encontradas bases de dados para esse fim, os procedimentos a seguir são aplicáveis. A elaboração do questionário costuma ser uma fonte usual de erros em pesquisa quantitativa. Em primeiro lugar, porque, muitas vezes, há falta de cuidado na escolha das variáveis e da escala de cada uma delas. Um comentário de caráter mais geral sobre escolha de variáveis, mas que é pertinente a todas as pesquisas: as variáveis precisam estar em convergência com o objetivo da pesquisa. No exemplo da satisfação de discentes, além de variáveis demográficas, as variáveis de pesquisa podem incluir, mas não se restringir a: Estatística descritiva: conceitos e aplicações 17 • satisfação com o corpo docente; • satisfação com a coordenação de curso; • satisfação com a infraestrutura da instituição; • satisfação com valores atuais; • satisfação com a forma de pagamento; • satisfação com a localização. Muitas vezes, em pesquisas acadêmicas, é comum que as variáveis tenham como origem a literatura disponível na área de interesse. No mundo corporativo, por outro lado, as variáveis podem ter como origem a experiência do profissional em determinado assunto. Em seguida, é necessário eleger uma escala adequada às variáveis escolhidas e, consequentemente, aos objetivos da pesquisa. Em escalas de percepção, que são muito comuns em ciências sociais aplicadas, podem ser adotadas tanto escalas numéricas (por exemplo, de 0 a 10) quanto de concordância. Um exemplo de escala de concordância é a Likert (discordo totalmente até concordo totalmente). Exemplos de resultados possíveis por meio de escalas numéricas e de concordância são apresentados nas Tabelas 2 e 3. Tabela 2 – Exemplo de resultados possíveis de um questionário com escala numérica [0-10] Estou satisfeito com... Média escala [0-10] ... corpo docente 3,77 ... coordenação de curso 7,56 ... infraestrutura da instituição 8,15 ... valores atuais 6,89 ... forma de pagamento 4,58 ... localização 7,41 Fonte: Elaborada pelo autor. É de notar que o fato de todas as variáveis de pesquisa da Tabela 2 estarem na mesma escala permite uma comparação mais direta. A análise de resultados será discutida mais à frente, mas, olhando os números por cima, já se imagina uma priorização de ações que possam ser adotadas para tentar reverter a situação que está retratada nos resultados. Tabela 3 – Exemplo de resultados possíveis de um questionário com escala de percepção [discordo-concordo] Estou satisfeito com... Discordo totalmente Discordo Não concordo nem discordo Concordo Concordo totalmente ... corpo docente 43% 23% 11% 13% 10% ... coordenação de curso 2% 11% 29% 35% 23% ... infraestrutura da instituição 8% 4% 23% 31% 34% ... valores atuais 7% 17% 57% 18% 1% ... forma de pagamento 22% 42% 19% 8% 9% ... localização 18% 6% 9% 14% 53% Fonte: Elaborada pelo autor. Estatística Aplicada18 Já na Tabela 3, embora as variáveis sejam as mesmas daquelas escolhidas na Tabela 2, os resultados são apresentados de forma complementar, mas diferente. Embora a soma das concordâncias de cada variável precise somar 100%, a distribuição entre os cinco estados possíveis traz mais detalhamento em relação aos resultados apresentados na Tabela 2. Por outro lado, um questionamento que se coloca em relação à escala da Tabela 3 é sua natureza mais subjetiva do que aquela adotada na escala da Tabela 2. O estado Não concordo nem discordo deveria mesmo ficar no meio da escala? Será que não faria mais sentido arbitrar um número par de estados para que o respondente se posicione minimamente em termos de concordância ou discordância? Enfim, não há respostas certas, mas a mensagem poderosa é: conheça as limitações e críticas da escala que está sendo adotada para coletar os dados, pois isso pode ter efeito na análise. Seguindo com a discussão acerca do questionário, outra fonte comum de erro em pesquisa quantitativa é a formulação de perguntas dúbias, omissas, duvidosas ou enviesadas. Em outras palavras, perguntas que não tenham interpretação inequívoca podem gerar erros severos. E o contrário é verdade: perguntas com interpretação inequívoca levam a melhores respostas e, potencialmente, a melhores decisões. Exemplo de pergunta tendenciosa: “sabendo que o cigarro é responsável pela maior parte das mortes por câncer de pulmão, em uma escala de 0 a 100%, qual é a chance de você contratar alguém que fume para trabalhar na sua empresa?”. A despeito da questionável relação dessa pergunta com um eventual objetivo de pesquisa, fica evidente a opinião do pesquisador e sua tentativa de enviesar, de direcionar a resposta de seu respondente. Perguntas mal formuladas, intencionalmente ou não, podem distorcer severamente os resultados. Desse modo, cuidados na elaboração do questionário são louváveis. Dois desses cuidados são: pré-teste e piloto. O pré-teste é uma etapa posterior à elaboração da primeira versão do questionário e serve para identificar perguntas mal formuladas ou que levem a eventuais erros, propositais ou não, de interpretação. No pré-teste, são escolhidas algumas pessoas que se colocarão no lugar do potencial respondente e responderão ao questionário. Forza (2002) defende que três tipos de stakeholders1 podem ser considerados para contribuir nessa etapa: (a) colegas (da escola ou do trabalho, pois, em geral, são pessoas com quem você tem mais abertura e podem querer contribuir genuinamente); (b) especialistas do setor (podem ajudar com jargões da área ou identificando perguntas faltantes ou óbvias demais); e (c) potenciais respondentes (para se colocar à prova a primeira versão do questionário). O piloto é uma etapa posterior à condução do pré-teste e serve para simular a pesquisa de campo em pequena escala. São selecionadas algumas pessoas que têm o perfil do respondente real e a essas pessoas é solicitado que procedam com o preenchimento completo do questionário. Elas podem ser escolhidas por critérios variados, mas o mais comum é o de conveniência (escolher pessoas próximas – amigos, familiares, colegas de trabalho ou da escola – que se encaixem no perfil do respondente). Embora o objetivo geral dessa etapa ainda seja refinar o questionário com vistas a se obter sua versão definitiva, o pesquisador pode aproveitar para cronometrar o tempo de resposta 1 Stakeholders são pessoas ou grupos que tenham algum interesse, participação ou risco na iniciativa. Também são comumente chamados de partes interessadas. No contexto apresentado, stakeholders são pessoas ou grupos que tenham algum tipo de interesse ou participação na pesquisa que esteja em curso. Estatística descritiva: conceitos e aplicações 19 (questionários longos têm chance maior de desistência) e observar as reações dos participantes ao longo do preenchimento. Por intermédio do pré-teste e do piloto, chega-se à versão final do questionário. O próximo passo é a coleta de dados no campo, que pode acontecer presencialmente ou – com o avanço dos computadores e da interação pela internet – por questionários disponibilizados on-line. Nessa etapa, valoriza-se que os respondentes atendam aos critérios que foram delineados no planejamento e que estejam convergentes com o objetivo da pesquisa. Vale o reforço: uma boa amostra é representativa e aleatória. Com a coleta de dados, é possível tabulá-los (se o procedimento não aconteceu de modo digital) e, assim, gerar a própria base de dados. Embora erros honestos de tabulação possam acontecer na transcrição do papel para o digital, seu impacto é minimizado quanto maior for o número de respondentes. O pressuposto para a utilização dos métodos quantitativos é a existência de uma base de dados. Com a base de dados, procede-seà utilização do método quantitativo mais adequado ao objetivo da pesquisa e, consequentemente, à análise dos resultados, como abordado a seguir. 1.3 Métodos estatísticos: a estatística descritiva Para se chegar ao objetivo delineado (objetivo da pesquisa), é necessário escolher métodos que permitam mais facilmente e fidedignamente alcançar esse objetivo. Significa afirmar que cada método estatístico tem um propósito próprio, e cabe ao pesquisador escolher o método mais adequado para o objetivo de pesquisa que tenha em mãos. Nesta parte, será abordado o método da estatística descritiva, mas outros serão estudados nos próximos capítulos. Na estatística descritiva, o objetivo é descrever um conjunto de dados, podendo ser esse conjunto a população como um todo ou apenas uma amostra. Essa descrição acontece usualmente por meio de medidas de posição (exemplo: média), medidas de dispersão (exemplo: desvio padrão) e gráficos (exemplo: gráfico de pizza). Em geral, pretende-se resumir um conjunto grande de dados em alguns indicadores que sejam de simples interpretação, mas que consigam sintetizar bem o comportamento daquele conjunto. Nesse sentido, um bom exemplo é a média: ela consegue, de alguma maneira, dar um indício, uma indicação da percepção geral acerca da variável de interesse. É possível ter uma ideia do que acontece em uma turma em que a média na disciplina de Língua Portuguesa seja de 8,8 e em outra turma em que a média na mesma disciplina seja de 2,4. Embora ela sozinha não seja uma mensuração estatística conclusiva, parece sintetizar bem um comportamento, suponha, de 40 alunos de cada turma. A Tabela 2 e a Tabela 3, apresentadas anteriormente, são exemplos do uso da estatística descritiva, no sentido de resumir ou sintetizar dados. Imagine que 1.000 alunos tenham respondido a uma pesquisa, que resultou na Tabela 2, e outros 3.000 alunos tenham respondido a outra pesquisa, que resultou na Tabela 3. Significa que 4.000 respostas puderam ser compiladas em apenas duas tabelas. Vídeo Estatística Aplicada20 Como sinalizado anteriormente, a parte mais rica de uma pesquisa quantitativa não repousa nos cálculos em si (calcular a média, por exemplo), mas, sobretudo, na tomada de decisão com base nos resultados obtidos com o uso dos métodos quantitativos. Portanto, com a aplicação dos métodos quantitativos, procede-se com o que comumente se chama de análise de resultados. Para o caso da Tabela 2, percebe-se que duas variáveis destoam negativamente na satisfação de discentes (alunos): corpo docente (professores) e forma de pagamento, nessa ordem. Embora as demais variáveis estejam em patamares ainda distantes da excelência, elas suscitam menos preocupação do que as duas identificadas como críticas. Deve-se perceber, nesse ponto, que o uso da média para identificar variáveis críticas não resolve o problema em si, mas fornece uma sinalização, uma indicação de o que “atacar” primeiramente. Ao identificar, por intermédio dos métodos quantitativos, que a variável mais crítica é o corpo docente, cabe ao gestor planejar ações para tentar resolver ou amenizar a situação. Exemplo: o gestor pode solicitar para recuperarem a avaliação de desempenho de cada professor, identificando aqueles que tenham sistematicamente resultados excelentes. Esses professores podem ser convidados para elaborar um workshop para capacitação de outros colegas (identificação e multiplicação de melhores práticas internas – benchmarking interno). Em relação à forma de pagamento, por exemplo, o gestor pode identificar como está a prática de mercado e adequar sua condição àquilo que o mercado já adota ou, se quiser vantagem competitiva, oferecer a seus discentes uma condição ainda mais vantajosa. Toda a lógica relacionada à condução de uma pesquisa começa na definição do objetivo da pesquisa e termina na tomada de decisão, lembrando que o caminho merece cuidados diversos. Números e cálculos apenas fornecem indícios para que uma decisão mais qualificada possa ser tomada, e essa decisão, por sua vez, poderá trazer mais competitividade para a organização. Considerações finais Ao delinear um objetivo de pesquisa nobre (aumentar as vendas de determinado produto do portfólio, por exemplo), o pesquisador pode avançar por uma vertente qualitativa ou quantitativa. Na vertente quantitativa, o mote será a generalização. Para isso, é necessário ter acesso a uma base de dados já disponível ou construir uma. A construção de uma base de dados acontece por meio da elaboração de questionário e sua aplicação em campo para coleta dos dados. A construção do questionário depende de perguntas sem vieses e em escala adequada. O pré-teste e o piloto são fases que ajudam a refinar o questionário com vistas a obter uma versão definitiva mais robusta. Por meio da base de dados, disponível ou construída, aplicam-se métodos quantitativos para a apresentação de resultados. A estatística descritiva é um desses métodos (o mais simples) e permite consolidar (resumir, sintetizar) uma base de dados potencialmente grande, e essa síntese oferece pistas a seguir. Com as pistas, caberá ao gestor tomar decisões melhores para resolver ou otimizar determinada situação, consoante com o objetivo declarado inicialmente. Os cálculos e os números não são o objetivo fim da pesquisa, mas o meio pelo qual se pode atingi-lo. O objetivo em métodos quantitativos aplicados é, sem dúvida, tomar decisões melhores, e, nesse processo, os cálculos e os números contribuem ao oferecerem indícios a seguir. Estatística descritiva: conceitos e aplicações 21 Ampliando seus conhecimentos • A IMPORTÂNCIA do big data no mercado. 2019. 1 vídeo (9 min.). Publicado pelo canal Meio&Mensagem. Disponível em: https://www.youtube.com/watch?v=VYFL5EjHjGk. Acesso em: 26 maio 2019. Nesse vídeo, Leonardo Naressi, da DP6, explica por que a análise de dados se tornou tão essencial para o marketing. Trata-se de uma relação direta entre o uso de métodos quantitativos para a tomada de decisão no relacionamento com clientes atuais ou futuros: quais são as boas decisões por trás dos dados? • O QUE faz um estatístico? A estatística no esporte. 2018. 1 vídeo (10 min.). Publicado pelo canal IBGE. Disponível em: https://www.youtube.com/watch?v=jKFoDxcMqak. Acesso em: 26 maio 2019. Nesse vídeo, Daniel Takata Gomes comenta sobre a carreira do profissional de estatística no esporte. Ele fala sobre sua atuação como comentarista esportivo e dá dicas para quem quer ser um estatístico. Outras informações sobre “o que faz um estatístico” podem ser acessadas no website2 do IBGE. Atividades 1. Suponha que você acaba de assumir a posição de head (líder do mais alto escalão) do departamento de gestão de pessoas de uma organização que atua no Brasil inteiro: em todos os estados e no Distrito Federal. Como gestor dessa área, você terá um líder em cada unidade reportando diretamente para você, e esses líderes têm suas próprias equipes locais desenvolvendo atividades essencialmente operacionais. Ao longo do processo seletivo que acabou por escolhê-lo para esse cargo, um dos entrevistadores deixou transparecer que o antecessor não conseguiu resolver um problema crônico de turnover (rotatividade) nesse departamento. Em outras palavras: muitos colaboradores são desligados (por motivos próprios ou pela organização) e, assim, muitos precisam ser contratados, o que gera problemas diretos e indiretos, como perda de conhecimento, perda de continuidade das atividades, retrabalho, passivo trabalhista, apenas para citar alguns exemplos. Você tem estudado muito sobre as contribuições que os métodos quantitativos podem prover para a tomada de decisão e, portanto, está convencido de que uma pesquisa quantitativa pode auxiliá-lo nesse momento crítico de chegada ao novo cargo. Descreva um objetivo de pesquisa e a delimitação de população e amostra, se cabível, para a realização da coleta de dados. Estabeleça as premissas que julgar oportunas, deixando-as explícitasem sua resposta. 2 Disponível em: https://educa.ibge.gov.br/jovens/materias-especiais/materias-especiais/20689-o-que-faz-um- estatistico.html. Acesso em: 26 maio 2019. Estatística Aplicada22 2. Suponha que você esteja se formando em um curso de graduação que é sua paixão. Por um lado, está triste em deixar os bancos escolares; por outro, está contente por poder colocar logo em prática tudo aquilo que aprendeu ao longo de vários semestres. Logo no início dessa jornada, na primeira semana de aulas, você, que é uma pessoa sociável e responsável, candidatou-se e foi eleito(a) o(a) representante dos discentes desse curso por unanimidade. Como ninguém se interessou pela atividade, você se manteve como representante durante todos esses anos. Agora, na eminência de sair da faculdade, precisará considerar a transição dessa atividade para outro colega, que acabou de ser eleito. Ao longo do curso, você teve contato com a disciplina de Estatística Aplicada e tem a certeza de que os conceitos e práticas ali apresentados podem ajudá-lo nesse momento de transição. Em particular, você quer apresentar ao novo representante discente qual é a satisfação dos discentes em relação ao curso. Para esse fim, desenvolva um questionário que possa fornecer dados para que você consiga retratar a situação atual da satisfação dos discentes (alunos) para o colega que acaba de ser eleito. Estabeleça as premissas que julgar oportunas, deixando-as explícitas em sua resposta. 3. Suponha que você seja pai ou mãe de um filho ou filha que apresente o boletim de notas que está retratado na Tabela a seguir. Nessa escola, existem quatro avaliações ao longo do ano: Prova 1 (P1), Prova 2 (P2), Prova 3 (P3) e Prova 4 (P4). Os discentes já concluíram três das quatro avaliações, portanto falta apenas uma avaliação até o final do ano. Consoante com o conteúdo programático, a dificuldade das avaliações é equivalente ao longo do ano. Disciplina P1 P2 P3 P4 Português 2,5 3 1,5 ? Inglês 3,5 3,5 1 ? Matemática 10 9,5 8 ? Física 8,5 9,5 7,5 ? Química 9 9 8 ? História 7 7,5 5,5 ? Geografia 7 7 5 ? Ciências 3,5 6,5 5 ? Se seu objetivo é melhorar o desempenho do filho ou filha na P4, que padrões você identifica e, com base neles, que ações você propõe tomar? Estatística descritiva: conceitos e aplicações 23 Referências FORZA, C. Survey research in operations management: a process-based perspective. International Journal of Operations & Production Management, v. 22, n. 2, p. 152-194, 2002. MARCONI, M. de A.; LAKATOS, E. M. Fundamentos da metodologia científica. 7. ed. São Paulo: Atlas, 2010. NIELSEN, F. A. G.; OLIVO, R. L. de F.; MORILHAS, L. J. Guia prático para elaboração de monografias, dissertações e teses em administração. São Paulo: Saraiva Educação, 2018. SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia. Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014. 2 Estatística descritiva: análise de dados A partir de um objetivo de pesquisa bem identificado e de uma correta execução da coleta de dados, será possível gerar uma base de dados (ou banco de dados), cujo objetivo será ter o máximo de fidedignidade dos dados, conforme procedimentos discutidos no capítulo anterior. Uma base de dados é composta por duas dimensões: indivíduos e variáveis. Os indivíduos são os objetos de estudo e integralmente convergentes com o objetivo delineado para a pesquisa. Por exemplo, em uma pesquisa de satisfação dos clientes sobre o atendimento dos vendedores de nossa empresa, cada cliente pode ser um indivíduo da nossa base de dados. Outra dimensão é a de variáveis, que são as caracterizações dos indivíduos. No exemplo, podem ser variáveis dos clientes: idade, grau de instrução, renda, valor médio de compra, data da última compra, nota (na escala de 0 a 10) de satisfação sobre o atendimento dos vendedores etc. Nesse contexto, o objetivo da estatística descritiva é descrever um conjunto de dados com vistas à tomada de decisão gerencial de mais qualidade. Essa descrição pode acontecer de maneiras variadas. Por exemplo, afirmar que a média de idade de nossos clientes é de 70 anos é uma forma de descrever o conjunto de dados. Média, mediana, desvio padrão e outros indicadores estatísticos também são maneiras de descrever um conjunto de dados e serão apresentados no próximo capítulo. Ainda, é possível descrever o conjunto de dados por meio de tabelas e gráficos de distribuição de frequências, instrumentos que serão apresentados neste capítulo. Após a leitura do capítulo, esperamos que você seja capaz de identificar e descrever variáveis qualitativas e quantitativas e também consiga descrever comportamentos de variáveis quantitativas por meio de distribuição de frequências e gráficos. Além disso, um dos principais objetivos é que você possa utilizar este aprendizado para refinar a tomada de decisão gerencial por meio da descrição do comportamento de variáveis quantitativas. 2.1 Tipos de variáveis Conforme vimos anteriormente, variável é uma característica associada ao indivíduo. O conceito de variável não se confunde com tudo o que varia; na realidade, o que varia não é a variável, mas seus estados possíveis. Por exemplo, a variável cor dos olhos pode assumir estados diferentes, como castanho, verde ou azul. Para certo indivíduo, a cor dos olhos será castanho, para outro indivíduo, será azul, e, assim, essa característica assumirá estados diferentes para cada um – aí está a variação. A definição de variáveis precisa acontecer ainda na fase de planejamento da pesquisa e deve ser um desdobramento direto do objetivo da pesquisa, ou seja, Vídeo Estatística Aplicada26 precisa ter algum significado para atingir esse objetivo. No que se refere à finalidade, as variáveis podem ser classificadas como demográficas ou da pesquisa. A variável demográfica visa a possibilitar segmentações nas análises. No exemplo da pesquisa sobre satisfação dos clientes em relação ao atendimento dos vendedores de nossa empresa, a variável idade pode ser considerada demográfica, pois, embora não esteja diretamente relacionada ao objetivo de aumentar a satisfação dos clientes, possibilita, na parte de análise dos dados, uma segmentação em que se conclua, por exemplo, que grupos de clientes com idades diferentes possam ter percepções diferentes quanto à satisfação. Por sua vez, a variável da pesquisa está diretamente relacionada ao objetivo da pesquisa. Se o objetivo é aumentar a satisfação dos clientes, descrever as notas atribuídas por eles para o atendimento é um dado importante para saber onde atuar e, assim, aumentar a satisfação. Portanto, nota de satisfação pode ser considerada uma variável da pesquisa. Variáveis demográficas e da pesquisa estão relacionadas ao objetivo da pesquisa: a primeira, de forma indireta, e a segunda, de forma direta. Apesar dessa diferença, ambas as variáveis, demográficas e da pesquisa, podem assumir formas qualitativas ou quantitativas. Variáveis como gênero (masculino ou feminino, por exemplo), grau de instrução (ensino fundamental, ensino médio ou ensino superior, por exemplo) ou cor dos olhos (castanho, verde ou azul, por exemplo) podem assumir estados que qualificam e expressam atributos dos indivíduos (objetos do estudo). Apesar de raro, as variáveis podem ainda ser representações ligadas ao ambiente virtual, como o uso de emojis1 – “coraçãozinho”, “joia” ou “smile”. Essas são as variáveis qualitativas. Em geral, elas não são expressas em estado numérico; quando o são, os números não são resultado de contagem ou mensuração. Nielsen et al. (2018) reforçam que as variáveis qualitativas são elaboradas em categorias ou atributos não mensuráveis. Por outro lado, variáveis como idade, renda (em R$, por exemplo) e nota na disciplina de Português (em escala de 0 a 10, por exemplo) apresentam estados numéricos que são resultado de contagem ou mensuração. Essas são as variáveis quantitativas. Serresultado de contagem ou mensuração é importante para caracterizar a variável como quantitativa. A pesquisa quantitativa pode contar tanto com variáveis qualitativas quanto quantitativas, porém seu uso será diferente, como veremos a seguir. Quanto à sua forma, a variável pode ser qualitativa ou quantitativa (BUSSAB; MORETTIN, 2014), sendo que esses dois tipos se subdividem em outras classificações. A variável qualitativa pode ser classificada como nominal ou ordinal. Variáveis qualitativas nominais são aquelas em que as representações (estados) não pressupõem sequência ou ordem. Por outro lado, aquelas que detêm algum tipo de sequência ou ordem são as variáveis qualitativas ordinais. Portanto, a variável qualitativa pode ser: • Nominal: os estados possíveis não estão determinados em uma sequência. Exemplos: gênero e cor dos olhos; e 1 Emojis são símbolos que expressam emoções em mensagens eletrônicas e páginas web. A palavra, de origem japonesa, compõe-se de e (imagem) somada a moji (letra). Estatística descritiva: análise de dados 27 • Ordinal: pressupõe-se uma ordem para os estados possíveis. Exemplos: classe social e grau de instrução. Para grau de instrução, presume-se que quem tenha ensino superior já concluiu o ensino médio; e quem tenha ensino médio já concluiu o ensino fundamental. A variável quantitativa, por sua vez, pode ser classificada como discreta ou contínua. Variáveis quantitativas discretas são aquelas em que os estados possíveis formam um conjunto finito ou enumerável de números e são resultado de contagem: 0, 1, 2... Já as variáveis quantitativas contínuas são aquelas em que os estados possíveis pertencem a um intervalo de números reais e são resultado de mensuração. Para consolidar, a variável quantitativa pode ser: • Discreta: os estados possíveis formam um conjunto finito ou enumerável de números, resultado de contagem. Exemplos: número de filhos e número de carros; e • Contínua: os estados possíveis pertencem a um intervalo de números reais, resultado de mensuração. Exemplos: peso e altura. Os estados de cada indivíduo para cada variável, qualitativa ou quantitativa, são armazenados em bases de dados. Desse modo, a base de dados pode ser considerada a matéria-prima a partir da qual as análises serão desenvolvidas. Além dos cuidados em termos de escala, já discutidos no capítulo anterior, outros cuidados importantes precisam ser postos em prática para aumentar a qualidade dos dados na base. É importante ressaltar que a análise sobre dados bons (com qualidade) pode resultar em tomadas de decisão boas ou ruins, a depender das técnicas de análise adotadas. Porém a análise de dados sobre dados ruins somente pode resultar em análises ruins. É nesse sentido que a discussão sobre como conseguir dados com mais qualidade será ofertada a seguir. Suponha uma base de dados com variáveis apenas demográficas de funcionários de uma empresa. Segue base de dados fictícia na Tabela 1. Tabela 1 – Dados de funcionários de empresa fictícia Número Estado civil Número de filhos Salário (x sal. mín.) Idade Região de procedênciaAnos Meses 1 Solteiro - 4,00 26 03 Interior 2 Casado 1 4,56 32 10 Capital 3 Casado 2 5,25 36 05 Capital 4 Solteiro - 5,73 20 10 Outra 5 Solteiro - 6,26 40 07 Outra 6 Casado 0 6,66 28 00 Interior 7 Solteiro - 6,86 41 00 Interior 8 Solteiro - 7,39 43 04 Capital (Continua) Estatística Aplicada28 Número Estado civil Número de filhos Salário (x sal. mín.) Idade Região de procedênciaAnos Meses 9 Casado 1 7,59 34 10 Capital 10 Solteiro - 7,44 23 06 Outra 11 Casado 2 8,12 33 06 Interior 12 Solteiro - 8,46 27 11 Capital 13 Solteiro - 8,74 37 05 Outra 14 Casado 3 8,95 44 02 Outra 15 Casado 0 9,13 30 05 Interior 16 Solteiro - 9,35 38 08 Outra 17 Casado 1 9,77 31 07 Capital 18 Casado 2 9,80 39 07 Outra Fonte: Adaptada de Bussab; Morettin, 2014, p. 13. O exemplo da Tabela 1 é excelente para identificar a importância de se desenvolver bases de dados com qualidade. Ressalta-se, no entanto, que se parte do pressuposto de que as respostas atribuídas são verdadeiras. Entre as possibilidades de classificação apresentadas anteriormente, como você classifica a variável número na primeira coluna da Tabela 1? Faça uma pausa, reveja as classificações anteriores (Qualitativa ou quantitativa? Nominal ou ordinal? Discreta ou contínua?) e se permita responder a esse desafio. Muitos podem ter como resposta variável quantitativa discreta, pois é expressa em números (quantitativa) e os estados possíveis, conforme aparece na Tabela 1, formam um conjunto finito de números e parecem ser resultado de contagem: 0, 1, 2... Embora esse raciocínio esteja correto do ponto de vista da classificação, a premissa inicial é quebrada e, portanto, a conclusão é equivocada. A premissa inicial quebrada é esta: variável é uma característica associada ao indivíduo. Nesse caso, o que é que significa o número 5? Será que foi o 5º indivíduo a ser cadastrado na base? Será que é seu número da sorte? É evidente que podem faltar informações adicionais sobre os dados apresentados, mas, da maneira como a Tabela 1 está dada, número não parece ter uma interpretação. Então, a conclusão é que não se pode considerar número uma variável. Essa conclusão é um tanto impactante, pois, em geral, acreditamos que tudo o que está na base de dados é variável. Quando somos nós a construir a base de dados, portanto, o cuidado será definir bem as variáveis no planejamento. Se a recebemos pronta, vale a inspeção para entender qual é a interpretação de cada uma das variáveis, pois nem tudo o que se recebe na base de dados pode ser considerado variável. Estatística descritiva: análise de dados 29 Seguindo com a avaliação da Tabela 1, estado civil é uma evidente variável, pois caracteriza o indivíduo. E, no caso, é uma variável qualitativa nominal. A pergunta interessante aqui é: por que, nessa base fornecida, a variável estado civil apresenta apenas os estados solteiro e casado, sendo que, na vida, os estados possíveis são muitos, por exemplo, divorciado, viúvo, união estável? Nesse caso, possivelmente, o formulário de entrada (físico ou digital) deva manter disponíveis apenas estes dois estados: solteiro e casado. Mas será que são suficientes para representar a realidade? É possível que haja apenas colaboradores solteiros e casados, mas isso seria mesmo uma coincidência incrível. É mais provável que os formulários de entrada permitam apenas esses dois estados, portanto convém desenvolver novo formulário, de maneira que outros estados sejam considerados. Isso resulta em maior fidedignidade dos dados e, como consequência, maior qualidade. Para a variável número de filhos, o que significa o tracinho na primeira linha? Volte à Tabela 1 e pense na interpretação do tracinho. Muitos podem erroneamente afirmar que o tracinho significa que aquele indivíduo não tenha filhos, pois há indivíduos com 1, 2 ou 3, o que significa que têm um, dois ou três filhos. Número de filhos é uma variável quantitativa discreta. Se o tracinho significa que o indivíduo não tem filhos, o que significa o número 0, por exemplo, para o sexto indivíduo? Nesse caso, quando o indivíduo não tem filhos, aparecerá 0. E o tracinho? Significa que não temos esse dado preenchido. Não ter dados preenchidos recebe a nomenclatura técnica de missing data. Assim, concluímos que temos missing data nessa base de dados. Isso é particularmente ruim para fins de análises, pois, quanto mais dados preenchidos, maiores são as possibilidades de análises mais ricas. Por que será que esse dado não está preenchido? Pode acontecer de o respondente não querer participar da pesquisa, e, nesse caso, devemos tentar entender os motivos: trata-se de uma pergunta crítica, indelicada ou pessoal? Vale pensar, então, a pertinência de mantê-la no questionário ou alterá-la para deixá-la menos crítica. Exemplo: em vez de questionar diretamente a renda do respondente, pode-se perguntar em que faixade renda ele está, dentre cinco possibilidades. De volta a nosso exemplo, esse não parece ser o caso: número de filhos não parece ser crítico, indelicado ou pessoal demais. Então por que não temos os dados para alguns indivíduos? Nesse ponto, devemos voltar à Tabela 1 e tentar uma explicação. Alguns perspicazes devem ter observado isto: apenas indivíduos casados (variável estado civil) estão com a variável número de filhos preenchida. O fato concreto é esse, mas será mesmo possível que apenas pessoas casadas possam ter filhos? Pessoas solteiras não podem ter filhos? Por que será que nossa base de dados está assim? Na mesma linha da discussão anterior, é bem razoável pensar que o formulário de entrada habilite o campo número de filhos apenas se o estado civil preenchido for de casado. Nesse caso, é o próprio formulário de entrada que causa distorção na base de dados. Novamente, a conclusão é esta: desenvolver novo formulário, de maneira que o campo número de filhos não esteja atrelado ao campo estado civil. Isso resulta em maior fidedignidade dos dados e, assim, maior qualidade. Avançando em nossa análise das variáveis, passemos à variável salário. Ela está bem armazenada ou você propõe outra maneira de armazená-la? Novamente, vale uma pausa para voltar à Tabela 1. Estatística Aplicada30 À primeira vista, salário é uma variável quantitativa contínua, e o número ali armazenado precisa ser multiplicado pelo salário-mínimo para se conseguir o salário real daquele colaborador. Apesar desse inconveniente de ter que multiplicar pelo salário-mínimo, você considera a variável bem armazenada ou existe uma forma melhor de fazer isso? O que incomoda ao armazenar a variável salário da maneira como está não é apenas multiplicar pelo salário-mínimo, mas definir qual é o valor dele. Existem salários-mínimos diferentes: federal, estadual ou municipal? Salário- -mínimo de quando o colaborador entrou na empresa ou de hoje? Outro inconveniente de ter que multiplicar é o valor resultante não ser exato, consoante com o número de casas decimais que se adote. Portanto, existem razões diversas para crer que há maneira melhor de armazenar a variável salário. Como? Vale outra pausa e reflexão. Definir como armazenar uma variável e quais são os estados possíveis é crítico para a análise, e sua definição acontece no planejamento da pesquisa. Nesse caso (assim como em muitos), quanto mais simples, melhor: armazenar o salário atual do colaborador diretamente em reais. Além de simples, não gera margem para dúvidas sobre contas ou interpretações. Eis que chegamos à variável idade: variável quantitativa discreta em anos e em meses. A essa altura, aquele senso de cético, crítico e contestador já deve ter aflorado. Será mesmo que a variável idade está bem armazenada? Afinal, já sabemos que dados ruins somente permitem análises ruins. Ver idade em anos e meses chega a incomodar enormemente: são anos e meses de quando o colaborador ingressou na empresa ou atuais? E se precisarmos saber o número de dias? É possível, então, pensar em forma melhor para armazenar. Como? Faça uma pausa, pois a reflexão vale a pena: como você propõe armazenar a variável idade? A maneira mais imediata de pensar como armazenar idade é alterá-la para data de nascimento. Por quê? Que vantagens existem ao adotarmos data de nascimento? Primeiramente, é de perceber que, com data de nascimento, é diretamente possível saber a idade do colaborador. Mais do que isso, data de nascimento permite extrair outras informações do colaborador, como dia de aniversário e signo do zodíaco. É evidente que saber data de aniversário e signo do zodíaco pode não ter utilidade direta para o objetivo de uma pesquisa, mas, muitas vezes, a base gerada pode ser aproveitada também para pesquisas futuras e, nesse caso, ter a possibilidade de extrair mais informações é, inequivocamente, melhor do que não ter essa possibilidade. Finalmente, inspecionamos a variável região de procedência, variável qualitativa nominal. De partida, a nomenclatura região de procedência gera esta dúvida: o que é região de procedência? É a região onde o colaborador nasceu? É a região onde ele mora? É onde ele morou antes de se mudar para o domicílio atual? Outro ponto de estranheza nos estados possíveis: o que significa capital, interior ou outra? Supondo que essa variável se refira à localidade de nascimento, uma maneira gentil de armazenar seria nomeá-la cidade de nascimento e armazenar desta feita, por exemplo, Atibaia/SP. Ficam evidentes cidade e estado de nascimento. No limite, perceba que, com base na cidade de nascimento, é possível saber se o colaborador nasceu na capital de seu estado ou não, caso esse seja o interesse de alguma pesquisa. Se dados ruins permitem apenas análises ruins, cuidar da qualidade dos dados é fundamental para uma boa análise de dados. E essa é uma medida, muitas vezes, negligenciada na prática. Estatística descritiva: análise de dados 31 Parece existir uma ênfase maior em cálculos, em especial, em uma pesquisa quantitativa, mas esse raciocínio pode resultar em análises ruins ou, pelo menos, questionáveis. Em uma base de dados que parecia boa e confiável, como a da Tabela 1, perceba quantos pontos de atenção foram levantados. Preocupar-se com a qualidade da base de dados, portanto, é premissa para conduzir uma pesquisa quantitativa com a confiança necessária. 2.2 Distribuição de frequências O objetivo da estatística descritiva é descrever um conjunto de dados. Esse conjunto de dados pode ser composto de todos os indivíduos (população ou universo) ou apenas de uma parte deles (amostra). Uma das maneiras de se descrever o conjunto de dados é por meio da descrição do comportamento das variáveis, em particular, descrevendo a ocorrência de possíveis realizações (possíveis estados). Suponha, no mesmo exemplo apresentado na Tabela 1, que a empresa fictícia tenha 1.200 colaboradores em sua unidade de São Paulo. Suponha ainda que uma consolidação a partir dos dados de todos esses colaboradores tenha resultado na Tabela 2, apresentada a seguir. Tabela 2 – Distribuição de frequência do grau de instrução dos colaboradores da empresa fictícia em São Paulo Grau de instrução Frequência absoluta Frequência relativa Fundamental 570 47,5% Médio 330 27,5% Graduação 210 17,5% Pós-graduação 90 7,5% Total 1.200 100% Fonte: Elaborada pelo autor. Consolidações como essa apresentada na Tabela 2 são chamadas de distribuição de frequências. No caso, trata-se de uma distribuição de frequência para a variável grau de instrução. Supõe-se que a variável grau de instrução reflita a maior formação acadêmica concluída pelo colaborador. A frequência absoluta, na segunda coluna, revela o número de indivíduos em determinado estado do grau de instrução. Por exemplo, na empresa fictícia, há 570 colaboradores com ensino fundamental e apenas 90 com pós-graduação. A frequência absoluta é obtida por meio da contagem de indivíduos em cada estado possível. Por sua vez, a frequência relativa, também chamada de proporção, na terceira coluna, apresenta quanto um determinado número representa do total de indivíduos. Por exemplo, 330 colaboradores que tenham o ensino médio como maior formação acadêmica representam 27,5% do total dos colaboradores, e 210 colaboradores com graduação representam 17,5%. A frequência relativa é obtida por meio da divisão do número de indivíduos em determinado estado possível pelo Vídeo Estatística Aplicada32 total de indivíduos: 330 colaboradores com ensino médio divididos pelo total de 1.200 indivíduos resultam nos 27,5% apresentados na Tabela 2. A frequência relativa é de particular interesse para análises de dados, pois, uma vez definida a variável de interesse (no caso, grau de instrução), ela permite comparações entre realidades com a mesma estrutura. Por exemplo, suponha que a empresa fictícia tenha unidades em dois estados: São Paulo e Rio de Janeiro. A Tabela 2, anterior, apresentadados referentes aos colaboradores de São Paulo. Já a Tabela 3, a seguir, apresenta dados referentes aos colaboradores do Rio de Janeiro. Tabela 3 – Distribuição de frequência do grau de instrução dos colaboradores da empresa fictícia no Rio de Janeiro Grau de instrução Frequência absoluta Frequência relativa Fundamental 300 46,15% Médio 160 24,62% Graduação 100 15,38% Pós-graduação 90 13,85% Total 650 100% Fonte: Elaborada pelo autor. Embora não tenha muito sentido comparar diretamente as frequências absolutas dos colaboradores da empresa fictícia, de São Paulo e do Rio de Janeiro, é de notar que o número total de colaboradores em São Paulo é praticamente o dobro daquele do Rio de Janeiro. Portanto, a unidade de São Paulo é maior do ponto de vista de número de colaboradores. A parte mais interessante da análise está na comparação das frequências relativas. O que se percebe é que, na unidade do Rio de Janeiro, há proporcionalmente mais colaboradores com nível de pós-graduação do que na unidade de São Paulo: 13,85% contra 7,5%. Nos demais estados de grau de instrução, a ordem de grandeza está mais próxima e não parece merecer destaque. A distribuição de frequências abarca ferramentas que podem ser consideradas simples de serem desenvolvidas e, mais recentemente, por conta do avanço computacional, fáceis de serem obtidas. Isso é particularmente interessante, pois essas ferramentas permitem análises que podem levar a decisões significativamente melhores. De volta ao exemplo da Tabela 2, referente à unidade de São Paulo, suponha que o presidente da empresa fictícia queira aumentar a capacitação formal dos colaboradores. Apenas analisando os dados apresentados na Tabela 2, quais recomendações você forneceria ao presidente? Se o objetivo delineado pelo presidente da empresa fictícia (objetivo da pesquisa) é aumentar a capacitação dos colaboradores, um conjunto de cenários com recomendações pode ser fornecido, cada qual com prós e contras. Pode-se propor, por exemplo, um programa para auxiliar colaboradores que tenham como maior grau de instrução o ensino fundamental a procederem para uma transição para o ensino médio. Primeiramente, pode-se identificar colaboradores que precisem proceder com a transição por motivo profissional e outros que queiram. Essa identificação fornece ao gestor uma lista Estatística descritiva: análise de dados 33 de prioridades daqueles que serão assistidos pelo programa. A partir dessa identificação, o programa pode contemplar auxílio financeiro na forma de bolsa de estudos, por exemplo, ou horário flexível para atividades acadêmicas que assim requeiram e atividades profissionais que assim permitam. Para o caso de graduação ou pós-graduação, a depender da especificidade das atividades do colaborador na empresa fictícia, pode-se pensar em alternativas nas modalidades de EaD2 ou in-company3. É de perceber que cada proposta carrega vantagens e desvantagens; e o objetivo neste ponto não é apresentar todas as possibilidades de gestão, mas evidenciar que uma correta consolidação dos números pode servir de base para uma tomada de decisão mais rica. Vale o reforço: os números e as contas são o meio para se conseguir tomar decisões melhores. Os exemplos anteriores funcionam bem quando há em pauta uma variável qualitativa ou uma quantitativa discreta. Distribuição de frequências para variáveis quantitativas contínuas, no entanto, demandam tratamento diferente. Suponha uma variável salário, cujos estados são expressos em reais e representam o valor mais atualizado das remunerações de um colaborador. Em um universo de 1.200 colaboradores em São Paulo, por exemplo, ao construir uma distribuição de frequências para salário, pode-se chegar a muitos estados possíveis. No limite, supondo que todos os colaboradores tenham remunerações diferentes, seriam 1.200 estados com frequência absoluta unitária. Esse tipo de consolidação não nos ajuda a tomar nenhuma decisão: os estados (grupos) são tão fragmentados que, de fato, não se pode falar em grupos. Nesses casos, é preferível uma solução como a apresentada na Tabela 4. Tabela 4 – Distribuição de frequência do salário dos colaboradores da empresa fictícia em São Paulo Salário Frequência absoluta Frequência relativa Até R$ 1.999,99 450 37,50% De R$ 2.000,00 a R$ 3.999,99 305 25,42% De R$ 4.000,00 a R$ 5.999,99 195 16,25% De R$ 6.000,00 a R$ 7.999,99 145 12,08% Acima de R$ 8.000,00 105 8,75% Total 1.200 100% Fonte: Elaborada pelo autor. É evidente que esse tipo de consolidação leva a alguma perda de informação, pois não se tem mais o dado original: pode haver um salário de R$ 8.000,01 e outro de R$ 55.123,45 no mesmo grupo de acima de R$ 8.000,00. Trata-se de uma limitação que precisa ser fortemente considerada ao formular a conclusão a partir desse tipo de distribuição de frequência. Os grupos (cinco, no caso da Tabela 4) são chamados de classes; portanto a nomenclatura correta para esse exemplo é classes de salários. 2 EaD é acrônimo para ensino a distância, uma modalidade de educação, em geral, mediada por tecnologias em que discentes e docentes não precisem estar fisicamente presentes em um ambiente físico de ensino-aprendizagem. 3 In-company é uma modalidade de educação em que as atividades de ensino-aprendizagem são personalizadas consoante com as necessidades (de infraestrutura, de carga horária, de horário e local das aulas e afins) do cliente. Em geral, discentes são colaboradores do cliente. Estatística Aplicada34 Definir os intervalos é um tanto arbitrário, e, dessa forma, a experiência do pesquisador com o assunto em pauta fornecerá dicas de como proceder. Como regra geral, estas diretrizes são válidas: (a) um número excessivamente pequeno de classes leva à perda de informação (indivíduos significativamente diferentes podem acabar pertencendo à mesma classe); e (b) um número excessivamente grande de classes leva à discriminação em excesso e, com isso, o objetivo de resumir os dados pode ficar comprometido. Em termos práticos, cinco classes com o mesmo intervalo pode ser um bom ponto de partida. 2.3 Gráficos Outra maneira de descrever um conjunto de dados é por meio de gráficos. Esse tipo de descrição é de particular interesse, pois, em geral, sua interpretação é mais imediata (mais fácil de entender) do que outros tipos (tabelas e indicadores estatísticos, por exemplo), afinal, sua inspeção é visual: “uma imagem vale mais do que mil palavras”. Ao se trabalhar com gráficos, um cuidado necessário é identificar qual é o objetivo que se pretende por meio da representação visual. Há representações que permitem, por exemplo, descrever um conjunto de dados, consoante com a distribuição de frequência. Assim, o objetivo é o mesmo das tabelas que apresentam distribuição de frequências: todas as tabelas utilizadas neste capítulo servem ao propósito de descrever um conjunto de dados e, portanto, nesse sentido, tabelas de distribuição de frequências e gráficos carregam o mesmo objetivo intrínseco. Um exemplo desse tipo de representação é o gráfico de barras. Como demonstração, tomemos a Tabela 3, que apresenta a distribuição de frequência dos colaboradores da empresa fictícia, consoante com seu grau de instrução, no Rio de Janeiro. A Figura 1, a seguir, apresenta um gráfico de barras para descrever a distribuição de frequência relativa do grau de instrução dos colaboradores da empresa fictícia no Rio de Janeiro. Por sua vez, a Figura 2 apresenta um gráfico de colunas com as mesmas informações. Ambas as figuras apresentam os mesmos dados, apenas a apresentação visual é diferente. Figura 1 – Gráfico de barras com a distribuição de frequência relativa do grau de instrução dos colaboradores da empresa fictícia no Rio de Janeiro Grau de instrução dos colaboradores da empresa fictícia no Rio de janeiro Pós-graduação Graduação Médio 13,85% 24,62% 46,15% 0% 10% 20% 30% 40% 50% Fundamental 15,38% Fonte: Elaborada pelo autor. Vídeo Estatística
Compartilhar