Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Aplicada à Administração Gabrielle Gomes dos Santos Ribeiro Presidente Prudente Unoeste - Universidade do Oeste Paulista 2017 Ribeiro, Gabrielle Gomes dos Santos. Estatística Aplicada à Administração. / Gabrielle Go- mes dos Santos Ribeiro. – Presidente Prudente: Unoeste - Universidade do Oeste Paulista, 2017. 86 p.: il. Bibliografia. ISBN: 978-85-9492-016-4 1. Estatística. 2. Administração-Estatística. I. Título. CDD\22ª. ed. © Copyright 2017 Unoeste - Todos os direitos reservados Nenhuma parte desta publicação poderá ser reproduzida ou transmitida de qualquer modo ou por qualquer outro meio, eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer outro tipo de sistema de armazenamento e transmissão de informação, sem prévia autorização, por escrito, da Universidade do Oeste Paulista. Estatística Aplicada à Administração Gabrielle Gomes dos Santos Ribeiro Reitora: Ana Cristina de Oliveira Lima Vice-Reitor: Brunno de Oliveira Lima Aneas Pró-Reitor Acadêmico: José Eduardo Creste Pró-Reitor Administrativo: Guilherme de Oliveira Lima Carapeba Pró-Reitor de Pesquisa, Pós-Graduação e Extensão: Adilson Eduardo Guelfi Diretor Geral: Augusto Cesar de Oliveira Lima Núcleo de Educação a Distância: Dayene Miralha de Carvalho Sano, Marcelo Vinícius Creres Rosa, Maria Eliza Nigro Jorge, Mário Augusto Pazoti e Sonia Sanae Sato Coordenação Tecnológica e de Produção: Mário Augusto Pazoti Projeto Gráfico: Luciana da Mata Crema Diagramação: Aline Miyamura Takehana Ilustração e Arte: Aline Miyamura Takehana Revisão: Renata Rodrigues dos Santos Colaboração: Edwiges Inácia de Lima Designer Educacional: Janiele de Souza Santos Direitos exclusivos cedidos à Associação Prudentina de Educação e Cultura (APEC), mantenedora da Universidade do Oeste Paulista Rua José Bongiovani, 700 - Cidade Universitária CEP: 19050-920 - Presidente Prudente - SP (18) 3229-1000 | www.unoeste.br/ead Catalogação na fonte: Rede de Bibliotecas Unoeste 519.502.4658 R484e Gabrielle Gomes dos Santos Ribeiro Graduada em Estatística (2011) e mestre em Ciências Cartográficas (2015) pela Uni- versidade Estadual Paulista (Unesp), campus de Presidente Prudente. Atualmente, é assessora estatística do Programa de Pós-Graduação Stricto Sensu, assessora de plane- jamento e analista de dados da CPA, e membro do corpo docente da Universidade do Oeste Paulista (Unoeste). Sobre a autora Carta ao aluno O ensino passa por diversas e constantes transformações. São mudanças importantes e necessárias frente aos avanços da sociedade na qual está inserido. A Educação a Distância (EAD) é uma das alternativas de estudo, que ganha cada vez mais espaço, por comprovadamente garantir bons referenciais de qualidade na formação pro- fissional. Nesse processo, o aluno também é agente, pois organiza o seu tempo confor- me suas atividades e disponibilidade. Maior universidade do oeste paulista, a Unoeste forma milhares de profissio- nais todos os anos, nas várias áreas do conhecimento. São 40 anos de história, sendo responsável pelo amadurecimento e crescimento de diferentes gerações. É com esse mesmo compromisso e seriedade que a instituição iniciou seus trabalhos na EAD em 2000, primeiramente com a oferta de cursos de extensão. Hoje, a estrutura do Nead (Núcleo de Educação a Distância) disponibiliza totais condições para você obter os co- nhecimentos na sua área de interesse. Toda a infraestrutura, corpo docente titulado e materiais disponibilizados nessa modalidade favorecem a formação em plenitude. E o mercado precisa e busca sempre profissionais capacitados e que estejam antenados às novas tecnologias. Agradecemos a confiança e escolha pela Unoeste e estamos certos de que suas expectativas serão atendidas, pois você está em uma universidade reconhecida pelo MEC, que oportuniza o desenvolvimento constante de Ensino, Pesquisa e Extensão. Aqui, além de graduação, existe pós-graduação lato e stricto sensu, com mestrados e doutorado recomendados pela Capes (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior), prêmios conquistados em âmbito nacional por suas ações extensivas e pesquisas que colaboram com o desenvolvimento da cidade, região, estado e país; en- fim, são inúmeros os referenciais de qualidade. Com o fortalecimento da EAD, a Unoeste reforça ainda mais a sua missão que é “desenvolver a educação num ambiente inovador e crítico-reflexivo, pelo exercício das atividades de Ensino, Pesquisa e Extensão nas diversas áreas do conhecimento cien- tífico, humanístico e tecnológico, contribuindo para a formação de profissionais cidadãos comprometidos com a responsabilidade social e ambiental”. Seja bem-vindo e tenha bons estudos! Reitoria Sumário Capítulo 1 Introdução à EstatístIca 1.1 Conceitos e Definições ............................................................................................. 14 1.2 Organização dos Dados ............................................................................................ 16 1.3 Tabela de Distribuição de Frequências ....................................................................... 18 Capítulo 2 rEprEsEntaçõEs GráfIcas 2.1 Construção e Interpretação de Gráficos ..................................................................... 24 Capítulo 3 MEdIdas dEscrItIvas 3.1 Média ..................................................................................................................... 32 3.2 Mediana .................................................................................................................. 34 3.3 Moda ...................................................................................................................... 40 3.4 Separatrizes ............................................................................................................ 42 3.5 Amplitude Total ....................................................................................................... 43 3.6 Variância ................................................................................................................. 43 3.7 Desvio-Padrão ......................................................................................................... 44 3.8 Coeficiente de Variação ............................................................................................ 47 3.9 Assimetria ............................................................................................................... 47 3.10 Curtose ................................................................................................................. 49 Capítulo 4 aMostraGEM 4.1 Amostragem Aleatória Simples (AAS) ........................................................................ 55 4.2 Amostragem Aleatória Estratificada (AAE) .................................................................. 61 4.3 Amostragem Sistemática (AS) ................................................................................... 66 Capítulo 5 análIsE dE corrElação 5.1 Correlação Linear Simples ........................................................................................ 72 Referências ................................................................................................................... 82 9 Apresentação Seja bem-vindo aos estudos de Estatística Aplicada à Administração! Este livro visa fornecer embasamento teórico e prático para o tratamento e análise de dados da área de Administração. Os assuntos abordados iniciam-se com uma introdução à estatística, tra- tando sobre os principais conceitos e definições da área e as técnicas para organização de dados. Em seguida, são apresentadas as principais formas de representar os dados através de gráficos. Na sequência, são indicadas as medidas descritivas e os principais métodos de amostragem de dados. Finalizamos com a Análise de Correlação Linear Sim- ples, técnica que verifica a existência de associação entre duas variáveis. Esperamosque este livro seja de grande contribuição para sua futura atuação profissional. Bons estudos e sucesso para você! 11 Introdução à EstatístIca Capítulo 1 12 O que você acha que é “Estatística”? O que você lembra quando escuta esta palavra? Se você pensou em números, gráficos, tabelas, contas, acertou em parte, pois a Estatística é muito mais que isso. A Estatística é definida como um conjunto de métodos e técnicas que envolvem todas as etapas de uma pesquisa, desde o planejamento, a coleta de dados, a análise, até a interpretação e disseminação dos resultados. Sabe as pesquisas eleitorais que frequentemente são feitas antes das elei- ções para prefeito, vereadores, presidente e deputados? Então, elas são os exemplos mais comuns de aplicação de métodos estatísticos. Primeiramente, a pesquisa é planejada, definindo quantos indivíduos serão entrevistados, de que forma eles serão selecionados, onde e quando ocorrerá a pesqui- sa. Depois, os dados são processados, gerando tabelas, gráficos e medidas descritivas. No final, a partir dos dados coletados, são realizadas as previsões dos resultados das eleições por meio de testes estatísticos coletados e esses resultados são divulgados. Introdução Você Sabia Segundo Costa et al. (2016, p. 4), “a utilização da estatística já remonta a quatro mil anos antes de Cristo, quando era utilizada por povos guerreiros na conquista de terri- tórios. Na própria Bíblia, no novo testamento, observa-se o interesse dos governantes pela contagem da população”. Naqueles dias, César Augusto publicou um decreto ordenando o recen- seamento de todo o império romano. Este foi o primeiro recenseamen- to feito quando Quirino era governador da Síria. E todos iam para a sua cidade natal, a fim de alistar-se. Assim, José também foi da cidade de Nazaré da Galileia para a Judeia, para Belém, cidade de Davi, porque pertencia à casa e à linhagem de Davi. Ele foi a fim de alistar-se, com Maria, que lhe estava prometida em casamento e esperava um filho. Enquanto estavam lá, chegou o tempo de nascer o bebê, e ela deu à luz o seu primogênito. Envolveu-o em panos e o colocou numa man- jedoura, porque não havia lugar para eles na hospedaria (BÍBLIA, N.T. LUCAS, 2:1-7). Desde então, a Estatística tem se tornado uma ferramenta essencial na pro- dução e disseminação do conhecimento, e no processo de tomada de decisão. “O grau de importância atribuído à estatística é tão grande que praticamente todos os governos 13 possuem organismos oficiais destinados à realização de estudos estatísticos” (IGNÁCIO, 2010, p. 1). No Brasil, temos o Instituto Brasileiro de Geografia e Estatística (IBGE). Muitos não sabem, mas a Estatística está presente nos mais variados cam- pos de atuação, da Medicina ao Direito, trata-se de uma ciência multidisciplinar. Hoje, é notável a utilização da Estatística nas universidades, nas empresas, nos hospitais, nas fábricas, nos tribunais, nas construções, nas instituições de pesquisa, nas bolsas de valo- res ou até em casa. Gráficos e tabelas são apresentados na exposição de resultados das empresas, dados numéricos são usados para aprimorar e aumentar a produção de uma fábrica, testes estatísticos são realizados para verificar a eficácia de um medicamento, probabilidades de um passivo vir a desenvolver um câncer são calculadas e censos de- mográficos fornecem informações sobre a população que auxiliam o governo a planejar políticas de desenvolvimento (IGNÁCIO, 2010). Além disso, a Estatística está presente nos fenômenos e fatos do nosso dia a dia mais do que imaginamos. “Praticamente todas as informações divulgadas pelos meios de comunicação provêm de alguma forma de pesquisas e estudos estatísticos” (IGNÁCIO, 2010, p. 8). O crescimento populacional, os índices de inflação, as pesquisas eleitorais, as taxas de desemprego e mortalidade, os índices de desenvolvimento huma- no são alguns exemplos de pesquisas divulgadas pelos meios de comunicação e que se utilizam dos métodos estatísticos. Para Ignácio (2010, p. 1): A chegada de computadores pessoais cada vez mais poderosos foi decisiva e fez com que a Estatística se tornasse mais acessível aos pesquisadores de diferentes campos de atuação. Atualmente, os equi- pamentos e softwares permitem a manipulação de grande quantidade de dados, o que veio a dinamizar o emprego dos métodos estatísticos. O autor ainda complementa: Na Administração, os métodos estatísticos podem ser empregados para o planejamento e controle da produção, visando à implantação de técnicas administrativas eficientes, que garantam menores custos e maiores lucros, na estimação de receitas, previsão de estoques e de demandas, e, principalmente, ao conhecimento do mercado e de seu cliente (IGNÁCIO, 2010, p. 10). Neste livro, trataremos dos conceitos e técnicas necessárias para cumprir todas as etapas anteriormente citadas. 14 1.1 Conceitos e Definições Você sabe o que é uma variável? Variável é uma característica qualquer que é medida ou avaliada em cada elemento da população ou amostra. Na Estatística, as variáveis são classificadas da seguinte maneira: FIGURA 1 – Classificação das variáveis Fonte: Elaborada pela autora (2017). Explicando melhor cada uma delas, as variáveis quantitativas são aquelas que descrevem quantidades e têm seus valores expressos numericamente (idade, peso, salário, número de filhos, etc.). Elas podem ser subdivididas em discretas e contínuas. As variáveis discretas assumem determinados valores pertencentes a um conjunto fi- nito ou enumerável. Geralmente, elas são resultados de contagens e, por isso, somente fazem sentido números inteiros. Por exemplo: número de irmãos, número de alunos em uma sala de aula, número de bactérias por litro de leite, número de cigarros fumados por dia. Já as variáveis contínuas são aquelas que podem assumir qualquer valor nu- mérico, num determinado intervalo de variação (reta real). Em geral, são resultantes de mensurações e medições, por isso os valores são apresentados em forma de fração e devem ser medidos por meio de algum instrumento, como: altura, peso, salário e tempo. As variáveis qualitativas são aquelas usadas para descrever uma qualidade ou atributo dos indivíduos da população e dentre elas podemos separar entre dois tipos: nominal e ordinal. As nominais não apresentam uma ordem natural de ocorrência, ou seja, não existe nenhuma ordenação nos possíveis resultados, por exemplo: time de preferência, cor dos olhos, gênero, classificação entre fumante e não fumante, etc. As ordinais são aquelas que apresentam uma ordem nos seus resultados, uma hierarquia em seus próprios valores, por exemplo: escolaridade (grau de instrução), opinião sobre a aula (ruim, regular ou boa), estágio da doença do paciente (inicial, intermediário ou terminal). Para cada tipo de variável citado, existem técnicas adequadas para coleta e resumo das informações. 15 O papel do estatístico é realizar um estudo de dados (observações). As prin- cipais etapas para a realização de um estudo de dados são: a) Levantamento de dados Antes do levantamento de dados, precisamos definir nossa população de interesse. População é o conjunto de elementos (pessoas, objetos, animais) que tem pelo menos uma característica (de interesse) observável em comum. Na prática, nem sempre conseguimos obter informações sobre todos os elementos da população (mes- mo nos recenseamentos conduzidos pelo governo a cada dez anos, algumas perguntas só são dirigidas a uma parte da população). Nesses casos, utilizamos uma amostra: subconjunto ou parte da população escolhido segundo determinadas regras e critérios de um método de amostragem. É importante observar que as informações obtidas por amostragem variam de uma amostra para outra. Portanto, há uma variabilidade amos- tral. Há, naturalmente, regras ou sugestões de formas de coleta de dados para controlar, ainda que parcialmente, essa variabilidade. b) Descrição e apresentação dos dados Para realizaçãodessa etapa, fazemos a Análise Exploratória de Dados, que consiste em resumir e organizar os dados coletados por meio de gráficos, tabelas ou medidas numéricas, e a partir desse resumo procurar alguma regularidade ou padrão nas observações (interpretar os dados). c) Apresentação dos resultados e conclusões Aqui entra a Inferência Estatística (estatística indutiva). É tirar conclusões sobre populações com base nos resultados observados em amostras extraídas dessas populações (a indução, que leva ao processo de raciocínio, implica o conhecimento de uma parte para tirar conclusões sobre a realidade no todo). A Inferência Estatística bus- ca obter resultados sobre a população a partir da amostra, dizendo também qual a pre- cisão desses resultados e com que probabilidade se pode confiar nas conclusões obtidas. A Figura 2 resume as etapas de um estudo de dados e suas interações. FIGURA 2 – Etapas de um estudo de dados e suas interações Fonte: Elaborada pela autora (2017). 16 1.2 Organização dos Dados Após a etapa de coleta dos dados, podemos apresentá-los em tabelas e grá- ficos, com o objetivo de resumir e simplificar sua exposição, introduzindo a interpretação mais rápida, eficiente e segura. Estudaremos então, neste capítulo, as tabelas e seus elementos. Os diferentes tipos de gráficos serão estudados mais à frente. A tabela é uma apresentação que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. Os elementos fundamentais da ta- bela são: título, cabeçalho, coluna indicadora e corpo. TABELA 1 - Previsão de tempo para 08/03 nas principais capitais brasileiras – temperatura em graus Celsius Capital Tempo Mínimo/Máximo Belo Horizonte Sol 21º/33º Brasília Sol 19º/31º Curitiba Sol/Chuva 19º/31º Porto Alegre Chuva 22º/29º Recife Sol 23º/31º Rio de Janeiro Sol com Nuvens 21º/37º Salvador Sol/Chuva 23º/33º São Paulo Sol/Chuva 19º/33º f Cabeçalho h Coluna Indicadora Corpo Fonte: Adaptado do Clima Tempo (2016). De acordo com a Resolução 886 do IBGE, nas casas ou células da tabela devemos colocar: • um traço horizontal ( - ) quando o valor é zero; • três pontos ( ... ) quando não temos os dados; • zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada; • um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado valor. Sobre a formatação de uma tabela, Battisti e Battisti (2008, p. 16) afirmam que: As laterais não possuem borda (traço), somente uma borda horizontal superior e uma horizontal inferior para delimitar o corpo da tabela, e mais uma borda para separar o cabeçalho do resto da tabela. Se a tabe- la possui uma linha do total, então devemos colocar uma borda acima e abaixo desta linha. Se existir mais de uma tabela, elas serão numeradas em ordem sequencial. Ainda segundo Battisti e Battisti (2008, p. 19): 17 Nas tabelas cruzadas apresentamos duas ou mais variáveis. Geralmen- te, utilizamos uma tabela cruzada para representar a relação entre duas variáveis aleatórias, que neste caso também pode ser chamada de ta- bela de dupla entrada. O formato de uma tabela cruzada, com duas variáveis aleatórias, é apresentado a seguir: TABELA 2 – Formato de uma tabela cruzada Título Nome da Variável 1 Nome da Variável 2 Categoria 1 da variável 2 Categoria 2 da variável 2 Total Categoria 1 da variável 1 n (%) n (%) n (%) Categoria 2 da variável 1 n (%) n (%) n (%) Categoria 3 da variável 1 n (%) n (%) n (%) Total n (%) n (%) n (%) Fonte Fonte: Elaborada pela autora (2017). Nas palavras de Battisti e Battisti (2008, p. 19): Temos três formas de apresentar o percentual (%) numa tabela cruza- da: por linha, por coluna e por total. Isto é, quando queremos comparar as categorias da variável 1, utilizamos o percentual por linha. Quando o intuito é comparar as categorias da variável 2, utilizamos o percentual por coluna. O percentual total considera todos os elementos pesquisa- dos. Vamos utilizar o exemplo a seguir para facilitar a compreensão: TABELA 3 - Nível de satisfação dos clientes da empresa XY em relação ao sexo, abril/2008 Nível de Satisfação Sexo Total Feminino Masculino Muito Satisfeito 43 (44,3%) 14 (20,9%) 57 (24,8%) Satisfeito 44 (45,4%) 29 (43,3%) 73 (44,5%) Mais ou Menos 4 (4,1%) 6 (9,0%) 10 (6,1%) Insatisfeito 5 (5,2%) 16 (23,8%) 21 (12,8%) Muito Insatisfeito 1 (1,0%) 2 (3,0%) 3 (1,8%) Total 97 (100,0%) 67 (100,0%) 164 (100,0%) Fonte: Battisti; Battisti (2008, p. 20). Se compararmos os dados da tabela apresentada, podemos identificar o nível de satisfação por sexo. Para isso, precisamos calcular o percentual (%) na coluna. Observe o exemplo adaptado de Battisti e Battisti (2008, p. 20): Muito satisfeito para o sexo feminino: 43/97 x 100=44,3% Muito satisfeito para o sexo masculino: 14/67 x 100=20,9% Observamos que 89,7% (44,3% + 45,4%) das mulheres estão muito satisfeitas ou satisfeitas, enquanto 64,2% (20,9% + 43,3%) dos ho- mens estão satisfeitos ou muito satisfeitos. 18 1.3 Tabela de Distribuição de Frequências Quando se estuda uma variável, o maior interesse do pesquisador é conhe- cer a distribuição dessa variável pelos possíveis valores (realizações) dela. A partir da tabela de dados brutos, vamos construir uma nova tabela com as informações resumidas para cada variável. Essa tabela será denominada tabela de frequência e conterá os valores da variável e suas respectivas contagens. A construção da tabela de frequência para variáveis qualitativas e quantitati- vas discretas ocorre da mesma forma. Segue um exemplo: TABELA 4 – Opinião dos alunos sobre a qualidade dos programas de TV Opinião Freq. Absoluta (ni) Freq. Relativa (fi) Freq. Percentual (Pi) Freq. Acumulada (fac) Freq. Acumulada (%) Ruim 39 39/50 = 0,78 78% 0,78 78% Média 1 1/50 = 0,02 2% 0,78+0,02 = 0,80 80% Boa 3 3/50 = 0,06 6% 0,78+0,02+0,06 = 0,86 86% Não sabe 7 7/50 = 0,14 14% 0,78+0,02+0,06+0,14 =1 100% Total 50 1 100% Fonte: Elaborada pela autora (2017). Os elementos de uma tabela de frequência são: • Frequência absoluta (ni): é o número de observações correspondente a cada classe. • Frequência relativa (fi): é a proporção das observações que pertence à classe, ou seja, é o quociente entre a frequência absoluta da classe correspondente e a soma das frequências (total observado). Para um conjunto de dados com n observações, a frequência relativa de cada classe é ni /n. • Frequência Percentual (Pi): para encontrar a distribuição de frequência percentual de uma classe, deve-se multiplicar por 100 o valor da frequência relativa para a mesma classe. • Frequência Acumulada (fac): a frequência acumulada de uma classe é definida pela soma das frequências de todas as classes anteriores à classe de re- ferência. Pode ser calculada a partir da frequência absoluta, frequência relativa ou frequência percentual. No exemplo da Tabela 4, ela foi calculada a partir da frequência relativa. Na frequência acumulada em porcentagem, apenas multiplicamos por 100 o valor da frequência acumulada de cada classe. 19 A construção de tabelas para dados quantitativos contínuos não é tão sim- ples como para os dados discretos, ela requer certo cuidado e é um pouco mais traba- lhosa, devido à grande quantidade de valores diferentes no conjunto de dados. Por isso, se fossemos construir a tabela como mostramos anteriormente, ela ficaria enorme e perderia a sua essência, que consiste em resumir o conjunto de dados. Dessa forma, a alternativa que vamos adotar é construir classes ou faixas de valores e contar quantos valores do meu conjunto de dados está dentro de cada classe. O menor valor da classe é chamado de limite inferior (Li) e o maior valor da classe é o limite superior (Ls). O intervalo ou classe pode ser representado da seguinte manei- ra: (Li)+(Ls), em que o limite inferior da classe é incluído na contagem da frequência, mas o superior não, pois o intervalo está aberto. Então, o limite superior só iráentrar na contagem da frequência da próxima classe. Na tabela de frequência, além dos elementos (colunas) citados anteriormen- te, acrescentamos mais uma coluna, a do ponto médio das classes (xi). Ele é definido como a média dos limites da classe: . Esses valores são utilizados no cálculo de algumas medidas descritivas e na construção de gráficos. A quantidade de classes (k) que será utilizada para construir a tabela é de- finida pela fórmula de Sturges: k=1+3,3 x log(n) Em que n é o número de elementos do seu conjunto de dados. Após o cálculo do número de classe, define-se o intervalo de variação dos dados (amplitude total): L = Máximo (maior valor do conjunto) – Mínimo (menor valor do conjunto) E a amplitude de cada classe: Para exemplificar, considere os seguintes dados referentes à quantidade de salários mínimos recebidos pelos 20 funcionários de uma empresa: 4,0 4,2 4,4 4,4 4,5 4,6 4,6 4,7 4,8 4,8 5,1 5,1 5,2 5,3 5,5 5,5 5,5 5,8 5,8 6,0 Nesse caso, a quantidade de classes será: k = 1 + 3,3 x log(n) = 1 + 3,3 x log(20) = 1 + 3,3 . 1,30 = 1 + 4,29 = 5,29 ≈ 5 classes 20 E a amplitude de cada classe: Assim, fazemos os seguintes cálculos para conhecermos os intervalos das classes: 4,0 + h = 4,0 + 0,4 = 4,4 4,4 + h = 4,4 + 0,4 = 4,8 4,8 + h = 4,8 + 0,4 = 5,2 5,2 + h = 5,2 + 0,4 = 5,6 5,6 + h = 5,6 + 0,4 = 6,0 Então, a tabela de frequência ficará da seguinte maneira: TABELA 5 – Tabela de frequência para os salários dos funcionários Salários mínimos xi ni fi Pi fac fac (%) 4,0 ˫ 4,4 (4,0+4,4)/2=4,2 2 2/20=0,10 10% 0,10 10% 4,4 ˫ 4,8 4,6 6 0,30 30% 0,40 40% 4,8 ˫ 5,2 5,0 4 0,20 20% 0,60 60% 5,2 ˫ 5,6 5,4 5 0,25 25% 0,85 85% 5,6 ˫ 6,0 5,8 3 0,15 15% 1,00 100% Total 20 1 100 Fonte: Elaborada pela autora (2017). A partir da tabela de frequência podem-se tirar muitas conclusões, como: • 60% dos funcionários recebem de 4,0 a 5,2 salários mínimos. • 15% dos funcionários recebem acima de 5,6 salários mínimos. Resumo Neste capítulo, falamos inicialmente sobre a origem da Estatística, sua evo- lução ao longo dos anos, sua definição e, principalmente, onde e como ela pode ser apli- cada. Vimos também os principais conceitos da área Estatística, que serão necessários para o entendimento de outros tópicos desse assunto. Por fim, estudamos quais são os elementos de uma tabela e como organizar e resumir os conjuntos de dados por meio de tabelas de frequência. 21 Atividades 1. Determinado produto foi pesquisado em 20 lojas e apresentou diferentes preços. Con- sidere a seguinte distribuição de frequência da pesquisa realizada: Preços Número de lojas 50 2 51 5 52 6 53 6 54 1 Total 20 Pede-se: a) Complete a tabela de frequência apresentada. Calcule a frequência relativa, a frequência acu- mulada (calculada a partir da frequência relativa) e a frequência acumulada em porcentagem. b) Qual a porcentagem de lojas com preço de até R$ 53,00 (50≤x≤53)? c) Qual a porcentagem de lojas com preço maior do que R$ 52,00 (>52)? 2. Em um estudo sobre o consumo diário de refrigerante na cidade de Presidente Pruden- te, verificou-se que das 80 famílias selecionadas para a amostra: 20% das famílias conso- mem até um litro, 50% consomem entre um e dois litros, 20% consomem entre dois e três litros e o restante consome entre três e quatro litros. Escreva as informações apresentadas na forma de uma tabela de frequência com intervalos de classes. 3. Quinze clientes de um banco foram analisados quanto ao tempo (em anos) que já são clientes do local, se possuem (S) ou não (N) algum tipo de empréstimo bancário e o risco desse cliente se tornar um inadimplente: alto (A), médio (M) ou baixo (B). Os dados são apresentados na tabela a seguir: Clientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Tempo 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5 Empréstimo S S N N N S S N N S S N S N N Rico A M A M M B A M B M B B M M A a) Classifique cada uma das variáveis como quantitativa (discreta ou contínua) ou qua- litativa (nominal ou ordinal). b) Para cada variável, construa uma tabela de frequência sem intervalos de classes. 22 Anotações 4. Os dados apresentados a seguir referem-se à porcentagem de lucro de 20 produtos vendidos em uma loja: 53,0 70,2 84,3 69,5 77,8 87,5 53,4 82,5 67,3 54,1 95,4 64,3 74,4 63,5 52,4 55,3 69,1 72,3 50,7 55,7 A partir desses dados, construa uma tabela de frequência com intervalos de classes. 5. Considere o salário (expresso em salários mínimos) de 20 empregados da seção de orçamentos da empresa X: 4,00 4,30 4,56 4,78 4,80 5,25 5,73 5,79 5,94 6,26 6,66 6,72 6,80 6,86 6,90 7,18 7,39 7,54 7,87 8,50 Construa uma tabela de frequência com intervalos de classes para os dados apresentados. 23 rEprEsEntaçõEs GráfIcas Capítulo 2 24 Você já sabe como representar resumidamente os dados, de forma numéri- ca, por meio de tabelas. Neste capítulo, estudaremos outra forma de resumir e represen- tar um conjunto de dados: as representações gráficas. Os gráficos são um complemento das tabelas, eles basicamente descrevem as informações da amostra por meio de uma imagem e a partir deles conseguimos ter uma rápida impressão visual da distribuição dos valores e extrair informações relevantes sobre os dados. Introdução 2.1 Construção e Interpretação de Gráficos Os gráficos têm a função de informar, de forma rápida e precisa, sobre a distribuição da variável em estudo. Existem vários tipos de gráficos para descrever variáveis qualitativas e quan- titativas discretas, os mais comuns são: gráfico de barras, gráfico de setores e gráfico de linhas. Para as variáveis quantitativas contínuas, o mais utilizado é o histograma. Ainda existem o Ramos-e-Folhas e o BoxPlot, usados para variáveis quantitativas em geral. Conforme o Manual de Normas e Padrões para Trabalhos Acadêmicos e Cien- tíficos da Unoeste (2015, p. 31), a identificação de gráficos, figuras, tabelas e outros [...] “aparece na parte superior, precedida da palavra designativa, seguida de seu número de ordem no texto em algarismo arábico, travessão e do respectivo título”. Importante A grande maioria dos gráficos que serão apresentados a seguir pode ser construída a partir do software Excel. Agora, serão descritos os gráficos citados anteriormente: • Gráfico de barras: é composto por duas linhas ou eixos, com barras ver- ticais ou horizontais traçadas num eixo das coordenadas cartesianas, que representam a variação de um fenômeno de um processo de acordo com a sua intensidade. Essa intensidade é indicada por outro eixo. É apropriado para variáveis qualitativas e variáveis discretas. As colunas devem sempre possuir a mesma largura e a distância entre elas deve ser constante. Recomenda-se que as barras não sejam justapostas, pois isso tem apelo de continuidade. 25 FIGURA 3 – Gráfico de barras da opinião dos alunos sobre a qualidade dos programas de TV Fonte: Elaborada pela autora (2017). • Gráfico de setor (ou de pizza): é representado por círculos divididos proporcionalmente de acordo com os dados do fenômeno ou do processo a ser represen- tado. Os valores são expressos em números ou em porcentagem (%). É recomendado quando se tem o total e a categoria (ou o valor) representa uma parte e queremos res- saltar a participação de um determinado dado no total (WIKIPEDIA, 2016). Exemplo: a opinião dos alunos sobre a qualidade dos programas de TV. Como temos no total 50 alunos, o setor circular de 360° será equivalente a 50. Pela Figura 3, 39 pessoas responderam que a qualidade dos programas de TV é RUIM. Essas 39 pessoas representam 39/50 = 0,78 (ou seja, 78% do total), 78% de 360°é 280,8°. Encontramos o ângulo correspondente ao número de alunos que acham que os progra- mas de TV são ruins. Da mesma forma, 3 pessoas ou 6% responderam que a qualidade é BOA; 6% de 360° é 21,6°. FIGURA 4 – Gráfico de setores da opinião dos alunos sobre a qualidade dos programas de TV Fonte: Elaborada pela autora (2017). • Gráfico deLinhas: é composto por dois eixos, um vertical e outro hori- zontal, e uma linha que demonstra a evolução de um fenômeno ou processo, isto é, o seu crescimento ou diminuição, no decorrer de um determinado período. 26 FIGURA 5 – Gráfico de linhas da opinião dos alunos sobre a qualidade dos programas de TV Fonte: Elaborada pela autora (2017). Lembre-se Os gráficos de barras, de setores e de linhas serão utilizados somente para representar dados em tabelas de frequência sem intervalos de classes, ou seja, para dados quanti- tativos discretos ou qualitativos. • Histograma: é formado por um conjunto de retângulos justapostos, no qual cada retângulo tem como base a amplitude das classes e como altura a frequência (simples, absoluta, relativa ou percentual) da classe que representa. FIGURA 6 – Histograma Fonte: Elaborada pela autora (2017). 27 Lembre-se O histograma somente pode ser usado para representar tabelas de frequência com in- tervalos de classes, ou seja, para dados quantitativos contínuos. • BoxPlot (ou gráfico de caixa): é um gráfico utilizado para avaliar a distribuição do dados. Ele é formado pelo primeiro e terceiro quartil e pela mediana. As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o li- mite inferior e do quartil superior até o limite superior. “Os pontos fora desses limites são considerados valores discrepantes (outliers) e são denotados por asterisco (*)”. (PORTAL ACTION, 2017). Exemplo: uma medida de bom desempenho de uma empresa é o retorno sobre os investimentos. A seguir, são apresentados os retornos, em milhares (R$), dos últimos 12 meses de serviço da empresa Y. 2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825 O primeiro passo é ordenar os dados; logo em seguida, calcula-se a media- na, representada por Q2 (segundo quartil). A mediana é uma medida de localização do centro da distribuição dos dados, ou seja, é o valor que separa a metade maior e a metade menor de uma amostra, popu- lação ou distribuição de probabilidade. Se n é ímpar, a mediana é o elemento médio. Se n é par, a mediana é definida como a média dos dois elementos do meio. Logo, 2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825 Encontrada a mediana, realiza-se o terceiro passo: localizar o primeiro e o terceiro quartil. Para isso, calculam-se as medianas das duas metades, ou seja, o pri- meiro quartil é a mediana da metade inferior e o terceiro quartil é a mediana da metade superior. 28 FIGURA 7 – BoxPlot da variável “retornos em milhares (R$)” Fonte: Elaborada pela autora (2017). Portanto, a mediana é 2.405 e os quartis Q1 = 2.365 e Q3 = 2.500. A resenha dos dados mostra um menor valor 2.210 e um maior valor de 2.825. Além desses valores, precisamos encontrar os limites, inferior e superior: Limite Inferior: LI: {Q1-1,5 (Q3 - Q1)} Limite Superior: LS: {Q3+1,5 (Q3 - Q1)} Calculando o LI, temos: LI: {Q1-1,5 (Q3 - Q1)} a LI = 2.365 - 1,5 (2.500-2.365) = 2.162,5 Calculando o LS, temos: LS: {Q3+1,5 (Q3 - Q1)} a LS = 2.500 + 1,5 (2.500-2.365) = 2.702,5 Os dados fora desses limites são considerados outliers (pontos fora da curva, representado por “o”.). Sendo o limite superior 2.702,5; nesse caso, “o” = 2.825 é um outlier. 29 • Ramos-e-Folhas: tanto o histograma como o polígono de frequência fornecem uma ideia da forma da distribuição da variável sob consideração. “Um procedi- mento alternativo para resumir um conjunto de valores, com o objetivo de se obter uma ideia da forma da sua distribuição é o ramos-e-folhas” (CESPEDES, 2010, p. 29). Pode- -se dizer que a vantagem dele sobre o histograma é que não perdemos informação sobre os dados. Ramo-e-folha é um procedimento alternativo ao histograma e ao polígono de frequência para obter uma ideia da forma da distribuição dos dados sem perder a infor- mação sobre eles. “Não existe uma regra fixa para a sua construção, mas a ideia básica é dividir cada observação em duas partes: a primeira (ramo) é colocada à esquerda de uma linha vertical, a segunda (folha) é colocada à direita” (CESPEDES, 2010, p. 29). É possível construir um ramo com os primeiros dígitos ordenados. Quando tivermos muitas folhas em cada ramo, podemos duplicar os ramos. Resumo Neste capítulo, aprendemos várias formas diferentes de representar grafica- mente um conjunto de dados, sendo ele de natureza quantitativa ou qualitativa. Além de construir os gráficos, agora você será capaz de interpretá-los. Em complemento às tabelas e aos gráficos, existem outras formas de sintetizar e descrever um conjunto de dados: por meio das chamadas medidas-resumo, que veremos mais à frente. Atividades 1. Construa um histograma para os dados das Atividades 4 e 5 propostas no capítulo 1. 2. Construa um gráfico de setores para as variáveis “Empréstimo” e “Risco” da Atividade 3 do capítulo 1. 3. O conceito de 20 alunos do 1º ano do ensino médio, na disciplina de Estatística, está na seguinte tabela: A C C B D C E B B C C E C A A B C A C B a) Qual é o tipo dessa variável? b) Monte uma tabela de distribuição de frequência sem intervalos de classes. c) Construa um gráfico de linhas. 30 4,10 4,30 4,36 4,87 4,95 5,25 5,73 5,79 5,94 6,26 6,53 6,71 6,82 6,86 6,90 7,18 7,39 7,54 8,76 9,40 4. Construa um ramos-e-folhas para o conjunto de dados a seguir: 5. Um gerente anotou o número de clientes atendidos por dia, durante um período de 30 dias, e obteve os seguintes dados: 4 4 5 5 6 4 3 7 4 4 8 6 5 5 5 7 5 4 3 6 5 5 6 8 5 10 6 6 5 5 Construa uma tabela de frequência sem intervalos de classes e um gráfico de barras. Anotações 31 MEdIdas dEscrItIvas Capítulo 3 32 As medidas-resumo descrevem e sintetizam as principais características ob- servadas em um conjunto de dados, permitindo ao pesquisador melhor compreensão do comportamento dos dados. Essas medidas fazem parte da Análise Descritiva dos dados, a etapa inicial de um estudo estatístico. Elas podem ser subdivididas da seguinte maneira: • Medidas de posição: fornecem um valor que representa a posição central do conjunto de dados, com os demais dados dispostos em torno deste. As medidas de posição são: moda, média e mediana. • Medidas de dispersão: amplitude, variância, desvio-padrão e coeficiente de variação. • Medidas de forma: assimetria e curtose. No decorrer deste capítulo, estudaremos como calcular cada uma dessas me- didas por meio de dados brutos (apresentados na forma em que foram coletados) e dados agrupados em tabelas de frequências. Introdução 3.1 Média A média é definida pela soma de todas as observações do conjunto de dados dividida pelo número de observações: • Determinação da média por meio de tabelas de distribuição de frequência sem intervalos de classes: Se temos n1 observações iguais a x1 , n2 observações iguais a x2 e nk observa- ções iguais a xk , então a média será definida por: Exemplo: nível de cicatrização. 33 TABELA 6 – Nível de cicatrização Cicatrização (xi) Frequência (ni) Frequência relativa (fi) xi .ni 14 5 0,167 70 15 7 0,233 105 16 6 0,200 96 17 7 0,233 119 18 5 0,167 90 Total 30 1,000 480 Fonte: Elaborada pela autora (2017). • Determinação da média por meio de tabelas de frequência com intervalos de classes: Para o caso de tabelas com intervalos de classes, devemos definir o ponto médio da classe, que será o nosso xi: Exemplo: quantidade de funcionários de 50 empresas do mesmo ramo: TABELA 7 – Número de funcionários trabalhando em 50 empresas do mesmo ramo Funcionários ni xi 40 ˫ 50 8 40+50 / 2 = 45 50 ˫ 60 22 55 60 ˫ 70 8 65 70 ˫ 80 6 75 80 ˫ 90 5 85 90 ˫ 100 1 95 TOTAL 50 Fonte: Elaborada pela autora (2017). 34 Lembre-se Apesar de a média aritmética apresentar excelentes propriedades, que a mantém como uma das medidas mais importantes em Estatística, em certos casos ela pode não ser o parâmetro mais adequado para descrever um conjunto de dados. Isto pode ocorrer, entreoutros casos, quando existem dados aberrantes, extremos ou discrepantes. Pois todos os valores entram para o cálculo da média, então os valores extremos afetam no valor calculado e, em alguns casos, pode haver uma grande distorção, tornando, nesse caso, a média indesejável como medida de tendência central. Exemplo: uma amostra de salário de 10 funcionários da empresa E (em mil reais): 1,2 – 1,2 – 1,3 – 1,5 – 1,7 – 1,8 – 1,9 – 2,1 – 2,3 – 55,0. Note que, provavelmente, um dos salários deve ser de um dos diretores da empresa. Sua inclusão vai alterar sensivelmente o salário médio dos funcionários. O salário médio dos funcionários sem o maior salário é: (1,2 + 1,2 + 1,3 + 1,5 + 1,7 + 1,8 + 1,9 + 2,1 + 2,3) = 15/9 = 1,67 (R$ 1670,00) Já considerando o maior salário, a média é: (15 + 55) /10 = 7,0 (R$ 7000,00) Portanto, mostrando uma situação totalmente enganosa. 3.2 Mediana A mediana (Md) é o valor central da variável quando os valores estão dispos- tos em ordem crescente ou decrescente de magnitude. É o valor que divide o conjunto de dados em dois subconjuntos com o mesmo número de elementos. Se o número de elementos “n” for ímpar, a Md será o elemento central da sequência de dados; se for par, a Md será a média aritmética entre os dois elementos centrais da sequência de dados: Exemplo: o número de empresas falidas no mês de janeiro nos últimos 7 anos é: 52 – 41 – 37 – 82 – 24 – 63 – 68. Ordenando esses valores de forma crescente, temos: 24 – 37 – 41 – 52 – 63 – 68 – 82. 35 • Dados agrupados em tabelas de frequência sem intervalos de classes Para o cálculo da mediana por meio de tabelas de frequência sem intervalos de classes, calculamos . A mediana será o valor da variável que corresponde a tal frequência acumulada imediatamente superior à metade da soma das frequências. Exemplos: a) quando n é ímpar. Considere a seguinte distribuição: TABELA 8 – Cálculo quando n é ímpar TABELA 9 – Cálculo quando n é ímpar Idades ni fac 1 3 3 2 4 3+4=7 4 5 12 5 2 14 7 5 19 Total 19 - Idades ni fac Posições 1 3 3 1ª – 3ª 2 4 7 4ª – 7ª 4 5 12 8ª– 12ª a 10ª 5 2 14 13ª – 14ª 7 5 19 15ª – 19ª Total 19 - - Fonte: Elaborada pela autora (2017). Fonte: Elaborada pela autora (2017). fac é a frequência absoluta acumulada n = 19 A partir da tabela 8, vamos organizar o rol para visualizarmos melhor as po- sições que encontraremos. 1 1 1 3 3 3 3 4 4 4 4 4 5 5 7 7 7 7 7 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª 12ª 13ª 14ª 15ª 16ª 17ª 18ª 19ª Para que você compreenda melhor, anotaremos na tabela 9 as posições encontradas: 36 O primeiro passo é encontrar a posição, como n é ímpar, temos: Posição da mediana: A 10ª posição é ocupada pelo valor 4. Logo, Md = 4. b) quando n é par. Considere a seguinte distribuição: TABELA 10 – Cálculo quando n é par Número de meninos ni fac 0 2 2 1 6 8 2 10 18 3 12 30 4 4 34 Total 34 - Fonte: Elaborada pela autora (2017). fac é a frequência absoluta acumulada n = 34 O primeiro passo é encontrar a posição, ou seja, . Como n é par, a mediana está entre a 17ª e 18ª posição. Se analisarmos a tabela 10, e fizermos do mesmo modo como o exemplo anterior, temos: TABELA 11 – Cálculo quando n é par Número de meninos ni fac Posições 0 2 2 1ª – 2ª 1 6 8 3ª – 8ª 2 10 18 9ª –18ª a 17ª e 18ª 3 12 30 19ª – 30ª 4 4 34 31ª – 34ª Total 34 - - Fonte: Elaborada pela autora (2017). A 17ª posição é ocupada pelo valor 2 e a 18ª posição pelo valor 2, então: Como n é par, utilizamos: Logo, Md = 2. Vamos ver mais um caso para fixar o entendimento do assunto: Exemplo: número de irmãos dos 50 alunos da sala do 4º ano de Fonoaudiologia. 37 TABELA 12 – Número de irmãos Número de irmãos ni fac 1 28 28 2 14 42 3 6 48 4 1 49 7 1 50 Total 50 - Fonte: Elaborada pela autora (2017). fac é a frequência absoluta acumulada n = 50 O primeiro passo é encontrar a posição, ou seja, . Como n é par, a mediana está entre 25ª e 26ª posição. • Dados agrupados em tabelas de frequência com intervalos de classes Para o caso de tabelas de frequência com intervalos de classes é um pouco mais complicado, pois nesse caso precisamos definir qual ponto do intervalo será esco- lhido para representar a mediana. Primeiro precisamos definir qual é o intervalo de classe em que se encontra a mediana (classe mediana). Nesse caso, diferente do que vimos anteriormente, a po- sição da mediana será sempre definida por , independentemente se a quantidade de dados for par ou ímpar. Nota-se que a mediana foi definida pela média do 25º e 26º valor, e para identificar quais eram esses valores olhamos para a frequência acumulada. Por exemplo: os primeiros 28 valores do conjunto de dados é igual a 1, então, o 25º e 26º valores são 1. E se eu quisesse saber qual é o 36º valor? Bom, nesse caso seria 2, pois a frequência acumulada mostra que do 29º ao 42º o valor é igual a 2. Atenção Em muitos livros, você poderá encontrar a seguinte fórmula para o cálculo do valor posi- cional da tabela de frequências: , mas aqui chamamos a frequência absoluta de ni . Portanto, utilizamos . 38 A mediana é . Portanto, a classe em negrito é a classe mediana, pois é a classe que contém o 32º valor do conjunto de dados. Para descobrir que valor é esse, faremos: Em que: li= limite inferior da classe da mediana Fant= frequência acumulada da classe anterior à mediana nMd= frequência absoluta da classe mediana hMd= amplitude da classe mediana Exemplo: vamos encontrar a mediana dos pagamentos efetuados utilizando os dados da seguinte tabela que apresenta a distribuição de pagamentos: TABELA 13 - Distribuição dos pagamentos de 64 funcionários da empresa LM i Pagamento (R$) ni fac 1 450 ˫ 550 8 8 2 550 ˫ 650 10 18 3 650 ˫ 750 11 29 4 750 ˫ 850 16 45 5 850 ˫ 950 13 58 6 950 ˫ 1050 5 63 7 1050 ˫ 1150 1 64 Fonte: Elaborada pela autora (2017). Portanto, metade dos pagamentos foi igual ou superior à R$ 768,75. Quando o limite superior (Li) da classe mediana for igual à n/2, a mediana será igual ao próprio limite superior. Exemplo: O passo seguinte é um problema de interpolação (inserção de uma determi- nada quantidade de valores entre dois números dados), supondo que os valores distri- buem uniformemente em todo o intervalo de classe. Para isso, existe uma fórmula: 39 TABELA 14 – Tabela com intervalo de classes i Classes ni fac 1 0 ˫ 10 1 1 2 10 ˫ 20 3 4 3 20 ˫ 30 9 13 4 30 ˫ 40 7 20 5 40 ˫ 50 4 24 6 50 ˫ 60 2 26 Fonte: Elaborada pela autora (2017). Nesse caso, a mediana é: A classe mediana é a 3ª classe (em negrito). A mediana é o último valor dessa classe, ou seja, Md = 30. Atenção A mediana tem interpretação simples quando as observações são muito diferentes umas das outras. Todavia, quando há valores repetidos, a sua interpretação não é tão simples (DUARTE, 2016). Veja o seguinte exemplo: Resultado da prova: 2 – 2 – 5 – 5 – 5 – 5 – 5 – 7 – 8 – 8 – 8. A mediana seria a nota 5, mas só existem 2 notas menores e 4 notas maiores que 5. Essa desvantagem, mais a dificuldade de sua obtenção, faz com que ela seja menos utilizada do que a média aritmética. No entanto, existem casos nos quais o emprego da mediana é necessário (GUIMARÃES, 2008): • Valores aberrantes ou atípicos têm maior influência na mediana do que sobre a média, pois a mediana não considera a soma dos elementos, e sim a ordem dos elementos. • No caso em que a primeira ou a última classe (ou ambas) tenham respec- tivamente o extremo inferior e superior indefinidos e o centro da distribuição não esteja contido em nenhuma delas, é possível calcular a mediana, mas a média não. 40 3.3 Moda Para uma distribuição de frequências, a moda (Mo) é o valor que ocorre com mais frequência. A moda é também conhecida como tipo dominante, valor popular e valor de densidade máxima de um conjunto de dados. Apesar de seu significado ser bem simples, a moda nem sempre existe, nemsempre é única. • Quando não há valores repetidos, a série é amodal. • Quando tem duas modas, a série é bimodal. • Quando tem várias modas, a série é multimodal. Exemplos: • Para o exemplo do número de irmãos, Mo = 1. • Para o exemplo da cicatrização, as modas são 15 e 17, ou seja, a série é bimodal. Importante A moda pode ser usada como uma medida de tendência central também para variáveis qualitativas. Por exemplo: “Doenças cardíacas constituíram a causa principal de mor- talidade no ano de 2015”. Um número maior de óbitos ocorreu por causa de doenças cardíacas, ou seja, “doenças cardíacas” é a moda da distribuição. Para os dados agrupados em intervalos de classe, a moda pertence à classe de maior frequência. Mas qual valor deverá ser escolhido para representá-la? Podemos usar o seguinte estimador: Em que: li= limite inferior da classe da moda (classe moda). ∆1= nMo- nant e ∆2= nMo - npost nant e npost = respectivamente frequência absoluta simples da classe anterior e da classe posterior à classe modal. nMo = frequência absoluta simples da classe modal. hMo = amplitude da classe modal. Exemplo: vamos encontrar a moda dos pagamentos efetuados utilizando os dados da tabela a seguir: 41 TABELA 15 – Distribuição dos pagamentos de 64 funcionários da empresa LM i Pagamento (R$) ni 1 450 ˫ 550 8 2 550 ˫ 650 10 3 650 ˫ 750 11 4 750 ˫ 850 16 5 850 ˫ 950 13 6 950 ˫ 1050 5 7 1050 ˫ 1150 1 Fonte: Elaborada pela autora (2017). A classe modal é a 4ª classe (750 ˫ 850). Então, a moda será: Observações gerais: • Para calcular a moda de uma variável precisamos apenas da distribuição de frequência absoluta (contagens). • Já para a mediana necessitamos ordenar as realizações da variável. • A média só pode ser calculada para variáveis quantitativas. • Essas condições limitam bastante o cálculo de medidas-resumo para vari- áveis qualitativas. • Para as variáveis qualitativas ordinais podemos calcular moda e mediana. • Para as variáveis nominais podemos trabalhar somente com moda. Notas: • A média é a mais utilizada, principalmente quando não há valores aberran- tes, sendo a medida mais conveniente para cálculos posteriores. • A Md deve ser usada, sempre que possível, como medida representativa de distribuições fortemente assimétricas, pois o seu valor não é afetado por valores extremos. • A Mo é usada quando há interesse em saber o ponto de concentração do conjunto ou o tipo de distribuição que se está analisando, sendo que o seu valor, em se tratando de dados agrupados, é fortemente afetado pela maneira como as classes são constituídas. 42 3.4 Separatrizes Segundo Guimarães (2008, p. 49), “além da mediana que, por definição, divide um conjunto ordenado de valores em duas partes iguais, existem outras medidas que dividem o conjunto de dados em 4, 10 ou 100 partes iguais”. São elas: Quartis, Decis e Percentis. Ainda conforme o autor, essas medidas não são de tendência central, mas elas são medidas de posição, pois fornecem pontos à esquerda ou à direita, dos quais são encontradas frações da frequência total. • Quartis Denominamos quartis os valores de uma série que dividem em quatro partes iguais. Em cada parte há n/4 (25%) das observações do conjunto. • Decis São valores que dividem o conjunto ordenado dos valores de X em 10 partes iguais, isto é, 10% das observações são menores que o 1º Decil (D1), 20% são menores que o segundo Decil (D2), etc. • Percentis São valores que dividem o conjunto ordenado de dados de X em 100 partes iguais. Exemplo: vamos usar a variável Altura. Teríamos que ordenar os dados, mas vamos usar os resultados de Ramos-e-Folhas para facilitar. Encontre Q1, Q3, D6, P38 e P93. Para encontrar Q1, 25% dos dados ou n/4 = 50/4 = 12,5. Para encontrar Q3, 75% dos dados ou (3n)/4 = (3x50)/4 = 37,5. 43 Para encontrar D6 , 60% dos dados ou (6n)/10 = (6x50)/10 = 30. D6 = x30 = 1,69 Para encontrar P38 , 38% dos dados ou (38n)/100 = 19. P38 = x19 = 1,64 Para encontrar P93 , 93% dos dados ou (93n)/100 = 46,5. 3.5 Amplitude Total A primeira medida de dispersão que vamos comentar é a amplitude total. Ela é definida pela diferença entre o maior valor e o menor valor do seu conjunto de dados: A = xmáx - xmín De acordo com Tavares (2007, p. 32), são desvantagens da amplitude: • Considera somente os dois valores extremos, por isso é apenas uma indi- cação aproximada da dispersão. • Apresenta muita variação de uma amostra para outra, mesmo que ambas sejam extraídas da mesma população. “Portanto, você deve trabalhar com uma medida que leve em consideração todas as observações”, ou seja, a variância e o desvio-padrão (TAVARES, 2007, p. 32). Exemplo: vamos comparar a variabilidade de 3 conjuntos de dados: A, B e C. As amplitudes de cada um são: AA = 70 – 70 = 0 AB = 90 – 50 = 40 AC = 160 – 5 = 155 O conjunto C é o que apresenta maior variabilidade, ou seja, é o conjunto mais heterogêneo (os valores diferem muito entre si). Em compensação, o conjunto A é o mais homogêneo, pois não apresentou nenhuma variabilidade nos dados. 3.6 Variância Considere a seguinte situação: tenho notas de provas de 3 turmas de alunos: 44 TABELA 16 – Notas das turmas A, B e C Turma Nota Média A 2 3 4 6 6 8 9 10 6 B 4 5 5 6 6 7 7 8 6 C 6 6 6 6 6 6 6 6 6 Fonte: Elaborada pela autora (2017). Calculando a média de cada turma, observa-se que todas deram iguais a 6 (x̅A = x̅B = x̅C = 6). Então, pode-se concluir que as turmas mostraram ter adquirido o mesmo conhecimento? Evidente que NÃO. Mesmo as médias sendo iguais, a variância entre as notas foi diferente em cada turma. Por exemplo: na turma A as notas são muito diferentes entre si, repetido apenas o valor 6, ou seja, há uma grande variação entre os dados. Já na turma C todas as notas são iguais, portanto a variância é zero. Por isso, a importância de saber a variância de um conjunto de dados. “A variância de uma amostra {x1, x2,….,xn} de n elementos é definida como a soma ao quadrado dos desvios dos elementos em relação à sua média x̅ dividido por (n-1). Ou seja, a variância amostral é dada por” (PORTAL ACTION, 2017): 3.7 Desvio-Padrão “O desvio-padrão amostral de um conjunto de dados é igual à raiz quadrada da va- riância amostral. Dessa forma, o desvio-padrão amostral é dado por” (PORTAL ACTION, 2017): “O desvio-padrão, quando analisado isoladamente, não dá margem a muitas conclusões. Por exemplo, para uma distribuição cuja média é 300, um desvio-padrão de 2 unidades é pequeno, mas para uma distribuição cuja média é 20, ele já não é tão pequeno” (TAVARES, 2007, p. 34). Por isso, ele é mais recomendável para comparar 2 ou mais grupos. Importante Segundo Tavares (2007, p. 34), são condições para se usar o desvio-padrão ou variância para comparar a variabilidade entre grupos: • mesmo número de observações; • mesma unidade; • mesma média. 45 • Cálculo por meio da tabela de frequência sem intervalos de classes: Quando os dados estiverem agrupados em tabelas sem intervalos de classes, a variância será definida por: É a mesma base da fórmula apresentada anteriormente, a única diferença é que agora iremos acrescentar o número de ocorrências de cada valor da variável (frequ- ência absoluta - ni). Exemplo: TABELA 17 - Distribuição de frequências de funcionários da empresa segundo o número de filhos Número de filhos (xi) Número de funcionários (ni) 0 4 1 5 2 7 3 3 5 1 TOTAL 20 Fonte: Elaborada pela autora (2017). Cálculo da variância para os dados da Tabela 17: Cálculo do desvio-padrão: O primeiro passo é fazer o cálculo da média, ou seja: 46 Exemplo: TABELA 18 - Distribuição de frequências da variável salário Intervalo de classe Ponto médio (xi) Frequência absoluta (ni) Frequência relativa (fi) 4 ˫ 7,9 (4+7,9)/2=5,95 10 10/36=0,27≈0,28 7,9 ˫ 11,8 9,85 12 0,33 11,8 ˫ 15,7 13,75 7 0,19 15,7 ˫ 19,6 17,65 6 0,17 19,6 ˫ 23,5 21,55 1 0,03 Total 36 1 Fonte: Elaborada pela autora (2017). Considerando a Tabela 18: TABELA 19– Cálculo da variância (xi - x̅ ) 2 ni.(xi - x̅ ) 2 27,04 270,4 1,69 20,28 6,76 47,32 42,25 253,50 108,16 108,16 Total 699,66 Fonte: Elaborada pela autora (2017). Logo, a variância e o desvio-padrão serão: • Cálculo por meio da tabela de frequência com intervalos de classes: Quando formos calcular a variância a partir de tabelas de frequência com classes, o procedimento será o mesmo adotado para tabelas sem intervalos de classes, porém, nesse caso xi será o ponto médio da classe (definido no tópico Média): Então: 47 3.8 Coeficiente de Variação Quando as condições para utilizar o desvio-padrão em comparações entre grupos não são satisfeitas, usaremos uma medida estatística chamada de Coeficiente de Variação (CV). O coeficiente será dado por meio da expressão: Em que: s é o desvio-padrão e x̅ é a média do conjunto de dados. Exemplo: queremos comparar a variabilidade de dois conjuntos de dados: o custo de fabricação de peças automotivas (em reais) e o tempo gasto na fabricação de cada peça (em segundos). TABELA 20 – Média e desvio-padrão das variáveis Custo e Tempo x̅ s Custo 175 reais 5 reais Tempo 68 segundos 2 segundos Fonte: Elaborada pela autora (2017). A princípio, você poderia concluir que o Custo apresenta maior variabilidade. No entanto, as condições citadas anteriormente deveriam ser satisfeitas para que se pudesse utilizar o desvio-padrão para comparar a variabilidade (TAVARES, 2007, p. 35). Como as condições não são satisfeitas, vamos calcular o CV dos dois grupos: Portanto, como o CV do Tempo foi maior, ele apresenta maior dispersão do que o Custo, mudando, assim, a conclusão anterior (TAVARES, 2007, p. 35). 3.9 Assimetria Assimetria é uma das medidas associadas à forma de uma distribuição de dados, ela indica o grau de desvio de uma distribuição de frequência. O coeficiente de assimetria permite definir se a distribuição é simétrica (Média = Moda = Mediana) ou assimétrica. Quando a distribuição é simétrica, ela é unimodal e suas observações dis- tribuem-se de modo aproximadamente simétrico ao redor da média, ou seja, o seu histograma representa um padrão de comportamento conhecido como Modelo Normal. 48 FIGURA 8 – Formas da curva de distribuição de acordo com a assimetria Fonte: Elaborada pela autora (2017). De acordo com Artes (2014, p. 3-4): Conhecer o tipo e intensidade da assimetria de um conjunto de dados pode trazer informações úteis ao analista. Por exemplo, caso a distri- buição tenha uma forte assimetria positiva, sabe-se que apesar da alta concentração de dados em valores mais baixos, a média sofrerá influ- ência da cauda à direita, deslocando-se em sua direção. Nesse caso, haverá mais observações abaixo da média do que acima dela. O inverso acontece se a assimetria for negativa. Admita que o interesse seja ana- lisar os retornos de duas aplicações, ambas com mesma média e mes- ma variância, no entanto, uma delas com assimetria positiva e a outra negativa. No caso de assimetria negativa, espera-se que a quantidade de dias com retornos inferiores a média seja maior do que acima, no entanto, a ocorrência de valores muito maiores do que a média é mais comum do que valores muito abaixo dela (o inverso acontece com os retornos do ativo com assimetria negativa). Essa informação pode ser útil, caso o investidor tenha que se decidir por uma dessas aplicações. • Como medir a assimetria? Para medir a assimetria utilizamos o Coeficiente de Assimétrica de Pearson (As), ele é definido como: Em que: s = desvio-padrão; Mo = moda; x̅ = média Se As < 0 a curva será assimétrica negativa. Se As > 0 a curva será assimétrica positiva. Se As = 0 a curva será simétrica. No caso das distribuições assimétricas, elas podem ser assimétrica positiva (Moda ≤ Mediana ≤ Média) ou assimétrica negativa (Média ≤ Mediana ≤ Moda). Nas assimétricas negativas, há uma alta concentração de dados nos valores mais baixos. A cauda mais longa da distribuição fica à direita, indicando a ocorrência de valores altos com baixa frequência; já nas assimétricas positivas, a maior concentração de dados está nos valores mais altos. A cauda mais longa da distribuição fica à esquerda. Para ilustrar a forma de cada uma dessas distribuições, segue a imagem: 49 3.10 Curtose A medida da Curtose indica o grau de achatamento da curva de distribuição dos dados. Ela também é uma medida de forma da análise descritiva. As curvas podem ser definidas como: Platicúrtica (curva mais achatada), Mesocúrtica (curva normal) e Leptocúrtica (curva mais afunilada). FIGURA 9 – Tipo de curva segundo o grau de achatamento Fonte: MSPC (2008). • Como medir a Curtose? Por meio do Coeficiente Centílico de Curtose: Em que: Q3= 3º Quartil Q1= 1º Quartil P90= Percentil 90 P10= Percentil 10 Se K = 0,263 a curva será Mesocúrtica. Se K < 0,263 a curva será Leptocúrtica. Se K > 0,263 a curva será Platicúrtica. Resumo Neste capítulo, vimos que podemos tirar várias conclusões do conjunto de dados a partir da Análise Descritiva. As medidas-resumo nos fornecem informações importantes sobre a distribuição de uma variável. Vimos que a partir das medidas de posição podemos localizar o centro de uma distribuição, a partir das medidas de disper- são temos uma noção de como os dados variam em torno da média, se eles são homo- gêneos ou heterogêneos. E a partir da assimetria e curtose, conseguimos informações sobre a forma da curva de distribuição dos dados. Todas essas medidas juntas servirão de auxílio no momento de escolher o melhor procedimento para análise dos dados. 50 Atividades 1. Queremos estudar a idade dos 350 funcionários da Indústria Têxtil Moriá e vamos fa- cilitar esse processo por meio de uma amostra. Para determinar que tamanho dever ter essa amostra, foi colhida uma amostra-piloto. As idades observadas foram: 42, 27, 21, 55, 18, 27, 30, 21, 24 Calcule a média, a mediana, a moda e a variância para os dados apresentados. 2. Considere o número de filhos de 20 empregados da seção de orçamentos de uma empresa: Número de filhos Frequência absoluta (ni) 0 10 1 3 2 3 3 2 4 1 5 1 TOTAL 20 Duração (em anos) Número de casamentos 0 ˫ 6 2800 6 ˫ 12 1400 12 ˫ 18 600 18 ˫ 24 150 24 ˫ 30 50 TOTAL 5000 a) Qual a porcentagem de funcionários que tem mais do que 2 filhos? E a porcentagem de funcionários que possuem até 1 filho? b) Qual a média de filhos dos funcionários da empresa? c) Calcule a mediana, a moda e o desvio-padrão. 3. Calcule a média de clientes atendidos por dia e a moda a partir da tabela construída na atividade 5 do capítulo 2. 4. Com o objetivo de analisar a duração dos casamentos em Presidente Prudente, foi co- letada uma amostra de 5000 certidões no cartório da cidade. Os dados verificados estão representados nesta tabela: a) Qual a duração média dos casamentos? E a mediana? b) Encontre a variância e o desvio-padrão da duração dos casamentos. 51 5. Um empresário do ramo alimentício deseja inserir um novo prato no seu cardápio. Porém, antes disso, ele achou necessário testar a aceitação do prato pelo público. Para isso, durante 20 dias, ele anotou o número de pedidos desse prato: 23 27 30 25 32 29 28 29 32 31 32 25 32 33 38 33 42 34 37 46 Com esses dados, calcule os coeficientes de Assimetria e Curtose e interprete os resultados. Anotações 52 53 aMostraGEM Capítulo 4 54 No cotidiano é comum se deparar com perguntas que, aos olhos, requerem muito tempo e dinheiro para serem respondidas, por exemplo: quantos eleitores irão votar em certo candidato à presidência? Ou então, da população de uma determinada cidade, quantas pessoas são idosas, quantas vivem na área rural e quantas estão de- sempregadas? Em vez de entrevistar uma população inteira para conhecer a informação, existe outro processo possível, que consiste em consultar apenas um grupo de pessoas dessa população, que constituem uma amostra. Esse procedimento de seleção de um grupo de pessoas é denominado Amostragem. A característica ou informação desconhecidasobre a população é denomina- da parâmetro. “Se a amostra representa de fato toda a população, podemos utilizar as características dos seus elementos para estimar a característica de toda população”, ou seja, obter uma estimativa do valor do parâmetro. Esse processo de tirar conclusões so- bre a população a partir de uma amostra é chamado Inferência (CASULO, 2014, p. 11). “As principais vantagens da utilização do estudo por amostras representativas (aquelas que mantêm as características da população de onde a amostra foi retirada) em relação ao censo (avaliação de toda a população) são”: a economia de tempo, redução dos custos e a obtenção de resultados menos propícios ao erro (TAVARES, 2007, p. 74). Introdução Lembre-se De acordo com Tavares (2007, p. 73): • “População: é o conjunto de elementos que apresenta uma ou mais características em comum”. • “Parâmetro: é um valor desconhecido associado a uma característica da população”. • “Estimador: é uma função (fórmula) que permite calcular a estimativa do valor de um parâmetro, baseando-se nas observações de uma amostra”. A amostragem é uma técnica ou conjunto de procedimentos necessários para coletar amostras e estudar as populações por meio delas, e quando realizada com técnicas adequadas, é um fator responsável pela determinação da representatividade da população em questão. 55 O processo pode ser probabilístico (caracterizado pelo fato de todos os elementos da população terem alguma chance não nula e conhecida de serem selecio- nados) ou não probabilístico (a escolha dos elementos da amostra é feita por um pro- cedimento de seleção, segundo critérios estabelecidos pelo pesquisador, portanto alguns elementos não têm nenhuma chance de serem escolhidos). É importante lembrar que, sempre que possível, cada elemento da popula- ção deve ter igual probabilidade de participar da amostra, fazendo com que diminua o viés de amostragem. As técnicas da estatística pressupõem que as amostras utilizadas sejam pro- babilísticas, que é a melhor recomendação que se deve fazer no sentido de se garantir que a amostra seja representativa, pois o acaso será o único responsável por eventuais discrepâncias entre população e amostra. Outro fator importante é o tamanho da amostra, sabe-se que amostras maiores geram estimativas mais precisas, porém, erros menores têm seu custo: maiores complexidades, mais equipes, mais equipamentos, mais tempo de trabalho em campo, etc., o que implica custos financeiros mais elevados. Por outro lado, deve-se levar em conta que os resultados extraídos de amostras menores estão sujeitos a grandes varia- bilidades, transmitem pouca confiança e, portanto, não são considerados adequados para a tomada de decisões estratégicas. Portanto, o ideal seria encontrar um ponto de equilíbrio entre o erro permitido pelo pesquisador e a precisão requerida nos resultados. Neste capítulo, veremos as principais técnicas de amostragem: Amostragem Alea- tória Simples (AAS), Amostragem Aleatória Estratificada (AAE) e Amostragem Sistemática (AS). 4.1 Amostragem Aleatória Simples (AAS) Na definição de Bolfarine e Bussab (2005, p. 73): A Amostragem Aleatória Simples (AAS) é o método mais simples e mais importante para a seleção de uma amostra. Além de servir como um plano próprio, o seu procedimento é usado de modo repetido em proce- dimentos de múltiplos estágios. Ele pode ser caracterizado pela definição operacional: De uma lista com N unidades elementares, sorteiam-se com igual probabilidade n unidades. É um dos tipos de amostragem que utiliza técnica probabilística. Na AAS, uma amostra é escolhida de tal forma que cada item ou pessoa na população tem a mesma probabilidade de ser incluída, ou seja, se a população tem um tamanho N, cada pessoa dessa população tem a mesma probabilidade igual a 1/N de entrar na amostra. 56 FIGURA 10 – Esquema da retirada de uma amostra de n indivíduos de uma população de tamanho N Fonte: Elaborada pela autora (2017). Segundo Bolfarine e Bussab (2005, p. 73), “a caracterização para o uso do plano AAS é a existência de um sistema de referências completo, descrevendo cada uma das unidades elementares. Deste modo, tem-se bem listado o universo”: U = {1, 2,..., N} Em que: N é o tamanho fixo e algumas vezes desconhecido da população. O plano é descrito do seguinte modo por Bolfarine e Bussab (2005, p. 73): i) Utilizando-se um procedimento aleatório (tabela de números, urna, etc.), sorteia-se com igual probabilidade um elemento da população U. ii) Repete-se o processo anterior até que sejam sorteadas n unidades, tendo sido este número prefixado anteriormente. iii) Caso seja permitido o sorteio de uma unidade mais de uma vez, tem- -se o processo AAS com reposição, que será indicado por ASSc. Quando o elemento sorteado é removido de U antes do sorteio do próximo, tem-se o plano AAS sem reposição. O primeiro procedimento, também conhecido como AAS irrestrito, será indicado por AASc, enquanto que o segundo, conhecido como AAS restrito, será designado por AASs. De acordo com Paulino (2014, p. 18): Do ponto de vista prático, o plano ASSs é muito mais interessante, pois satisfaz o princípio intuitivo de que ‘não se ganha mais informação se uma mesma unidade aparece mais de uma vez na amostra’. Por ou- tro lado, o plano ASSc introduz vantagens matemáticas e estatísticas, como a independência entre as unidades sorteadas, que facilita em muito a determinação das propriedades dos estimadores das quantida- des populacionais de interesse. Os valores obtidos para cada item das N unidades que fazem parte da popu- lação são denotados por y1, y2, … , yN. Os valores correspondentes para as unidades na amostra são denotados por y1, y2, … , yn ou yi , (i=1, 2, ... , n) (COCHRAN, 1977). 57 Sendo assim, têm-se as seguintes denifições: • O total populacional é caracterizado pela letra Y e pode ser estimado por: Ŷ=Ny̅ Em que: y̅ é a média da amostra e N é o tamanho da população. E a variância do total populacional (V(Ŷ)) tem o seguinte estimador não viesado: • A média populacional corresponde à Y̅ e é estimada pela estatística: Sendo que sua variância (V(Y̅)) é estimada por: • A variância populacional (σ2) pode ser estimada respectivamente por: Exemplo: Segundo Cochran (1977), foram passadas listas de assinaturas para uma solicitação, obtendo-se 676 folhas. Cada folha tinha espaço para 42 assinaturas (mas nem todas as folhas foram preenchidas). Uma amostra AASs de 50 folhas (cerca de 7%) apresenta os seguintes resultados: Atenção Na estatística, quando tratamos de um parâmetro populacional, não utilizamos acentos em cima da letra que o representa. Mas, quando se trata do correspondente estimador amostral desse parâmetro, ele é denotado com um acento circunflexo em cima da letra. 58 Logo, o total estimado de assinaturas foi: Ŷ = N.y̅ = 676.29,42 = 19.887,92 ≈ 19.888 assinaturas. O tamanho da amostra n deve ser determinado de tal forma que o estimador obtido tenha um erro máximo de estimação igual a B, com determinado grau de con- fiança (probabilidade). De maneira mais específica, o problema consiste em determinar n, de modo que: (1) A partir dessa amostra, estime o total de assinaturas encontradas nas 676 folhas. n = 50 ; N = 676 ; Y: número de assinaturas Como os dados estão organizados em uma tabela de frequência sem inter- valos de classes, a média será estimada por: Fonte: Elaborada pela autora (2017). TABELA 21 – Tabela de frequência para o exemplo do número de assinaturas Número de assinaturas Frequência absoluta (ni) 3 1 4 1 5 2 6 3 7 1 9 1 10 1 11 1 14 1 15 2 16 2 19 1 23 1 27 2 29 1 32 1 36 1 41 4 42 23 TOTAL 50 59 Então, para B fixado, comparando-se as expressões (1) e (2), a solução para o problema consiste em determinar n de tal forma que: Para n grande, tem-se que: (2) Resolvendo a equação em n, o tamanho da amostra pode ser definido por meio da equação: Logo, para a determinaçãodo tamanho da amostra, é preciso fixar o erro máximo desejado (B), com um grau de confiança 1-a (trazido pelo valor crítico za) e pos- suir algum conhecimento a priori da variabilidade da população (σ2). Os dois primeiros são fixados pelo pesquisador e, quanto ao terceiro, a resposta exige mais trabalho. O uso de pesquisas passadas, “adivinhações” estatísticas, ou amostras piloto são os critérios mais usados (BUSSAB; MORETTIN, 2010). As três maneiras mais utilizadas para se obter a amostra n são o método por sorteio, no qual são escolhidos um a um até que esteja completa a amostragem, a tabela de números aleatórios, na qual serão sorteados até que seja satisfeita a solicitação da amostra e a geração de números aleatórios por meio de um software estatístico. • Amostragem por sorteio Nesse método, primeiramente temos que desenvolver uma lista dos elemen- tos da população, numerados conforme a quantidade de elementos, para depois colo- camos em uma urna e fazemos o sorteio. Lembrando que todo o número tem a mesma probabilidade de ser sorteado e não há repetição, os números são sorteados um a um até obter a quantidade definida para a amostra. Exemplo: uma sala de aula do 3º termo de Jornalismo tem 30 alunos. Uma pesquisa realizada pelo coordenador do curso pretende conhecer a idade média dos alunos desse termo. As idades coletadas de cada aluno foram: 25, 20, 35, 21, 22, 24, 25, 30, 38, 24, 20, 20, 25, 20, 19, 25, 23, 24, 28, 24, 24, 22, 28, 26, 23, 25, 22, 27, 25, 23. 60 TABELA 22 – Tabela de números aleatórios 09 * 25 * 21 * 06 * 89 86 11 * 37 13 Repet. 21 Repet. 37 32 51 59 33 19 * 62 70 86 13 * 62 46 56 96 35 67 61 93 43 61 12 * 20 * 60 80 37 18 * Fonte: Elaborada pela autora (2017). 3º passo: na tabela estão os números sorteados, indicados com asterisco. Os números que não têm na amostra e os valores repetidos são descartados. Nossa amostra então será: 09, 11, 12, 25, 13, 20, 21, 06, 19, 18. • Utilizando um software estatístico Em vez de utilizar uma tabela pronta de números aleatórios, também pode- mos usar uma ferramenta disponível nos softwares estatísticos e até mesmo no Excel, que gera certa quantidade de números aleatórios com uma determinada quantidade de casas decimais. No Excel, essa ferramenta é chamada Aleatório. Depois, o procedimen- to é o mesmo utilizado com a tabela, nós enumeramos os elementos da população para que possam ser identificados e depois geramos números aleatórios até que a quantidade definida para amostra seja coletada. Para facilitar a análise, o intuito do coordenador é extrair, por sorteio, uma amostra de apenas 10 alunos desta classe (população). Então, o primeiro passo do co- ordenador é escrever as idades de todos os alunos em pedaços de papéis e colocá-los em uma urna. Depois, sorteamos 10 papéis para obter os valores, ou as idades, que irão compor a amostra. No caso de grandes populações, esse método não é muito recomendado, pois o processo tomaria muito tempo. Nesse caso, é preferível utilizar uma tabela de números aleatórios ou fazer o uso de algum software estatístico. • Usando uma tabela de números aleatórios Para ilustrar, iremos utilizar o exemplo anterior. 1º passo: enumerar os alunos da sala para poder identificá-los a partir de um número. Como temos um conjunto de 30 elementos, usaremos dois dígitos para enumerar os alunos, o primeiro aluno receberá o número 01 e o último receberá o número 30. 2º passo: agora iremos sortear os 10 elementos da amostra. Como a tabela fornece valores de 1 dígito e nossa população foi enumerada com 2 dígitos, utilizaremos a tabela agrupando de 2 em 2 números. Podemos começar de qualquer ponto da tabela, seguindo na vertical ou na horizontal até conseguirmos sortear o tamanho de n. 61 Dica Aprenda um pouco mais sobre como extrair amostras aleatórias usando o Excel pelo livro: “Estatística Aplicada à Administração usando Excel”, de John L. Neufeld, 2003. 4.2 Amostragem Aleatória Estratificada (AAE) Essa técnica de amostragem usa informação existente sobre a população para dividi-la em grupos bem definidos, chamados estratos. De cada um desses estratos, é selecionada uma amostra mediante um processo aleatório simples. A ideia da estratificação de uma população é a identificação de grupos bem diferentes entre si no que diz respeito ao parâmetro em estudo, mas que os elemen- tos sejam bem parecidos dentro dos grupos, ou seja, cada grupo é homogêneo e com pouca variabilidade. A Figura 11 mostra como é feita a escolha dos elementos de cada estrato (A, B, C, D), que você pode fazer usando amostragem aleatória simples devido ao fato de os estratos serem homogêneos individualmente, considerando a variável de interesse. FIGURA 11 – Esquema de uma AAE Fonte: Tavares (2007). Esse método de amostragem estratificada tem a vantagem de fornecer re- sultados com menor probabilidade de erro associada. Porém, ele apresenta problemas na distribuição espacial dos pontos de amostragem, pois nem sempre se consegue sub- dividir a área em estratos bem distintos, é comum que os estratos fiquem sobrepostos entre si. Segundo Bolfarine e Bussab (2005 apud RIBEIRO, p. 40), a execução de um plano de amostragem estratificada (AE) exige os seguintes passos: 62 i) Divisão da população em subpopulações bem definidas (estratos); ii) De cada estrato retira-se uma amostra, usualmente independente; iii) Em cada amostra, usam-se estimadores convenientes para os parâ- metros do estrato; iv) Monta-se para a população um estimador combinando os estimado- res de cada estrato, e determinam-se suas propriedades. Em uma AAE, a população de tamanho N é dividida em L estratos de N1 , N2, ..., NL unidades, tal que: N = N1 + N2 + ... + NL Quando os estratos são determinados, uma AAS é retirada de dentro de cada estrato independente. O tamanho amostral dentro de cada estrato é n1+ n2+...+nL, tal que: n = n1 + n2 + ... + nL Ou seja, a quantidade total de amostras é definida pela soma da quantidade de amostras coletadas dentro de cada estrato. Numa AASs, a variância do estimador da média amostral y̅ é dada por: Observa-se que aumentando o tamanho da amostra, o erro padrão diminui. Se a população é muito heterogênea (diferente) e as razões de custo limitam o aumento da amostra, torna-se impossível definir uma AASs da população toda com uma precisão razoável. Ou seja, S2 é grande, se desejar que a variância (√(V(y̅))) seja pequena, então n deve ser grande, o que implica um aumento de custo (BOLFARINE; BUSSAB, 2005). Ainda segundo Bolfarine e Bussab (2005), uma solução para esse problema é dividir a população em subpopulações mais homogêneas, isto é, grupos com variâncias S2 pequenas que diminuem o erro amostral global. A estratificação é usada, principalmente, para resolver alguns problemas como: • A melhoria de precisão das estimativas. • Produzir estimativas para a população toda e subpopulações. • Por questões administrativas, etc. Os parâmetros de interesse são: YhgTotal do estrato h. Y̅hgMédia do estrato h. σ2hgVariância do estrato h (dividida por nh) 63 S2hgVariância do estrato h (dividida por nh-1) Y̅ g Média populacional. Y gTotal populacional. E seus respectivos estimadores: Em que: Wh é o peso do estrato h, definido por Nh / N yhi é o valor da i-ésima observação no estrato h As variâncias estimadas de y̅es e Ŷes são respectivamente: Lembrando que o objetivo de um desenho amostral é fornecer estimadores com variâncias pequenas e o menor custo possível. Após definir o valor de n, existem diversas formas de dividir n entre os estratos. Cada divisão poderá resultar em variâncias diferentes para a média amostral, por exemplo. Daí o objetivo então é usar uma aloca- ção que fornece uma quantidade específica de informação a um mínimo custo. 64 O melhor esquema de alocação está afetado por três fatores: 1) O número total de elementos em cada estrato. 2) A variabilidade das observações dentro de cada estrato. 3) O custo de obtenção das observações.
Compartilhar