Baixe o app para aproveitar ainda mais
Prévia do material em texto
S Estatística Descritiva Descrição de dados: representação gráfica e tabular de dados. Démerson André Polli Departamento de Estatística – UnB Introdução S O grupo de indivíduos ou objetos para o qual os resultados de uma pesquisa, nas diferentes áreas do conhecimento, se aplicam é chamado de população. Em outras palavras, sempre que se faz uma pesquisa, o interesse é que os resultados do trabalho científico/acadêmico sejam referente à população. Por exemplo: uma prestadora de serviços de telefonia móvel deseja conhecer quais clientes (população) compraria um novo tipo de assinatura; um laboratório farmacêutico deseja lançar um novo medicamento contra fibromialgia, e deseja saber se o remédio é eficaz (para a população dos portadores da doença); uma fábrica de requeijão deseja verificar se um aditivo ABHT 890 melhora a consistência do produto (a população é um lote de produção). Introdução S No entanto, a obtenção de informações a respeito de uma população pode exigir muito tempo ou ainda muito recurso financeiro. Por exemplo, imagine que você vai lançar um novo serviço de taxi VIP aqui no DF. Para lançar o serviço é necessário conhecer as pessoas de classe social A ou B+ que comprariam tal serviço; e, neste caso, é necessário perguntar a cada pessoa do DF em tais classes sociais se o serviço é de interesse. Quanto tempo você demoraria para investigar isto? E quanto gastaria para cumprir esta tarefa? Lançar o produto sem conhecer o mercado pode ser bastante perigoso! Introdução S Não é exagero dizer que a única razão da Estatística existir é o fato de que o conhecimento de características de uma população pode ser muito dispendiosa ou tomar muito tempo. Para resolver este problema é comum selecionar um subconjunto da população, a amostra, e observar os dados neste subconjunto. Tendo feito tal coisa, é o interesse dizer que a população se comporta da mesma forma que a amostra - este é o principal objetivo de se estudar Estatística!!! Introdução S Nesta primeira aula queremos entender como uma variável (ou mais variáveis) se comporta(m) na população, partindo de uma amostra de elementos desta população, é interessante saber como os possíveis valores da variável se distribuem na amostra. Este padrão de comportamento é chamado de distribuição de frequências desta variável e nos dá uma ideia de como os valores possíveis para tal variável são observados na população. Introdução S Em um primeiro momento a análise de dados é feita observando as características da amostra. Quais são os valores mais frequentes? Existem subgrupos na amostra cuja a(s) variável(eis) de interesse se comporta(m) de forma diferente? É possível visualizar indícios sobre alguns questionamentos sobre a variável de interesse ao se observar a amostra? Perguntas deste tipo podem ser exploradas ao se observar o conjunto de dados obtidos da amostra. Neste primeiro módulo do curso iremos aprender algumas técnicas elementares de observação de características do conjunto de dados. O que é população? S Uma definição simples de população é: "população é o conjunto de elementos para os quais o resultado de um levantamento de dados diz respeito". No texto introdutório desta aula foram elencados alguns exemplos, existem muitos outros (um bom exercício é pensar em exemplos de pesquisas e suas respectivas populações!). O que é população? S No entanto, ao se realizar uma pesquisa nem sempre a população (toda) está acessível. Por exemplo: imagine que você deseja fazer uma pesquisa com levantamento de dados pelo Facebook a respeito da qualidade do sistema de transporte público no DF. A sua população de interesse ou população alvo são os moradores do DF, no entanto com tal método de pesquisa somente serão entrevistados aqueles moradores do DF que possuem acesso à Internet e uma conta no Facebook (este grupo é conhecido de população acessível). Reparem que as duas populações são bastante diferentes! Desejamos conhecer a população alvo e temos acesso apenas à população acessível. Se elas forem muito diferentes os resultados da população acessível não podem ser generalizados para a população alvo. O que é amostra? S Nem sempre o acesso aos dados da população é possível, seja por custo, tempo ou dificuldade na observação dos elementos da população. Esta é o ponto no qual a Estatística começa a desempenhar o seu papel: se não é possível obter todos os elementos de interesse, podemos olhar para uma parte deste conjunto e tirar conclusões (usando o termo técnico, fazer inferências) sobre a população. No entanto, vimos que existem dois tipos de população: a população de interesse ou população alvo e a população acessível. O que é amostra? S Como temos acesso apenas à população acessível (que pode inclusive ser a própria população de interesse) é necessário obter um subconjunto da população acessível para prosseguir com a pesquisa. Ao subconjunto da população acessível dá-se o nome de amostra. É na amostra que se obtém os dados (uma coleção de variáveis que se tem o interesse de estudar). O que é amostra? S Para ficar mais claro, vamos a um exemplo. Imagine que seja de interesse medir o conhecimento basal desta turma de alunos em Estatística. Para isto, na próxima aula se aplica um teste com perguntas e problemas simples de Estatística. A população de interesse é toda a turma... a população acessível serão os alunos presentes na sala na próxima aula... e a amostra é qualquer subconjunto dos alunos presentes. Tipos de variáveis S Na amostra se observam os dados: um conjunto de variáveis de interesse para a pesquisa. As variáveis podem ser classificadas em qualitativa nominal, qualitativa ordinal, quantitativa discreta e quantitativa contínua. Tipos de variáveis S Uma variável é chamada de qualitativa quando denota uma qualidade ou qualificação; tais variáveis não possuem valor numérico. Por outro lado, uma variável é chamada de quantitativa quando denota uma quantidade. Tipos de variáveis S Uma variável qualitativa nominal define um nome ou uma "etiqueta". São exemplos de variáveis nominais: nome, endereço, cidade em que reside, cidade de nascimento, modelo de automóvel, o RG (apesar de ser uma sequência de números, aquilo é um nome!), o CPF (idem), etc. Tipos de variáveis S Uma variável qualitativa ordinal define uma classe com ordem intrínseca. São exemplos de variáveis ordinais: o grau de escolaridade (superior > médio, médio > fundamental, fundamental > não alfabetizado), a classe social (A > B, B > C, C > D, D > E), as menções da UnB (SS > MS, MS > MM, MM > MI, MI > II), etc. Tipos de variáveis S Observe que variáveis nominais ordenadas por critérios externos não são chamadas de ordinais por este motivo: o nome dos alunos desta turma é uma variável qualitativa nominal... se a lista estiver ordenada alfabeticamente a variável (apesar de ordenada) continua a ser nominal (pois nada me diz, por exemplo que Ana > Bianca > ... > João > Pedro > ... etc.). Tipos de variáveis S Uma variável quantitativa discreta assume valores em um conjunto enumerável de valores, em geral representa uma contagem. São exemplos de variáveis discretas: a sua idade em anos completos, a quantidade de filhos que a sua mãe teve, quantas vezes você passou férias nas ilhas de Java, etc. Tipos de variáveis S Uma variável quantitativa contínua assume valores em um conjunto contínuo e não enumerável (pense que entre dois valores possíveis sempre existira outro valor possível). São exemplos de variáveis contínuas: o peso, a altura, a taxa de creatinina no sangue, o consumo de um automóvel (em quilômetros por litro), etc. Tiposde variáveis S Observe que na natureza existem variáveis quantitativas contínuas. No entanto, os instrumentos de medida não conseguem ler os dados contínuos mas, ao invés disto, a leitura é discreta (por exemplo o seu peso é uma variável contínua, mas a balança mede em décimos de quilograma, portanto, é a leitura é discreta). Checkpoint I S Um engenheiro florestal deseja pesquisar uma espécie de árvore quanto a uma epidemia. No entanto, apenas tem acesso às árvores em uma floresta na cidade de Cotia, SP. Com relação a este cenário, identifique a população de interesse e a população acessível. S A população de interesse são todas as árvores de tal espécie e a população acessível são as árvores no estado de São Paulo. S A população de interesse são todas as árvores de tal espécie e a população acessível são as árvores na cidade Cotia, SP. S A população de interesse são todas as árvores de tal espécie e a população acessível são as árvores na floresta em Cotia, SP. S A população de interesse são todas as árvores de tal espécie e a população acessível é idêntica à população de interesse. Checkpoint I S Dentre as variáveis abaixo qual é qualitativa ordinal? S Os números de CPF dos moradores de Campinas - SP, em ordem decrescente. S A concordância com um determinado assunto (concorda muito, concorda, indiferente, discorda, discorda muito). S O sobrenome dos alunos da turma, ordenados por número de matrícula. S O peso em quilogramas de um Boeing 747-8. Representação tabular de variáveis qualitativas S Algumas variáveis não assume valor numérico, mas mesmo assim pode ser de interesse para a análise estatística. Por exemplo, a cidade ou a unidade da federação (UF) que você nasceu; o seu nível de escolaridade ou a sua classe social são variáveis qualitativas (ou seja, denotam alguma qualidade a respeito do elemento amostral) ou categóricas. Representação tabular de variáveis qualitativas S Para construir uma tabela de distribuição de frequências de dados qualitativos procedemos com uma contagem de quantas vezes cada valor observado na variável ocorreu na amostra. Por exemplo, suponha que se pergunte qual o nível de instrução de um respondente de um questionário e que, neste caso, as possíveis respostas sejam: analfabeto/sem instrução formal, fundamental incompleto, fundamental completo, médio incompleto, médio completo ou superior. Supondo que foram levantados os seguintes dados: S 4 respondentes analfabetos/sem instrução; S 5 respondentes com nível fundamental incompleto; S 12 respondentes com nível fundamental completo; S 7 respondentes com nível médio incompleto e S 2 respondentes com nível médio ou superior completo. Representação tabular de variáveis qualitativas Nível de Instrução Frequência Absoluta Frequência Relativa Para construir uma tabela de frequências é necessário criar (pelo menos) 3 colunas: a identificação da variável e as frequências absoluta e relativa. Representação tabular de variáveis qualitativas Nível de Instrução Freq. Absoluta Freq. Relativa Analfabeto/sem instrução Fund. incompleto Fund. completo Médio incompleto Médio completo/superior Na primeira coluna da tabela são apresentados os valores observados da variável de interesse. Representação tabular de variáveis qualitativas Nível de Instrução Freq. Absoluta Freq. Relativa Analfabeto/sem instrução 4 Fund. incompleto 5 Fund. completo 12 Médio incompleto 7 Médio completo/superior 2 Na segunda coluna da tabela, a frequência absoluta, são apresentados as contagens observadas em cada categoria. Representação tabular de variáveis qualitativas Nível de Instrução Freq. Absoluta Freq. Relativa Analfabeto/sem instrução 4 13,33% Fund. incompleto 5 16,67% Fund. completo 12 40,00% Médio incompleto 7 23,33% Médio completo/superior 2 6,67% Na terceira coluna da tabela, a frequência relativa, são apresentados as percentagens referentes a cada categoria. Representação tabular de variáveis qualitativas S Algumas observações importantes: S O formato de tabela apresentado nesta aula não está em conformidade a Norma de Apresentação Tabular do IBGE (veja http://biblioteca.ibge.gov.br/visualizacao/monografias/GEBIS %20-%20RJ/normastabular.pdf). S As tabelas podem apresentar também uma linha de totais. S Duas outras colunas que podem ser adicionadas à tabela são as frequências acumuladas (absoluta e relativa). S A ordem de apresentação das categorias de uma variável nominal é livre. A ordem para uma variável ordinal deve seguir a ordem intrínseca da variável. Representação tabular de variáveis quantitativas discretas S A construção da tabela é análoga aquela das variáveis qualitativas. Basta construir a tabela com um valor observado por linha. Por exemplo, suponha que em um conjunto de 15 casais existam 8 sem filhos, 5 com 1 filho, 5 com 2 filhos e 2 com 3 ou mais filhos. Representação tabular de variáveis quantitativas discretas Filhos por casal Freq. Absoluta Freq. Relativa Nenhum filho 1 filho 2 filhos 3 filhos ou mais Na primeira coluna da tabela são apresentados os valores observados da variável de interesse. Representação tabular de variáveis quantitativas discretas Filos por casal Freq. Absoluta Freq. Relativa Nenhum filho 8 1 filho 5 2 filhos 5 3 filhos ou mais 2 Na segunda coluna da tabela, a frequência absoluta, são apresentados as contagens observadas em cada categoria. Representação tabular de variáveis quantitativas discretas Filhos por casal Freq. Absoluta Freq. Relativa Nenhum filho 8 40,00% 1 filho 5 25,00% 2 filhos 5 25,00% 3 ou mais filhos 2 10,00% Na terceira coluna da tabela, a frequência relativa, são apresentados as percentagens referentes a cada categoria. Representação tabular de variáveis quantitativas discretas S Algumas observações importantes: S No caso de tabelas para variáveis quantitativas discretas, cada valor observado é considerado uma categoria e é representado em uma linha da tabela. S Se houver um número grande de valores distintos observados na variável, as categorias podem ser agrupadas (como na categoria “3 filhos ou mais” do exemplo anterior. S Se houverem números não consecutivos é aconselhável definir intervalos; isto visa facilitar a leitura da tabela. Representação tabular de variáveis quantitativas contínuas S A construção da tabela para variáveis contínuas difere dos casos anteriores pois os valores não podem ser representados diretamente na tabela. Para isto é necessário categorizar a variável. Por exemplo, imagine que o consumo medido em uma amostra de automóveis variou de 10,8 Km/l até 19,5 Km/l. Observe que a amplitude, ou seja, a diferença entre o maior e o menor valor é 8,7. Se desejamos criar uma tabela com 5 intervalos, cada intervalo terá uma amplitude igual a 1,74 Km/l. Representação tabular de variáveis quantitativas contínuas S Ao invés de representar intervalos com amplitude 1,74 Km/l é interessante escolher um intervalo maior cuja amplitude é múltiplo do número de intervalos (no caso 5). Para isto, basta selecionar um intervalo que inicie pouco antes do mínimo e termine pouco após o máximo. Por exemplo, o intervalo de 10,0 Km/l a 20,0 Km/l resulta em 5 intervalos de dimensão 2,0 Km/l: 10 a 12 Km/l, 12 a 14 Km/l, 14 a 16 Km/l, 16 a 18 Km/l e 18 a 20 Km/l. Também é necessário definir com precisão os limites de cada intervalo, por exemplo, onde entra ovalor 16 Km/l? Representação tabular de variáveis quantitativas contínuas S Se o intervalo contém o valor à esquerda mas não o da direita é chamado de intervalo fechado à esquerda. Por outro lado, se o intervalo contém o valor à direita mas não o da esquerda é chamado de intervalo fechado à direita. São exemplos de intervalos fechados à esquerda: [10; 12), [12; 14), [14; 16), [16 a 18) e [18; 20). São exemplos de intervalos fechados à direita: (10, 12], (12, 14], (14, 16], (16, 18], (18, 20]. Representação tabular de variáveis quantitativas contínuas S Considere os intervalos fechados à esquerda para o consumo de combustível por automóvel: [10; 12), [12; 14), [14; 16), [16 a 18) e [18; 20). Imagine que em uma amostra de 50 automóveis se observou, respectivamente, em cada intervalo as contagens 12, 5, 25, 5 e 3. A construção da tabela é análoga aos casos anteriores, representando os intervalos em cada linha da tabela. Representação tabular de variáveis quantitativas contínuas Consumo (Km/l) Freq. Absoluta Freq. Relativa [10, 12) [12, 14) [14, 16) [16, 18) [18, 20) Na primeira coluna da tabela são apresentados os valores observados da variável de interesse. Representação tabular de variáveis quantitativas contínuas Consumo (Km/l) Freq. Absoluta Freq. Relativa [10, 12) 12 [12, 14) 5 [14, 16) 25 [16, 18) 5 [18, 20) 3 Na segunda coluna da tabela, a frequência absoluta, são apresentados as contagens observadas em cada categoria. Representação tabular de variáveis quantitativas contínuas Consumo (Km/l) Freq. Absoluta Freq. Relativa [10, 12) 12 24,0% [12, 14) 5 10,0% [14, 16) 25 50,0% [16, 18) 5 10,0% [18, 20) 3 6,0% Na terceira coluna da tabela, a frequência relativa, são apresentados as percentagens referentes a cada categoria. Representação tabular de variáveis quantitativas contínuas S Algumas observações importantes: S No caso de tabelas para variáveis quantitativas contínuas, é necessário categorizar a variável pois a frequência de cada valor individual é baixa; e haverá muitos valores distintos na variável.
Compartilhar