Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística para Geografia Rio, 21/09/2018 Objetivos • Mostrar como usar o R para calcular o coeficiente de determinação R2 (uma variável qualitativa e uma variável quantitativa). Associação entre uma variável qualitativa e uma variável quantitativa • Veremos como construir um gráfico das duas variáveis e como calcular uma medida de associação entre as duas. Exemplo • Os dados referem-se ao exemplo 2.1 do livro-texto (Bussab e Morettin) • Arquivo: ciaMB.txt • Conteúdo: informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos da Companhia MB. Exemplo: nomes das variáveis no arquivo • ecivil: variável nominal cujos níveis são solteiro ou casado. • instrucao: variável ordinal cujos níveis são F(Ensino Fundamental), M(Ensino Médio) e S(Ensino Superior). • nfilhos: número de filhos (apenas para os funcionários casados), entre os solteiros a informação está como NA. Exemplo : nomes das variáveis no arquivo • sal: salário expresso como fração do salário mínimo • idadea: idade em anos completos • idadem: meses • rp: região de procedência (interior, capital e outros). Exemplo :salário versus nível de instrução • Suponha que estejamos interessados em analisar o comportamento dos salários dentro de cada nível de instrução, ou seja, investigar o comportamento conjunto das variáveis sal e instrucao. Desenho esquemático • plot(dados$instrucao,dados$sal) todos Comentário • É possível perceber, a partir destes dados e gráficos, uma dependência entre salário e nível de instrução: o salário tende a ser maior conforme é maior a escolaridade do empregado. Exemplo: salário versus região de procedência Vamos agora analisar o comportamento dos salários dentro de cada região de procedência, ou seja, investigar o comportamento conjunto das variáveis cujos nomes na base de dados são sal e rp. Comentário • É possível perceber, a partir destes dados e gráficos que não há uma relação bem definida entre salário e região de procedência. • Os salários parecem estar mais relacionados com o nível de instrução do que com a região de procedência. Problema • Como quantificar a dependência entre estas variáveis? • No caso de duas variáveis quantitativas usa-se a correlação. • No caso de duas variáveis qualitativas usa-se o qui-quadrado. • O que usar no caso de uma variável qualitativa e uma quantitiativa? Medida de dependência: uma variável qualitativa e uma quantitativa • Vamos usar a variação total dos dados (SQ_tot) decompondo-a em duas partes: uma referente à variação entre os diferentes grupos (SQ_intra) e, a outra referente à variação dentro de cada grupo (SQ_dentro). • Os grupos são definidos pelas categorias da variável qualitativa. Fórmulas das variações • Variação total: SQ_tot Fórmulas das variações • SQ_tot=SQ_intra+SQ_dentro • SQ_intra: Fórmulas das variações • SQ_tot=SQ_intra+SQ_dentro • SQ_dentro: Coeficiente R2 • Usando funções do R para calcular o R2 No R, o comando aov(dados$sal~dados$instrucao), gerará a seguinte tabela: Terms: dados$instrucao Residuals Sum of Squares 304.4206 432.1463 Deg. of Freedom 2 33 4133.0 1463.4324206.304 4206.304 totalvariação 2 R é a variação intra - grupos – numerador de R2 é a variação dentro dos grupos Logo, Salário versus região de procedência aov(dados$sal~dados$rp) Logo, 0127.0 1940.7273728.9 3728.92 R Terms: dados$rp Residuals Sum of Squares 9.3728 727.1940 Deg. of Freedom 2 33
Compartilhar