Baixe o app para aproveitar ainda mais
Prévia do material em texto
SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 1 ÍNDICE GERAL 1. ANÁLISE DE DADOS RECORRENDO AO SPSS 11.5.........................................................................5 1.1 O QUE É UMA MATRIZ DE DADOS ...........................................................................................................6 1.2 MANIPULAÇÃO DE ARQUIVOS E EDIÇÃO DE M TRIZES DE DADOSA .......................................................7 1.2.1 MANIPULAÇÃO DE ARQUIVOS ..........................................................................................................9 1.2.1.1 ABRIR UMA MATRIZ DE DADOS JÁ EXISTENTE .........................................................................................9 1.2.1.2 GUARDAR OS DADOS ................................................................................................................................10 1.2.1.3 GUARDAR OU ABRIR ARQUIVOS CONTENDO RELATÓRIOS DE ANÁLISES...............................................11 1.2.2 EDIÇÃO DE MATRIZES DE DADOS ..................................................................................................13 1.2.2.1 CRIAR UMA MATRIZ DE DADOS................................................................................................................13 1.2.2.1.1 DEFINIÇÃO DAS VARIÁVEIS ..............................................................................................................13 1.2.2.1.2 PREENCHER A MATRIZ DE DADOS ...................................................................................................16 1.2.2.1.3 EXCLUIR UMA VARIÁVEL OU UM CASO...........................................................................................16 1.2.2.1.4 INSERIR UMA NOVA VARIÁVEL NO MEIO DE VARIÁVEIS JÁ EXISTENTES......................................17 1.3 TRANSFORMAÇÃO DE DADOS.................................................................................................................18 1.3.1 CÁLCULO ENTRE VARIÁVEIS .........................................................................................................18 1.4 R CODIFICAÇÃO DE VARIÁVEISE .............................................................................................................21 1.4.1 RECODIFICAR UMA VARIÁVEL........................................................................................................21 1.4.1.1 Recodificação na Variável Original ..................................................................................................22 1.4.1.2 Recodificação numa nova Variável ..................................................................................................24 1.5 SELECÇÃO DE CASOS PARA A ANÁLISE ................................................................................................25 1.5.1 SELECCIONAR CASOS ESPECÍFICOS A SEREM ANALISADOS..........................................................25 1.6 ANÁLISE D SCRITIVA DOS DADOSE ........................................................................................................28 1.6.1 COMO FAZER UMA ANÁLISE DESCRITIVA BASEADA NA DISTRIBUIÇÃO DE FREQUÊNCIA ........35 1.7 ANÁLISE DE CORRELAÇÃO/ A CIAÇÃO ENTRE VARIÁVEISSSO .............................................................37 1.7.1 COMO CONSTRUIR UMA TABELA PARA VERIFICAR A RELAÇÃO ENTRE VARIÁVEIS (CROSSTABS) ....................................................................................................................................................................37 Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 2 1.7.2 COMO CONSTRUIR ANÁLISES DE CORRELAÇÃO ENTRE VARIÁVEIS ..............................................40 1.7.3 GRÁFICOS DE DISPERSÃO COM RECTA DE REGRESSÃO.................................................................43 1.7.4 TESTES T ........................................................................................................................................50 1.7.5 Aná ise de variância – ensaios uni-factoriaisl ...................................................................68 1.7.6 Procedimento Means .................................................................................................................75 Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 3 ÍNDICE DE ILUSTRAÇÕES FIGURA 1: COMEÇAR A TRABALHAR COM O SPSS...................................................................................................................... 7 FIGURA 2: BASE DE DADOS PREENCHIDA................................................................................................................................... 8 FIGURA 3: ABRIR UMA MATRIZ DE DADOS EXISTENTES............................................................................................................... 9 FIGURA 4: GUARDAR UMA MATRIZ DE DADOS EXISTENTE......................................................................................................... 10 FIGURA 5: O OUTPUT.............................................................................................................................................................. 11 FIGURA 6: NOTAS SOBRE OS PROCEDIMENTOS ESTATÍSTICOS EFECTUADOS ............................................................................... 12 FIGURA 7: DEFINIR O TIPO DE VARIÁVEL.................................................................................................................................. 13 FIGURA 8: NÚMERO DE DÍGITOS ............................................................................................................................................... 14 FIGURA 9: CASAS DECIMAIS ..................................................................................................................................................... 14 FIGURA 10: CODIFICAR VARIÁVEIS .......................................................................................................................................... 14 FIGURA 11: ATRIBUIR MISSINGS .............................................................................................................................................. 15 FIGURA 12: NÚMERO DE CARACTERES...................................................................................................................................... 15 FIGURA 13: REALIZAR CÁLCULOS............................................................................................................................................ 18 FIGURA 14: FUNÇÕES NUMÉRICAS ........................................................................................................................................... 19 FIGURA 15: ESTABELECER CONDIÇÕES.................................................................................................................................... 20 FIGURA 16: RECODIFICAR VARIÁVEIS ...................................................................................................................................... 22 FIGURA 17: SUBSTITUIR OS VALORES ANTIGOS ......................................................................................................................... 23 FIGURA 18: CRIAR UMA VARIÁVEL COM BASE EM OUTRA EXISTENTE........................................................................................ 24 FIGURA 19: SELECCIONAR/ EXCLUIR CASOS ESPECÍFICOS ......................................................................................................... 25 FIGURA 20: IMPOR CONDIÇÕES À SELECÇÃO............................................................................................................................. 26 FIGURA 21: ESCOLHER UMA AMOSTRA ALEATÓRIA ..................................................................................................................27 FIGURA 22: ESCOLHER UM INTERVALO DE DADOS.................................................................................................................... 27 FIGURA 23: ESTATÍSTICA DESCRITIVA..................................................................................................................................... 28 FIGURA 24: ESTATÍSTICA DESCRITIVA ...................................................................................................................................... 29 FIGURA 25: GRÁFICOS DESCRITIVOS SIMPLES........................................................................................................................... 30 FIGURA 26: GRÁFICOS DE BIGODES PARA ANÁLISE COMPARATIVA DOS GRUPOS....................................................................... 30 FIGURA 27: GRÁFICOS DE BIGODES - DESCRIÇÃO COMPARATIVA DE DUAS VARIÁVEIS ............................................................. 32 FIGURA 28: GRÁFICOS DE BIGODES PARA GRUPOS DE CASOS.................................................................................................... 33 FIGURA 29: TABELAS DE FREQUÊNCIAS ................................................................................................................................... 35 FIGURA 30: APRESENTAÇÃO DOS DADOS EM TABELA............................................................................................................... 35 FIGURA 31: GRÁFICOS DE BARRAS .......................................................................................................................................... 36 FIGURA 32: TABELAS DE CONTINGÊNCIA................................................................................................................................. 38 FIGURA 33: FREQUÊNCIAS, PERCENTAGENS E RESIDUOS.......................................................................................................... 39 FIGURA 34: ESTATÍSTICAS DAS CONTINGÊNCIAS...................................................................................................................... 40 FIGURA 35: CORRELAÇÕES BIVARIADAS ................................................................................................................................. 41 FIGURA 36: CORRELAÇÃO DE PEARSON ................................................................................................................................... 42 FIGURA 37: GRÁFICOS DE DISPERSÃO...................................................................................................................................... 43 FIGURA 38: SELECCIONAR O GRÁFICO DE DISPERSÃO SIMPLES ................................................................................................. 44 FIGURA 39: SELECCIONAR AS VARIÁVEIS A CORRELACIONAR ................................................................................................... 45 FIGURA 40: OPÇÕES DE APRESENTAÇÃO DO GRÁFICO............................................................................................................... 46 FIGURA 41: COLOCA RECTA DE REGRESSÃO NUM GRÁFICO DE DISPERSÃO................................................................................. 47 Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 4 FIGURA 42: COLOCAR COEFICIENTE DE DETERMINAÇÃO (R2) NO GRÁFICO DE DISPERSÃO.......................................................... 47 FIGURA 43: GRÁFICO DE DISPERSÃO COM RECTA DE REGRESSÃO E COEFICIENTE DE DETERMINAÇÃO ........................................ 49 FIGURA 44: TESTE T PARA UMA AMOSTRA ............................................................................................................................... 50 FIGURA 45: COLOCAR O PARÂMETRO A COMPARAR.................................................................................................................. 51 FIGURA 46: OUTPUT DO TESTE T PARA UMA AMOSTRA ............................................................................................................. 52 FIGURA 47: TESTE T PARA AMOSTRAS INDEPENDENTES ............................................................................................................ 53 FIGURA 48: COLOCAR AS VARIÁVEIS EM ANÁLISE .................................................................................................................... 54 FIGURA 49: DEFINIR OS DOIS GRUPOS EM ANÁLISE ................................................................................................................... 55 FIGURA 50: TERMINAR O TESTE ............................................................................................................................................... 56 FIGURA 51: OUTPUT DO TESTE T DE STUDENT PARA AMOSTRAS INDEPENDENTES ..................................................................... 57 FIGURA 52: TESTE T PARA AMOSTRAS EMPARELHADAS OU RELACIONADAS .............................................................................. 64 FIGURA 53: SELECCIONAR VARIÁVEIS NO TESTE T PARA AMOSTRAS EMPARELHADAS OU RELACIONADAS ................................. 65 FIGURA 54: FINALIZAR TESTE T PARA DADOS EMPARELHADOS OU RELACIONADOS ................................................................... 66 FIGURA 55: OUTPUT DO TESTE T PARA AMOSTRAS EMPARELHADAS OU RELACIONADAS............................................................ 67 FIGURA 56: ANOVA DE UM CRITÉRIO..................................................................................................................................... 69 FIGURA 57: SELECCIONA VARIÁVEIS PARA ANOVA................................................................................................................ 70 FIGURA 58: TESTES POST-HOC................................................................................................................................................. 71 FIGURA 59: OUTPUT DO TESTE ANOVA.................................................................................................................................. 72 FIGURA 60: TABELA ANOVA+ETA PELO PROCEDIMENTO MEANS........................................................................................... 75 FIGURA 61: SELECÇÃO DAS ESTATÍSTICAS PELO PROCEDIMENTO MEANS.................................................................................. 76 Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 5 1. ANÁLISE DE DADOS RECORRENDO AO SPSS 11.5 O SPSS é um software apropriado para a elaboração de análises estatísticas de matrizes de dados. O seu uso permite gerar relatórios tabulados, gráficos e dispersões de distribuições utilizados na realização de análises descritivas e de correlação entre variáveis. O objectivo deste módulo do presente manual é fornecer noções básicas de manipulação do software. Por isso, cobre apenas uma pequena parte do conjunto das ferramentas presente no pacote estatístico. Os principais tópicos aqui abordados são: Manipulação de Arquivos de Dados Æ abrir e guardar matrizes de dados; Edição de Dados Æcriar e editar matrizes de dados; Transformação de Dados Æ recodificar variáveis e criar novas variáveis a partir de cálculos com as variáveis já existentes; Selecção de Casos → selecção de casos para realização da análise; Análise Descritiva dos Dados Æ tabelas de frequência, medidas de tendência central e dispersão; Análise de Correlação entre Variáveis Æ testa a independência entre variáveis e a intensidade da correlação entre elas. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 6 1.1 O QUE É UMA MATRIZ DE DADOS Antes de partirmos para a explicação da utilização das ferramentas disponíveis no SPSS, vamos darum pequeno exemplo de como se processa a construção de uma matriz de dados. É essencial termos uma ideia bem clara do que é uma matriz de dados, para que possamos entender os resultados estatísticos fornecidos pelo sistema. Para escolher onde passar as férias de final de ano, uma pessoa começou a levantar informações a respeito de alguns lugares que ele tinha vontade de conhecer. Após um pouco de reflexão, ele resolveu colher as seguintes informações: horas de viagem, tipos de actividades recreativas, tamanho da cidade e preço médio da refeição e de hospedagem em hotel. Depois de muita pesquisa, muitos telefonemas e conversas com amigos, ele chegou a seguinte tabela comparativa das características dos lugares: Nome do Lugar Tempo de Viagem Actividades Recreativas População da Cidade Preço Refeição Preço Hospedagem Vila Moura 4 Horas Praias, Marinas e Discotecas 10.000 € 20,00 € 60,00 Serra da Estrela 4 Horas Montanhas e passeios históricos 5.500 € 10,00 € 40,00 Quiaios 1 Hora Praia 1.000 € 80,00 € 35,00 Obs. Estas Informações são fictícias. Esta tabela constitui uma matriz de dados. A construção desta simples tabela e de qualquer matriz de dados possui alguns requisitos fundamentais para que possamos confiar nas suas informações e desenvolver comparações relevantes. São eles: • Deve existir um corpo básico de questões que é submetido a todos os casos da maneira mais uniforme possível, evitando problemas de interpretação; • Cada uma das informações (variáveis) ‐ horas de viagem, tipos de actividades recreativas, População da cidade, ... ‐ deve ser arquivada para todos os casos com a mesma unidade de medida; • A responsabilidade daquele que colhe as informações é essencial para garantir a confiabilidade das informações presentes na matriz de dados; • Deve‐se fazer um esforço enorme para não deixar questões sem resposta. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 7 1.2 MANIPULAÇÃO DE ARQUIVOS E EDIÇÃO DE MATRIZES DE DADOS A secção do SPSS onde é feita a entrada, manipulação e exclusão de dados é denominada SPSS Data Editor. Como podemos observar na figura abaixo, sua estrutura é a de uma matriz (linhas x colunas). Podemos entender tal disposição da seguinte forma: cada coluna representa uma variável e cada linha representa um caso. De uma forma simplificada, enquanto as colunas corresponderiam às questões de um questionário, as linhas corresponderiam as informações de cada questionário aplicado. Podemos ver, a seguir, duas matrizes de dados; uma vazia e outra preenchida. Observe que a criação da matriz de dados envolve, não apenas o preenchimento das informações correspondentes a cada caso analisado (data view), mas a discriminação precisa do nome, definição, tipo e outras características das variáveis com que se está a trabalhar (variable view). Para abrir uma matriz de dados (nova ou já existente), clique no menu iniciar e seleccione o programa SPSS for windows. A janela que aparece é a seguinte: Figura 1: Começar a trabalhar com o SPSS Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 8 Se quer começar a preencher (pela primeira vez) esta base de dados clique em TYPE IN DATA e depois OK. Se quer abrir uma base de dados que já existe escolha OPEN EXISTING DATA SOURCE, faça OK e depois procure o local onde a guardou a ultima vez e clique em Abrir. Na figura 1 está uma matriz de dados preenchida e que se encontra dentro da sua pasta SPSS. Numa matriz de dados é importante reconhecer as seguintes informações: 1. No cabeçalho encontramos o nome do arquivo com que estamos a trabalhar (matriz de dados): employee data; 2. Na grande faixa de cor branca localizada abaixo da barra de ferramentas encontramos a seguinte informação: • 1:id Æ célula correspondente ao caso 1 da variável id; • 1 Æ conteúdo da célula. 3. A faixa cinzenta localizada na margem superior da tabela fornece‐nos os nomes das variáveis; 4. A faixa cinzenta localizada na margem esquerda da tabela nos fornece o número de cada caso; 5. No interior da tabela, as linhas correspondem aos casos analisados e as colunas correspondem às variáveis trabalhadas. Figura 2: Base de Dados Preenchida Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 9 1.2.1 MANIPULAÇÃO DE ARQUIVOS 1.2.1.1 ABRIR UMA MATRIZ DE DADOS JÁ EXISTENTE Cada matriz de dados é armazenada na forma de um ficheiro próprio do SPSS, com a extensão sav (*.sav) Para abrirmos uma matriz de dados já existente é essencial termos a informação precisa do local onde este ficheiro se localiza. Seguiríamos, então, o seguinte caminho: na barra de ferramentas selecionaríamos FILE (ficheiro) e depois OPEN (abrir). Chegaríamos a seguinte figura: Figura 3: Abrir uma matriz de dados existentes No campo Look in deve seleccionar o directório onde se localiza o ficheiro que contém a matriz de dados com que queremos trabalhar. Em seguida seleccione no painel abaixo ao campo Look in o arquivo ou digite no campo File name o nome do ficheiro. Tendo seleccionado o arquivo a ser aberto, seleccione a opção OPEN (abrir). O padrão do SPSS é trabalhar com a opção SPSS (*.sav) no campo Files of Type. Se quiser abrir um arquivo criado noutro sistema, por exemplo do Excel (*.xls), basta seleccionar este tipo de arquivo no Files of Type. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 10 1.2.1.2 GUARDAR OS DADOS Quando está a criar uma matriz de dados pela primeira vez, vai ter que lhe atribuir um nome, isto é, salvar o arquivo e escolher o local ou directório dentro do computador ou unidade de disco onde quer guardá‐lo. Para salvar o arquivo deverá seleccionar FILE na barra de ferramentas atribuir o nome e depois SAVE. Chegaremos na seguinte figura: Figura 4: Guardar uma matriz de dados existente Através do campo SAVE IN ou do rectângulo abaixo deste campo você poderá seleccionar o lugar onde o arquivo será guardado. Tendo feito esta selecção, basta preencher o campo FILE NAME com o nome que se deseja dar ao arquivo. Lembre‐se sempre de utilizar nomes que sejam claros na descrição do conteúdo da matriz de dados. Caso você queira salvar o arquivo em outro formato diferente do padrão estabelecido pelo SPSS (*.sav), seleccione o novo tipo desejado no campo SAVE AS TYPE. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 11 1.2.1.3 GUARDAR OU ABRIR ARQUIVOS CONTENDO RELATÓRIOS DE ANÁLISES A secção do SPSS onde é feita a criação, manipulação, exclusão e impressão dos resultados das análises estatísticas feitas pelo SPSS é denominada SPSS Viewer (output). Como podemos observar na figura abaixo, o output divide‐se em dois painéis: O painel da esquerda apresenta em índice todas as tabelas e gráficos produzidos durante a análise e o painel da direita mostra o conteúdo da tabela ou gráfico escolhido. Podemos ver, a seguir, um exemplo de como se estrutura essa secção. No painel da esquerda observamos que existe 1 tabela e 1 gráfico dentro do arquivo que guarda os resultados das análises estatísticas produzidas pelo SPSS. Como podemos perceber, a estruturade ambas análises é semelhante, contendo título, anotações, um campo denominado statistics e a tabela ou gráfico produzida. Se seleccionarmos o item Title no painel da esquerda, seu conteúdo será mostrado no painel da direita. O título poderá, então, ser editado, se clicarmos duas vezes repetidas sobre o campo. Figura 5: O Output Se seleccionarmos o item Notes no espaço da esquerda, uma série de características da análise pedida será mostrada no espaço da direita: data em que foi criado o relatório, nome e localização do arquivo que contém a matriz de dados utilizada para elaborar o relatório, se foi utilizado algum filtro para seleccionar os casos para a análise ou peso para atribuir importância diferente Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 12 aos casos, número total de casos analisados, existência de missing values, o comando utilizado para gerar o relatório e o tempo total que o computador levou para fazer o relatório. Tal campo também poderá ser editado se clicarmos duas vezes repetidas sobre o campo. Notes 20 Apr 00 17:03:29 C:\Program Files\SPSS1\Employee data.sav 05.00.00 <none> <none> <none> 474 User-defined missing values are treated as missing. Statistics are based on all cases with valid data. FREQUENCIES VARIABLES=gender /ORDER ANALYSIS . 18724 0:00:00,44 Output Created Comments Data File Label Filter Weight Split File N of Rows in Working Data File Input Definition of Missing Cases Used Missing Value Handling Syntax Total Values Allowed Elapsed Time Resources Figura 6: Notas sobre os procedimentos estatísticos efectuados Se seleccionarmos o item Statistics ou Case Processing no espaço da esquerda, seu conteúdo será mostrado no espaço da direita: o número total de casos considerados válidos para a análise e o número total de casos caracterizados como missing values e que por isso não foram computados na análise. Por fim, o último item nos mostrará o relatório final da análise. Neste caso, a tabela de frequência ou o gráfico BOX PLOT. Para guardar o output, o processo é semelhante ao realizado para as bases de dados. A única excepção é que o tipo de arquivo padrão para o SPSS passa a ter extensão spo (*.spo). Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 13 1.2.2 EDIÇÃO DE MATRIZES DE DADOS 1.2.2.1 CRIAR UMA MATRIZ DE DADOS 1.2.2.1.1 DEFINIÇÃO DAS VARIÁVEIS O passo mais importante na criação de uma matriz de dados é a definição das variáveis. Cada variável é criada separadamente, indicando seu nome, definição, tipo, categorias, formato da coluna na tabela e missing values (valores que por definição não entram nas análises estatísticas). Para definir uma variável, deve‐se seguir os seguintes passos: Clica na guia Variable Name 1. No campo Variable Name devemos entrar com um nome para a variável. Este nome não pode ultrapassar 8 caracteres e não pode conter nenhum sinal algébrico ou espaço em branco no seu interior. 2. Os outros campos à direita‐ type ,with, labels,values, missing values, column. Align e measure ‐ devem ser preenchidos em seguida, não importando a ordem com que são preenchidos. 3. Se clicarmos na célula TYPE chegaremos a seguinte figura: Figura 7: Definir o tipo de variável Entre as opções de tipo de variável acreditamos que as seguintes são importantes na formação de um conhecimento básico em SPSS para sociólogos: • Numeric: aparece por definição e estabelece que o campo será numérico → útil na definição de variáveis ordinais e categóricas; Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 14 • Date: estabelece um formato de campo para a entrada de datas; • Dollar: estabelece um formato de campo para a entrada de valores monetários; • String: estabelece que o campo será alfa‐numérico, podendo incluir qualquer tipo de informação desejada. Exemplo: nome de um município ou de uma pessoa. 4. O campo Width podemos seleccionar o tamanho total de caracteres da variável, clicando na seta para baixo se pretendermos diminuir os 8 caracteres que aparecem por defeito ou para cima se os pretendermos aumentar. Figura 8: número de dígitos 5. Para número de casas decimais (Decimal), o processo é semelhante, quando trabalhamos com o tipo numérico. Figura 9: casas decimais 6. Na opção LABELS escrevemos a etiqueta da variável, que não coube no Name. O campo Label deve ser preenchido com uma definição curta da variável. 7. Ao selecionarmos a opção Values chegaremos a seguinte figura: Figura 10: Codificar variáveis Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 15 Para variáveis categóricas, o campo Value Labels permite a definição das diversas categorias de respostas. O valor a ser digitado na matriz deve ser inserido no campo VALUE e o significado corresponde inserido no campo VALUE LABEL. Para cada par de informações deve‐se seleccionar a opção Add para adicioná‐los a matriz de categorias. Caso algumas das categorias tenha sido definida de maneira errada, utilize as opções Change ou Remove para fazer o seu acerto. 8. Ao seleccionarmos a opção MISSING VALUES chegaremos a seguinte figura: Figura 11: Atribuir missings Como já foi referido, serão indicados, neste campo, todos os valores que não entrarão nas análises estatísticas que serão realizadas com a matriz de dados. É muito comum, por exemplo, estabelecer como missing os valores correspondentes às categorias: não respondeu, não sabe ou sem informação. Estes valores podem ser indicados de maneira precisa ou através de intervalos. 9. Ao seleccionarmos a opção COLUMN visualizam‐se dois sentidos possíveis para escolher: diminuir ou aumentar a largura da coluna Figura 12: número de caracteres Este campo nos permite indicar a largura da coluna na tabela da matriz de dados e também o alinhamento do seu conteúdo dentro da célula. De um modo geral, este campo não é preenchido, utilizando o padrão que o próprio SPSS traz consigo e que corresponde a 8 caracteres. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 16 10. O campo MEASURE deve ser preenchida com o tipo de medida característica da variável. Encontramos as seguintes opções: • Scale: existe uma relação ordinal entre os valores mas a distância entre estas é desconhecida e não regular → ideal para variáveis quantitativas; • Ordinal: existe uma relação ordinal entre os valores e a distância entre estes é conhecida e regular → ideal para variáveis ordinais; • Nominal: não existe nenhuma relação ordinal entre os valores → ideal para variáveis nominais. 1.2.2.1.2 PREENCHER A MATRIZ DE DADOS Tendo definido todas as variáveis da matriz de dados, passamos para a entrada dos dados caso por caso; de um modo geral, recomenda‐se que os dados sejam digitados por questionário, ou seja, linha por linha. O preenchimento é feito digitando o valor atribuído à variável em cada caso seguido de tab (o que fará com que se passe para a próxima variável do mesmo caso) ou ENTER (o que fará com que se passe para o próximo caso na mesma variável). Para situações em que os valores se repetem muito, a utilização das opções CORTAR e COLAR permite a agilização do trabalho. 1.2.2.1.3 EXCLUIR UMA VARIÁVEL OU UM CASO Caso seja necessário excluir uma variávelda matriz de dados, devemos colocar o cursor do rato sobre o cabeçalho da coluna correspondente à variável que se deseja excluir e dar um click para seleccionar a coluna que se pretende apagar. Tendo seleccionado a variável, basta clicar a tecla DELETE. O mesmo procedimento deve ser usado em relação à exclusão de casos, seleccionando‐ se a linha que se pretende apagar através de um click sobre a margem esquerda da linha na matriz de dados. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 17 1.2.2.1.4 INSERIR UMA NOVA VARIÁVEL NO MEIO DE VARIÁVEIS JÁ EXISTENTES Caso seja necessário inserir uma nova variável no meio de variáveis já existentes numa matriz de dados, devemos utilizar o comando inserir variável seguindo os seguintes passos: 1. Escolha o lugar onde a variável deve ser inserida; 2. Seleccione a variável que estará à direita da nova variável a ser inserida clicando sobre o cabeçalho da coluna desta variável; 3. Na barra de ferramentas seleccionamos DATA e depois INSERT VARIABLE; 4. Em seguida deve seguir todos os passos necessários para a definição da nova variável. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 18 1.3 TRANSFORMAÇÃO DE DADOS 1.3.1 CÁLCULO ENTRE VARIÁVEIS Em muitas situações, obtém‐se informações importantíssimas realizando cálculos a partir de variáveis presentes na base de dados. Isto envolveria basicamente a criação de uma nova variável preenchida com o resultado da operação matemática com as outras variáveis envolvidas. Para realizar tais operações utilizamos o seguinte comando: ~ Na barra de ferramentas da base de dados seleccionamos o menu TRANSFORM e depois seleccionamos o comando COMPUTE. Em seguida aparecerá a seguinte figura: Figura 13: Realizar cálculos Deve‐se preencher o campo TARGET VARIABLE com o nome da nova variável, onde colocaremos o resultado dos cálculos a serem realizados. É possível especificar o tipo e definição desta nova variável se seleccionarmos o campo TYPE & LABEL.1 Como podemos ver na figura, esta nova variável será igual ao valor do resultado da operação matemática definida no campo NUMERIC EXPRESSION. A definição deste campo segue as regras básicas da matemática, como por exemplo a ordem de execução envolvendo parênteses, chaves e aspas. O preenchimento do campo pode ser realizado através de um click do rato sobre 1 Uma definição mais detalhada da nova variável pode ser realizada também utilizando a rotina indicada acima para a definição de variáveis. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 19 o quadro de sinais ou através do teclado digitando os mesmos sinais presentes na figura. Apresentamos, a seguir, alguns exemplos básicos para facilitar a compreensão da utilização do comando: Operação Expressão Variável C é igual a soma de A e B C = A + B Variável C é igual a soma de A e B C = sum (A to B) Variável C é igual a divisão de A por 100 C = A / 100 Variável C é igual a média aritmética de A e B C = (A + B) / 2 A operação matemática descrita no campo NUMERIC EXPRESSION pode envolver também a utilização de algumas ferramentas matemáticas de maior complexidade características, por exemplo, da estatística ou da trigonometria. Para este caso, existe uma série de funções matemáticas definidas na caixa FUNCTIONS. A sua inserção deve ser feita da seguinte forma: 1. Escolha a função desejada utilizando‐se dos recursos disponibilizados pela barra de passagem. Figura 14: Funções numéricas 2. Após escolhida a função, insira a função no campo NUMERIC EXPRESSION clicando sobre a seta que está acima do campo FUNCTiONS. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 20 Outra opção presente no comando COMPUTE é a possibilidade de seleccionar em que casos, a operação indicada, serão realizados. A operação matemática se realizará dependendo dos valores encontrados em uma ou mais variáveis, presentes ou não na operação matemática descrita. Ao seleccionar a opção IF chegaremos na seguinte figura: Figura 15: Estabelecer Condições A opção padrão é a include all cases, ou seja, a operação será realizada em todos os casos existentes no banco de dados. Podemos, no entanto, selecionar o caso em que esta operação se realizará ao clicarmos na opção: include if case satisfies condition. Indicaremos, então, uma nova expressão numérica que deve ser satisfeita para que a operação matemática indicada seja realizada. Também neste caso, a expressão numérica pode incluir funções matemáticas mais complexas. Apresentamos, a seguir, alguns exemplos básicos para facilitar a compreensão da utilização do comando: Condição Expressão Variável C é menor que 100 C < 100 Variável C é diferente de A C <> A Variável C é menor que a soma de A e B C < A + B Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 21 1.4 RECODIFICAÇÃO DE VARIÁVEIS 1.4.1 RECODIFICAR UMA VARIÁVEL A necessidade de recodificação de variáveis envolve basicamente duas situações: a agregação de categorias de maneira a construir novas categorias mais apropriadas para a análise estatística desejada e a transformação de variáveis do tipo ordinal em variáveis categóricas. Por cautela, recomenda‐se que as variáveis originais a serem recodificadas nunca sejam excluídas após a sua recodificação. Deve‐se salientar, que para a execução de uma boa recodificação é essencial termos um conhecimento claro da distribuição de valores da variável original. As etapas para se chegar a este conhecimento serão explicadas posteriormente na secção ANÁLISE DESCRITIVA. Tendo seleccionado os parâmetros para a nova recodificação, deve‐se seguir o seguinte caminho: na barra de ferramentas seleccione TRANSFORM e depois RECODE. Em seguida, as seguintes opções para a realização da recodificação aparecerão: into same variables / into different variables. A primeira opção realiza a recodificação da variável sobre ela mesma, apagando o conteúdo da variável original. A segunda opção realiza a recodificação em uma variável diferente, permitindo que se mantenha a variável original intocada. Descreveremos a seguir o funcionamento das duas opções. No quadro abaixo sugerimos um exemplo típico de recodificação para permitir uma melhor compreensão do comando. Quando aplicamos questionários, é muito comum colhermos a informação idade na forma de valores absolutos. Na hora da análise, surge a necessidade de criar faixas etárias, pois para uma série de aspectos a análise por faixa facilita o trabalho. Surge, então, a seguinte situação: IDADE EM VALOR ABSOLUTO COMANDO DE RECODIFICAÇÃO NOVA VARIÁVEL RECODIFICADA 2 0 até 4 → 1 1 9 5 até 9 → 2 2 15 10 até 14 → 3 4 20 15 até 19 → 4 5 25 20 até 24 → 5 6 26 25 até 29 → 6 6 Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 22 No comando definição da variável, todos estes valores da nova variável devem ser definidos como categorias (value labels). Assim, as análises serão reproduzidas pelo computador de uma forma que todos saberão qual faixa etária corresponde cada um destes valores. Deixamos de ter umavariável com valor absoluto para termos uma variável com categorias e com um significado específico para cada uma delas. O 1 corresponderá à faixa de 0 até 4 anos, o 2 à faixa de 5 até 9 anos e assim por diante. Apesar de perdermos um pouco de precisão na informação, ganhamos em agilidade para a análise dos dados. 1.4.1.1 Recodificação na Variável Original Figura 16: Recodificar variáveis Para a opção Recode into Same Variables, devemos inicialmente seleccionar no painel da esquerda a variável da matriz de dados a ser recodificada. Feita a selecção, clicamos na seta à direita deste painel para que a variável seja introduzida no campo NUMERIC VARIABLE. Assim como para o comando COMPUTE, podemos seleccionar através do IF os casos onde esta recodificação será realizada. O funcionamento desta opção é idêntica à encontrada para o comando COMPUTE, por isso volte a este comando para obter qualquer esclarecimento sobre esta opção. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 23 O passo seguinte da recodificação será indicar os valores novos que substituirão os valores a serem recodificados. Seleccionamos, para tal, a opção Old and New Values. Com esta selecção, encontraremos a seguinte figura: Figura 17: substituir os valores antigos O campo Old Value deverá ser preenchido com os valores a serem recodificados, enquanto que o Campo New Value deverá ser preenchido com os valores que substituirão estes valores a serem recodificados. No campo Old Value, os valores podem ser preenchidos na forma de valores absolutos ou intervalos. No campo New Value, os valores só podem ser preenchidos na forma de valores absolutos.2 A cada par de Old Value e New Value deve‐se clicar no campo Add para inserir este par na lista de recodificações planeadas. Qualquer alteração neste par de valores a serem recodificados pode ser realizada utilizando os recursos disponibilizados pelos campos: CHANGE e REMOVE. Após escolher todos os pares de valores a serem recodificados, basta apenas selecionar o campo CONTINUE. Por fim, é bom deixar explícito o significado dos termos system missing e user missing. Ao preenchermos a nossa matriz de dados, os campos deixados sem informação (em branco) são preenchidos automaticamente pelo computador ‐ system missing ‐ com o seguinte símbolo ʹ , Por 2 Estas limitações de preenchimento dos campos indica de maneira clara a utilidade do comando. Podemos construir, por exemplo, faixas etárias de modo que cada intervalo etário será substituído por uma única categoria ( 0 à 9 anos → 1 , 10 à 19 anos → 2 , .... ) Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 24 outro lado, os valores denominados de user missing são definidos pelo próprio utilizador através da definição dos missing values quando se define as variáveis. 1.4.1.2 Recodificação numa nova Variável Para a opção Recode into Different Variables, devemos inicialmente seleccionar no painel à esquerda a variável da matriz de dados a ser recodificada. Feita a selecção, clicamos na seta à direita deste painel para que a variável seja introduzida no campo NUMERIC VARIABLE → OUTPUT VARIABLE. Como estamos a recodificar em diferentes variáveis, devemos em seguida preencher o campo OUTPUT VARIABLE com o nome da nova variável a ser criada com base no resultado da recodificação a ser realizada. O significado da nova variável pode ser definido ao preenchermos o campo LABEL. Tendo preenchido estas duas informações, basta clicar no campo CHANGE para que a nova variável seja também incluída no campo NUMERIC VARIABLE → OUTPUT VARIABLE. Figura 18: Criar uma variável com base em outra existente Os comandos IF (selecção dos casos para recodificação) e Old and New Value (indicação dos valores a serem substituídos e dos valores novos) seguem as mesmas regras descritas para a opção Recode into Same Variable. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 25 1.5 SELECÇÃO DE CASOS PARA A ANÁLISE 1.5.1 SELECCIONAR CASOS ESPECÍFICOS A SEREM ANALISADOS O recurso de selecção de casos para análise é muito utilizado, principalmente quando queremos restringir a análise a um grupo social específico dentre todos os presentes no conjunto total da amostra. Seu uso no desenvolvimento de análises comparativas é limitado pelo facto de que o software já traz uma série de recursos que possibilitam a efectivação desse uso de análise de uma maneira mais simplificada. Para fazermos uma selecção de dados, devemos ir a barra de ferramentas e seleccionar DATA e depois SELECT CASES. O campo Select mostra 5 opções para selecção dos casos: All Cases (Todos os Casos), If Condition is Satisfied (Se Condição for Satisfeita), Random Sample of Cases (Amostragem Aleatória dos Casos), Based on Case Range (Baseado em Intervalo de Casos) e User Filter Variable (Uso de Variável Filtro). A primeira opção ‐ All Cases ‐ permite trabalhar com todos os casos da amostra e é automaticamente definida pelo SPSS. O quadro select assemelha‐se ao quadro abaixo. Figura 19: Seleccionar/ excluir casos específicos Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 26 A segunda opção ‐ If Condition is Satisfied ‐ nos permite estabelecer uma condição em função de uma expressão matemática que deve ser satisfeita para que cada caso específico entre no grupo dos que serão analisados. Figura 20: Impor condições à selecção Esta janela é bastante semelhante àquela encontrada no comando COMPUTE na opção IF. O painel à direita deverá ser preenchido com alguma expressão matemática que contenha pelo menos uma das variáveis presentes na lista à esquerda. Esta expressão agirá como um condicionante para que o caso seja inserido no grupo dos que serão analisados. Como exemplo de condição temos por exemplo: idade > 5 (a análise se restringirá às pessoas com mais de cinco anos de idade) A terceira opção ‐ Random Sample of Cases ‐ permite escolher o número de casos a serem analisados em função de uma selecção aleatória simples. Poderemos indicar aproximadamente a percentagem de casos a serem seleccionados no total de casos ou o número exacto de casos dentro de um número específico de primeiros casos; por exemplo: cinco casos dentro dos 100 primeiros. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 27 Figura 21: Escolher uma amostra aleatória A quarta opção ‐ Based on Case Range ‐ permite escolher os casos dentro de uma faixa específica de ordem de codificação. Figura 22: Escolher um intervalo de dados Com base no código do caso ‐ número do caso presente na margem esquerda da tabela de matriz de dados ‐ indicaremos o intervalo de casos a serem seleccionados. A quinta e última opção ‐ User Filter Variable ‐ permite seleccionar os casos em função de uma variável filtro definida previamente. Esta opção exige uma variável de tipo especial (dummy) composta apenas de valores 0 e 1, onde os valores 1 serão seleccionados e os valores 0 não serão seleccionados. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 28 1.6 ANÁLISE DESCRITIVA DOS DADOS FAZER UMA ANÁLISEDESCRITIVA BASEADA EM MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO (MODA, MÉDIA, MEDIANA, DESVIO PADRÃO, ETC.) As análises das tendências centrais são muito importantes. Os indicadores de tendência central são capazes de nos mostrar como uma certa variável ou característica do grupo estudado se distribui utilizando apenas um número. De um modo geral, dois factores são importantes nas análises deste tipo: a avaliação da tendência central da distribuição e a avaliação da dispersão dos valores em torno desta tendência central. Mostraremos aqui apenas um dos possíveis caminhos para se chegar a estas medidas de tendência central. Na barra de ferramentas seleccione ANALYSE, depois DESCRIPTIVES STATISTICS e depois FREQUENCIES. Chegaremos, então, a seguinte figura: Figura 23: Estatística Descritiva Este comando permite trabalharmos com a descrição da distribuição de valores de variáveis ordinais e categóricas. Seu padrão, no entanto, está direccionado para a análise de variáveis categóricas. Para conseguirmos indicadores de tendência central devemos seleccionar no campo STATISTICS aqueles indicadores que consideramos importantes. Podemos excluir as tabelas de frequências quando as variáveis a analisar forem quantitativas, já que seriam desapropriadas. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 29 Este processo de desactivação é conseguido se clicarmos sobre o quadrado que se encontra atrás da opção DISPLAY FREQUENCY TABLE. Ao clicarmos sobre o campo STATISTICS chegaremos a seguinte figura: Figura 24: estatística descritiva Tendo chegado a esta figura, basta seleccionarmos entre as diversas opções existentes aquelas que desejamos. Entre as medidas de tendência central temos as seguintes opções: média, moda, mediana e soma; entre as medidas de dispersão dos valores temos as seguintes opções: desvio padrão, variância, intervalo, valor máximo e mínimo e média do erro padrão; em relação aos valores percentuais poderemos obter os quartis, os diversos percentis desejados e os valores que dividem a amostra no número de partes iguais desejadas3. Tendo feito a selecção das medidas desejadas, basta clicar em CONTINUE. A opção CHART relaciona uma série de recursos para a visualização gráfica da distribuição de dados de variáveis categóricas; sendo única excepção o histograma. Como pretendemos medidas de tendência central, nossa análise está restringinda a variáveis quantitativas ou em alguns casos ordinais. Ao clicarmos na opção CHART chegaremos na figura abaixo, onde poderemos seleccionar histogramas. Existirá ainda a alternativa de produzir a curva normal do gráfico, se seleccionarmos a opção With normal curve. 3 Os pontos de corte são obtidos a partir da partição da sequência, formada pelos valores ordenados da variável, no número de partes desejadas. Os valores obtidos como Cut Points são os valores que estão justamente no ponto em que essas partes são divididas. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 30 Figura 25: Gráficos descritivos simples A opção FORMAT relaciona uma série de recursos para a construção das tabelas de frequência, que como já foi dito antes se restringe a análise de variáveis categóricas. Estas duas opções serão descritas posteriormente quando tratarmos da análise da distribuição de variáveis categóricas. Tendo seleccionado as opções de medidas centrais presentes no campo STATISTICS basta seleccionar as variáveis a serem analisadas e introduzi‐las no campo VARIABLES. ALTERNATIVA DE CONSTRUÇÃO DE GRÁFICOS PARA ANÁLISES DE TENDÊNCIA CENTRAL Existe ainda um segundo modo de chegarmos a uma representação gráfica de medidas de tendência central. Na barra de ferramentas escolheremos GRAPHS, depois BOX PLOT e chegaremos na seguinte figura: Figura 26: Gráficos de Bigodes para análise comparativa dos grupos Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 31 Este gráfico permite fazer uma análise descritiva comparativa de distribuições de dados entre grupos de casos separados. Os seus resultados são baseados na distribuição dos quartis e mediana. A definição do parâmetro de repartição da amostra é dada em função das categorias de uma segunda variável. Seria útil, como podemos ver abaixo, na comparação da distribuição dos dados entre os géneros. 258216N = Gender MaleFemale B eg in ni ng S al ar y 100000 80000 60000 40000 20000 0 23234120071430329450103420 290257137 34 173456198446 32431 160 205 343 29 46274467222413189468 134 348 Estamos separando a análise da distribuição dos salários entre homens e mulheres. O eixo Y do gráfico mostra os valores da variável Beginning Salary. Dentro deste gráfico, a linha preta no interior do rectângulo vermelho corresponde a mediana da distribuição em cada categoria sexual, os rectângulos vermelhos compreendem a distribuição de 50 % dos casos e os traços pretos acima a abaixo deste rectângulo compreendem os 50% restantes dos casos. Os pontos pretos acima e abaixo destes traços pretos são denominados outliers e podem ser definidos como os valores dos casos que se diferenciaram muito da distribuição central dos dados (estão fora da distribuição principal). Como podemos ver, temos neste gráfico não só uma ideia da tendência central da distribuição da variável, mas também, uma ideia da dispersão desta distribuição. No menu para definição deste gráfico, poderemos escolher entre trabalhar com apenas uma variável no eixo X (simple) ou trabalhar com duas variáveis agregadas no eixo X (Clustered). Poderemos, ainda, seleccionar por trabalhar com a separação por grupos de casos (groups of cases) ou por variáveis (separate variables). Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 32 Se selecionarmos a opção SIMPLE e Summaries for Groups of Cases, chegaremos a seguinte figura: Figura 27: Gráficos de Bigodes - Descrição Comparativa de duas variáveis Os campos Variable, Category Axis e Label Cases By devem ser preenchidos com as variáveis seleccionadas presentes no rectângulo da esquerda. Na construção do BOX PLOT, o campo VARIABLE deve ser preenchido com a variável em função da qual se deseja fazer a análise de tendência central e o campo CATEGORY AXIS deve ser preenchido com a variável em função da qual serão estabelecidos os grupos de casos a serem comparados, por exemplo, homem ou mulher. O preenchimento do campo Label Cases By não é obrigatório e a variável presente neste campo será usada para caracterização dos outliers. Se continuarmos com a opção Summaries for Groups of Cases e seleccionarmos a opção Clustered, além de preenchermos os campos indicados acima para a opção Simple, passaremos a ter que preencher o campo: Define Clusters By. Este campo deverá ser preenchido com a variável em função da qual definiremos uma nova divisão dos casos dentro daquela divisão já feita anteriormente. Chegaremos a um gráfico como o abaixo, onde encontramos uma divisão por pertença ou não pertença a alguma minoria dentro de cada categoria sexual. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 33 6440 194176N =Gender MaleFemale C ur re nt S al ar y 160000 140000 120000 100000 80000 60000 40000 20000 0 Minority Classificat No Yes 97 146 447 341 430 383 446 14 103 34318 32 29 242134277413 168 8072 240468348 371 Se seleccionarmos a opção SIMPLE e Summaries of Separate Variables, chegaremos a uma figura como a abaixo. Deveremos preencher o campo BOXES REPRESENT com as variáveis a serem analisadas no gráfico. A análise passará a ser feita, então, para todo o conjunto de casos e para cada variável separadamente. Enquanto que a análise anterior era feita por grupos de casos diferentes e para apenas uma variável por vez. O campo Label Cases By deverá ser preenchido como designado acima no caso do BOX PLOT por grupos de casos. Figura 28: Gráficos de Bigodes para grupos de casos Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 34 Se continuarmos com a opção Summaries of Separate Variables e seleccionarmos a opção Clustered, além de preenchermos os campos indicados acima para a opção Simple, passaremos a ter que preencher o campo: Category Axis. Este campo deverá ser preenchido com a variável em função da qual definiremos uma divisão dos casos. Chegaremos a um gráfico como o abaixo, onde podemos comparar a diferença do comportamento da variável salário actual e salário inicial entre homens e mulheres. 258216 258216N = Gender MaleFemale 160000 140000 120000 100000 80000 60000 40000 20000 0 Beginning Salary Current Salary 431 45410634 103 446 34318 32 29 242134277413 168 8072 240468348 371 34123243020045032971103420290257 13734 17345619844632431 160 205 343 29 41346246774222189468 134 348 Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 35 1.6.1 COMO FAZER UMA ANÁLISE DESCRITIVA BASEADA NA DISTRIBUIÇÃO DE FREQUÊNCIA Análises descritivas baseadas na distribuição de frequências são usadas para variáveis categóricas. Neste caso conseguimos saber a participação numérica e percentual de cada categoria no total de casos analisados por variável. Na barra de ferramentas devemos selecionar ANALYSE, depois DESCRIPTIVES STATISTICS e depois FREQUENCIES. Chegaremos, então, a seguinte figura: Figura 29: Tabelas de Frequências Após escolhermos a variável sobre a qual queremos construir a tabela de frequência, poderemos escolher no campo FORMAT algumas opções em relação ao formato desta tabela. Chegaremos a seguinte figura: Figura 30: Apresentação dos dados em Tabela Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 36 Poderemos escolher a ordem com que as categorias das variáveis serão mostradas na tabela: • ascending values: categorias aparecem em ordem crescente do valor da categoria • descending values: categorias aparecem em ordem decrescente do valor da categoria • ascending counts: categorias aparecem em ordem crescente do valor do número total de casos por categoria • descending counts: categorias aparecem em ordem decrescente do valor do número total de casos por categoria Na opção MULTIPLE VARIABLE poderemos escolher entre incluir os resultados das análises de todas as variáveis trabalhadas num mesmo relatório (compare variable) ou produzir um relatório por variável (organize output by variable). Na opção SUPRESS TABLES WITH MORE THAN poderemos escolher por excluir do relatório aquelas tabelas que tenham um certo número definido de categorias. Após escolhermos o formato de construção da tabela, poderemos também escolher por dar uma forma gráfica a estes resultados. Clicando na opção CHART chegaremos na figura abaixo, onde poderemos escolher por trabalhar com um gráfico de barras, um gráfico de Sectores ou um histograma. Poderemos ainda seleccionar se os valores que aparecerão no gráfico serão os valores absolutos de casos das categorias (frequencies) ou os percentuais destes valores em relação ao número total de casos (percentages). Por fim, no caso de trabalharmos com o histograma, poderemos seleccionar se queremos que apareça a curva da normalidade do gráfico. Figura 31: Gráficos de Barras Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 37 1.7 ANÁLISE DE CORRELAÇÃO/ ASSOCIAÇÃO ENTRE VARIÁVEIS A análise de correlação/ associação entre duas variáveis é um caso bastante simples de análise de correlação entre variáveis, pois de um modo geral este fenómeno se estende por mais de duas variáveis. Para uma análise mais completa, levando várias variáveis em consideração ao mesmo tempo, devemos trabalhar com análises de regressão. 1.7.1 COMO CONSTRUIR UMA TABELA PARA VERIFICAR A RELAÇÃO ENTRE VARIÁVEIS (CROSSTABS) Um passo inicial para as análises de correlação/ associação é a construção de tabelas de contingência, que tem o formato de (x) linhas por (y) colunas. O número de linhas e colunas é resultado do número de categorias das variáveis trabalhadas. Em geral, não se recomenda trabalhar com um número exagerado de linhas ou colunas, pois isso dificulta a análise da tabela. Para realizar a construção da tabela devemos ir a barra de ferramentas e escolher a opção ANALYSE, depois DECRIPTIVES STATISTICS e em seguida CROSSTABS. Chegaremos a uma figura como a abaixo. O campo ROW deverá ser preenchido com a variável a ser colocada na linha da tabela. O SPSS tem como padrão colocar sempre a variável independente neste campo. O campo COLUMN deverá ser preenchido com a variável a ser colocada na coluna da tabela. O SPSS tem como padrão colocar sempre a variável dependente neste campo. Note que estes campos poderão ser preenchidos com mais de uma variável. Serão construídas, então, quantas tabelas forem necessárias envolvendo 2 variáveis para cumprir com as alternativas possíveis de cruzamento Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 38 entre as variáveis indicadas. Por exemplo, se colocarmos a variável idade e educação na linha e sexo na coluna, chegaremos a duas tabelas: idade * sexo e educação * sexo. Figura 32: Tabelas de Contingência O rectângulo abaixo do campo COLUMN poderá ser preenchido com uma nova variável que será utilizada na construção de uma tabela envolvendo três variáveis como a que segue. Também este campo poderá ser preenchido com mais de uma variável. Gender * Minority Classification * Employment Category Crosstabulation Count 166 40 206 110 47 157 276 87 363 14 13 27 14 13 27 10 10 70 4 74 80 4 84 Female Male Gender Total MaleGender Total Female Male Gender Total Employment Category Clerical Custodial Manager No Yes Minority Classification Total Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 39 Como podemos perceber, associámos a variável independente sexo colocada na linha com a variável dependente classificação em minoria colocada na coluna dentro de cada posição ocupacional. Se a opção Display Clustered Bar Charts estiver selecionada, o relatório fornecido pelo SPSS fornecerá, além da tabela de cruzamento das variáveis, um gráfico de barras com o conteúdo da tabela. Em muitos casos o comando CROSSTABSpoderá ser utilizado apenas para conseguirmos coeficientes numéricos de correlação entre variáveis. Neste caso, é recomendável seleccionar o campo SUPPRESS TABLES. Para chegarmos a estes coeficientes deveremos seleccionar no campo STATISTICS os coeficientes com que queremos trabalhar. Isto será objecto da próxima questão. Ao seleccionarmos o campo CELLS chegaremos a figura abaixo, onde poderemos escolher se desejamos que a tabela mostre os valores absolutos observados no cruzamento, os valores esperados em função da distribuição das marginais e os diversos percentuais de distribuição dos casos em função dos totais da linha, coluna ou da tabela. Figura 33: Frequências, Percentagens e Residuos Se seleccionarmos o campo FORMAT chegaremos a figura abaixo, onde poderemos seleccionar a ordem de apresentação das categorias presentes na linha. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 40 1.7.2 COMO CONSTRUIR ANÁLISES DE CORRELAÇÃO ENTRE VARIÁVEIS A construção desta análise exige que se tenha um conhecimento mais aprofundado de estatística para que possamos seleccionar de maneira mais adequada os coeficientes de correlação a serem analisados. Cada tipo de tabela, dependendo do tipo de variável trabalhada, exige que se analise um coeficiente diferente. Toda análise desse tipo envolve, em geral, uma análise da dependência entre as variáveis e depois uma análise da intensidade da correlação. A análise da dependência lhe permite averiguar se a relação encontrada entre as variáveis decorre de uma simples coincidência dos casos analisados, ou pelo contrário é probabilística. Já a análise da intensidade da correlação indica a intensidade desta associação. Utilizando o caminho indicado acima para chegarmos no quadro CROSSTABS, chegaremos à figura 32 atrás apresentada. Se quisermos ver apenas os coeficientes de correlação, deveremos seleccionar o campo SUPPRESS TABLES. Em seguida, deveremos seleccionar o campo STATISTICS para podermos escolher os coeficientes com que queremos trabalhar. Surgirá, então, a seguinte figura: Figura 34: Estatísticas das Contingências Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 41 A análise do Chi‐square permite, como foi indicado acima, levantar em que medida a associação encontrada acima decorre de uma coincidência dos casos analisados, ou seja, se decorre de um erro amostral, ou de uma real correlação entre as variáveis. Deveremos, então, seleccionar os coeficientes de correlação desejados. Não se esqueça que cada um deles tem uma utilidade específica e os resultados de coeficientes diferentes não podem ser comparados sem nenhum critério. É recomendável que se faça toda a análise em função de apenas um coeficiente, para que seus valores sejam comparáveis com facilidade. O próprio SPSS trás na tabela acima, como pode ver, algumas indicações para a escolha. Para trabalhar com variáveis nominais foram indicados os seguintes coeficientes: coeficiente de contingência, Phi, V de Cramer, coeficiente de incerteza e Lambda. Para trabalhar com variáveis ordinais foram indicados os seguintes coeficientes: Gamma, Somers e Kendall. Os campos ROW, COLUMN e o rectângulo abaixo do campo COLUMN deverão ser preenchido como especificado no item acima. Uma outra forma de obter uma correlação bivariada é através do menu ANALYSE, CORRELATE, BIVARIATE. Figura 35: Correlações Bivariadas Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 42 No painel da direita coloca as variaveis que pretende correlacionar, escolhe o coeficiente em função do tipo de variáveis e clica em OK. Figura 36: Correlação de Pearson Em output aparecerá uma matriz de correlações bivariadas Correlations 1,000 ,100 , ,145 214 214 ,100 1,000 ,145 , 214 214 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Idade Parede posterior do VE Idade Parede posterior do VE Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 43 1.7.3 GRÁFICOS DE DISPERSÃO COM RECTA DE REGRESSÃO Uma outra forma de verificar uma relação é recorrer ao teste gráfico de dispersão. O gráfico de dispersão (scatterplot) é um gráfico de pontos, representando num plano (x,y) N pares de valores numéricos escalares, que permite analisar a distribuição conjunta das duas variáveis. Este tipo de gráficos é muito útil como metodologia prévia de análise a problemas de regressão, quando se tenta ajustar uma função y=f(x), que estabelece uma relação de dependência entre as duas variáveis. Permite igualmente detectar observações outliers bi‐variadas, isto é, observações que se afastam do contexto das restantes observações, mesmo que, analisadas isoladamente em relação a cada variável, não se suspeite desses outliers. No eixo dos xx representa‐se a variável independente ou causal, e no eixo dos yy a variável dependente, resposta ou efeito. O procedimento pode ser observado na figura que se segue (GRAPHS, SCATTER) Figura 37: Gráficos de Dispersão Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 44 Após este procedimento aparece uma janela em que deve escolher o tipo de teste gráfico. O teste é escolhido em função do n.º de variáveis a relacionar. Nesta janela, deve seleccionar‐se o tipo de gráfico de dispersão a executar: Simple quando se pretende representar num plano xy uma série de observações bi‐variadas (x,y); se nessa série existem diferentes categorias, definidas por uma terceira variável categórica, podem identificar‐se os pontos correspondentes a cada categoria com marcas diferentes; Overlay quando se pretende representar num mesmo plano (x,y) duas ou mais séries de observações bi‐variadas (x,y) da mesma natureza; Matrix quando se pretendem representar os gráficos xy de todas as combinações possíveis de duas ou mais variáveis; isto é, dispondo de 3 variáveis genericamente identificadas por x,y,z, esta opção representa os seguintes gráficos: (x,y), (x,z), (y,z), bem como a imagem simétrica destes gráficos; este gráfico é útil para uma análise exploratória das associações entre diversas variáveis; 3‐D representa o gráfico espacial a 3 dimensões definido pelos eixos (x,y,z). Figura 38: Seleccionar o gráfico de Dispersão simples Se escolheu o simple coloque a variável dependente no eixo dos yy e a independente no eixo dos xx, tal como na figura que se segue. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 45 Figura 39: Seleccionar as variáveis a correlacionar Espessura do septo interventricular 1,61,41,21,0,8,6 Id ad e 90 80 70 60 50 40 30 20 10 Para colocar a recta de regressão faça um CLICK DUPLO sobre o gráfico e aparecerá a janela CHART EDITOR, tal como pode observar na figura que se segue. Escolha o menu CHART, OPTIONS. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 46 Figura 40: Opções de apresentação do gráfico Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 47 Selecione FIT LINE e FIT OPTIONS Figura 41: Coloca recta de regressão num gráfico de dispersão Escolha o método de regressão Linear (porexemplo) e selecione em REGRESSION OPTIONS display rsquare in legend. O gráfico passará a ter o seguinte aspecto. Figura 42: Colocar coeficiente de determinação (r2) no gráfico de dispersão Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 48 Espessura do septo interventricular 1,61,41,21,0,8,6 Id ad e 90 80 70 60 50 40 30 20 10 Rsq = 0,0084 Como se pode observar não existe relação. r=0.091 r2=0,0084 coeficiente de determinação = r2x100=0,8% Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 49 Mas se o resultado fosse aquele que se vê no grafico seguinte ler‐se‐ia Figura 43: Gráfico de Dispersão com recta de regressão e coeficiente de determinação A duração da onda P no 4º espaço intercostal e a duração da onda P no 5.º espaço intercostal têm uma correlação positiva de 52,4%, isto é existe um padrão em 52,4% dos indivíduos onde quanto maior é a duração da onda P no 4.º espaço intercostal maior é a do 5.º espaço intercostal Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 50 1.7.4 TESTES T As metodologias estatísticas que envolvem testes de hipóteses acerca de médias designam‐se genericamente por testes t. Existem vários tipos de testes t. O SPSS dispõe de três tipos: •Teste t para a média de uma amostra: compara a média de uma amostra com a média conhecida de uma população. São apresentados os parâmetros estatísticos da amostra em análise; igualmente é estabelecido um intervalo de confiança para a diferença entre as médias. Com este teste, pretende‐se verificar se podemos considerar que a média da determinada variável em análise é igual à média da população geral. Para o efeito recorre‐se ao menu ANALYSE Compare Means One‐Sample T Test. Figura 44: Teste t para uma amostra Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 51 Aparece uma caixa de diálogo, onde se selecciona a variável a analisar e o valor hipotético da média da população (test value). Vamos por exemplo saber se a nossa amostra de indivíduos com HVE tem índices de massa corporal significativamente superiores a 25 Kg/m2. Figura 45: Colocar o parâmetro a comparar De seguida, seleccionar a fim de definir o nível de confiança para (μ‐x) : Por defeito, está definido (1‐)=0.95; se o desejar, o utilizador poderá alterar este nível de confiança. Fazer e depois OK: Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 52 Figura 46: Output do teste t para uma amostra O resultado mostra que para um nível de significância de 5%, deve rejeitar‐se a hipótese nula de que o IMC da nossa amostra, possa ser por exemplo de 25 (pois o p‐value ou significance level da amostra é de 0,001<a =0.05. de facto o IMC dos indivíduos com HVE é significativamente superior (+2,6 Kg/m2) à média da População portuguesa •Teste t para duas amostras independentes: Compara as médias de uma mesma variável ou característica observada sobre duas amostras independentes de indivíduos, com a condição de que os indivíduos sejam aleatoriamente atribuídos aos dois conjuntos em comparação (por exemplo, resultados obtidos sob um tratamento versus resultados obtidos sob outro tratamento diferente, ou de um modo genérico, controlo versus tratamento). São apresentados os parâmetros estatísticos das amostras em análise; é efectuado o teste de LEVENE para a homogeneidade das variâncias das duas amostras; são apresentadas as estatísticas de teste para as situações de variâncias homogéneas e não homogéneas; é estabelecido um intervalo de confiança para a diferença entre as médias. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 53 O teste de Levene para decidir se existe diferenças entre as variâncias dos dois grupos, consiste numa análise de variância aos valores absolutos das diferenças entre os valores observados e a média de cada uma das amostras. Para tal, fazer ANALYSE, Compare Means, Independent Samples T Test. Figura 47: Teste t para amostras independentes Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 54 Na caixa de diálogo seguinte, seleccionar a variável quantitativa a analisar (ex: idade); as duas amostras a comparar são dois sub‐grupos desta variável, definidos por uma variável dicotómica (ex: sexo); para tal, seleccionar esta variável para o campo Grouping variable: Figura 48: Colocar as variáveis em análise Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 55 Para definir os sub‐grupos ou amostras, seleccionar define; usar os valores codificados da variável dicotómica (ex: group 1= 1 (código atribuído ao sexo masculino); group 2=2 (código atribuído ao sexo feminino). Figura 49: Definir os dois grupos em análise No final, fazer continue. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 56 Figura 50: Terminar o teste Depois OK: Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 57 No primeiro quadro são apresentados alguns parâmetros estatísticos de cada uma das amostras. No segundo quadro apresentam‐se os testes de homogeneidade de variâncias (Levene) e o teste t‐Student de comparação das médias das duas amostras. Figura 51: Output do Teste t de Student para amostras independentes Começa por analisar‐se a homogeneidade das variâncias, isto é, verificar se se devem considerar homogéneas ou diferentes as variâncias dos dois sub‐grupos: Conclui‐se que se devem considerar as variâncias homogéneas, se a margem de erro aceite for de 0,05 pois p‐value deste teste (0,092) é superior a =5% , mas são heterogéneas se definimos a margem de erro de 0,01 (1% ‐ isto é, podemos fazer esta decisão com 99% de probabilidade de acertar). De seguida, aceitando um α de 0,05 faz‐se a decisão do teste t‐Student, para a situação de variâncias não homogéneas. O valor da estatística de teste é t=1,583 e p‐value = 0,114 > a =5%, concluindo‐se assim que a idade repouso, destas duas amostras, são estatisticamente iguais, para um nível de significância de 5%. Margarida Pocinho e João Paulo de Figueiredo SPSS: UMA FERRAMENTA PARA ANÁLISE DE DADOS 58 O intervalo de confiança a 95% para a diferença entre as médias é [‐0,477, 4.483], podendo teoricamente a diferença ser nula, uma vez que o intervalo contém o zero. •Teste t para duas amostras emparelhadas: Compara as médias de duas variáveis ou características para uma mesma amostra de indivíduos (do género peso antes versus peso depois de um determinado tratamento). São apresentados os parâmetros estatísticos para as duas amostras em análise; é calculada a correlação entre as duas amostras; São apresentados os parâmetros estatísticos para as diferenças entre as duas amostras emparelhadas; é estabelecido um intervalo de confiança para a diferença entre as médias. Antes de prosseguir para os testes t é aconselhado fazer uma análise exploratória dos dados, nomeadamente o diagrama de extremos‐e‐quartis e os valores extremos. Nesta análise pode concluir‐se que determinado caso constitui uma
Compartilhar