Baixe o app para aproveitar ainda mais
Prévia do material em texto
0 APOSTILA DE USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão UNIVERSIDADE PAULISTA – UNIP INSTITUTO DE CIÊNCIAS HUMANAS CURSO DE PSICOLOGIA O sujeito na avaliação psicológica: rótulo generalista ou espaço para singularidade ? PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 1 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA ÍNDICE PÁGINA Parte I – Introdução 01 - Conceitos Básicos 01 - Origem e Histórico 02 - Testes Psicológicos 06 Parte II – Teoria da Medida 09 - Matemática, Psicologia e Psicometria 09 - Axiomas da Medida 10 - Teoria da Medida e Ciências Psicossociais 12 Parte III – Estatística Aplicada à Testagem 13 - Estatística 13 - Mensuração e Psicologia 13 - Medidas de Tendência Central 14 - Medidas de Variabilidade 16 - O Modelo da Curva Normal 16 - Correlação 17 Parte IV – Modelos em Psicometria 20 - Modelo Clássico e Modelo Atual 20 - Teoria Clássica dos Testes (TCT) 20 - Teoria da Resposta ao Item (TRI) 21 Parte V – Validade e Fidedignidade 24 - Introdução 24 - Fidedignidade ou precisão 24 - Validade 28 Parte VI – Normatização e Padronização 31 - Introdução 31 - Padronização 31 - Normatização 32 Referências Bibliográficas 36 PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 2 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA PARTE I: INTRODUÇÃO “Etimologicamente, Psicometria representa a teoria e a técnica de medida dos processos mentais, especialmente aplicada na área da Psicologia e da Educação (...) Fundamenta -se na teoria da medida em ciências para explicar o sentido que têm as respostas dadas pelos sujeitos a uma série de tarefas e propor técnicas de medida dos processos mentais” (LUIZ PASQUALI, 2009). CONCEITOS BÁSICOS Avaliação psicológica: Área complexa com interfaces e aplicações em todas as áreas da Psicologia. A observação é uma forma de avaliação. Processo amplo que envolve a integração de informações provenientes de diversas fontes, dentre elas, testes, entrevistas, observações, análise de documentos. Testagem psicológica: Considerada uma etapa da avaliação psicológica, que implica a utilização de teste(s) psicológico(s) de diferentes tipos. Testes Psicológicos objetivam medir diferenças entre indivíduos ou diferenças entre o mesmo indivíduo em diferentes ocasiões. Um teste é um procedimento sistemático para coletar amostras de comportamento relevantes para o funcionamento cognitivo, afetivo ou interpessoal e para pontuar e avaliar essas amostras de acordo com normas. Primeiro interesse em avaliar: identificação de deficientes mentais em decorrência de dificuldades acadêmicas. Principais usos dos testes: Clínica: avaliação, acompanhamento, resultado terapia Educação e suas influências Recursos Humanos: seleção, promoção, desligamento Aconselhamento psicológico ou profissional Pesquisa em geral Os muitos e diferentes usos dos testes psicológicos mostram que o seu conhecimento é necessário para a compreensão adequada de quase todos os campos de atuação: base científica da Psicologia. Aplicação de testes é atribuição específica do psicólogo – a única, posto que outros profissionais podem atuar em psicoterapia, por exemplo. Portanto, o estudante de Psicologia deve ser conhecedor do assunto, de forma a defender de maneira clara sua posição pessoal quanto à aplicabilidade / validade – ou não – dos mesmos. TESTES PSICOLÓGICOS Procedimentos sistemáticos de coleta de informações que municiam o processo amplo e complexo de Avaliação Psicológica / Psicodiagnóstico com dados úteis e confiáveis. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 3 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Existem várias formas de se obter informações, tais como observação direta, entrevistas, análise de documentos e aplicação de testes propriamente dita. Os testes psicológicos são uma das formas possíveis de se obter informações sobre as pessoas durante a Avaliação Psicológica. De modo geral, os testes psicológicos propõem tarefas específicas às pessoas como meio para observar a manifestação do comportamento. Partindo-se da maneira como as pessoas se comportam nessas tarefas, os profissionais inferem características psicológicas associadas. As tarefas podem constituir-se em problemas de raciocínio, frases autodescritivas, tarefas de expressão, como desenhar, contar histórias, perceber figuras em manchas de tinta e outros. ORIGEM E HISTÓRICO Origem dos testes se perde na antiguidade. Eram utilizados para aferir o domínio de habilidades tanto físicas como de inteligência. Breve Histórico: Império chinês: sistema de exames para o serviço civil durante cerca de três mil anos. Grécia antiga: testes auxiliavam processo educacional. Sócrates: ensinamentos e testes entremeados. Idade Média: exames formais para conferir títulos e honrarias nas universidades europeias. Século XIX: principais desenvolvimentos científicos, que culminaram nos testes contemporâneos. No Brasil: Primeiro Laboratório de desenvolvimento de pesquisa em Psicologia foi fundado em 1907. Primeiro livro sobre testes psicológicos em 1924; autor: Medeiros Costa. MENTALISMO Jean Etienne ESQUIROL (1772-1840 – psiquiatra francês): Primeiro a escrever sobre debilidade mental e seus graus. Concluiu que o critério mais seguro de determinação do nível intelectual seria apresentado pelo uso da linguagem (1838). PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 4 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Edouard SÉGUIN (1812-1880 – médico francês): Pioneiro na educação dos débeis mentais, rejeitou a noção de “incurabilidade” e treinava capacidades não verbais. Criou o “método fisiológico” (1866): exercícios intensivos de discriminação sensorial e de desenvolvimento do controle motor (utilizados em instituições até hoje). Alfred BINET (1857-1911 – psicólogo francês): Avaliação das aptidões humanas; para ele não seria necessária grande precisão na mensuração de funções psicológicas mais complexas, pois as diferenças individuais são maiores em tais funções. Governo Francês (1904): nomeia uma comissão de estudo dos processos de educação para subnormais e Binet é o coordenador. Théodore SIMON (1873-1961 – psicólogo francês): Junto com Binet, desenvolve um teste objetivo para identificar crianças com possibilidade de enfrentar dificuldades nos cursos normais: a partir dos estudos e de testes de vários pesquisadores, criaram a Escala Binet-Simon. Lewis Madison TERMAN (1877-1956 - psicólogo cognitivista francês) Em 1916, na Universidade de Stanford, prepara uma revisão da Escala, que passa a ser conhecida como Escala Stanford-Binet. ESCALA BINET-SIMON OU ESCALA STANFORD-BINET OU ESCALA TERMAN-MERRIL Binet e Simon publicaram as primeiras edições: 1905, 1908, 1911. Terman e Merril publicaram as demais: 1916, 1937, 1960. Desempenho médio: quando IM e IC iguais: Q.I. = 100. Só por este cálculo, porém, o Q.I. diminuía com a idade. David Wechsler: resolveu a questão com a curva normal (medida estatística). PSICOMETRIA: APOSTILA BÁSICA ProfªMaria Inês Falcão Pá giná 5 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA EXEMPLOS DE SUBTESTES: Vocabulário: - O que é um chapéu? - Valente, o que é? Compreensão verbal: - O limão é azedo, mas o açúcar é ... Esquema corporal: - Complete o desenho do homem: Motricidade fina: - Leve o menino até sua casa: ESTRUTURALISMO Wilhelm WUNDT (1832-1920 - filósofo e psicólogo alemão): Conhecido como Pai da Psicologia Experimental e como o Fundador da Psicologia Moderna, criou em 1879 o primeiro laboratório do mundo dedicado à Psicologia: Laboratório de Leipzig. Preocupação em investigar os processos psicológicos individuais (psicologia experimental) e dos produtos culturais coletivos - como a linguagem, os mitos e a religião (psicologia dos povos) - para que a mente possa ser compreendida em todos os seus aspectos. LABORATÓRIO DE LEIPZIG: Descrições generalizadas do comportamento humano, com o importante cuidado na padronização da aplicação dos testes psicológicos, o que garantiu maior cientificidade à Psicologia. EXPERIMENTALISMO Francis GALTON (1822-1911 - biólogo inglês): Inspirado no evolucionismo de Darwin; criou o Laboratório Antropométrico, o primeiro grande conjunto sistemático de dados sobre diferenças individuais em processos psicológicos simples. Pioneiro em escalas e questionários de avaliação e em métodos estatísticos para análise de dados. Seus achados propiciavam o uso das técnicas matemáticas por pessoas sem treinamento para tratar, quantitativamente, os resultados. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 6 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Karl PEARSON (1857-1936 - estatístico inglês): Discípulo mais famoso de Galton, foi um grande contribuidor para o desenvolvimento da estatística como uma disciplina científica séria e independente. Fundamentou muitos dos métodos estatísticos "clássicos" que são de uso comum atualmente. Algumas de suas principais contribuições são: regressão linear e correlação; classificação das distribuições; teste Chi-quadrado de Pearson; coeficiente de correlação e dois coeficientes de assimetria. LABORATÓRIO ANTROPOMÉTRICO Reuniu seis anos de informações, aferia os processos psicológicos simples através de medidas sensoriais. James Mckeen CATTELL (1860-1944 - psicólogo americano): Trabalhou no Laboratório de Wundt e foi um dos primeiros a utilizar métodos estatísticos na avaliação das capacidades intelectuais, auxiliando a psicologia americana a se desenvolver como uma ciência experimental. Elaborou uma série de testes psicofísicos em laboratório e foi o primeiro a utilizar a expressão teste mental em um artigo escrito em 1890, relatando a experiência com testes para aferir o nível intelectual de universitários: força muscular, velocidade de movimento, sensibilidade à dor, acuidade visual e auditiva, discriminação de peso, tempo de reação e outros. OUTROS PESQUISADORES: Investigação de funções mais complexas: Kraepelin (1895): memória, fadiga e distração. Oehrn (1889): percepção, memória, funções motoras. Ebbinghaus (1897): aritmética, completar sentenças. Binet e Henri (1895): memória, imaginação, atenção, compreensão. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 7 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA TESTES PSICOLÓGICOS Um teste é uma medida objetiva e padronizada de uma amostra de comportamento e, assim, sendo, a Psicometria contribui para a análise de traços latentes de personalidade através do comportamento manifesto do sujeito nos itens das tarefas (verbais ou não verbais) que constituem um teste psicológico. TESTES DE INTELIGÊNCIA Os testes de inteligência visam compreender as capacidades intelectuais dos sujeitos, de modo a compreender o funcionamento cognitivo-intelectual do sujeito e, assim, auxiliar em suas necessidades específicas e enfatizar suas potencialidades. ESCALAS WECHSLER (WPPSI, WISC, WAIS, WASI) Instrumentos para compreensão das capacidades cognitivas, o que possibilita investigar o potencial intelectual, indicando também o Quociente de Inteligência (Q.I.), são aplicados em complemento a outras técnicas, inclusive à entrevista psicológica. Consideradas internacionalmente como escalas padrão ouro para investigação da inteligência. Q.I.: “uma estimativa do nível atual de funcionamento mental, enquanto este é medido pelas várias tarefas requeridas em um teste” (Groth-Marnat, 1999). TESTES COLETIVOS: Também criados para satisfazer uma necessidade prática urgente, a Primeira Grande Guerra (1917): comissão dirigida por Robert M. Yerkes. Testes para rápida classificação da inteligência de grandes grupos (1 milhão e 700 mil recrutas). Utilização de materiais de testes disponíveis e um teste coletivo de inteligência ainda inédito. Nessa época, foram criados: Army Alpha: escala verbal e não-verbal. Army Beta: escala não-verbal, empregada em analfabetos e recrutas estrangeiros. ESTIGMATIZAÇÃO DOS TESTES!! Os testes coletivos passaram a ser criados e utilizados em massa, mas sua estrutura envolve simplificação de instruções e dos processos de aplicação, podendo formar instrumentos grosseiros. Como resultado da expansão na sua criação (1920-1930), tivemos: PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 8 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA TESTES DE APTIDÕES Muitos dos testes criados originalmente para avaliação da inteligência são, na verdade, testes que avaliam apenas aspectos parciais da inteligência. Muitos deles hoje seriam considerados como “testes de aptidão escolar”, pois envolvem habilidades exigidas no trabalho acadêmico. Foram criados principalmente para uso no aconselhamento profissional e na seleção e classificação de pessoal militar e civil: testes de aptidão mecânica, para escritório, musicais e artísticas, p.ex. Apenas em 1945 surgiram baterias de aptidões múltiplas (II Grande Guerra), mas os resultados destas baterias também são apresentados separadamente por aptidões. TESTES DE PERSONALIDADE Enfoque nos aspectos afetivos ou não cognitivo/intelectuais do comportamento. Ainda que todos traços (intelectuais, cognitivos ou afetivos) possam ser incluídos sob o título ‘Personalidade’, convencionou-se designar deste modo as medidas de características como ajustamento emocional, relações sociais, motivação, interesse e atitudes, em contraponto às capacidades intelectuais e cognitivas. Kraepelin (1892): psiquiatra precursor dos testes de personalidade, criou o teste de associação de palavras para sujeitos anormais (ao ouvir palavras estimulantes, deve-se responder com a primeira palavra que ocorrer). Galton, Pearson e Cattell: desenvolvimento de questionários padronizados e técnicas de escalas de avaliação. Inventários de autodescrição: Também durante a I Grande Guerra, foi criada a Folha de Dados Pessoais de Woodworth, um recurso grosseiro de seleção, que consistia de certo número de questões que o sujeito deveria responder e pretendia identificar casos severos de neuroses, através de questões referentes a sintomas comuns dessa patologia. Foi o protótipo de questionário de personalidade. Testes Situacionais ou de Realização: O sujeito deve realizar uma tarefa, cujo objetivo é geralmente disfarçado. A maioria dos testes de realização imitava, estritamente,situações da vida diária. Como estes testes referiam-se a comportamentos sutis e complexos, a interpretação das respostas do sujeito era relativamente subjetiva. Atualmente, vemos sua aplicabilidade em técnicas de dinâmica de grupo, mas sem validade de teste (resultados quantitativos), mas de prova (resultados qualitativos). Técnicas Projetivas: Apresentaram desenvolvimento extraordinário, sobretudo entre clínicos. Desde 1950 vêm sendo pesquisados aperfeiçoamentos técnicos e medidas de validação sob a luz da “nova ciência”. Esta dificuldade é diretamente proporcional ao objeto de estudo: a personalidade. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 9 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Consiste de tarefa relativamente “não estruturada”, que permite grande amplitude em suas soluções. Para tanto, são dadas instruções breves e gerais: o sujeito tem liberdade de tempo, de resposta e de expressão. Quanto menos estruturado for o teste, mais sensível ele será a esse material encoberto. Isso decorre da suposição de que quanto menos estruturado ou mais ambíguo for o estímulo, menos provável que evoque reações defensivas por parte do examinando. Este procedimento reduz a possibilidade de o sujeito apresentar, deliberadamente, uma impressão desejada. Espera-se que os materiais dos testes sirvam como uma espécie de tela, na qual o indivíduo projeta seus processos de pensamento, suas necessidades, suas ansiedades e seus conflitos: portanto as características gerais da personalidade. Tipos de testes projetivos: Interpretação de manchas de tinta: Rorschach (“padrão ouro”) e Zulliger Interpretação de figuras: CAT, T.A.T., T.R.O. Técnicas gráficas (testes expressivos e projetivos) (Desenho Livre, HTP, Família, História): PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 10 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA PARTE II: TEORIA DA MEDIDA “A Psicometria se fundamenta na teoria da medida em ciências em geral, ou seja, do método quantitativo que tem, como principal característica e vantagem, o fato de representar o conhecimento da natureza com maior precisão do que a utilização da linguagem comum para descrever a observação dos fenômenos naturais” (LUIZ PASQUALI, 2009). MATEMÁTICA, PSICOLOGIA E PSICOMETRIA Epistemologia: teoria do conhecimento: - episteme = ciência, conhecimento - logos = discurso Ramo da Filosofia que estuda a origem, a estrutura, os métodos e a validade do conhecimento, motivo pelo qual também é tipicamente conhecida por filosofia do conhecimento. Assim, avalia a consistência lógica da teoria e a sua coesão factual. Este fato torna-a uma das principais vertentes da filosofia (é considerada a "corretora" da ciência). CIÊNCIA E MATEMÁTICA A Ciência se utiliza da linguagem da Matemática para descrever seu objeto próprio de conhecimento. O número é um símbolo que representa quantidade e serve perfeitamente para basear a tecnologia da mensuração na avaliação. Teoria da Medida: representa com números as propriedades dos fenômenos naturais. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 11 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA ESTATÍSTICA E TEORIA DA MEDIDA Na medida dos fenômenos naturais, o número se altera um pouco e assim, perde a identidade pontual e absoluta que se observa na matemática, possuindo variabilidade, ou seja, erro. Número = Matemática: número matemático Medida: número estatístico Os números em Psicometria são úteis para comparar fenômenos naturais. Ex.: Se 1 < 2, então um som pode ser mais alto que outro, ou um sujeito pode ser mais inteligente que outro. TEORIA DA MEDIDA E PSICOLOGIA Psicologia: dados brutos de testes, por si só, não têm grande utilidade. Testes psicológicos: é central para a definição de testes psicológicos o fato de que os fenômenos consistem em amostras cuidadosamente escolhidas de comportamentos. Às amostras é aplicado um sistema numérico ou de categorias, segundo alguns padrões preestabelecidos. AXIOMAS DA MEDIDA Axioma = postulado ou hipótese: É uma sentença ou proposição que não é provada ou demonstrada e é considerada como óbvia ou como um consenso inicial necessário para a construção ou aceitação de uma teoria. Por essa razão, é aceito como verdade e serve como ponto inicial para dedução e inferências de outras verdades (dependentes de teoria). Axiomas básicos da medida: - Identidade - Ordem - Aditividade Identidade: Diferença: os números são diferentes (1 =1, apenas =1). Ordem: Magnitude da diferença: um número é maior que outro (2>1). Aditividade: Os números, quando somados (exceto se somados a zero) formarão outro número. As quatro operações básicas são derivadas da soma. Então: - Adição: 4+2 = 6 - Multiplicação: 4x2 = 2+2+2+2 - Subtração: 4-2 = 4+(-2) - Divisão: 4÷2 = ½+½+½+½ ESCALAS DE MEDIDA Tipo de Escala Características Definidoras Propriedades dos Números Exemplos Nominal Números ao invés de palavras. Identidade nº inscrição INSS ou de camisas de futebol; nº para sexo, idade 18 9 10 PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 12 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Tipo de Escala Características Definidoras Propriedades dos Números Exemplos Ordinal Números para ordenar uma série hierárquica. Intervalos diversos Identidade + Ordem de classificação Listas de classificação; ranking de atletas escore em percentil Intervalar (nº não considerado na forma de razão) Intervalos iguais entre as unidades, mas sem zero verdadeiro Identidade + Ordem de classificação + Igualdade de unidades Escalas de temperatura, calendário Racional (nº na forma de razão) Zero verdadeiro; operações aritméticas são possíveis e significativas Identidade + Ordem de classificação + Igualdade de unidades + Aditividade Medidas de comprimento, períodos de tempo, acertos em alguns testes psicológicos PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 13 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA TEORIA DA MEDIDA E CIÊNCIAS PSICOSSOCIAIS Historicamente, a Psicometria tem suas origens na Psicofísica dos psicólogos alemães Ernst Heinrich Weber e Gustav Fechner. O inglês Francis Galton também contribuiu para o desenvolvimento da Psicometria, criando teste para medir processos mentais; inclusive, ele é considerado o criador da Psicometria. Foi, contudo, Leon Louis Thurstone, o criador da análise fatorial múltipla, que deu o tom à Psicometria, diferenciando-a da Psicofísica. Psicofísica: Medida de processos diretamente observáveis, isto é, estímulo e resposta do organismo. Psicometria: Medida do comportamento do organismo por meio de processos mentais, ou seja, lei do julgamento comparativo. Medida e fatos empíricos: Demonstração empírica de que dois ou mais atributos estruturalmente diferentes mantêm relações sistemáticas entre si (ex.: lei do reforço em Psicologia). Atributos: são de natureza diferente. Ex.: estímulo e resposta são atributos diferentes. Relação sistemática entre os atributos: uma manipulação em um atributo repercute sistematicamente no outro, donde se estabelece uma função de covariância (os dois variam), i.é, uma lei. Ex.: ao mudar o estímulodado ao sujeito, muda-se sua resposta. Teoria psicométrica: A Psicometria, em sentido estrito, trata da medida de construtos psicológicos ou de traços latentes, através de comportamentos verbais ou motores que seriam a representação daqueles traços. Portanto, considera a resposta (comportamento) do sujeito e o critério (teoria): Teoria Clássica dos Testes (TCT): o critério é o comportamento futuro: o teste deve medir agora um comportamento que eu possa confirmar posteriormente. Teoria de Resposta ao item (TRI): o critério é o traço latente (aptidões/habilidades): os sujeitos com maior aptidão terão maior probabilidade de responder corretamente ao item. A TEORIA DO ERRO Conceito: o número utilizado na medida é um intervalo que admite variabilidade, ou seja, admite margem de erro. Erro de Observação: Instrumental: pode ser inadequado. Pessoal: as pessoas reagem de maneiras diversas. Sistemático: algum fator não foi levado em consideração. Aleatório: causa desconhecida. Erro de Amostragem: - Representatividade da amostra (para inferir valores populacionais). Nunca é possível determinar as causas de todos os erros possíveis em uma medida. A Teoria do Erro é baseada na teoria da probabilidade e dos eventos aleatórios: Segmentos curtos de eventos aleatórios apresentam maior probabilidade de flutuações: desordem e aleatoriedade. Segmentos longos de eventos aleatórios apresentam menor probabilidade de erro: ordem e constância. A PRECISÃO DA MEDIDA e O MODELO DA CURVA NORMAL Uma sequência aleatória de eventos empíricos se distribui normalmente em torno de um ponto modal igual a 0 e de uma variância igual a 1. Erro da medida: erro padrão da medida (EPM). A medida verdadeira de um atributo se situa entre o valor médio das medidas efetuadas e um erro padrão em torno dele (para mais ou para menos). Precisão: Redução ao mínimo da margem de erro. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 14 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA PARTE III: ESTATÍSTICA APLICADA À TESTAGEM “Atividade científica voltada para o estudo do comportamento humano, através de dispositivos ou regras para atribuir números a objetos ou eventos” (STEVENS, 1946; in URBINA, 2007, p. 43). ESTATÍSTICA Status científico da estatística: análise, categorização e quantificação sistemáticas dos fenômenos observáveis, de modo a serem facilmente sujeitos à confirmação e análise e, portanto, mais objetivos. Estatística descritiva: Os números e gráficos são utilizados para descrever, condensar ou representar dados. Estatística inferencial: Os números e gráficos são utilizados para estimar valores populacionais baseados em valores de amostras ou para testar hipóteses. Considerada uma estatística com um conjunto mais amplo de procedimentos baseados na teoria das probabilidades. MENSURAÇÃO E PSICOLOGIA Na estatística descritiva, os dados brutos, por si só, não têm grande utilidade, pois necessitam de uma análise por parte de quem os utiliza. Na Psicologia, a maioria das escalas são de natureza ordinal, mas sua igualdade nunca é tão fixa ou completa como nas ciências físicas. Agrupamento dos dados: distribuição de frequência. A visualização pode ser através de gráficos ou tabelas. Exemplo: dados brutos de idades: 10 7 20 10 14 TABELA: GRÁFICOS: Idades 7 10 14 20 0 1 2 3 7 10 14 20 PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 15 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA MEDIDAS DE TENDÊNCIA CENTRAL MÉDIA ARITMÉTICA: Objetiva dar uma ideia das características de determinado grupo de números. Também chamada apenas de média, é a soma de todos os valores dividida pelo número de casos. Ma = valores n No exemplo de idades, temos: 7 + 10 + 10 + 14 + 20 = 61 = 12,2 5 OBS.: Quando calculamos a média aritmética de números que se repetem, podemos simplificar. Dessa maneira, para obter a média aritmética de 7, 7, 7, 9, 9, 9, 9, 9, 11 e 11 observamos que: Ma: (3 x 7) + (5 x 9) + (2 x 11) = 21 + 45 + 22 = 88 = 8,8 3 + 5 + 2 10 10 MÉDIA ARITMÉTICA PONDERADA: No caso de números com pesos diferentes, multiplica-se cada nota por cada peso; soma-se cada resultado da multiplicação e divide-se pela somatória de todos os pesos. Ex.: um aluno realiza um trabalho com peso diferente (i.é, com grau de importância diferente) do valor da prova. No bimestre ele obteve 6,5 na prova (peso 8) e 9,0 no trabalho (peso 2). A média do aluno, que neste caso é a média aritmética ponderada, será: Mp: (6,5 x 8) + (9,0 x 2) = 52 + 18 = 70 = 7,0 8 + 2 10 10 ATENÇÃO! Em algumas situações a presença de um valor bem maior ou bem menor que os demais faz com que a média aritmética não consiga traçar o perfil correto do grupo. MODA: É a medida de tendência central definida como o valor mais frequente de um grupo de valores. É possível haver mais de uma moda, caso haja mais de um valor com a mesma frequência acima de dos demais valores (bimodal, trimodal). Quando não há nenhum número que se repita, não teremos moda. Ex.: para uma amostra de dados com os números 3, 5 e 7 não há moda. Quando mais de um número se repetir em maior (e mesma) quantidade, teremos mais de uma moda. No exemplo de idades, temos a moda = 10 porque é o valor que se repete mais vezes. Idades: 10 7 20 10 14 Mo = 10 MEDIANA: Valor que divide em duas metades os dados dispostos em ordem crescente. Dados ímpares: valor do meio. Ex.: Idades em ordem crescente: 7 10 10 14 20 Me = 10 Dados pares: calcular a média dos dois valores do meio. Exemplo de dados pares (uma idade adicionada): Exemplo: 5 12 19 23 31 47 Mediana = 19 + 23 Me = 21 2 PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 16 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Vamos a outro exemplo, com maior quantidade de dados: Número de irmãos de alunos de uma sala de aula de Psicologia: Tabela: 30 pessoas Gráfico: Moda: (mais frequente) - 11 pessoas = 2 irmãos Mediana: (valor do meio – ou média dos dois do meio) - 15ª e 16ª posições = 2 irmãos Média: (soma dos “n’” dividida por “n”) (5x0) + (8x1) + (11x2) + (3x3) + (1x5) + (1x7) + (1x9) = 2 irmãos 30 0 2 4 6 8 10 12 0 1 2 3 4 5 6 7 8 9 10 PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 17 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA MEDIDAS DE VARIABILIDADE Análise da dispersão entre um conjunto de dados; contempla as diferenças individuais. AMPLITUDE: distância entre dois pontos extremos (valores mais alto e mais baixo). DISTÂNCIA INTERQUARTÍLICA – DIQ (Distância semi-interquartílica = metade da DIQ): distância entre os pontos que demarcam o topo do primeiro quarto (Q1 = Perc.25 – resultados inferiores) e do terceiro quarto (Q3 = Perc.75 – resultados superiores) de uma distribuição. Portanto, a DIQ é a amplitude entre Q1 e Q3: i.é, representa os resultados médios pois está entre os Percs. 25 e 75. VARIÂNCIA: diferença entre cada dado e a média ao quadrado; mede o quanto a distribuição está dispersa em relação à média. Extremamente útilpara a classificação da contribuição dos diferentes fatores, na determinação das diferenças individuais na realização em testes. Exemplo de idades: 100,8 5 (itens) = 20,16 DESVIO PADRÃO (d ou DP): é a raiz quadrada da variância. Proporciona um único valor que é representativo das diferenças individuais (ou desvios) em um conjunto de dados, já que são calculados a partir de um ponto de referência comum, i.é, a média. Quanto mais amplas forem as diferenças individuais, maior será o DP. No exemplo dos irmãos, teremos DP = 4,49, pois: 20,16 = 4,49 O MODELO DA CURVA NORMAL Curva normal ou curva do “sino” (mesocúrtica): baseada na teoria da probabilidade (portanto, ideal), mas muitas vezes se aproxima da realidade; tornou-se importante na estatística inferencial. Propriedades: Bilateralmente simétrica. Caudas que se aproximam, mas não tocam na linha de base (seus limites se estendem ao infinito). Por ser unimodal (com frequência [altura] máxima), apresenta: mediana, média e moda no centro da distribuição (pois a média é, também, o ponto que divide a curva em duas metades iguais [mediana] e é o valor mais frequente [moda]). PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 18 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA A CURVA NORMAL E ALGUMAS DISTRIBUIÇÕES ESTATÍSTICAS USOS DO MODELO DA CURVA NORMAL Descritivo: usada nos testes para calcular os escores padrões, mesmo se a distribuição dos dados apenas se aproxime do modelo da curva normal. Inferencial: usada para estimar parâmetros populacionais e para testar hipóteses a respeito de diferenças. Estimativa de parâmetros populacionais: feita através de uma amostra populacional, já que a análise estatística de determinado fenômeno pode apontar, em várias amostras de mesmo “n”, resultados dentro da curva normal. DP: faixa de distribuição da amostragem que fornece meios de comparação de valores ou estatísticas. CORRELAÇÃO Métodos correlacionais: técnicas usadas para obter índices do grau em que duas ou mais variáveis estão relacionadas mutuamente (coeficientes de correlação). Correlação: grau de relação entre variáveis (seus valores devem flutuar entre -1,00 e +1,00): Escores totais em testes diferentes Escores em diferentes partes (ou itens) de um único teste Escores em partes (ou itens) de um teste e o escore no teste inteiro Escores parciais ou totais de testes e variáveis que não pertencem a testes Coeficiente de correlação: somente necessitamos dos dados das duas variáveis para o cálculo. Exemplos: relação entre os comprimentos das saias e os índices do mercado financeiro relação entre o escore de um sujeito em um teste e o seu desempenho no trabalho PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 19 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Correlação linear: constante entre as variáveis. Apenas dois resultados serão possíveis: - Correlação positiva - Correlação negativa Quando não há correlação: os dados não compartilham uma fonte comum de variância, e não haverá entre eles um padrão ou uma tendência definida (provavelmente, seria a correlação para “comprimento de saias e índice do mercado financeiro”). Gráfico de dispersão: Permite visualização imediata. Imagem de “nuvem” de pontos. É o conjunto dos pontos do tipo (x, y) representados num referencial, no qual x e y são os valores observados das variáveis X e Y, respectivamente. Quando tomamos as variáveis duas a duas podemos verificar o que sucede a uma variável, X, quando outra variável, Y, varia. Existe correlação linear quando é possível ajustar uma reta à “nuvem” de pontos. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 20 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Assim, se quisermos estabelecer a correlação entre dois testes (por exemplo, os testes de inteligência WISC-III e Raven), devemos proceder o seguinte cálculo: 1 - Busca-se escores padrão (posição do escore em relação à média em unidades de DP – curva normal) de cada variável independente. 2 - Soma-se e divide-se pelo número de pares em um conjunto de dados. 3 - O resultado é uma média que indica a relação entre as variáveis. PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO LINEAR ( r ) 1 – O valor de r sempre está entre -1 e +1, isto é: - 1 r + 1 2 – O valor de r não varia se todos os valores de qualquer uma das variáveis são convertidos para uma escala diferente. 3 – O valor de r não é afetado pela escolha de x ou y. Permutando-se todos os valores de x e y, r permanecerá inalterado. 4 – r mede a intensidade, ou grau, de um relacionamento linear. Exemplo: coeficiente de correlação linear de Pearson entre o peso e a altura: PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 21 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA PARTE IV: MODELOS EM PSICOMETRIA “De um modo geral, a Psicometria procura explicar o sentido que têm as respostas dadas pelos sujeitos a uma série de tarefas, tipicamente chamadas de itens” (LUIZ PASQUALI, 2009) . MODELO CLÁSSICO E MODELO ATUAL A psicometria moderna tem duas vertentes: a Teoria Clássica dos Testes (TCT) e a Teoria de Resposta ao Item (TRI). TCT: baseada nos trabalhos de Spearman e axiomatizada por Gulliksen. TRI: inicialmente elaborada por Lord e Rasch e, finalmente, axiomatizada por Birnbaum e Lord. No final, então, temos ou testes válidos (TCT) ou itens válidos (TRI), itens com os quais se poderão construir tantos testes válidos quantos se quiser ou o número de itens permitir. TEORIA CLÁSSICA DOS TESTES (TCT) O modelo objetiva estimar possíveis erros que se pode cometer quando se utilizam testes para medir variáveis psicológicas. A TCT se preocupa em explicar o resultado final total, isto é, a soma das respostas dadas a uma série de itens, expressa no chamado escore total (T). - Exemplo: o T em um teste de 30 itens de aptidão seria a soma dos itens corretamente acertados. Se for dado 1 ponto para um item acertado e 0 pontos para um errado, e o sujeito acertou 20 itens e errou 10, seu escore T seria de 20. Dessa forma, a TCT tem interesse em produzir testes de qualidade, enquanto a TRI se interessa por produzir tarefas (itens) de qualidade. A dificuldade de um item é definida em termos da porcentagem de sujeitos que acertam. Assim, um item que mais sujeitos acertam (ex. 70%) obtêm êxito é considerado mais fácil do que aquele no qual apenas poucos sujeitos acertam (ex. 30%). A discriminação de um item é definida como a sua capacidade de diferenciar sujeitos com escores altos daqueles sujeitos com escores baixos. Como a TCT depende do grupo-critério, ou seja, depende que os sujeitos se difiram em termos da sua capacidade, nos itens muito fáceis e nos muito difíceis não há essa discriminação. Respostas ao acaso não são consideradas na TCT: considera-se que os sujeitos que conhecem a resposta certa, acertam; os que não conhecem, ou erram ou acertam por acaso. A TCT supõe que todas as alternativas de resposta a um item sejam equiprováveis, i.é, têm o mesmo valor atrativo de serem selecionadas. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná22 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA TEORIA DA RESPOSTA AO ITEM (TRI) A TRI não está interessada no escore total em um teste; ela se interessa por cada um dos itens e quer saber qual é a probabilidade e quais são os fatores que afetam esta probabilidade de cada item individualmente ser acertado ou errado (em testes de aptidão) ou de ser aceito ou rejeitado (em testes de preferência: personalidade, interesses, atitudes). Assim, a riqueza na avaliação psicológica ou educacional, dentro do enfoque da TRI, consiste em se conseguir construir armazéns de itens válidos para avaliar os traços latentes, armazéns estes chamados de bancos de itens para a elaboração de um número sem fim de testes. DESENVOLVIMENTO HISTÓRICO Baseada na Teoria da Estrutura ou Teoria do Traço Latente. Teve maior desenvolvimento após a década de 80, pois sua análise depende de sofisticados recursos de informática, os quais mostraram-se disponíveis a partir daquele momento. Lord (1952) inicialmente a chamou de Teoria da Curva Característica do Item e, posteriormente (1977), mudou o nome de seu modelo teórico para TRI, quando descreveu o modelo da Ogiva Normal de Dois Parâmetros. Rasch (1960) publicou um livro sobre Os Modelos Probabilísticos para Testes de Inteligência e Atenção, de onde se desenvolveram os três principais modelos da TRI. PRESSUPOSTOS DA TRI A pontuação de um sujeito obtida em um item – e, portanto, em um teste – depende diretamente do grau em que o sujeito possui a habilidade: O desempenho é o efeito e o traço latente é a causa. A resposta a um item (que investiga um determinado traço latente), apresenta um tipo de gráfico (com função crescente, que representa a Curva Característica do Item (ou função característica do item). Sujeitos com aptidão maior terão maior probabilidade de acerto do que sujeitos com aptidão menor. Curva Carasterística do Item (CCI): A INVARIÂNCIA DOS PARÂMETROS Através da invariância dos parâmetros, podemos estimar: Os escores dos sujeitos independentemente do teste utilizado; Os parâmetros dos itens independentemente da amostra de sujeitos utilizada (o que contrasta com a TCT, na qual a amostra deve ser homogênea para os resultados serem confiáveis). PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 23 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Invariância da aptidão: Para demonstrar a invariância da aptidão, aplicam-se dois testes com diferentes itens, mas que medem a mesma aptidão, a uma mesma amostra de sujeitos. Os resultados mostrarão se há ou não coincidência: se sim, a distribuição dos dados será em torno de uma linha reta, com adequado coeficiente de correlação de Pearson. Invariância dos itens: Para demonstrar a invariância dos itens, aplica-se o mesmo teste a duas amostras de sujeitos. Tal como na invariância da aptidão, os resultados mostrarão se há ou não coincidência: se sim, a distribuição dos dados será em torno de uma linha reta, com adequado coeficiente de correlação de Pearson. PRESSUPOSTOS DA TRI Unidimensionalidade: Apenas uma aptidão (traço latente) deve ser responsável pela realização de um conjunto de tarefas: aptidão dominante. Independência local: As respostas decorrem do traço latente predominante (não por memorização ou outros traços latentes): a probabilidade de resposta a um conjunto de itens é igual aos produtos das probabilidades das respostas a cada item individual. MODELOS DA TRI: MODELO DE UM PARÂMETRO – Dificuldade O parâmetro da dificuldade de um item deve corresponder a fifty-fifty (meio-a-meio), i.é: 50% de chance de erro, 50% de chance de acerto. Quanto maior a dificuldade, maior o nível de aptidão exigido para o sujeito continuar a ter 50% de chance de acerto. MODELO DE DOIS PARÂMETROS – Dificuldade e Discriminação Poder de um item em diferenciar sujeitos com magnitudes diferentes de traço representado pelo item: a discriminação pode variar de 0 ao , mas tipicamente varia entre 0 e +2. A probabilidade de acertar um item está diretamente relacionada com a aptidão do sujeito. MODELO DE TRÊS PARÂMETROS – Dificuldade, Discriminação e Resposta ao acaso O parâmetro da resposta correta dada ao acaso, ou do chute, é verificado na comparação do grau de dificuldade do item com a habilidade do sujeito. A probabilidade de acertar um item está diretamente relacionada com a aptidão do sujeito. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 24 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA ETAPAS DE ELABORAÇÃO DE INSTRUMENTO NA TRI Procedimentos Teóricos: Estabelecimento do sistema ou variável (traço latente); Desenvolvimento da teoria psicológica subjacente ao traço; Operacionalização do traço através da elaboração dos comportamentos que o representam para a elaboração dos itens; Análise teórica dos itens. Procedimentos Empíricos: Definição da amostra de sujeitos para a coleta da informação sobre o teste que se quer utilizar no futuro na população; Aplicação dos itens a esta amostra. Procedimentos Analíticos: Escolha do modelo de TRI; Estabelecimento da dimensionalidade do traço (unidimensionalidade dos itens); Avaliação dos parâmetros dos itens e da aptidão do sujeito (traço); Demonstração da adequação do modelo aos dados empíricos. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 25 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA PARTE V: VALIDADE E FIDEDIGNIDADE “Pasquali & Alchieri (2001) definem testes psicológicos como um procedimento sistemático para observar um comportamento e descrevê-lo com a ajuda de escalas numéricas. Tradicionalmente são encontrados testes com o objetivo de mensurar áreas tais como inteligência , cognição, psicomotricidade, atenção, memória, percepção, emoção, afeto, motivação, personalidade, dentre outras, nas suas mais diversas formas de expressão, segundo padrões definidos pela construção dos instrumentos” (PELLINI & LEME, 2011). INTRODUÇÃO Para assegurar que os testes apresentem os parâmetros de qualidade cientificamente exigidos, a American Psychological Association (APA) estabeleceu os Standards for Educational and Psychological Testing, tendo várias edições a partir de 1985. Os testes, para serem comercializados, necessitam do rigor psicométrico e, assim, submetidos aos parâmetros da validade e da precisão (fideginidade). FIDEDIGNIDADE OU PRECISÃO Fidedignidade: quão bom é o teste, ou seja, o quanto ele é confiável. Um teste necessita estar relativamente livre de erros para ser útil. Envolve: Estabilidade no tempo Consistência e precisão dos resultados Se o teste for inconsistente ou impreciso, teremos o erro de mensuração = qualquer flutuação nos escores resultante de fatores relacionados à mensuração que são irrelevantes ao que se mede. Escores de testes psicológicos são particularmente suscetíveis a influências diversas: testando, examinador, contexto da testagem. Desse modo, os usuários do teste podem predizer se o mesmo será igualmente válido para o grupo no qual pretendem usá-lo, ou se ele será provavelmente mais ou menos confiável. COEFICIENTE DE FIDEDIGNIDADE Número que estima a proporção da variância em um grupo de escores, explicada por erros oriundos de uma ou mais fontes. A avaliação da fidedignidade de um escore envolve: Determinação das possíveis fontes de erros Estimativa da magnitude desseserros Quanto mais alto, melhor. Esperado: 0,80 ou mais (vide pág.20). PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 26 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA FONTES DE ERROS Os erros podem advir do avaliador, do avaliado, do ambiente de testagem ou mesmo do teste em si. TIPOS DE FIDEDIGNIDADE: FIDEDIGNIDADE: DO AVALIADOR Diferenças entre avaliadores podem ocorrer, mesmo com instruções de pontuação explícitas e detalhadas (subjetividade do avaliador) ou apesar da criteriosidade do aplicador na pontuação. Fidedignidade do avaliador: pode ser estimada através da aplicação do mesmo teste por dois avaliadores distintos. Correlações altas dos escores obtidos, da ordem de 0,90 ou mais, sugerem proporção de erro menor, 10% ou menos {1-(0,90) = 0,10}. FIDEDIGNIDADE: TESTE-RETESTE Reaplicação do mesmo teste no mesmo sujeito ou grupo e em iguais condições de aplicação. Os retestados devem apresentar escores equivalentes: em momentos diferentes com diferentes examinadores O intervalo deve evitar: efeito de memória (se muito curto) possibilidade de mudanças (se muito longo) no sujeito ou no que se avalia (conhecimento acadêmico, por exemplo). Erro de amostragem de tempo: Os escores podem variar em função de serem obtidos em um determinado momento. Alguns constructos ou comportamentos podem ser mais ou menos estáveis ao longo do tempo, o que causa diferenças nos escores. Diferença entre: - traço: características relativamente duradouras e - estado: condições temporárias. Diferença entre: - funções cognitivas cristalizadas (abstração) ou - funções cognitivas fluidas (atenção, memória). PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 27 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA FIDEDIGNIDADE: FORMA ALTERNATIVA OU PARALELA Aplicação de uma forma paralela do teste. Pode ser aplicada com intervalo de tempo. A forma alternativa deve conter os mesmos critérios de construção, bem como referencial teórico, mas é composta de itens diversos do primeiro teste. Coeficiente de fidedignidade de forma alternativa: correlações altas e positivas dos escores obtidos, da ordem de 0,90 ou mais, sugerem proporção de erro menor, 10% ou menos {1-(0,90) = 0,10}. Este método permite atingir os dois tipos básicos de fidedignidade: estabilidade temporal (quando a forma paralela é aplicada com intervalo de tempo) consistência de resposta (independente de intervalo) Forma alternativa com intervalo: Aplicação de duas ou mais formas alternativas do mesmo teste em ocasiões diferentes, separados por um certo intervalo de tempo, a um ou mais grupos de indivíduos. Útil para estimar erros de amostragem de tempo e de conteúdo em testes que requerem tanto estabilidade quanto consistência de resultados. Se o tempo for muito curto, o coeficiente de forma alternativa apontará para a fidedignidade entre as formas. Se o intervalo for mais longo, a variância de erro nos escores refletirá as flutuações de tempo e o erro de amostragem de conteúdo do teste. FIDEDIGNIDADE: MÉTODO DAS METADES Aplicação de uma única forma do teste, em uma única sessão, com itens divididos na metade: Metades mais comparáveis: geralmente, dividir entre os itens pares e os ímpares do teste, de modo a manter a homogeneidade do teor da dificuldade dos itens. Exemplo: Teste com 06 itens: aplicar o teste e separá-los de modo que um item componha a metade “A” e o seguinte componha a metade “B”, e assim sucessivamente: Teste A Teste B Item do Teste: 1 1 2 2 3 3 4 4 5 5 6 ____________ _____6_____ (itens ímpares) (itens pares) Testes de velocidade: utilizar métodos teste-reteste ou formas alternativas. Caso utilizado o método das metades, deve-se contar os tempos separados para calcular o coeficiente. Após, correlaciona-se os resultados encontrados na aplicação das duas metades. Tal correlação derivará o coeficiente de fidedignidade pelo método das metades. De modo a se obter a estimativa do teste inteiro, aplica-se a fórmula de Spearman-Brown. Tal procedimento é adotado pois um escore baseado em um teste mais longo estará mais próximo do escore verdadeiro do que o obtido em um teste curto. Quando a fidedignidade é alta, dizemos que o teste apresenta consistência interna quanto à amostragem de conteúdo do teste, mas não é possível verificar a estabilidade temporal, pois as “metades” são aplicadas ao mesmo tempo. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 28 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA MEDIDAS DE CONSISTÊNCIA INTERNA Heterogeneidade de conteúdo: Pode haver inclusão de itens, ou conjunto de itens, que exploram o conhecimento de conteúdos ou funções psicológicas que diferem daquelas exploradas por outros itens no mesmo teste. Quando avaliamos a homogeneidade de um teste, devemos definir a(s) variável(is) para se avaliar a semelhança ou a diferença dos itens. O conceito de heterogeneidade é relativo, pois se o objetivo é avaliar a memória, p.ex., podemos incluir itens verbais ou não-verbais. Um mesmo grupo pode ser homogêneo em relação à idade, mas heterogêneo em relação à escolaridade, por exemplo. Análise da consistência entre os itens que compõem o teste: aplicação é feita apenas uma vez e com uma única forma do teste. Quando os itens de um teste devem investigar exatamente o mesmo constructo, eles devem ter alta homogeneidade (correlação) entre si. Comparação de cada item do teste com: a escala total todos os outros itens (correlação interitem) K-R 20 ou Alfa de Cronbach: verificam a consistência interna do teste todo. Quanto mais alto o valor, mais fidedigno. Aplicável a testes homogêneos do ponto de vista do seu constructo. FIDEDIGNIDADE E SELEÇÃO DE TESTES Avaliação de julgamentos subjetivos (ex.: personalidade): fidedignidade do avaliador. Avaliação de mudanças ao longo do tempo (ex.: resultado de intervenção terapêutica): fidedignidade de teste-reteste (estimativa do erro de amostragem de tempo). Reavaliação para confirmar achados prévios (ex.: confirmar hipótese diagnóstica de demência): fidedignidade de forma alternativa com intervalo. Homogeneidade e consistência ao longo de todo o teste (ex.: teste de atenção): K-R ou alfa de Cronbach alto (medidas de consistência interna). AVALIAÇÃO DE ERROS DE MÚLTIPLAS FONTES Os coeficientes de fidedignidade podem ser interpretados como estimativas da proporção de variância do escore, atribuíveis a erros de várias fontes. Devemos utilizar métodos que estimam a influência combinada de duas fontes: Fidedignidade de forma alternativa com intervalo: estima os erros de amostragem de tempo e de conteúdo; ou Estimativa de variância de erro total: soma das quantidades de variância de erro estimadas por todos os coeficientes de fidedignidade pertinentes. Combinar as estimativas de fidedignidade que avaliam o erro de diferentes fontes. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 29 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA Exemplo: Estimativas de Fidedignidade do subteste Vocabulário (WAIS-III) – tabela no Manual: TEORIA DA GENERABILIDADE: Teoria G Extensão da teoria clássica dos testes com métodos da análise de variância (ANOVA) na avaliação dosefeitos combinados de múltiplas fontes de variância de erro em escores de teste simultaneamente. Vantagem: também permite a avaliação da interação de diferentes tipos de fontes de erro, sendo considerado um procedimento mais completo para identificar a variância de erro nos escores. Desvantagem: necessário obter múltiplas observações do mesmo grupo de sujeitos em todas as variáveis independentes que podem contribuir para a variância de erro em um determinado teste (ex.: escores em todas as ocasiões, por todos os avaliadores, entre formas alternativas do teste, etc). FIDEDIGNIDADE E INTERPRETAÇÃO DE TESTES Objetiva reconhecer e quantificar a margem de erro nos escores obtidos. Intenta avaliar a significância estatística da diferença entre os escores obtidos, de modo a ajudar a determinar a importância destas diferenças em termos do que os escores representam. Os dados obtidos na análise da fidedignidade na interpretação de um escore são usados para derivar os limites inferiores e superiores dos escores verdadeiros do sujeito. Intervalo de confiança do escore: calculado a partir da fidedignidade estimada dos escores dos testes em questão, dependendo do nível de probabilidade escolhido. VALIDADE Antes de um teste ser considerado apto à aplicação, deve ser validado. Validar um teste é verificar se ele, efetivamente, mede aquilo a que se propõe e através de quais conceitos. Devemos compilar todas as informações disponíveis: teórica, conceitual, externa e interna. Samuel Messick (1989): “a validade é um julgamento avaliativo integrado do grau em que as evidências empíricas e a fundamentação teórica corroboram a adequação e a propriedade de inferências e ações baseadas em escores de teste ou outros modos de avaliação”. Um teste pode ser fidedigno, i.é, estar relativamente livre de erros de mensuração, mas não ser útil como base para as inferências que precisamos fazer. Adequação das inferências feitas a partir de escores de teste ou outras formas de avaliação. Ao determinar a validade de um teste, objetiva-se refinar e quantificar observações comportamentais para fins de inferências a respeito de indivíduos, grupos ou construtos psicológicos. Forma unitária e abrangente de expressar a abordagem científica da integração de qualquer evidência relacionada com o sentido ou interpretação dos escores de testes. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 30 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA COEFICIENTE DE VALIDADE Estabelecido através da comparação dos resultados brutos do teste com a execução do sujeito na vida real. Mais fácil, rápido e seguro do que simplesmente esperar o sujeito executar a tarefa, sem saber se tem habilidade para tal. Exemplo: bateria de aptidão para pilotos comparada com o desempenho em treinamento de vôo. TIPOS DE VALIDADE: VALIDADE DE CONTEÚDO O teor dos itens deve ser amplamente definido, para incluir os objetivos principais do que se pretende avaliar. Validade de Conteúdo: os itens devem ser representativos do que se quer avaliar. São examinados por experts na área. Validade de Face: os itens devem ser apresentados em linguagem concordante à amostra (ex. idade). Também são examinados por experts na área. VALIDADE DE CRITÉRIO Efetividade do teste como preditor presente ou futuro do comportamento. Um critério é uma medida direta e independente daquilo que o teste procura predizer. Validade concorrente: qualidade com que a escala pode descrever um critério presente. Validade preditiva: qualidade com que a escala pode predizer um critério futuro. Validade Relacionada a conteúdo de conteúdo de face Relacionada a critério concorrente preditiva relacionada a construto convergente discriminante fatorial PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 31 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA VALIDADE DE CONSTRUCTO (CONCEITO) Validade teórica (e não empírica): verificação do quanto, de fato, o teste mede um conceito teórico ou traço. Exige o acúmulo gradativo de informações obtidas em diferentes fontes, como especialistas, literatura e correlação com outros testes. Correlação de subtestes (ex: vocabulário e inteligência) ou itens com o teste geral (ex.: perguntas e traços de personalidade) Validade Convergente: relação da medida em questão com outras formas de medida já existentes do mesmo constructo. Ex.: outro teste. Validade Discriminante: se a medida em questão não está relacionada indevidamente com indicadores de constructos distintos. Verificar se ela não se relaciona, na verdade, com variáveis que deveria se diferir. Validade Fatorial: identificar traços psicológicos comuns (ou fatores latentes) em uma bateria de testes. Análise fatorial: verifica a(s) dimensão(ões) do constructo. Ex.: análise entre um teste de vocabulário com o traço (fator) compreensão verbal. QUALIDADE DOS TESTES PSICOLÓGICOS Um teste é qualificado para uso quando ele, de fato, consegue diferir os sujeitos em relação a um quadro clínico (com ou sem a doença). O diagnóstico da doença é efetuado por um teste já consagrado como válido (padrão ouro). Um teste deve atender aos seguintes critérios: Sensibilidade: capacidade de produzir resultados positivos em indivíduos com a doença em questão (verdadeiros-positivos). Detectam todos os doentes. Especificidade: capacidade de produzir resultados negativos em indivíduos sem a doença em questão (verdadeiros-negativos). Detectam os portadores de uma doença específica. VALOR PREDITIVO OU DIAGNÓSTICO Depende do grau em que o teste serve como um indicador de uma área relativamente ampla e significativa de comportamento. Deve ser demonstrada correspondência empírica entre os itens do teste e o comportamento que se pretende avaliar. Não é necessária relação direta entre o tipo de atividade e o comportamento. Exemplos: teste de atenção para exame de habilitação; teste de manchas para avaliar a personalidade. Objetiva-se a verificação da habilidade necessária ao comportamento: PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 32 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA PARTE VI: NORMATIZAÇÃO E PADRONIZAÇÃO “Um escore (...) pode ter sentidos bastante diferentes dependendo do teste do qual foi derivado, das áreas abordadas pelo teste e da atualização de suas normas, bem como de aspectos específicos da situação na qual o escore foi obtido e de características do testando” (URBINA, 2007). INTRODUÇÃO Escores brutos precisam resumir ou representar aspectos do desempenho da pessoa avaliada: um escore bruto produzido por um teste necessita ser contextualizado para poder ser interpretado. Obter, por exemplo, 50 pontos num teste de raciocínio verbal e 40 num de personalidade não oferece nenhuma informação. Se dissermos que um sujeito acertou 80% das questões de um teste não diz muito, visto que o teste pode ser fácil (80% então seria pouco) ou difícil (80% então seria muito). Ex.: escores altos podem ser: - Favoráveis (teste de habilidade), ou - Desfavoráveis (aspecto psicopatológico). PADRONIZAÇÃO Padronização: em seu sentido mais geral, se refere à necessidade de existir uniformidade em todos os procedimentos no uso de um teste válido e fidedigno: desde as precauções a serem tomadas na aplicação do teste (uniformidade das condições de testagem, controle do grupo, instruções padronizadas e motivaros examinandos pela redução da ansiedade) até o desenvolvimento de parâmetros ou critérios para a interpretação dos resultados obtidos. Importância de cuidados na padronização de instrumentos (Wechsler, 1999; Van Kolck, 1981; Anastasi e Urbina, 2000): Cabe aos construtores de testes oferecer instruções detalhadas para aplicação de cada teste desenvolvido, que incluem tempo, instruções orais, demonstrações preliminares, manejo das perguntas e todos os outros detalhes da situação de aplicação. Evitar improvisações que possam comprometer a validade dos instrumentos. Seguir rigorosamente as instruções e todo tipo de orientação que se encontra no manual do instrumento: - Instruções orais: mesmas palavras para todos os sujeitos, bem como velocidade, tom de voz, inflexões, pausas, expressões faciais - Materiais idênticos - Tempo de execução sempre iguais (quando houver limite de tempo) - Exemplos da atividade a realizar (quando houver) - Manejo das perguntas do testando: quando e como responder - Inquérito: quando fazer perguntas ao testando? ESCORES BRUTOS NÃO TÊM SIGNIFICADO PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 33 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA NORMATIZAÇÃO Normatização: diz respeito a como se deve interpretar um escore que o sujeito recebeu em um teste. Os escores brutos de um teste devem ser convertidos em medidas relativas, objetivando: - Indicar a posição relativa do indivíduo na amostra normativa, avaliando seu desempenho em relação a outras pessoas. - Oferecer medidas que permitam comparação direta do desempenho do mesmo indivíduo em testes diferentes. - Determinar a posição que o sujeito ocupa no traço medido pelo teste que produziu o tal escore (quanto do traço ele possui). O critério de referência (ou a norma de interpretação) é constituído tipicamente por dois padrões: 1) O nível de desenvolvimento do indivíduo humano (normas de desenvolvimento) e 2) Um grupo padrão constituído pela população típica para a qual o teste é construído (normas intragrupo). AMOSTRA DE NORMATIZAÇÃO As normas dos testes psicológicos não são absolutas, universais ou permanentes: elas representam apenas o desempenho no teste das pessoas que constituem a amostra de padronização. É importante padronizar o teste para o grupo específico no qual será utilizado, pois sabe-se que há várias diferenças na cultura, no tecido social, na linguagem, entre outras. Assim, o teste deve aplicado a uma amostra grande e representativa do tipo de pessoa para o qual foi planejado: seu resultado representa a norma daquela população. NORMA Estabelecimento do desempenho típico ou médio (M), bem como suas variações (DP) para cima e para baixo. Posição do indivíduo em relação à amostra normativa ou de padronização. Apresentada em tabelas descritivas: média, desvio-padrão e distribuição de frequência. TESTAGEM REFERENCIADA EM NORMAS O objetivo é a distinção entre indivíduos em termos de capacidade ou traço avaliado por um teste, comparativamente a uma amostra normativa ou de padronização (ex.: traço cognitivo ou psicológico). TESTAGEM REFERENCIADA EM CRITÉRIOS O objetivo é avaliar grau de competência de uma habilidade ou conhecimento em termos de um padrão estabelecido (ex.: avaliação de desempenho). NORMAS DESENVOLVIMENTAIS Escalas ordinais: envolve progressão ordenada de um estágio a outro. Sequências de comportamento (Gesell, Vineland). Teóricas (Piaget, Kohlberg) Escores idade mental: média dos escores brutos de desempenho de sujeitos de diferentes faixas etárias da amostra de padronização. Faixa de desempenho: idades de teste (Binet). Escores equivalentes à série escolar: derivados da localização do desempenho dos testandos dentro das normas dos estudantes de cada série na amostra de padronização. Problemas relacionados às diferenças curriculares e qualidade de ensino. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 34 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA NORMAS INTRAGRUPO Objetiva localizar o desempenho do sujeito em uma distribuição normativa. Comparação com um ou mais grupos de referência. Escores brutos são transformados em escores derivados. Crucial compor a amostra normativa ou de padronização, pois ela determina o padrão em relação ao qual todos sujeitos serão comparados. Deve ser representativa do tipo de indivíduo para o qual o teste está voltado. Suficientemente grande para garantir estabilidade dos valores obtidos (1 a 3 mil pessoas). Deve-se considerar a constituição demográfica da população: gênero, etnia, linguagem, condição socioeconômica, residência urbana/rural, distribuição geográfica e escolaridade pública/privada. Deve ser razoavelmente recente: padrão contemporâneo. Pode ser composta de amostra especializada, i.é, refletir um grupo específico ocupacional. Pode ser composta de: Normas de subgrupo: sexo, escolaridade Normas locais: contexto geográfico ou institucional Normas de conveniência: pessoas disponíveis ESCORES DERIVADOS Posição dos escores em relação à média. Expressa normas intragrupo. Expressa a distância entre um escore bruto e a média do grupo de referência em termos do seu desvio-padrão. Facilita a compreensão. Aplicável à maioria dos testes e populações. Indica a posição relativa em relação ao grupo de referência z: tipo mais básico de escore padrão ESCORE BRUTO ESCORE DERIVADO PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 35 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA OBS.: Teste e padronização americanos NORMAS PADRONIZADAS Os resultados brutos (RB) de cada grupo são padronizados de forma a serem centrados no valor médio do grupo e a terem uma variância especificada. EQUIPARAÇÃO DE ESCORES Os resultados padronizados são facilmente conversíveis entre si. A relação entre percentis e notas T e Z pressupõe a normalidade da distribuição das medidas. PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 36 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA EXEMPLO – WAIS-III: ESCORES BRUTOS PARA PONDERADOS TABELA DE CONVERSÃO DE ESCORES COMPARAÇÕES INTERTESTES Escores não podem ser comparados se: Os testes ou suas versões são diferentes Grupos de referência são diferentes Escalas de escores diferem Escores podem ser comparados a partir de: Duas ou mais versões de um teste (formas alternativas). Dois ou mais testes com mesma amostra de padronização (normatização simultânea). PSICOMETRIA: APOSTILA BÁSICA Profª Maria Inês Falcão Pá giná 37 USO EXCLUSIVO PARA FINS DIDÁTICOS – REPRODUÇÃO PROIBIDA REFERÊNCIAS BIBLIOGRÁFICAS ANASTASI, A. Testes Psicológicos. São Paulo: EPU, 1977. ANASTASI, A. & URBINA, S. Fundamentos da testagem psicológica. Porto Alegre: Artes Médicas, 2000. Conselho Federal de Psicologia. Sistema de Avaliação de Testes Psicológicos - SATEPSI. 2011. Disponível em http://www2.pol.org.br/satepsi/sistema/admin.cfm. Conselho Federal de Psicologia. Resolução 006/2004. 2004. Disponível em http://www.pol.org.br. Conselho Federal de Psicologia. Resolução 007/2003. 2003. Disponível em http://www.pol.org.br. Conselho Federal de Psicologia. Resolução 002/2003. 2003. Disponível em http://www.pol.org.br. HUTZ,C. S.; BANDEIRA, D. R.; TRENTINI, C. M., Psicometria. Porto Alegre: Artmed, 2015. PASQUALI, L. e cols. Instrumentação psicológica: Fundamentos e Práticas. Porto Alegre: Artmed, 2010. PASQUALI, L. Psicometria – Teoria dos testes na psicologia e na educação. Petrópolis: Vozes, 2004. PASQUALI, L. Teoria e Métodos de Medida em Ciências do Comportamento. organizado por Luiz Pasquali. Brasília: Laboratório de Pesquisa em Avaliação e Medida / Instituto de Psicologia / UnB: INEP, 1996. PELLINI, M.C.B.M. e LEME, I.F.A.S. A ética no uso de testes no processo de Avaliação Psicológica. In: AMBIEL, R.A.M. [et al.] Avaliação Psicológica: guia de consulta para estudantes e profissionais de psicologia. São Paulo: Casa do Psicólogo, 2011. Cap.7. OTTATI, F. e NORONHA, A.P.P. Parâmetros Psicométricos de Instrumentos de Interesse Profissional. Estudos e Pesquisas em Psicologia. Rio de Janeiro, v. 3, n. 2, p. 37-50, jul. 2003 . Disponível em http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1808-42812003000200003&lng=pt&nrm=iso. URBINA, S. Fundamentos da Testagem Psicológica. Porto Alegre: Artmed, 2007.
Compartilhar