Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS INTRODUÇÃO Prezado aluno, O Grupo Educacional FAVENI, esclarece que o material virtual é semelhante ao da sala de aula presencial. Em uma sala de aula, é raro – quase improvável - um aluno se levantar, interromper a exposição, dirigir-se ao professor e fazer uma pergunta, para que seja esclarecida uma dúvida sobre o tema tratado. O comum é que esse aluno faça a pergunta em voz alta para todos ouvirem e todos ouvirão a resposta. No espaço virtual, é a mesma coisa. Não hesite em perguntar, as perguntas poderão ser direcionadas ao protocolo de atendimento que serão respondidas em tempo hábil. Os cursos à distância exigem do aluno tempo e organização. No caso da nossa disciplina é preciso ter um horário destinado à leitura do texto base e à execução das avaliações propostas. A vantagem é que poderá reservar o dia da semana e a hora que lhe convier para isso. A organização é o quesito indispensável, porque há uma sequência a ser seguida e prazos definidos para as atividades. Bons estudos! 1 TRATAMENTO DA INFORMAÇÃO Podemos chamar os conceitos básicos de avaliação dos dados de tratamento da informação. Um dado consiste em números ou fatos brutos que foram coletados por meio de gráficos, tabelas e valores descritivos, visando interpretar um fenômeno depois de serem tratados e se transformar em informações, isto é, os dados são a matéria-prima dos estudos estatísticos. Os pesquisadores usam os dados quando desejam entender um todo analisando suas partes, ou seja, os usam quando querem analisar o adversário ou definir a melhor estratégia em um esporte, quando querem avaliar o perfil do consumidor para tentar agradá-lo ou quando querem melhorar o transporte coletivo, coletando o número de passageiros por linha e, consequentemente, definindo o horário com maior fluxo de passageiros, só para citar alguns exemplos. A avaliação e apresentação dos dados pode acontecer de vários modos. Quando escolhemos tabelas e gráficos, estaremos os representando com imagens visuais, usando as medidas para a quantificação de seus atributos. Os números que descrevem esses dados são as estatísticas, que precisam ser lidas e interpretadas corretamente e de forma organizada. Após apanhar e apresentar os dados de forma organizada, precisamos avaliá- los e, posteriormente, utilizá-los para tomar uma decisão. Para isso, precisamos verificar a possibilidade de acontecimentos aleatórios e é nesse contexto que surge o conceito de probabilidade. Segundo Aczel (2007), quando consideramos a probabilidade, atribuímos 100% de chance para um acontecimento que com certeza ocorrerá, em contrapartida, atribuímos 0% de chance para algo impossível de acontecer. Além disso, temos os casos onde não temos certeza se acontecerão ou não, caso seja mais provável que aconteça, sua porcentagem se aproximará de 100%, caso contrário, sua porcentagem se aproximará de 0%. Se um acontecimento tem 50% de chance de ocorrer, podemos afirmar que a chance de um acontecimento ocorrer é a mesma que a de não ocorrer. Podemos observar na imagem 1 uma interpretação das possibilidades e da probabilidade considerando uma quantidade contínua entre o certo e o impossível, usando as possibilidades de obtermos azul na roleta. Imagem 1 – Interpretação da probabilidade Fonte: Adaptado de Van de Walle (2009) Van de Walle (2009) afirma que um bom modo de compreender a probabilidade é iniciar observando o conceito de chance como uma quantidade contínua, para podermos compreender melhor que determinados eventos são menos ou mais prováveis que outros. Um bom exemplo é quando temos dois times em campo, caso um time A esteja vencendo um time B com um quarto do tempo restante, podemos afirmar que não é certo que o time A vença, no entanto, a chance é muito grande. Vale também salientar que o estudo da probabilidade envolve várias definições e leis que oscilam conforme a situação, tanto em relação à ocorrência de um ou outro evento, quanto na possibilidade de que um acontecimento ocorra caso outro também aconteça, o que chamamos de probabilidade condicional. Para verificar quantitativamente a possibilidade de um evento acontecer, ou seja, sua probabilidade, será fundamental contar as possibilidades de um evento e dividir pelo número total de possibilidades. A título de exemplo, vamos considerar a probabilidade de termos um número par ao lançar um dado. Primeiramente, vamos considerar todos os resultados possíveis, sendo eles 1, 2, 3, 4, 5 e 6. Em seguida, devemos separar os resultados que almejamos, isto é, os números pares, que são 2, 4 e 6. Com isso, temos 6 possíveis resultados e almejamos 3 deles, ou seja, devemos fazer a seguinte divisão: 3 6 = 1 2 Sendo assim, a probabilidade de cair um número par quando lançamos um dado é de 1 2 . 1.1 Situações-problema em nossa rotina Devido à evolução da tecnologia, estamos cercados pelos dados e a imprensa, tanto a televisionada quanto a escrita, começou a usar tabelas e gráficos para apresentar as informações. Desse modo, os leitores precisam se atentar para evitar que sejam enganados ou que esqueçam de elementos essenciais para uma interpretação precisa das informações cotidianas. Rumsey (2010) lista alguns casos onde a estatística é usada para apresentar várias situações diferentes, com o intuito de induzir o leitor a ter uma interpretação específica sobre um determinado evento, tanto para induzi-lo a consumir um produto novo quanto para aumentar ou diminuir a preocupação com o estado da saúde pública. A autora procura apontar os exageros e os problemas nessas estatísticas e demonstrar o modo correto de utilizá-las. 1.1.1 Conferir as contas Quando queremos efetivar a estatística, a primeira coisa que devemos fazer é conferir os números. Na maioria das pesquisas, o resultado da soma dessas estatísticas sempre deve ser 100%. A título de exemplo, vamos considerar uma pesquisa sobre os brinquedos mais vendidos para crianças entre 3 e 7 anos. Vamos imaginar que a pesquisa descrevia que 42% dos pais compravam brinquedos mostrados nos intervalos dos desenhos animados; 29% preferiam comprar jogos educativos; 20% apenas consumiam os brinquedos escolhidos pelo filho enquanto visitavam as lojas. Quando somamos as porcentagens, temos 42 + 29 + 20 = 91%. Nessa soma, notamos que está faltando 9%, o que faz a estatística ser invalidada, ou seja, os resultados da pesquisa não são fidedignos. 1.1.2 Conhecer o tamanho da amostra Existem várias pesquisas de opinião lançadas todos os dias com a ausência de alguns dados importantes, como o número de entrevistados. Você já deve ter visto um comercial onde é informado que 9 em cada 10 dentistas recomendam o creme dental anunciado, sem citar a amostragem. Para assegurar que a estatística é fidedigna, o leitor precisaria se perguntar quantos dentistas foram entrevistados para chegar nesse número. Vamos imaginar que somente 10 dentistas foram entrevistados, com isso, não poderíamos considerar esse número como expressivo em um mundo onde existem milhares de dentistas, isso pode, inclusive, não ser tão atraente para o consumidor. Em contrapartida, caso 10.000 dentistas sejam entrevistados, podemos considerar que 9.000 recomendaram o creme dental e isso aumenta a confiabilidade tanto da pesquisa quanto do produto. Desse modo, comerciais ou notícias semelhantes a essa não são muito confiáveis caso o leitor não tenha a perspectiva da amostragem entre os dados citados. 1.1.3 Distorção da verdade usando exageros sutis (ou não) Para exemplificar essa situação, vamos imaginar a seguinte manchete de um jornal escrito: “Tempo de consulta com pacientes evita processos de imperícia médica”.Podemos observar que a manchete contém estatística, no entanto, existe uma grande lacuna entre a mensagem transmitida e a realidade. Vamos considerar que a manchete foi publicada levando em conta um estudo que avaliou 1.265 consultas e 59 médicos, seu resultado foi que os médicos que não foram processados levaram, aproximadamente, 18 minutos para completar cada consulta, enquanto os médicos que sofreram processos levaram 16 minutos para atender um paciente. A manchete leva o leitor a interpretar que o médico precisa gastar muito tempo em suas consultas para diminuir as chances de um diagnóstico incorreto e sanar os problemas de imperícia, além de ressaltar a importância que dois minutos fazem em uma consulta. Vamos considerar as seguintes hipóteses: os médicos não processados podem ter menos pacientes e isso pode ter aumentado a duração de suas consultas, além disso, os médicos processados poderiam estar fazendo procedimentos de alto risco. Também podemos considerar que os médicos não processados são melhores, já que perguntam e ouvem mais o paciente, o que aumenta a duração de suas consultas. São diversos os pressupostos que podem estar envolvidos e isso não pode ser resumido em uma manchete, mesmo que seja muito grande. Sendo assim, precisamos procurar lacunas entre os dados apresentados pelo estudo e a manchete que usa estatística para informar seus leitores. 1.1.4 Desconhecimento ou omissão dos dados Algumas dicas, como a conferência das somas, são fundamentais na interpretação e na leitura de estatísticas, entretanto, não são suficientes. Também precisamos considerar a manipulação dos dados antes de serem apresentados. A título de exemplo, vamos imaginar os seguintes dados relacionados com a criminalidade de um país: é mostrada uma tabela contendo os crimes anuais de um país entre 1987 e 1997, determinadas interpretações dos dados podem ser completamente divergentes, mesmo que os cálculos sejam precisos. Isso acontece por causa do modo com que a informação é medida, podendo considerar que a criminalidade pode ter aumentado ou diminuído. Sabemos que isso não pode acontecer, com isso, vamos verificar o que está por trás dos cálculos. Suponhamos que o número estimado de crimes foi de 13.508.700 em 1987, enquanto em 1993 o número aumentou para 14.144.800 e, por fim, a quantidade estimada passou a ser 13.175.100 em 1997. Em um primeiro momento, podemos notar que a criminalidade cresceu nos 6 primeiros anos, no entanto, podemos também afirmar que a criminalidade diminui se considerarmos o intervalo de 1993 a 1997. Dependendo da intenção de quem está informando, podemos usar os dados descritos para interpretar diversas perspectivas de um mesmo fato. Outro ponto que vale considerar é se essas informações são suficientes para esclarecer e representar um fato, uma vez que outros fatores podem ter aumentando entre 1987 e 1993 além do número absoluto de crimes, como a população do país, pois se espera que a criminalidade cresça com o aumento do número de pessoas em um mesmo país. Nesse contexto, precisamos levar em conta a taxa de criminalidade, isto é, a razão entre o total da população e o número de crimes. Se considerarmos que a população do país era de 243.400.000 em 1987 e que aumentou para 257.908.000 em 1993, o resultado da taxa de criminalidade será de 5,55% em 1987 e de 5,48 em 1993, o que contradiz a primeira hipótese do aumento da criminalidade que fizemos apenas analisando os números brutos. 1.2 Representação dos dados Depois de abordarmos sobre os conceitos e as situações cotidianas que usam as estatísticas, podemos falar sobre algumas formas de representar esses dados para o espectador. 1.2.1 Gráficos e tabelas Considerando que a demonstração de acontecimentos reais envolve decidir a melhor forma de organizar os dados. Com isso, um gráfico nem sempre pode ser considerado como a melhor maneira de apresentá-los, especialmente quando estamos lidando com uma quantidade enorme de dados, o que poderia permitir seu agrupamento e render uma facilitação de sua interpretação. Nem sempre precisamos construir um gráfico de forma manual, podemos também usar a tecnologia a nosso favor, usando ferramentas como o Excel para formular tanto tabelas quanto gráficos. Vale ressaltar que a técnica empregada na construção é mais importante que a beleza do gráfico em questão. 1.2.2 Gráficos de linhas Os gráficos de curvas ou linhas se caracterizam como um espaço de dois eixos ortogonais, sendo normalmente usados para apresentar dados dispostos em ordem numérica, principalmente se estiverem ordenados ao longo de uma escala contínua. Para construí-lo, será necessário corresponder um elemento do eixo horizontal com outro dado no eixo vertical. Para exemplificar essa construção, vamos nos atentar à imagem 2, onde o eixo vertical corresponde à temperatura enquanto o eixo horizontal indica a duração do dia. Considerando ambos os eixos, podemos afirmar que os dados indicam a variação de temperatura no decorrer de um dia. Imagem 2 – Gráfico de linhas Fonte: Adaptado de Van de Walle (2009) Vale ressaltar que, em um gráfico de linha, todo ponto presente na linha precisa ter um valor, ou seja, esse tipo de representação não é recomendada para apresentar dados qualitativos ou discretos. 1.2.3 Gráficos de colunas ou barras De forma semelhante aos gráficos de linha, também podemos usar a correspondência de dois eixos perpendiculares em um gráfico de barras, no entanto, não iremos conectar os pontos por segmentos de linha, e sim desenhar figuras ou retângulos para indicar a quantidade. Imagem 3 – Gráficos de barras Fonte: https://iplogger.com/2Cj6T4 1.2.4 Gráficos de setores Conhecidos também como gráficos de pizza, são capazes de representar seus dados através de círculos, normalmente usado em estatísticas percentuais, como mostrado na imagem 4, ou seja, o conceito e o cálculo das porcentagens são fundamentais para construí-los, no entanto, sua interpretação envolve a observação do tamanho dos setores. Um ponto positivo dos gráficos de setores é a facilidade para comparar as informações tendo em vista o conceito de fração, já que o círculo representa um todo e suas fatias representam as partes. Imagem 4 – Gráficos de setores Fonte: Adaptado de Van de Walle (2009) 2 DISTRIBUIÇÃO E FREQUÊNCIA E VARIÁVEIS Segundo Zabala (2020), a avaliação inicial dos dados está intimamente relacionada com a estatística descritiva. Com sua utilização, podemos verificar como os dados se distribuem, onde se concentram e como podem se conectar no sentido de dispersão e associação. Nos tópicos seguintes, iremos compreender as definições de métodos descritivos e de variáveis, as bases para uma avaliação estatística mais aprofundada. 2.1 Variáveis Podemos conceituar uma variável como um aspecto de interesse que precisamos medir em cada integrante de uma população. Dependendo da pessoa, seus valores podem variar, sendo classificados como qualitativos e quantitativos. Em relação às variáveis quantitativas, elas consistem em aspectos que podem ser mensurados usando valores numéricos, como o peso de alguém ou a quantidade de alunos em uma sala de aula. Elas podem ser subdividas em contínuas e discretas. ➢ Variáveis quantitativas contínuas: Se tratam de aspectos mensuráveis cujo valor se dá em escala contínua, podendo ou não ser valores inteiros, como altura, peso, pressão arterial e tempo. ➢ Variáveis quantitativas discretas: Consistem em aspectos mensuráveis cujo valor se dá apenas em valores inteiros, como quantidade de jogadores ou quantidade de filhos. Vale ressaltar que uma variável representada por números nem sempre é quantitativa. Alguns exemplos dessa situação incluem número da casa, dotelefone e da identidade, que são variáveis qualitativas ordinais. Por sua vez, as variáveis qualitativas dizem respeito, geralmente, a aspectos não numéricos em um conjunto de interesses, como modelo de veículo, marca e gênero. Podem ser divididas em ordinais e nominais. ➢ Variáveis qualitativas ordinais: São variáveis que possuem uma ordenação para a categoria. Dentre os principais exemplos, podemos citar o estágio da gravidez (inicial, intermediário e final), nível de escolaridade (primeiro, segundo, terceiro grau) e mês (janeiro, fevereiro, março, abril...). ➢ Variáveis quantitativas nominais: Consistem em variáveis sem ordenação para as categorias, como etnia, religião, cor do cabelo e cor preferida. 2.2 Distribuição de frequência Os dados proporcionados pelos diversos tipos de variáveis pertencem a várias naturezas e, por este motivo, precisam receber tratamentos diferentes. Desse modo, iremos abordar neste tópico sobre os instrumentos mais usados para avaliar a frequência de cada tipo de dado. Os dados qualitativos são geralmente apresentados em uma tabela de frequência, como no exemplo demonstrado na tabela 1, que descreve a frequência de entrevista para cada sexo considerando 103 entrevistados que participaram de uma pesquisa de satisfação de consumidor, elaborada por uma loja de eletrodomésticos. Tabela 1 – Distribuição de frequência dos entrevistados em relação ao sexo Sexo Frequência absoluta Frequência relativa (%) Feminino 62 60,2 Masculino 41 39,8 Total de participantes 103 100 Fonte: Elaborada pelo autor Podemos verificar na tabela acima que as variáveis de sexo possuem sua própria linha. A coluna de frequência absoluta apresenta uma contagem de entrevistados em números inteiros, enquanto a coluna de frequência relativa apresenta uma contagem percentual em relação ao total absoluto de participantes. Se considerarmos uma variável qualitativa ordinal, as linhas da tabela de frequências precisam ser montadas na ordem existente para as categorias. Podemos observar na tabela 2 a distribuição de frequência de entrevistados conforme o mês de observação. As frequências acumuladas demonstram o número de clientes entrevistados em cada mês. Tabela 2 – Distribuição de frequência dos entrevistados conforme o mês Mês de observação Frequência absoluta Frequência relativa (%) Frequência absoluta acumulada Frequência relativa acumulada Fevereiro 19 18,45 19 18,45 Março 6 5,82 25 24,27 Abril 6 5,82 31 30,09 Maio 11 10,69 42 40,78 Junho 23 22,33 65 63,11 Julho 20 19,42 85 82,53 Agosto 18 17,47 103 100 Total 103 100 --- --- Fonte: Elaborada pelo autor A frequência absoluta consiste no número de entrevistados por mês, enquanto a frequência acumulada apresenta o total de entrevistados até o mês em questão. Podemos observar isso quando notamos que a frequência absoluta de fevereiro tem a mesma quantidade de entrevistados que sua correspondente frequência acumulada. Já em março, notamos que mais 6 pessoas participaram da pesquisa, com isso, a frequência acumulada informou que um total de 25 pessoas foram entrevistadas até então, pois 19 + 6 = 25. Outro ponto que vale destacar é que a maior frequência de participação aconteceu nos últimos três meses de pesquisa. Observe que, de fevereiro a maio, tivemos a participação de 40,78% dos entrevistados, enquanto os 59,22% restantes participaram de junho a agosto. Para melhorar a apresentação dos resultados, também podemos usar os gráficos. Reis e Reis (2002) afirmam que os gráficos de pizza são os mais usados para avaliar a distribuição de frequência de variáveis qualitativas nominais, enquanto as variáveis qualitativas ordinais se enquadram melhor em histogramas, isto é, gráficos de colunas. A imagem 1 ilustra a distribuição de frequência da tabela 1, enquanto a imagem 2 ilustra a da tabela 2. Imagem 1 – Gráfico de distribuição de frequência dos entrevistados em relação ao sexo Fonte: Elaborado pelo autor Imagem 2 – Gráfico de distribuição de frequência dos entrevistados por mês Fonte: Elaborado pelo autor Os pontos positivos representar seus dados com gráficos fica ainda mais evidente quando precisamos comparar diversos grupos levando em conta as variáveis com muitas categorias. Em relação às variáveis quantitativas discretas, o modo de avaliar é parecido com o tratamento das qualitativas ordinais, substituindo a classe por um valor. Se desejarmos apresentar a quantidade de famílias que possuem um determinado número de filhos, podemos, por exemplo, substituir os meses apresentados na tabela 2 pela quantidade de filhos. Por sua vez, a apresentação de variáveis quantitativas discretas que podem ter muitos valores diferentes, é praticamente impossível elaborar um gráfico ou uma tabela com base nos dados. Para resolver esse problema, será necessário englobar os valores em classe que representam faixas de valores com uma determinada amplitude. Scott (1979) afirma que a seleção do tamanho das classes (hsc) e do número de classes (ksc) se relacionam com a amplitude dos valores a serem apresentados e da quantidade de observações disponíveis no conjunto de dados e do desvio padrão. ℎ𝑠𝑐 = 3,5𝑠 𝑛1/3 𝑘𝑠𝑐 = max(𝑥) − min(𝑥) ℎ𝑠𝑐 Onde: n = número de observações (ou amostras); s = desvio padrão amostral; max(x) = maior valor observado; min(x) = menor valor observado. 2.3 Medidas em estatística descritiva Aqui, iremos aprender como interpretar e utilizar as medidas da estatística descritiva, que podem ser separadas em duas categorias: medidas de tendência central e medidas de dispersão. 2.3.1 Medidas de tendência central Consistem em medidas usadas para identificar o valor central ou típico de um conjunto de dados, englobando média, mediana e moda. A média (x̅) de uma variável é obtida pela soma de todas as observações dividida pela quantidade de observações. Segundo Reis e Reis (2002), a média é muito usada devido à facilidade do cálculo, que pode ser realizado com a seguinte fórmula: (x̅) = ∑ 𝑥𝑖 𝑛 Onde n corresponde à quantidade de observações no conjunto de dados e o sigma xi representa a soma de todas as observações feitas. Por sua vez, a mediana, também conhecida como segundo quartil, consiste no valor maior que 50% dos dados organizados em ordem crescente, isto é, se trata do valor central para um conjunto de observações ordenadas. Caso o número de observações seja ímpar, o valor que está no centro é a mediana e, se for par, a mediana será o resultado da soma entre os dois valores centrais, dividido por 2. Por fim, a moda consiste no valor que mais se repete em uma variável. Em uma tabela de frequência formada por classes que representam intervalos, a classe que mais aparece é denominada classe modal. Caso a distribuição tenha apenas uma moda, a distribuição é chamada de unimodal, se tiver duas ou três, são chamadas de bimodal ou trimodal, respectivamente. Se a distribuição tiver quatro ou mais modas, ela passa a ser chamada de multimodal. Para exemplificar esse tipo de medida, vamos considerar um conjunto de observações x = [4, 3, 5, 2, 6, 5, 8, 4, 4]. Com isso, podemos calcular a média, a mediana e a moda. Para a média, vamos usar a fórmula descrita no início do tópico e, substituindo os valores, temos: (x̅) = 4 + 3 + 5 + 2 + 6 + 5 + 8 + 4 + 4 9 (x̅) = 4,55 Para a mediana, será necessário colocar os números em ordem crescente: 2, 3, 4, 4, 4, 5, 5, 6, 8. Como o número de observações é ímpar (9), podemos observar que o último 4 está exatamente no centro da sequência, ou seja, a mediana é igual a 4. Se a sequência fosse 2, 3, 4, 4, 5, 5, 6, 8, ou seja, com um número de observações par (8), iríamos observar que os números 4 e 5 estão no centro da sequência, sendoassim: 4 + 5 = 9 e 9/2 = 4,5, ou seja, a mediana seria 4,5. Finalmente, a moda representa o valor mais repetido nessa sequência. Podemos observar que o número quatro se repetiu 3 vezes, o número 5 apareceu 2 vezes e os demais somente 1 vez, ou seja, a moda da sequência é 4. 2.3.2 Medidas de dispersão Também conhecida como medida de variabilidade, se trata de um conceito estatístico que caracteriza o quanto os valores de um conjunto de dados se afastam do valor central, como a média. De forma simplificada, ela indica a extensão em que os valores individuais variam ou se espalham em torno da medida central. As medidas de dispersão incluem: amplitude, variância, desvio padrão amostral e coeficiente de variação. A amplitude nada mais é que a diferença entre o valor máximo e o valor mínimo, sendo expresso na seguinte equação: 𝐴 = max(𝑥) − min(𝑥) Já a variância verifica o quadrado da variação dos dados em relação à média, sendo considerada uma das medidas mais relevantes da dispersão em estatística. A variância pode ser calculada pela seguinte fórmula: σ2 = ∑(𝑥𝑖 − �̅�)² 𝑁 − 1 Onde: σ2 = Variância Σ = Soma 𝑥𝑖 = Valores individuais do conjunto de dados �̅� = Média dos valores do conjunto de dados. 𝑁 = Número total de observações no conjunto de dados. Por sua vez, o desvio padrão amostral (S) é representado pela raiz quadrada da variância. A grandeza da interpretação do desvio padrão é mais intuitiva, já que sua unidade de medida é a mesma da variável x e, por esse motivo, costuma ser utilizado. Por fim, o coeficiente de variação (CV) se trata de uma medida de dispersão relativa. Ele manifesta a variabilidade em relação à média, tirando o efeito da magnitude dos dados e costuma ser empregado para comparar duas ou mais variáveis com unidades de medida diferentes. Podemos calcular o coeficiente de variação através da seguinte fórmula: 𝐶𝑉 = 𝑆 �̅� Onde: CV = Coeficiente de variação. S = Desvio padrão amostral �̅� = Média Para melhor compreensão, vamos apresentar o seguinte exemplo: na última vistoria realizada por agentes de fiscalização em um restaurante, eles mensuraram o peso de 10 bifes vendidos como um bife de 200 gramas. Foram coletadas as seguintes medidas: X = [170, 175, 180, 185, 190, 195, 200, 200, 200, 205] Com isso, devemos analisar para ver se tem alguma irregularidade nos bifes vendidos por esse restaurante. Primeiramente, devemos calcular a média: �̅� = 170 + 175 + 180 + 185 + 190 + 195 + 200 + 200 + 200 + 205 10 = 190 Em seguida, calculamos a amplitude: podemos observar que o menor valor é 170 e o maior é 205, com isso, substituímos os valores em sua respectiva fórmula: A = 205 – 170 = 35 gramas Partindo para a variância, devemos substituir os valores em sua respectiva fórmula, lembrando que o xi corresponde a cada peso mensurado na sequência: σ² = (170 – 190)² + (175 – 190)² + (180 – 190)² + (185 – 190)² + (190 – 190)² + (195 – 190)² + (200 – 190)² + (200 – 190)² + (200 – 190)² + (205 – 190)² / (10 – 1) = 144,44 Quando colocamos a raiz quadrada da variância, poderemos obter o desvio padrão, que é 12,02. Por fim, vamos calcular o coeficiente de variação substituindo os valores em sua respectiva fórmula: 𝐶𝑉 = 12,02 190 = 0,06 Quando fabricamos um produto em específico, algumas medidas ou pesos podem variar um pouco, desde que essa variação esteja dentro da normalidade. Avaliando os resultados desse caso, percebemos que os bifes possuem um coeficiente de variação muito alto, o que nos leva à conclusão que eles não estão dentro do padrão e, consequentemente, os clientes estão sendo enganados. 3 AMOSTRA QUANTITATIVA E QUALITATIVA Antes de entrarmos no conceito de amostra quantitativa e qualitativa, precisamos diferenciar população e amostra. Uma população consiste em um grupo de seres, indivíduos ou objetos que possuem, ao menos, um aspecto em comum entre seus elementos, enquanto uma amostra se trata de um subgrupo selecionado dessa população, como podemos observar na imagem 1. Desse modo, precisamos perceber essa mesma característica comum tanto na população quanto na amostra escolhida para a pesquisa. Imagem 1 – Diferença entre amostra e população Fonte: https://iplogger.com/2dQb04 Quando escolhemos indivíduos de uma população com um aspecto específico, com o intuito de colher dados, estamos fazendo um senso, que usa medidas numéricas denominadas parâmetros. Se escolhermos alguns aspectos de uma amostra para fins de pesquisa, estamos fazendo uma amostragem, que usa medidas numéricas denominadas estimadores ou estatísticas. São diversas as formas de selecionar sua amostra, assim como existem vários usos para os dados coletados, uma vez que podemos nos aprofundar mais nesses dados conforme a amostra utilizada. Podemos classificar as amostras em qualitativas e quantitativas, que possuem diferenças em relação à profundidade dos levantamentos e à metodologia da coleta de dados. Em relação às amostras qualitativas, seus dados costumam ter uma profundidade maior, pois as observações e os questionamentos são mais detalhados, com poucas unidades amostrais avaliadas, é por esse motivo que as amostras qualitativas não podem abrir margem para generalizar a população. Gibbs (2009) afirma que esse tipo de pesquisa pretende verificar como é o mundo, procurando descrever, compreender e, por vezes, justificar fenômenos sociais que surgem em nossa sociedade de várias formas diferentes. Ela é feita verificando interações, avaliando experiências e investigando documentos. Por sua vez, as amostras quantitativas costumam generalizar os dados coletados das amostras, uma vez que as informações são mais resumidas, deixando a possibilidade de realizar resumos numéricos mais confiáveis e, por esse motivo, podemos fazer essa generalização, desde que a amostra seja probabilística. Com isso, devemos decidir adotar amostras qualitativas ou quantitativas com base em alguns fatores, como: ➢ Objetivos da pesquisa; ➢ Tempo disponível; ➢ Avaliações finais que quer fazer; ➢ Resultado desejado; ➢ Hipóteses da pesquisa; ➢ População selecionada; ➢ Recursos financeiros disponíveis; ➢ Disponibilidade das unidades amostrais. Tais fatores devem ser verificados pelo próprio pesquisador. A seleção do melhor processo de amostragem precisa estar intimamente ligada à escolha da hipótese da pesquisa e da população-alvo, que irão direcionar as demais escolhas do estudo em questão. A seleção da população que vai ser analisada, do local e do período de coleta será essencial, já que o delineamento amostral e os aspectos em comum começam a ser definidos conforme os objetivos selecionados. No entanto, nem sempre temos uma descrição detalhada de nossas unidades amostrais, o que irá limitar o uso de determinadas técnicas pelo fato de não sabermos como localizar ou identificar os aspectos que a compõem e nem o tamanho exato de nossa população. Outro fator muito relevante é o resultado que desejamos, ou seja, as extrapolações e avaliações que almejamos realizar com essa amostragem, pois será a partir disso que iremos definir as variáveis a serem pesquisadas, como será o processo de coleta de dados e como eles serão avaliados depois de coletados. Todos os fatores precisam ser considerados na seleção do tipo de amostragem que iremos empregar. A escolha de uma amostra quantitativa ou qualitativa está intimamente ligada a esses e outros fatores. Em alguns casos, podemos fazer os dois tipos de amostragem, como em pesquisas com um problema que não temos muito conhecimento. Nesse contexto, podemos realizar uma pesquisa qualitativa para compreender o perfil da população e, com base nisso, iniciar uma pesquisa quantitativa, coletando os dadosnecessários para extrapolar toda a população. Em suma, as pesquisas quantitativas terão questões fechadas e estruturadas que serão, majoritariamente, objetivas, enquanto as pesquisas qualitativas terão questionamentos, perguntas e observações com respostas discursivas. Vale ressaltar que as observações ou os questionamentos da pesquisa dizem respeito a suas variáveis e, por esse motivo, devem ser bem pensadas para alcançar os objetivos pretendidos no começo da pesquisa. Geralmente, as pesquisas qualitativas aprofundam mais nas questões da pesquisa para fins avaliativos, tendo como resultado análises mais descritivas das variáveis pesquisadas. Por sua vez, as pesquisas quantitativas proporcionam resumos gráficos, numéricos e estatísticas, podendo nos fornecer inferências para toda a população caso as respostas sejam obtidas de modo aleatório. 3.1 Amostras representativas O princípio de uma amostra é que ela precisa apresentar os mesmos aspectos particulares da população pesquisada. A título de exemplo, vamos imaginar que estamos entrevistando brasileiros que vivem no território nacional, nesse caso, não podemos entrevistar um amigo que é brasileiro, mas vive fora do país. Desse modo, devemos entrevistar apenas indivíduos com nacionalidade brasileira e que morem no Brasil no período em que a pesquisa for realizada. Precisamos redobrar nossa atenção para que a amostra consiga representar toda a população. Para isso, ela precisa apresentar os mesmos aspectos determinados para delimitar a população-alvo da pesquisa. A seleção de uma amostra quantitativa ou qualitativa pode também definir se a amostra será ou não representativa. Devemos ter em mente que uma amostra qualitativa não é capaz de gerar uma amostra representativa pelos seguintes motivos: ➢ A amostra selecionada em uma pesquisa qualitativa não costuma ser muito numerosa, ou seja, não será grande o suficiente para ter uma representatividade fidedigna da população; ➢ Uma amostra qualitativa possui questionamentos realizados de modo descritivo e mais profundo, o que não abre margem para generalização, sem falar que os dados coletados são válidos para um pequeno número de informações, na maioria das vezes. Por sua vez, as amostras quantitativas podem ou não ser representativas da população pesquisada, dependendo da forma com que a amostra foi selecionada, ou seja, de seu delineamento amostral. Apenas as amostras quantitativas probabilísticas podem ser representativas para uma população, além disso, precisa ser selecionada de modo imparcial e não pode ser tendenciosa. Uma amostra pode ser considerada probabilística quando cada indivíduo da população tem uma probabilidade diferente de zero de ser selecionado para a amostra. Por outro lado, em uma amostra não probabilística, a seleção dos indivíduos dependerá, em grande parte, do julgamento do pesquisador. Resumidamente, podemos definir esses métodos da seguinte maneira: ➢ Amostragem probabilística: Todos os componentes de uma população possuem a mesma chance de serem selecionados, podendo ser por sorteio ou de modo aleatório, independente do julgamento do pesquisador, o que permite a aplicação de técnicas estatísticas. Com isso, podemos induzir ou inferir algo sobre a população dependendo do resultado da pesquisa. ➢ Amostragem não-probabilística: Aqui, a seleção dependerá dos aspectos apresentados pelos componentes da população, o que não abre margem para generalizar o resultado da pesquisa para toda a população. Com isso, podemos afirmar que somente uma amostra quantitativa probabilística será representativa para a população pesquisada, permitindo que façamos inferências, isto é, extrapolar os resultados para a população inteira embasado na amostra. Apenas amostras probabilísticas permite fixarmos a probabilidade de erro que a amostra consegue gerar, bem como a margem de erro média e de erro percentual que cometemos ao coletar dados de uma amostra no lugar da população inteira. A possibilidade de erro demonstra o nível de confiança dos dados. Para exemplificar, vamos considerar uma pesquisa com nível de confiança de 95%, isso nos informa que a probabilidade dos dados coletados realmente condizerem com a população pesquisada, levando em conta a margem de erro, é de 95%. Nesse sentido, muitos podem se perguntar o porquê de existirem outros tipos de amostragem se apenas as amostras probabilísticas quantitativas abrem margem para termos inferências da população, além de fixar uma margem de erro e proporcionar uma boa probabilidade dos resultados refletirem a realidade. Um fator que devemos considerar é que nem sempre os objetivos da pesquisa permitem realizar uma amostra quantitativa probabilística, uma vez que não tem a intenção de fazer extrapolações. A amostra qualitativa, por exemplo, nos proporciona um panorama do comportamento da população quando não temos os dados necessários para formular uma hipótese de pesquisa ou tomar qualquer tipo de decisão. Em alguns casos, uma amostra quantitativa não probabilística é a única alternativa de pesquisa quando não podemos adotar uma metodologia de coleta aleatória por causa da dificuldade de acesso às unidades amostrais ou por outras limitações que podem aparecer. Obviamente, isso não indica que o resultado está incorreto, no entanto, um resultado como o da amostra quantitativa não probabilística será condizente apenas com a amostra selecionada, não abrindo margem para uma inferência para toda a população, já que não temos conhecimento da margem de erro dos dados coletados. Algumas pesquisas quantitativas que adotam o método não probabilístico costumam ter amostragem por quotas, onde os integrantes da amostra precisam apresentar algumas características consideradas úteis para o pesquisador, como escolaridade, sexo e renda. Considerando os métodos de seleção não probabilístico, esse costuma proporcionar os resultados mais satisfatórios. Outro exemplo muito empregado é a amostragem bola de neve, onde as unidades amostrais são selecionadas por indicação, isto é, cada entrevistado indica um amigo para responder à pesquisa, gerando uma rede de respostas. Além disso, também usamos a escolha racional, onde a seleção das unidades amostrais é induzida por algum aspecto importante para a hipótese da pesquisa. Atualmente, a amostragem por voluntários, que também não é probabilística, é uma forma rápida e fácil de coletar dados. Para realizar esse método, podemos publicar os questionários nas redes sociais ou enviá-los por e-mail, desse modo, cada respondente será um voluntário, no entanto, não foram selecionados de forma aleatória pelo fato de estarem presentes em seu círculo social. 3.2 Tipos de amostragem qualitativa Como vimos no tópico anterior, as amostras qualitativas são úteis quando queremos conhecer profundamente um grupo de seres, indivíduos ou objetos, sendo empregadas também quando queremos coletar dados mais detalhados sobre um tema, dependendo de nossos objetivos. Flick (2009) explana que, diferentemente da pesquisa quantitativa, a metodologia qualitativa é dependente da comunicação do pesquisador de campo para produzir o conhecimento almejado, não sendo considerado como um componente útil para o processo. A subjetividade tanto dos entrevistados quanto do pesquisador são parte integrante do processo de pesquisa. Dentre os métodos de amostragem mais usados em uma pesquisa qualitativa, podemos citar a pesquisa de cliente oculto, os grupos focalizados e a pesquisa por observação. O método dos grupos focalizados procura uma pessoa com um perfil específico para responder às perguntas e proporcionar o maior número de informações possível. Barbour (2009) afirma que o método é baseado em avaliar e gerar a interação entre os participantes ao invés de fazer o mesmo grupo de perguntas para cada integrante da amostra,o que chamamos de entrevista de grupo. Essa metodologia é feita com pequenos grupos instigados por um mediador, segue um roteiro e tenta fazer com que o grupo responda às perguntas com riqueza nos detalhes. A título de exemplo, vamos imaginar que temos a intenção de lançar uma água mineral flavorizada direcionada ao público fitness. Para isso, podemos começar fazendo um teste cego com alguns sabores experimentais e, a partir disso, observar as percepções do grupo. Logo após, iremos demonstrar várias embalagens e perguntar qual o participante considera mais atrativa e quais motivos o levaram a chegar nessa conclusão, além de fazer outros questionamentos para melhorar a investigação. Os resultados do método de grupo focalizado proporcionam respostas com detalhes muito ricos, que podem ser úteis para uma boa tomada de decisão, possibilitando também a realização de uma pesquisa quantitativa com um número mais assertivo de opções para o teste. Por sua vez, a metodologia do cliente oculto usa pesquisadores se passando por clientes para verificar tanto o atendimento de concorrentes quanto o próprio atendimento, permitindo até uma comparação entre ambos os atendimentos. Para exemplificar, vamos imaginar que queremos saber o porquê de algumas lojas em uma rede específica possuem um faturamento maior que as demais, para isso, o entrevistador finge ser um cliente e avalia alguns fatores capazes de influenciar na escolha da loja, como o atendimento, a limpeza do ambiente, a acessibilidade, as características físicas dos vendedores e outros fatores. O pesquisador precisa se atentar aos detalhes e ter a capacidade de relatar cada elemento observado no roteiro depois da visita, possibilitando a produção de um relatório comparativo entre as filiais da rede de lojas em questão. Por fim, a pesquisa por observação possui um nome autoexplicativo, isto é, precisamos observar de perto as amostras selecionadas para coletar dados. Como exemplo, vamos imaginar que queremos verificar os hábitos alimentares de um bairro popular, nesse caso, precisamos pedir permissão para os moradores e entrar em suas casas para observar seus dados, como altura e peso, bem como solicitar alguns exames para verificar distúrbios metabólicos e observar as comidas presentes em suas geladeiras e armários. De forma semelhante à amostragem quantitativa, o método selecionado deve estar consoante com os objetivos da pesquisa. Podemos observar na tabela 1 uma comparação resumida dos tipos de amostragem. Tabela 1 – Amostras qualitativas e quantitativas Amostragem Tamanho da amostra Forma de coleta Tipos de resultado Quantitativa probabilística Varia conforme a margem de confiança e erro, desde que seja um número representativo da população Seleção aleatória ou sorteio Estatísticas, dados quantitativos, tabelas, resumos numéricos, gráficos. Confiança e erro fixados e faz inferência para a população Quantitativa não probabilística Um número representativo da população Seleção não aleatória, depende do julgamento do pesquisador Dados quantitativos, tabelas, resumos numéricos, gráficos. Não faz inferência para a população Qualitativa Uma amostra com poucos integrantes Seleção não aleatória, depende do julgamento do pesquisador Dados qualitativos, com mais profundidade na avaliação. Não faz inferência para a população Fonte: Elaborada pelo autor 4 REGRESSÃO LINEAR Vamos imaginar que temos dados relacionados com duas variáveis e, com base neles, poderemos identificar uma equação ou relação para caracterizar esses dados, possibilitando fazer previsões referentes aos dados originais. Tal relação pode ser quadrática, linear ou exponencial, sendo feitas com base nos gráficos dessas variáveis, com isso, precisamos ajustar uma curva nos gráficos. Vamos nos atentar à imagem 1 para observar um exemplo de aproximação linear a partir da avaliação da dispersão de dados peso versus altura e outro de aproximação não linear com base na dispersão de dados quantitativos do número de apresentação versus tempo. Imagem 1 – Aproximação linear e não linear em gráficos de dispersão Fonte: Adaptado de Spiegel e Stephens (2009) Na imagem 2, podemos ver exemplos de equações que podem ser usadas em modelos polinomial e linear. As letras X e Y representam as variáveis dependentes e independentes, respectivamente. Por sua vez, o an representa as constantes, denominadas coeficientes, onde n é um número igual ou superior a 0. Imagem 2 – Equações para modelar dados Fonte: Adaptado de Spiegel e Stephens (2009) Segundo Freund (2007), a regressão linear utiliza equações lineares para fazer previsões e ajustar os dados, formadas por: y = a + bx Onde: a = constante que representa o corte na reta do eixo y, também chamada de intercepto, isto é, o valor de y quando x = 0. b = constante referente à inclinação da reta. Com base em uma reta estimada, podemos fazer as previsões, isto é, quando consideramos um valor x relacionado com os valores originais, podemos calcular o valor estimado de y. 4.1 Interpolação e regressão No tópico anterior, conseguimos observar na imagem 1 que os pontos são aproximados por uma função matemática em específico, o que permite identificar uma equação que se adeque melhor aos pontos. A curva não passa, obrigatoriamente, por todos os pontos, mesmo que seja traçada a melhor curva possível. Podemos conceituar a interpolação como um processo que permite a criação de novos dados com base em dados discretos. Justo et al. (2020) afirmam que o intuito da interpolação é identificar os dados que faltam entre os pontos dados, possibilitando criar funções interpoladas no conjunto de dados para conectar os pontos dados. Na imagem 3, podemos observar exemplos de regressão linear (a), interpolação linear (b) e polinomial de pontos de dados (c). Imagem 3 – Exemplos de retas com pontos dados Fonte: Adaptado de Chapra e Canale (2016) Veja que a interpolação também aproxima os pontos, no entanto, deve passar, necessariamente, por todos, criando uma curva de dados. A partir dela, também é possível inferir valores de y com base em valores de x diferentes dos pontos dados iniciais. Chapra e Canale (2016) explanam que existem duas abordagens para ajustar as curvas. A primeira abordagem é chamada de regressão por mínimos quadrados, que possui uma grande chance de erro ou “ruído”, seu objetivo é identificar uma curva de tendência. A segunda abordagem é a interpolação, onde os dados são considerados mais precisos, pois é capaz de ajustar as curvas que passam por todos os pontos. 4.2 Ajustando uma reta Neste tópico, iremos aprender a encontrar a melhor reta para ajustar os dados de interesse. O processo mais usado para identificar essa reta é o método de mínimos quadrados e, para melhorar sua compreensão, vamos citar um exemplo. Vamos imaginar que existem duas variáveis, uma de alcance auditivo de indivíduos expostos a ruídos altos e uma de tempo de exposição. Os dados em questão podem ser observados na tabela 1. Tabela 1 – Alcance auditivo e número de semanas Número de semanas (x) Alcance auditivo (y) 47 15,1 56 14,1 116 13,2 178 12,7 19 14,6 75 13,8 160 11,9 31 14,8 12 15,3 164 12,6 43 14,7 74 14,0 Fonte: Adaptado de Freund (2007) Com os dados listados, podemos construir um gráfico de dispersão, como mostrado na imagem 4. Com base nesse gráfico, podemos verificar quais dados seguem um comportamento linear. Nesse contexto, uma reta serviria como um bom modelo. Imagem 4 – Gráfico de dispersão de dados Fonte: Adaptado de Freund (2007) Logo após, precisamos identificar a melhor reta para os pontos dados. Se pegarmos uma régua para traçarretas, provavelmente teríamos diversas retas encaixadas perto dos pontos, como mostra a imagem 5. Com isso, precisamos do método de mínimos quadrados, onde usamos a propriedade mínima à soma dos quadrados das distâncias verticais dos pontos para identificar a melhor reta. Imagem 5 – Gráfico de dispersão de dados com retas próximas aos pontos Fonte: Adaptado de Freund (2007) Na imagem 6, temos duas possíveis retas ajustadas a quatro pontos, onde os números representam a distância entre as retas e os pontos. Desse modo, quando usamos a reta para prever os valores de y a partir dos dados de x, teríamos uma diferença entre os valores previstos pelas retas e os valores reais, isto é, os pontos dados. Quando somamos os erros para a reta horizontal, teríamos como resultado – 3 + 1 – 3 + 5 = 0, enquanto na segunda reta seria 0 + 1 – 5 + 0 = - 4. Mesmo que o erro para a reta horizontal tenha sido 0, podemos observar que os pontos estão a uma boa distância da reta. Em relação à segunda reta, sua margem de erro é numericamente maior que a primeira, mesmo com os pontos estando, visualmente, mais adequados para a reta. Imagem 6 – Retas ajustadas aos pontos Fonte: Adaptado de Freund (2007) Para compreendermos melhor, vamos usar a soma dos quadrados da distância: (- 3)² + 1² + (- 3)² + 5² = 44 e 0² + 1² + (- 5)² + 0² = 26 Com isso, temos um valor menor para a segunda reta, se ajustando melhor aos dados. Nesse contexto, podemos afirmar que o método dos quadrados mínimos tem o intuito de reduzir o erro quadrático entre a reta (denominada reta dos quadrados mínimos) e os dados. Agora, iremos observar como encontrar a reta ideal a partir do exemplo a seguir. Vamos supor que a reta ideal, dada por ŷ = a + bx, onde o número de pontos dados são escritos como pares x e y. A soma da diferença quadrática entre a reta e os dados fica representada na seguinte equação: ∑(𝑦 − ŷ)2 = ∑[𝑦 − (𝑎 + 𝑏𝑥)]² Onde: ∑ = Símbolo da soma; y = Variável dependente, isto é, aquela que precisamos prever ou explicar; ŷ = Valor previsto ou estimado da variável dependente; a = Interceptação da reta de regressão; b = Inclinação da reta; x = Variável independente que usaremos para prever o valor de y. Desse modo, precisamos encontrar os valores das constantes a e b que diminuam o erro quadrático. Podemos observar um esquema com os valores das variáveis na imagem 7. Imagem 7 – Representação das variáveis Fonte: Adaptado de Freund (2007) Resolvendo esse sistema, podemos encontrar o valor das constantes a e b. Desse modo, dadas as quantidades: 𝑆𝑥𝑥 = ∑x 2 − 1 𝑛 (∑x)² 𝑆𝑥𝑦 = ∑xy − 1 𝑛 (∑x)(∑y) As constantes são dadas por: 𝑏 = 𝑆𝑥𝑦 𝑆𝑥𝑥 𝑎 = ∑𝑛𝑦 − 𝑏(∑𝑛𝑥) 𝑛 Agora vamos retornar ao exemplo inicial: em relação ao alcance auditivo, vamos definir a reta de mínimos quadrados. Com os somatórios, teremos ∑x = 975, ∑x² = 117.397, ∑xy = 12.884,4 e ∑y = 166,8, sendo x, x², xy e y as colunas da tabela 2 e ∑ a soma de cada coluna. Vale ressaltar que podemos fazer essa soma no Excel. Tabela 2 – Somas dos dados (o resultado está em negrito) x y x² xy 47 15,1 2209 709,7 56 14,1 3136 789,6 116 13,2 13456 1531,2 178 12,7 31684 2260,6 19 14,6 361 277,4 75 13,8 5625 1035 160 11,9 25600 1904 31 14,8 961 458,8 12 15,3 144 183,6 164 12,6 26896 2066,4 43 14,7 1849 632,1 74 14,0 5476 1036 975 166,8 117397 12884,4 Fonte: Adaptado de Freund (2007) Com os somatórios calculados, vamos obter os seguintes valores (ressaltando que n é o número de dados coletados que, nesse caso, é igual a 12): 𝑆𝑥𝑥 = 117397 − 1 12 (975)2 = 38178,25 𝑆𝑥𝑦 = 12884,4 − 1 12 (975)(166,8) = −668,1 Por meio desse cálculo, podemos definir o valor das constantes: 𝑏 = −668,1 38178,25 ≈ −0,0175 𝑎 = 166,8 − (−0,01175)(975) 12 ≈ 15,3 Como vimos anteriormente, a equação da reta de mínimos quadrados é ŷ = a + bx que, substituindo os valores, fica sendo: ŷ = 15,3 − 0,0175𝑥 Com a reta mínima de quadrado determinada, podemos prever os valores do alcance auditivo considerando o número de semanas. A título de exemplo, vamos imaginar que queremos saber o alcance auditivo relacionado com 300 semanas, para isso, substituímos o x por 300 e, com isso, a equação será montada da seguinte forma: ŷ = 15,3 − 0,0175𝑥300 = 15,3 − 5,25 = 10,5 Ou seja, o valor previsto do alcance auditivo é de 10,5. 4.2.1 Quantificando o erro na regressão linear Para identificar a melhor reta, usamos a soma dos quadrados das diferenças, conhecido também como a soma dos quadrados dos resíduos, representado pelo S: 𝑆𝑟 = ∑(𝑦 − ŷ)² = ∑[𝑦 − (𝑎 + 𝑏𝑥)]² Com base nessa medida, podemos calcular o desvio-padrão para a reta determinada, sendo representado pela seguinte fórmula: 𝑆𝑦/𝑥 = √ 𝑆𝑟 𝑛 − 2 Onde o Sx/y é denominado “erro de padrão de estimativa”, que representa a dispersão em torna da reta de regressão, bem parecido com o que temos ao calcular a dispersão em torno da reta. Com base nesses conceitos, podemos definir a precisão do ajuste feito, o que também possibilita comparar várias regressões. Sendo assim, usaremos duas quantidades, representadas por Sr e St, este último diz respeito à soma dos quadrados dos resíduos entre a média (�̅�) e os pontos dados (y), isto é: 𝑆𝑡 = ∑(𝑦 − �̅�)² Considerando esses valores, precisamos calcular o coeficiente de determinação r², onde r representa o coeficiente de correlação. Podemos fazer isso com a seguinte fórmula: 𝑟2 = 𝑆𝑡 − 𝑆𝑟 𝑆𝑡 O padrão descrito representa a redução do erro resultante do ajuste da reta. Caso seja um ajuste perfeito, isto é, Sr = 0 e resultar em r = r² = 1, isso significa que a reta justifica toda a variação de dados. Agora, vamos citar um exemplo da aplicação desse ajuste calculando o coeficiente de determinação para o alcance auditivo. Em primeiro lugar, precisamos calcular o Sr e o St de acordo com a tabela 3. Tabela 3 – Dados e somatório (em negrito) x y y – �̅� (y – �̅�)² ŷ y - ŷ (y – ŷ)² 47 15,1 1,2 1,44 14,48 0,62 0,39 56 14,1 0,2 0,04 14,32 - 0,22 0,05 116 13,2 - 0,7 0,49 13,27 - 0,07 0,00 178 12,7 - 1,2 1,44 12,19 0,51 0,27 19 14,6 0,7 0,49 14,97 - 0,37 0,14 75 13,8 - 0,1 0,01 13,99 - 0,19 0,04 160 11,9 - 2 4 12,50 - 0,60 0,36 31 14,8 0,9 0,81 14,76 0,04 0,00 12 15,3 1,4 1,96 15,09 0,21 0,04 164 12,6 - 1,3 1,69 12,43 0,17 0,03 43 14,7 0,8 0,64 14,55 0,15 0,02 74 14,0 0,1 0,01 14,01 - 0,01 0,00 St = 13,02 Sr = 1,33 Fonte: Adaptado de Freund (2007) Agora, iremos calcular o coeficiente da seguinte forma: 𝑟2 = 13,02 − 1,33 13,02 = 0,8975 𝑥 100 = 89,75% Desse modo, 89,75% da incerteza original foi explicada pelo modelo linear. 5 NÍVEIS DE CONFIANÇA Primeiramente, vamos relembrar alguns conceitos abordados nas aulas anteriores, como o de estatística, também conhecida como estimativa ou estimador, que consiste em uma medida numérica de uma amostra. Por sua vez, o parâmetro se trata de uma medida numérica da população. Algumas amostras nos permite estimar determinados valores na população, isto é, conseguimos inferir um parâmetro populacional com base em uma estimativa. A título de exemplo, vamos imaginar que temos em uma amostra uma quantia considerável de clientes de um banco e calculamos a média do saldo que possuem em sua conta-corrente. Essa média amostral tem como propósito estimar a média populacional do saldo em conta-corrente. Quando calculamos uma proporção ou média baseada em uma amostra, conseguimos chegar a um valor. Podemos conceituar esse valor como estimador pontual, isto é, uma estimação por ponto. Chamamos essa medida assim pelo fato de ter um único valor para representar a medida numérica de uma amostra, como umaproporção ou uma média, por exemplo. Imagem 1 – Parâmetros e estimadores Fonte: https://iplogger.com/2rG6P7 Para calcular a média amostral de forma pontual, devemos somar todos os valores presentes na amostra e dividir essa soma pelo número de elementos, com base na seguinte fórmula: �̅� = ∑ 𝑥𝑖 𝑛 Onde: �̅� = média amostral; xi = cada elemento da amostra; n = número de elementos presentes na amostra. Já a proporção amostral pode ser encontrada quando dividimos os casos favoráveis do que estamos pesquisando pelo número de elementos da amostra, através da seguinte fórmula: 𝑝 = 𝑥 𝑛 Onde: p = proporção amostral; x = quantidade de casos favoráveis; n = número de elementos da amostra. No entanto, a estimativa por intervalo, também conhecida como intervalo de confiança, costuma ser mais útil que uma estimativa pontual. Não temos apenas um valor pontual em um intervalo de confiança, ao invés disso, calculamos um intervalo com a possibilidade de encontrarmos o verdadeiro valor do parâmetro populacional nele. Voltando ao exemplo da média de saldo bancário, não teríamos um valor único, e sim um intervalo de valores contendo uma margem de erro bem estabelecida, que permite termos a verdadeira média dos clientes cadastrado no banco em questão. Para calcular a estimativa por intervalo, não consideramos apenas a estimativa pontual, também levamos em conta uma margem de erro para identificarmos o verdadeiro valor do parâmetro populacional. Podemos observar na imagem 2 um intervalo de confiança para a média. Imagem 2 – Intervalo de confiança para a média Fonte: Adaptado de Doane e Seward (2015) Desse modo, usaremos a estimativa pontual e a confiança para o cálculo do intervalo de confiança. Para obtermos uma boa estimativa, precisaremos de estimadores não tendenciosos e não viciados e, para isso, usaremos amostras probabilísticas para proporcionar uma estatística inferencial, isto é, serão válidos apenas estimadores capazes de inferir os parâmetros populacionais quando calculamos amostras com um tamanho tendendo ao infinito ou amostras extraídas através do método probabilístico. 5.1 Cálculo do intervalo de confiança O cálculo do intervalo de confiança exige o valor da estimativa pontual do parâmetro pesquisado, também precisamos ter a tabela de distribuição normal, também conhecida como tabela t-student, com o intuito de obter os valores padronizados do coeficiente de confiança escolhido. Partimos do pressuposto que as amostras foram coletadas de populações que sigam a distribuição normal ou que as amostras tenham um tamanho suficiente para usarmos o teorema do limite central e empregarmos os coeficientes de confiança. Levando em conta o desvio-padrão populacional conhecido, o intervalo de confiança da média populacional conhecido é: �̅� ± 𝑧𝑎/2. 𝜎 √𝑛 Ou seja: �̅� − 𝑧𝑎/2. 𝜎 √𝑛 ≤ 𝜇 ≤ �̅� + 𝑧𝑎/2. 𝜎 √𝑛 Onde: �̅� = média amostral; za/2 = coeficiente de confiança associado à norma padrão; 𝜎 = desvio-padrão populacional; n = número de elementos em uma amostra. Geralmente, não conseguimos obter o valor do desvio-padrão populacional, sendo assim, calculamos apenas o desvio-padrão amostral. Desse modo, teremos um intervalo de confiança para a média quando não sabemos o valor do desvio-padrão populacional. Doane e Seward (2015) afirmam que a distribuição t-student deverá ser empregada no lugar da distribuição normal padrão caso a população seja normal e o desvio-padrão populacional seja desconhecido. Isso será muito útil caso a amostra seja pequena. �̅� ± 1𝑎/2. 𝑠 √𝑛 Ou seja: �̅� − 𝑡𝑎/2. 𝑠 √𝑛 ≤ 𝜇 ≤ �̅� + 𝑡𝑎/2. 𝑠 √𝑛 Onde: �̅� = média amostral; ta/2 = coeficiente de confiança associado à distribuição t-student; s = desvio-padrão populacional; n = número de elementos da amostra. Imagem 3 – Intervalo de confiança para a média Fonte: Adaptado de Doane e Seward (2015) Os autores complementam dizendo que o teorema do limite central também podem ser usados em uma proporção amostral, pois a proporção consiste em uma média de dados, onde os únicos valores são 0 ou 1. Em relação à proporção, o teorema diz que a distribuição de uma proporção amostral tende à normalidade à medida que o valor cresce. Levando em conta que é possível a proporção amostral de uma distribuição normal, iremos calcular o intervalo de confiança visando estimar a proporção populacional da seguinte maneira: 𝑝 ± 𝑧𝑎/2. √ 𝑝. (1 − 𝑝) 𝑛 Ou seja: 𝑝 − 𝑧𝑎/2. √ 𝑝. (1 − 𝑝) 𝑛 ≤ 𝜋 ≤ 𝑝 + 𝑧𝑎/2. √ 𝑝. (1 − 𝑝) 𝑛 Onde: p = proporção amostral; za/2 = coeficiente de confiança associado à norma padrão; n = número de elementos da amostra. 5.2 Níveis de Confiança Navidi (2012) conceitua um nível de confiança como uma proporção de todas as amostras possíveis usadas para que o intervalo de confiança consiga representar o valor real. Sendo assim, quando determinamos o coeficiente de confiança, estamos definindo a possibilidade de estarmos calculando um intervalo com o verdadeiro valor do parâmetro com uma probabilidade conhecida de acertarmos. Frequentemente, usamos níveis de confiança por intervalo de 90%, 95% e 99%, considerando que o nível de confiança é diretamente proporcional ao tamanho do intervalo, como podemos observar na tabela 1. Tabela 1 – Valores frequentemente usados da norma padrão Níveis de confiança a 1 - a a/2 za/2 90% 0,10 0,90 0,05 1,645 95% 0,05 0,95 0,025 1,960 99% 0,01 0,99 0,005 2,576 Fonte: Elaborada pelo autor Podemos usar esses valores não só para a distribuição normal padrão, como também para a distribuição t-student, no entanto, esta última exige o cálculo dos graus de liberdade para conseguirmos identificar o valor correspondente. 𝐺𝐿 = 𝑛 − 1 Onde: GL = graus de liberdade; n = tamanho da amostra. A aproximação da distribuição t-student aos valores da distribuição padrão normal aumenta proporcionalmente ao tamanho da amostra, como podemos observar na última linha da tabela presente na imagem 4, quando o tamanho da amostra tende ao infinito, teremos os mesmos valores da tabela normal padrão. Imagem 4 – Tabela de distribuição t-student Fonte: https://iplogger.com/2dYP44 Além disso, o coeficiente de confiança é diretamente proporcional aos valores tabelados, ou seja, as estimativas por intervalo crescem com o aumento do nível de confiança. Desse modo, o crescimento do intervalo aumenta as chances de acertarmos o valor do verdadeiro parâmetro populacional. Para exemplificar essa situação, vamos voltar à média do saldo bancário dos clientes de um banco. Vamos supor que a média do saldo seja de R$ 1958,00 e que o desvio-padrão seja de R$ 697,00. Tais estimativas correspondem aos dados extraídos de uma amostra que contém 90 clientes do banco. Agora, vamos calcular o intervalo de confiança com os níveis de 90%, 95% e 99% de confiança. Em relação aos valores, temos: �̅� = 1958 s = 697 n = 90 t0,05 = 1,645 t0,025 = 1,960 t0,005 = 2,576 Vale ressaltar que os três últimos valores foram empregados usando como base a tabela 1. Em um nível de confiança de 90%, vamos usar a seguinte fórmula no cálculo: �̅� ± 𝑡𝑎/2. 𝑠 √𝑛 1958 − 1,645. 697 √90 = 𝟏𝟖𝟑𝟕, 𝟏𝟒 ≤ 𝜇 ≤ 1958 + 1,645. 697 √90 = 𝟐𝟎𝟕𝟖, 𝟖𝟔 Com isso, temos um intervalo de confiança entre 1837,14 e 2078,86. Agora, vamos calcular o intervalo com um nível de confiança de 95% usando a mesma fórmula. 1958 − 1,960. 697 √90 = 𝟏𝟖𝟏𝟒, 𝟎𝟎 ≤ 𝜇 ≤ 1958 + 1,960. 697 √90 = 𝟐𝟏𝟎𝟐, 𝟎𝟎 Nesse caso, o intervalo de confiança está entre 1814 e 2102. Por fim, iremos calcular o intervalo com um nível de confiança de 99%. 1958 − 2,576. 697 √90= 𝟏𝟕𝟔𝟖, 𝟕𝟒 ≤ 𝜇 ≤ 1958 + 2,576. 697 √90 = 𝟐𝟏𝟒𝟕, 𝟐𝟔 Sendo assim, o intervalo de confiança fica entre 1768,74 e 2147,26. Observe que o intervalo do parâmetro estudado aumentou junto com o nível de confiança empregado. 6 ESTRUTURA DOS TESTES DE HIPÓTESE Empregamos os testes estatísticos no ramo da estatística inferencial, com o intuito de avaliar as hipóteses relacionadas com variância, médias, proporções e outros. Podemos dividir esses testes em duas categorias, sendo elas a de testes não paramétricos e a de testes paramétricos. Em relação aos testes paramétricos, eles costumam ser usados quando temos disponíveis determinadas variáveis quantitativas que possibilitam o cálculo de intervalo de confiança. Além disso, também será necessária a existência da normalidade de dados, que é necessária, geralmente, em amostras com mais de 30 elementos. Já os testes não paramétricos não possuem tanta exigência e conseguem englobar as variáveis qualitativas, uma vez que não é necessário conhecer a distribuição de probabilidades que os dados seguem. Existem alguns contextos onde os dados paramétricos não são aceitos e, com isso, podemos usar os testes não paramétricos para variáveis quantitativas. Não importa o teste estatístico empregado, sempre teremos as mesmas fases para sua resolução. Nesse contexto, precisamos formular duas hipóteses, sendo uma o oposto da outra, uma denominada hipótese nula (H₀) e outra chamada de hipótese alternativa (H1). Em ambos os testes, temos uma estatística de teste contendo um ou mais cálculos matemáticos e teremos um cálculo diferente para cada teste. Os cálculos dos testes paramétricos costumam ser um pouco menos complicados. Cada teste terá uma tabela de distribuição de probabilidades associada para podermos determinar a região crítica, onde a conclusão dependerá do resultado do teste nos passos anteriores. Tabela 1 – Passos para resolver um teste de hipóteses 1. Formular hipóteses 2. Calcular a estatística teste 3. Definir a região crítica 4. Concluir a respeito do teste Fonte: Elaborada pelo autor Os testes de hipóteses podem ser usados na comparação de um parâmetro com uma estimativa, e até para comparar duas ou mais estimativas entre si. No caso dos testes paramétricos, existem testes usados para uma, duas e ou mais de duas médias. 6.1 Consequências dos tipos de erros Por lidarmos com valores de médias, e não valores absolutos e únicos, precisamos nos atentar sempre que fazemos um teste de hipótese. Isso porque sabemos reconhecer a diferença numérica entre dois valores absolutos, no entanto, não podemos dizer o mesmo quando analisamos tal diferença em uma amostra com um tamanho específico que possui uma variabilidade e uma média. Nesse contexto, existe a probabilidade de cometermos um erro de decisão, como rejeitar uma hipótese verdadeira. Caso aceitamos uma hipótese nula e ela for verdadeira, estamos tomando a decisão correta, isso também vale para o caso de rejeitarmos uma hipótese nula que seja realmente falsa. Entretanto, estaremos cometendo um erro quando recusamos uma hipótese nula que seja verdadeira, configurando um erro do tipo I, também representado pelo símbolo α. Um caso parecido acontece quando aceitamos uma hipótese nula que, na verdade, é falsa, estaremos cometendo um erro do tipo II, simbolizado pela letra β. Tabela 2 – Tipos de erros em um teste de hipótese H₀ verdadeira H₀ falsa H₀ aceita Decisão correta Erro tipo II (β) H₀ recusada Erro tipo I (α) Decisão correta Fonte: Elaborada pelo autor Doane e Seward (2014) afirmam que nem sempre conseguimos diferenciar se cometemos um erro do tipo II ou I, pois raramente obtemos informações perfeitas relacionadas com uma situação verídica. Porém, podemos calcular a possibilidade de tomarmos uma decisão errada por meio da estatística, diminuindo as chances de erro, além de reunir uma quantidade considerável de evidências amostrais e escolher os testes mais adequados. Podemos utilizar algumas analogias para exemplificar os tipos de erros que podemos cometer quando testamos duas hipóteses. Uma delas é o julgamento, como na hipótese nula seja considerar um réu inocente, por consequência, a hipótese alternativa é a do réu ser culpado. Nesse caso, o erro do tipo I se configura quando condenamos um réu inocente e, em contrapartida, teremos um erro do tipo II quando inocentamos um réu culpado. Em ambos os casos, estaríamos cometendo erros que podem prejudicar tanto o próprio réu quanto a sociedade. Partindo para outra analogia, vamos imaginar o lançamento de um medicamento em uma indústria farmacêutica, onde a empresa investirá apenas no medicamento com eficácia comprovada, ou seja, a hipótese nula será o medicamento ser eficiente, enquanto a alternativa será o medicamento ineficiente. O erro tipo I irá acontecer no caso de recusarmos um medicamento alegando sua ineficiência quando, na verdade, ele é eficiente. Por sua vez, o erro tipo II acontecerá quando o lançamos alegando sua eficiência, no entanto, o medicamento não é eficiente. Para finalizar os exemplos, vamos imaginar uma agência bancária onde o gerente concede crédito para qualquer cliente que ele julga ser um bom pagador, por escores de crédito. Sendo assim, a hipótese nula representará um bom pagador, enquanto a alternativa representa um mau pagador. O gerente cometerá um erro tipo I caso não ceda crédito para um cliente que é bom pagador, em uma situação parecida, pode cometer um erro tipo II caso ceda crédito para um cliente mau pagador. Entre os dois erros, aquele considerado o mais importante para ser controlado ou evitado é o erro tipo I, simbolizado pela letra α e reconhecido como o nível de significância do teste estatístico aplicado. Seu complementar 1 – α ficou conhecido como nível de segurança. Podemos encontrar os valores para o nível de significância nas tabelas de distribuição de probabilidades, que irão definir a região crítica, isto é, se devemos rejeitar a hipótese nula ou se não temos evidências o bastante para recusá-la. Vale ressaltar que a probabilidade de estarmos cometendo um erro tipo II não é fixa, portanto, podemos cometê-lo ao aceitar uma hipótese nula. Sendo assim, não podemos afirmar que aceitamos a hipótese nula com um nível de significância fixado, já que esse tipo de erro não está na sentença. Esse nível de significância irá definir a região crítica considerando as hipóteses formuladas. Por meio de testes unilaterais, temos a probabilidade de rejeitar em apenas uma das caudas da distribuição de probabilidade, levando em conta as hipóteses formuladas. Em relação ao teste bilateral, teremos a possibilidade de rejeitar nas duas caudas da distribuição, como podemos observar na imagem 1. Imagem 1 – Regiões críticas conforme a distribuição normal Fonte: Adaptado de Freund (2006) O teste de hipótese também engloba reconhecer o tipo de erro, que consiste em determinar o nível de significância do teste e isso acontece junto com a definição das hipóteses, antes de qualquer procedimento de coleta de dados. O nível de significância mais usado é de 5%, no entanto, o nível varia conforme o rigor do pesquisador. Além disso, podemos definir o poder do teste com a teoria das probabilidades de erro tipo I e II. A determinação do poder do teste é feita pela probabilidade do complementar do erro do tipo II, isto é, o complementar 1 – β. Sendo assim, o poder do teste aplicado é inversamente proporcional à probabilidade de erro do tipo II e, para reduzir a chance desse tipo de erro, precisamos aumentar a amostra estudada, ou seja, o poder é diretamente proporcional ao tamanho da amostra. 6.2 Tipos de erro na prática Ao compararmos uma hipótese, temos a chance de tomar a decisão incorreta e podemos ter certeza de tomar a decisão correta apenas quando sabemos a verdade.Para entendermos melhor a situação, podemos exemplificá-la citando o seguinte ditado: “para toda situação existem três versões: a sua, a da outra parte e a verdade”. Quando falamos de estatística, apenas quando obtemos o valor do parâmetro populacional saberemos se alcançamos a verdade. Em qualquer outra condição, sempre teremos a probabilidade de errar quando temos uma amostra populacional, principalmente se a considerarmos como a realidade da população estudada. Os exemplos não se resumem ao caso do lançamento do medicamento, do julgamento e da concessão de crédito citados no tópico anterior, também temos outros que acontecem em nosso cotidiano. Entre eles, vamos citar o caso dos celulares contemporâneos que conseguem desbloquear a tela por impressão digital, com isso, a hipótese nula seria a comprovação da legitimidade da impressão e o consequente desbloqueio da tela, enquanto a hipótese alternativa é o não desbloqueio da tela, já que as impressões não conferem. Nesse caso, teremos um erro do tipo I quando não temos um desbloqueio da tela, mesmo com as impressões sendo legítimas, em contrapartida, teremos um erro do tipo II quando a tela é desbloqueada, mesmo com as impressões não conferindo. Desse modo, o erro a ser administrado é o do tipo I, que consiste em considerar a hipótese “culpada” até que se prove o contrário. Isso fica evidente no exemplo do julgamento, onde podemos considerar o erro tipo II (inocentar um culpado) mais danoso à sociedade que o erro do tipo I (culpar um inocente). No entanto, não podemos arcar com o dano de condenar uma pessoa inocente, principalmente quando consideramos que podemos refinar os métodos de julgamento para controlar o erro do tipo II. O mesmo caso vale para o exemplo da indústria farmacêutica, uma vez que podemos deixar um paciente sem uma boa solução para sua doença quando cometemos o erro tipo I e recusamos um medicamento eficiente. Também iremos causar danos semelhantes se lançarmos um medicamento ineficiente, configurando um erro do tipo II, no entanto, a indústria farmacêutica é capaz de refinar seus métodos de teste com o intuito de diminuir a chance desse tipo de erro. Por fim, no exemplo da concessão de crédito, podemos considerar o erro do tipo II (conceder crédito a um mau pagador) muito prejudicial à agência, no entanto, ele não é muito comum devido ao aprimoramento nos escores de crédito. Por sua vez, o erro do tipo I (negar crédito a um bom pagador) será prejudicial ao cliente e não ao banco, o que causa danos na popularidade da instituição. Desse modo, precisamos nos atentar ao falso positivo, isto é, a possibilidade de uma hipótese ser nula quando, na realidade, é verdadeira, já que os falsos negativos conseguem ser administrados facilmente quando aumentamos o tamanho da amostra pesquisada. Além disso, devemos primar por um equilíbrio, a fim de diminuir as duas possibilidades de erro. Um teste estatístico precisa começar pela elaboração de hipóteses alternativas e nulas para, posteriormente, calcular a estatística de teste, que pode ser facilmente realizada em softwares estatísticos e planilhas eletrônicas, finalizando com a conclusão desse teste. Para exemplificar um teste estatístico na prática, vamos imaginar que desejamos comparar as médias salariais de mulheres e homens que cumprem a função de gerente. Para isso, coletamos dados de 12 mulheres e 15 homens, levando em conta um nível de significância de 5%. Por estarmos lidando com duas amostras independentes, iremos usar o teste t para cada uma, começando pela formulação das hipóteses. ➢ H₀ (hipótese nula): O salário das mulheres é igual ao dos homens. ➢ H1 (hipótese alternativa): O salário das mulheres é diferente dos homens. Logo após, vamos calcular a estatística do teste por meio da seguinte fórmula (considerando uma média de 6640 e uma variância de 174000 para os homens; e uma média de 6375 e uma variância de 367500 para as mulheres): 𝑡𝑐𝑎𝑙𝑐 = (𝑥1̅̅̅ − 𝑥2̅̅ ̅) √ 𝑠1 2 𝑛1 + 𝑠2 2 𝑛2 Onde: 𝑥1̅̅̅ = Média amostral 1 (no caso, homens); 𝑥2̅̅ ̅ = Média amostral 2 (no caso, mulheres); s²1 = variância da amostra 1; s²2 = variância da amostra 2; n1 = número de observações da amostra 1; n2 = número de observações da amostra 2; Substituindo os valores, teremos: 𝑡𝑐𝑎𝑙𝑐 = (6640 − 6375) √174000 15 + 367500 12 = 265 205,49 = 1,2896 Na tabela 3, podemos observar a saída do Excel: Tabela 3 – Amostras presumindo variâncias diferentes Homem Mulher Média 6640 6375 Variância 174000 367500 Observações 15 12 Hipótese da diferença de média 0 gI 19 Stat t 1,289618 T crítico bicaudal 2,093 Fonte: Elaborada pelo autor Logo após, devemos determinar a região crítica. Sendo assim, precisamos identificar o valor tabelado da distribuição t-student com a/2 = 0,025 e o grau de liberdade correspondente. Considerando as diferentes variações, o grau de liberdade é calculado com o auxílio da seguinte fórmula: 𝐺𝐿 = [ 𝑠1 2 𝑛1 + 𝑠2 2 𝑛2 ] ² ( 𝑠1 2 𝑛1 ) ² 𝑛1 − 1 + ( 𝑠2 2 𝑛2 ) 𝑛2 − 1 𝐺𝐿 = [ 174000 15 + 367500 12 ] ² ( 174000 15 ) ² 14 + ( 367500 12 ) ² 11 ≅ 18,7927844 = 19 Doane e Seward (2014) explanam que os graus de liberdade ajustados sempre são arredondados para o próximo interior menor, para sermos conservadores. Na imagem 2, temos uma tabela para conferir se o resultado está dentro do limite crítico. Imagem 2 – Tabela de níveis críticos do grau de liberdade Fonte: Adaptado de Doane e Seward (2014) Podemos observar o valor de 2,093 na coluna 0,025 referente ao grau de liberdade 19. Considerando que a estatística teste foi de 1,2896, podemos perceber que o valor está abaixo do tabelado, portanto, está dentro do nível crítico aceitável, ou seja, não existem evidências estatísticas para rejeitar a hipótese nula. Desse modo, podemos concluir que o salário de homens e mulheres pode ser considerado igual no nível de significância de 5%. 7 TESTES NÃO PARAMÉTRICOS Na aula anterior, nos falamos sobre a diferença entre testes paramétricos e não paramétricos. Para recapitular, podemos resumir afirmando que um teste paramétrico avalia os parâmetros de uma população, como desvio padrão, média e variáveis, enquanto um teste não paramétrico avalia os aspectos gerais das populações. No caso dos testes não paramétricos, eles são bastante recentes, tanto que o surgimento dos primeiros testes aconteceu no início do século XX e sua população aconteceu nos últimos 40 anos. Field (2009) complementa dizendo que os testes não paramétricos também são chamados de “testes de distribuição livre”, pelo fato de realizarem nenhuma ou poucas suposições referentes ao tipo de dado que pode ser usado. Com isso, não será necessário seguir a suposição de normalidade nos testes não paramétricos, já que podemos obter dados com distribuições não conhecidas ou não simétricas. Sob a ótica do pesquisador, os testes paramétricos podem ser considerados mais robustos, no entanto, eles não conseguem testar todas as variáveis, ou seja, em uma pesquisa, devemos ter uma alternativa não paramétrica para cada teste paramétrico. Dentre as principais vantagens de usar um teste não paramétrico, podemos citar: ➢ Não são tão exigentes quanto os paramétricos, abrindo a possibilidade de desprezar, inclusive, a normalidade dos dados; ➢ Normalmente, as probabilidades das afirmativas conseguidas em grande parte dos testes não paramétricos são exatas, exceto quando usamos aproximações para amostras grandes (superiores a 20, geralmente); ➢ Não dependem da forma com que a amostra foi obtida de uma população; ➢ São mais fáceis de aplicar e não precisam de um grande volume de cálculo; ➢ Alguns desses testes possibilitam trabalhar com dados de diferentes populações, o que é impossível
Compartilhar