APOSTILA-COMPLETA-ESTATÍSTICA-APLICADA-ÀS-CIÊNCIAS-SOCIAIS docx

•

FAVENI

Ester Rodrigues Cizzoto

09/01/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 72 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 72 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 72 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Sociologia

101.153 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS

INTRODUÇÃO

Prezado aluno,

O Grupo Educacional FAVENI, esclarece que o material virtual é
semelhante ao da sala de aula presencial. Em uma sala de aula, é raro –
quase improvável - um aluno se levantar, interromper a exposição, dirigir-se
ao professor e fazer uma pergunta, para que seja esclarecida uma dúvida
sobre o tema tratado. O comum é que esse aluno faça a pergunta em voz alta
para todos ouvirem e todos ouvirão a resposta. No espaço virtual, é a mesma
coisa. Não hesite em perguntar, as perguntas poderão ser direcionadas ao
protocolo de atendimento que serão respondidas em tempo hábil.
Os cursos à distância exigem do aluno tempo e organização. No caso
da nossa disciplina é preciso ter um horário destinado à leitura do texto base
e à execução das avaliações propostas. A vantagem é que poderá reservar o
dia da semana e a hora que lhe convier para isso.
A organização é o quesito indispensável, porque há uma sequência a
ser seguida e prazos definidos para as atividades.

Bons estudos!

1 TRATAMENTO DA INFORMAÇÃO
Podemos chamar os conceitos básicos de avaliação dos dados de tratamento
da informação. Um dado consiste em números ou fatos brutos que foram coletados
por meio de gráficos, tabelas e valores descritivos, visando interpretar um fenômeno
depois de serem tratados e se transformar em informações, isto é, os dados são a
matéria-prima dos estudos estatísticos.
Os pesquisadores usam os dados quando desejam entender um todo
analisando suas partes, ou seja, os usam quando querem analisar o adversário ou
definir a melhor estratégia em um esporte, quando querem avaliar o perfil do
consumidor para tentar agradá-lo ou quando querem melhorar o transporte coletivo,
coletando o número de passageiros por linha e, consequentemente, definindo o
horário com maior fluxo de passageiros, só para citar alguns exemplos.
A avaliação e apresentação dos dados pode acontecer de vários modos.
Quando escolhemos tabelas e gráficos, estaremos os representando com imagens
visuais, usando as medidas para a quantificação de seus atributos. Os números que
descrevem esses dados são as estatísticas, que precisam ser lidas e interpretadas
corretamente e de forma organizada.
Após apanhar e apresentar os dados de forma organizada, precisamos avaliá-
los e, posteriormente, utilizá-los para tomar uma decisão. Para isso, precisamos
verificar a possibilidade de acontecimentos aleatórios e é nesse contexto que surge o
conceito de probabilidade.
Segundo Aczel (2007), quando consideramos a probabilidade, atribuímos
100% de chance para um acontecimento que com certeza ocorrerá, em contrapartida,
atribuímos 0% de chance para algo impossível de acontecer.
Além disso, temos os casos onde não temos certeza se acontecerão ou não,
caso seja mais provável que aconteça, sua porcentagem se aproximará de 100%,
caso contrário, sua porcentagem se aproximará de 0%. Se um acontecimento tem
50% de chance de ocorrer, podemos afirmar que a chance de um acontecimento
ocorrer é a mesma que a de não ocorrer.
Podemos observar na imagem 1 uma interpretação das possibilidades e da
probabilidade considerando uma quantidade contínua entre o certo e o impossível,
usando as possibilidades de obtermos azul na roleta.

Imagem 1 – Interpretação da probabilidade

Fonte: Adaptado de Van de Walle (2009)

Van de Walle (2009) afirma que um bom modo de compreender a probabilidade
é iniciar observando o conceito de chance como uma quantidade contínua, para
podermos compreender melhor que determinados eventos são menos ou mais
prováveis que outros. Um bom exemplo é quando temos dois times em campo, caso
um time A esteja vencendo um time B com um quarto do tempo restante, podemos
afirmar que não é certo que o time A vença, no entanto, a chance é muito grande.
Vale também salientar que o estudo da probabilidade envolve várias definições
e leis que oscilam conforme a situação, tanto em relação à ocorrência de um ou outro
evento, quanto na possibilidade de que um acontecimento ocorra caso outro também
aconteça, o que chamamos de probabilidade condicional. Para verificar
quantitativamente a possibilidade de um evento acontecer, ou seja, sua probabilidade,
será fundamental contar as possibilidades de um evento e dividir pelo número total de
possibilidades.
A título de exemplo, vamos considerar a probabilidade de termos um número
par ao lançar um dado. Primeiramente, vamos considerar todos os resultados
possíveis, sendo eles 1, 2, 3, 4, 5 e 6. Em seguida, devemos separar os resultados
que almejamos, isto é, os números pares, que são 2, 4 e 6. Com isso, temos 6
possíveis resultados e almejamos 3 deles, ou seja, devemos fazer a seguinte divisão:

3
6
=
1
2

Sendo assim, a probabilidade de cair um número par quando lançamos um

dado é de
1
2
.
1.1 Situações-problema em nossa rotina
Devido à evolução da tecnologia, estamos cercados pelos dados e a imprensa,
tanto a televisionada quanto a escrita, começou a usar tabelas e gráficos para
apresentar as informações. Desse modo, os leitores precisam se atentar para evitar
que sejam enganados ou que esqueçam de elementos essenciais para uma
interpretação precisa das informações cotidianas.
Rumsey (2010) lista alguns casos onde a estatística é usada para apresentar
várias situações diferentes, com o intuito de induzir o leitor a ter uma interpretação
específica sobre um determinado evento, tanto para induzi-lo a consumir um produto
novo quanto para aumentar ou diminuir a preocupação com o estado da saúde
pública. A autora procura apontar os exageros e os problemas nessas estatísticas e
demonstrar o modo correto de utilizá-las.

1.1.1 Conferir as contas

Quando queremos efetivar a estatística, a primeira coisa que devemos fazer é
conferir os números. Na maioria das pesquisas, o resultado da soma dessas
estatísticas sempre deve ser 100%. A título de exemplo, vamos considerar uma
pesquisa sobre os brinquedos mais vendidos para crianças entre 3 e 7 anos.
Vamos imaginar que a pesquisa descrevia que 42% dos pais compravam
brinquedos mostrados nos intervalos dos desenhos animados; 29% preferiam
comprar jogos educativos; 20% apenas consumiam os brinquedos escolhidos pelo
filho enquanto visitavam as lojas. Quando somamos as porcentagens, temos 42 + 29
+ 20 = 91%. Nessa soma, notamos que está faltando 9%, o que faz a estatística ser
invalidada, ou seja, os resultados da pesquisa não são fidedignos.

1.1.2 Conhecer o tamanho da amostra

Existem várias pesquisas de opinião lançadas todos os dias com a ausência de
alguns dados importantes, como o número de entrevistados. Você já deve ter visto um
comercial onde é informado que 9 em cada 10 dentistas recomendam o creme dental

anunciado, sem citar a amostragem.
Para assegurar que a estatística é fidedigna, o leitor precisaria se perguntar
quantos dentistas foram entrevistados para chegar nesse número. Vamos imaginar
que somente 10 dentistas foram entrevistados, com isso, não poderíamos considerar
esse número como expressivo em um mundo onde existem milhares de dentistas, isso
pode, inclusive, não ser tão atraente para o consumidor.
Em contrapartida, caso 10.000 dentistas sejam entrevistados, podemos
considerar que 9.000 recomendaram o creme dental e isso aumenta a confiabilidade
tanto da pesquisa quanto do produto. Desse modo, comerciais ou notícias
semelhantes a essa não são muito confiáveis caso o leitor não tenha a perspectiva da
amostragem entre os dados citados.

1.1.3 Distorção da verdade usando exageros sutis (ou não)

Para exemplificar essa situação, vamos imaginar a seguinte manchete de um
jornal escrito: “Tempo de consulta com pacientes evita processos de imperícia
médica”.Podemos observar que a manchete contém estatística, no entanto, existe
uma grande lacuna entre a mensagem transmitida e a realidade.
Vamos considerar que a manchete foi publicada levando em conta um estudo
que avaliou 1.265 consultas e 59 médicos, seu resultado foi que os médicos que não
foram processados levaram, aproximadamente, 18 minutos para completar cada
consulta, enquanto os médicos que sofreram processos levaram 16 minutos para
atender um paciente.
A manchete leva o leitor a interpretar que o médico precisa gastar muito tempo
em suas consultas para diminuir as chances de um diagnóstico incorreto e sanar os
problemas de imperícia, além de ressaltar a importância que dois minutos fazem em
uma consulta.
Vamos considerar as seguintes hipóteses: os médicos não processados podem
ter menos pacientes e isso pode ter aumentado a duração de suas consultas, além
disso, os médicos processados poderiam estar fazendo procedimentos de alto risco.
Também podemos considerar que os médicos não processados são melhores, já que
perguntam e ouvem mais o paciente, o que aumenta a duração de suas consultas.
São diversos os pressupostos que podem estar envolvidos e isso não pode ser
resumido em uma manchete, mesmo que seja muito grande. Sendo assim,

precisamos procurar lacunas entre os dados apresentados pelo estudo e a manchete
que usa estatística para informar seus leitores.

1.1.4 Desconhecimento ou omissão dos dados

Algumas dicas, como a conferência das somas, são fundamentais na
interpretação e na leitura de estatísticas, entretanto, não são suficientes. Também
precisamos considerar a manipulação dos dados antes de serem apresentados.
A título de exemplo, vamos imaginar os seguintes dados relacionados com a
criminalidade de um país: é mostrada uma tabela contendo os crimes anuais de um
país entre 1987 e 1997, determinadas interpretações dos dados podem ser
completamente divergentes, mesmo que os cálculos sejam precisos. Isso acontece
por causa do modo com que a informação é medida, podendo considerar que a
criminalidade pode ter aumentado ou diminuído. Sabemos que isso não pode
acontecer, com isso, vamos verificar o que está por trás dos cálculos.
Suponhamos que o número estimado de crimes foi de 13.508.700 em 1987,
enquanto em 1993 o número aumentou para 14.144.800 e, por fim, a quantidade
estimada passou a ser 13.175.100 em 1997. Em um primeiro momento, podemos
notar que a criminalidade cresceu nos 6 primeiros anos, no entanto, podemos também
afirmar que a criminalidade diminui se considerarmos o intervalo de 1993 a 1997.
Dependendo da intenção de quem está informando, podemos usar os dados descritos
para interpretar diversas perspectivas de um mesmo fato.
Outro ponto que vale considerar é se essas informações são suficientes para
esclarecer e representar um fato, uma vez que outros fatores podem ter aumentando
entre 1987 e 1993 além do número absoluto de crimes, como a população do país,
pois se espera que a criminalidade cresça com o aumento do número de pessoas em
um mesmo país.
Nesse contexto, precisamos levar em conta a taxa de criminalidade, isto é, a
razão entre o total da população e o número de crimes. Se considerarmos que a
população do país era de 243.400.000 em 1987 e que aumentou para 257.908.000
em 1993, o resultado da taxa de criminalidade será de 5,55% em 1987 e de 5,48 em
1993, o que contradiz a primeira hipótese do aumento da criminalidade que fizemos
apenas analisando os números brutos.

1.2 Representação dos dados
Depois de abordarmos sobre os conceitos e as situações cotidianas que usam
as estatísticas, podemos falar sobre algumas formas de representar esses dados para
o espectador.

1.2.1 Gráficos e tabelas

Considerando que a demonstração de acontecimentos reais envolve decidir a
melhor forma de organizar os dados. Com isso, um gráfico nem sempre pode ser
considerado como a melhor maneira de apresentá-los, especialmente quando
estamos lidando com uma quantidade enorme de dados, o que poderia permitir seu
agrupamento e render uma facilitação de sua interpretação.
Nem sempre precisamos construir um gráfico de forma manual, podemos
também usar a tecnologia a nosso favor, usando ferramentas como o Excel para
formular tanto tabelas quanto gráficos. Vale ressaltar que a técnica empregada na
construção é mais importante que a beleza do gráfico em questão.

1.2.2 Gráficos de linhas

Os gráficos de curvas ou linhas se caracterizam como um espaço de dois eixos
ortogonais, sendo normalmente usados para apresentar dados dispostos em ordem
numérica, principalmente se estiverem ordenados ao longo de uma escala contínua.
Para construí-lo, será necessário corresponder um elemento do eixo horizontal
com outro dado no eixo vertical. Para exemplificar essa construção, vamos nos atentar
à imagem 2, onde o eixo vertical corresponde à temperatura enquanto o eixo
horizontal indica a duração do dia. Considerando ambos os eixos, podemos afirmar
que os dados indicam a variação de temperatura no decorrer de um dia.

Imagem 2 – Gráfico de linhas

Fonte: Adaptado de Van de Walle (2009)

Vale ressaltar que, em um gráfico de linha, todo ponto presente na linha precisa
ter um valor, ou seja, esse tipo de representação não é recomendada para apresentar
dados qualitativos ou discretos.

1.2.3 Gráficos de colunas ou barras

De forma semelhante aos gráficos de linha, também podemos usar a
correspondência de dois eixos perpendiculares em um gráfico de barras, no entanto,
não iremos conectar os pontos por segmentos de linha, e sim desenhar figuras ou
retângulos para indicar a quantidade.
Imagem 3 – Gráficos de barras

Fonte: https://iplogger.com/2Cj6T4

1.2.4 Gráficos de setores

Conhecidos também como gráficos de pizza, são capazes de representar seus
dados através de círculos, normalmente usado em estatísticas percentuais, como
mostrado na imagem 4, ou seja, o conceito e o cálculo das porcentagens são
fundamentais para construí-los, no entanto, sua interpretação envolve a observação
do tamanho dos setores.
Um ponto positivo dos gráficos de setores é a facilidade para comparar as
informações tendo em vista o conceito de fração, já que o círculo representa um todo
e suas fatias representam as partes.

Imagem 4 – Gráficos de setores

Fonte: Adaptado de Van de Walle (2009)

2 DISTRIBUIÇÃO E FREQUÊNCIA E VARIÁVEIS
Segundo Zabala (2020), a avaliação inicial dos dados está intimamente
relacionada com a estatística descritiva. Com sua utilização, podemos verificar como
os dados se distribuem, onde se concentram e como podem se conectar no sentido
de dispersão e associação. Nos tópicos seguintes, iremos compreender as definições
de métodos descritivos e de variáveis, as bases para uma avaliação estatística mais
aprofundada.
2.1 Variáveis
Podemos conceituar uma variável como um aspecto de interesse que
precisamos medir em cada integrante de uma população. Dependendo da pessoa,
seus valores podem variar, sendo classificados como qualitativos e quantitativos. Em
relação às variáveis quantitativas, elas consistem em aspectos que podem ser
mensurados usando valores numéricos, como o peso de alguém ou a quantidade de
alunos em uma sala de aula. Elas podem ser subdividas em contínuas e discretas.

➢ Variáveis quantitativas contínuas: Se tratam de aspectos mensuráveis cujo
valor se dá em escala contínua, podendo ou não ser valores inteiros, como
altura, peso, pressão arterial e tempo.
➢ Variáveis quantitativas discretas: Consistem em aspectos mensuráveis cujo
valor se dá apenas em valores inteiros, como quantidade de jogadores ou
quantidade de filhos.

Vale ressaltar que uma variável representada por números nem sempre é
quantitativa. Alguns exemplos dessa situação incluem número da casa, dotelefone e
da identidade, que são variáveis qualitativas ordinais.
Por sua vez, as variáveis qualitativas dizem respeito, geralmente, a aspectos
não numéricos em um conjunto de interesses, como modelo de veículo, marca e
gênero. Podem ser divididas em ordinais e nominais.

➢ Variáveis qualitativas ordinais: São variáveis que possuem uma ordenação
para a categoria. Dentre os principais exemplos, podemos citar o estágio da
gravidez (inicial, intermediário e final), nível de escolaridade (primeiro, segundo,
terceiro grau) e mês (janeiro, fevereiro, março, abril...).
➢ Variáveis quantitativas nominais: Consistem em variáveis sem ordenação
para as categorias, como etnia, religião, cor do cabelo e cor preferida.
2.2 Distribuição de frequência
Os dados proporcionados pelos diversos tipos de variáveis pertencem a várias
naturezas e, por este motivo, precisam receber tratamentos diferentes. Desse modo,
iremos abordar neste tópico sobre os instrumentos mais usados para avaliar a
frequência de cada tipo de dado.
Os dados qualitativos são geralmente apresentados em uma tabela de
frequência, como no exemplo demonstrado na tabela 1, que descreve a frequência de
entrevista para cada sexo considerando 103 entrevistados que participaram de uma
pesquisa de satisfação de consumidor, elaborada por uma loja de eletrodomésticos.

Tabela 1 – Distribuição de frequência dos entrevistados em relação ao sexo
Sexo Frequência absoluta Frequência relativa (%)
Feminino 62 60,2
Masculino 41 39,8
Total de participantes 103 100
Fonte: Elaborada pelo autor

Podemos verificar na tabela acima que as variáveis de sexo possuem sua
própria linha. A coluna de frequência absoluta apresenta uma contagem de
entrevistados em números inteiros, enquanto a coluna de frequência relativa
apresenta uma contagem percentual em relação ao total absoluto de participantes.
Se considerarmos uma variável qualitativa ordinal, as linhas da tabela de
frequências precisam ser montadas na ordem existente para as categorias. Podemos
observar na tabela 2 a distribuição de frequência de entrevistados conforme o mês de

observação. As frequências acumuladas demonstram o número de clientes
entrevistados em cada mês.
Tabela 2 – Distribuição de frequência dos entrevistados conforme o mês
Mês de
observação
Frequência
absoluta
Frequência
relativa (%)
Frequência
absoluta
acumulada
Frequência
relativa
acumulada
Fevereiro 19 18,45 19 18,45
Março 6 5,82 25 24,27
Abril 6 5,82 31 30,09
Maio 11 10,69 42 40,78
Junho 23 22,33 65 63,11
Julho 20 19,42 85 82,53
Agosto 18 17,47 103 100
Total 103 100 --- ---
Fonte: Elaborada pelo autor

A frequência absoluta consiste no número de entrevistados por mês, enquanto
a frequência acumulada apresenta o total de entrevistados até o mês em questão.
Podemos observar isso quando notamos que a frequência absoluta de fevereiro tem
a mesma quantidade de entrevistados que sua correspondente frequência acumulada.
Já em março, notamos que mais 6 pessoas participaram da pesquisa, com isso, a
frequência acumulada informou que um total de 25 pessoas foram entrevistadas até
então, pois 19 + 6 = 25.
Outro ponto que vale destacar é que a maior frequência de participação
aconteceu nos últimos três meses de pesquisa. Observe que, de fevereiro a maio,
tivemos a participação de 40,78% dos entrevistados, enquanto os 59,22% restantes
participaram de junho a agosto.
Para melhorar a apresentação dos resultados, também podemos usar os
gráficos. Reis e Reis (2002) afirmam que os gráficos de pizza são os mais usados
para avaliar a distribuição de frequência de variáveis qualitativas nominais, enquanto
as variáveis qualitativas ordinais se enquadram melhor em histogramas, isto é,
gráficos de colunas. A imagem 1 ilustra a distribuição de frequência da tabela 1,
enquanto a imagem 2 ilustra a da tabela 2.

Imagem 1 – Gráfico de distribuição de frequência dos entrevistados em relação ao
sexo

Fonte: Elaborado pelo autor

Imagem 2 – Gráfico de distribuição de frequência dos entrevistados por mês

Fonte: Elaborado pelo autor

Os pontos positivos representar seus dados com gráficos fica ainda mais
evidente quando precisamos comparar diversos grupos levando em conta as variáveis
com muitas categorias.
Em relação às variáveis quantitativas discretas, o modo de avaliar é parecido
com o tratamento das qualitativas ordinais, substituindo a classe por um valor. Se
desejarmos apresentar a quantidade de famílias que possuem um determinado
número de filhos, podemos, por exemplo, substituir os meses apresentados na tabela
2 pela quantidade de filhos.

Por sua vez, a apresentação de variáveis quantitativas discretas que podem ter
muitos valores diferentes, é praticamente impossível elaborar um gráfico ou uma
tabela com base nos dados.
Para resolver esse problema, será necessário englobar os valores em classe
que representam faixas de valores com uma determinada amplitude. Scott (1979)
afirma que a seleção do tamanho das classes (hsc) e do número de classes (ksc) se
relacionam com a amplitude dos valores a serem apresentados e da quantidade de
observações disponíveis no conjunto de dados e do desvio padrão.

ℎ𝑠𝑐 =
3,5𝑠
𝑛1/3

𝑘𝑠𝑐 =
max(𝑥) − min(𝑥)
ℎ𝑠𝑐

Onde:

n = número de observações (ou amostras);
s = desvio padrão amostral;
max(x) = maior valor observado;
min(x) = menor valor observado.
2.3 Medidas em estatística descritiva
Aqui, iremos aprender como interpretar e utilizar as medidas da estatística
descritiva, que podem ser separadas em duas categorias: medidas de tendência
central e medidas de dispersão.

2.3.1 Medidas de tendência central

Consistem em medidas usadas para identificar o valor central ou típico de um
conjunto de dados, englobando média, mediana e moda. A média (x̅) de uma variável
é obtida pela soma de todas as observações dividida pela quantidade de observações.

Segundo Reis e Reis (2002), a média é muito usada devido à facilidade do cálculo,
que pode ser realizado com a seguinte fórmula:
(x̅) =
∑ 𝑥𝑖
𝑛

Onde n corresponde à quantidade de observações no conjunto de dados e o
sigma xi representa a soma de todas as observações feitas.
Por sua vez, a mediana, também conhecida como segundo quartil, consiste no
valor maior que 50% dos dados organizados em ordem crescente, isto é, se trata do
valor central para um conjunto de observações ordenadas. Caso o número de
observações seja ímpar, o valor que está no centro é a mediana e, se for par, a
mediana será o resultado da soma entre os dois valores centrais, dividido por 2.
Por fim, a moda consiste no valor que mais se repete em uma variável. Em
uma tabela de frequência formada por classes que representam intervalos, a classe
que mais aparece é denominada classe modal. Caso a distribuição tenha apenas uma
moda, a distribuição é chamada de unimodal, se tiver duas ou três, são chamadas de
bimodal ou trimodal, respectivamente. Se a distribuição tiver quatro ou mais modas,
ela passa a ser chamada de multimodal.
Para exemplificar esse tipo de medida, vamos considerar um conjunto de
observações x = [4, 3, 5, 2, 6, 5, 8, 4, 4]. Com isso, podemos calcular a média, a
mediana e a moda. Para a média, vamos usar a fórmula descrita no início do tópico
e, substituindo os valores, temos:

(x̅) =
4 + 3 + 5 + 2 + 6 + 5 + 8 + 4 + 4
9

(x̅) = 4,55

Para a mediana, será necessário colocar os números em ordem crescente: 2,
3, 4, 4, 4, 5, 5, 6, 8. Como o número de observações é ímpar (9), podemos observar
que o último 4 está exatamente no centro da sequência, ou seja, a mediana é igual a
4. Se a sequência fosse 2, 3, 4, 4, 5, 5, 6, 8, ou seja, com um número de observações

par (8), iríamos observar que os números 4 e 5 estão no centro da sequência, sendoassim: 4 + 5 = 9 e 9/2 = 4,5, ou seja, a mediana seria 4,5.
Finalmente, a moda representa o valor mais repetido nessa sequência.
Podemos observar que o número quatro se repetiu 3 vezes, o número 5 apareceu 2
vezes e os demais somente 1 vez, ou seja, a moda da sequência é 4.

2.3.2 Medidas de dispersão

Também conhecida como medida de variabilidade, se trata de um conceito
estatístico que caracteriza o quanto os valores de um conjunto de dados se afastam
do valor central, como a média. De forma simplificada, ela indica a extensão em que
os valores individuais variam ou se espalham em torno da medida central. As medidas
de dispersão incluem: amplitude, variância, desvio padrão amostral e coeficiente de
variação.
A amplitude nada mais é que a diferença entre o valor máximo e o valor
mínimo, sendo expresso na seguinte equação:

𝐴 = max(𝑥) − min(𝑥)

Já a variância verifica o quadrado da variação dos dados em relação à média,
sendo considerada uma das medidas mais relevantes da dispersão em estatística. A
variância pode ser calculada pela seguinte fórmula:

σ2 =
∑(𝑥𝑖 − �̅�)²
𝑁 − 1

Onde:

σ2 = Variância
Σ = Soma
𝑥𝑖 = Valores individuais do conjunto de dados
�̅� = Média dos valores do conjunto de dados.
𝑁 = Número total de observações no conjunto de dados.

Por sua vez, o desvio padrão amostral (S) é representado pela raiz quadrada
da variância. A grandeza da interpretação do desvio padrão é mais intuitiva, já que
sua unidade de medida é a mesma da variável x e, por esse motivo, costuma ser
utilizado.
Por fim, o coeficiente de variação (CV) se trata de uma medida de dispersão
relativa. Ele manifesta a variabilidade em relação à média, tirando o efeito da
magnitude dos dados e costuma ser empregado para comparar duas ou mais
variáveis com unidades de medida diferentes. Podemos calcular o coeficiente de
variação através da seguinte fórmula:

𝐶𝑉 =
𝑆
�̅�

Onde:

CV = Coeficiente de variação.
S = Desvio padrão amostral
�̅� = Média

Para melhor compreensão, vamos apresentar o seguinte exemplo: na última
vistoria realizada por agentes de fiscalização em um restaurante, eles mensuraram o
peso de 10 bifes vendidos como um bife de 200 gramas. Foram coletadas as seguintes
medidas:

X = [170, 175, 180, 185, 190, 195, 200, 200, 200, 205]

Com isso, devemos analisar para ver se tem alguma irregularidade nos bifes
vendidos por esse restaurante. Primeiramente, devemos calcular a média:

�̅� =
170 + 175 + 180 + 185 + 190 + 195 + 200 + 200 + 200 + 205
10
= 190

Em seguida, calculamos a amplitude: podemos observar que o menor valor é
170 e o maior é 205, com isso, substituímos os valores em sua respectiva fórmula:
A = 205 – 170 = 35 gramas

Partindo para a variância, devemos substituir os valores em sua respectiva
fórmula, lembrando que o xi corresponde a cada peso mensurado na sequência:

σ² = (170 – 190)² + (175 – 190)² + (180 – 190)² + (185 – 190)² + (190 – 190)² +
(195 – 190)² + (200 – 190)² + (200 – 190)² + (200 – 190)² + (205 – 190)² / (10 – 1) =
144,44

Quando colocamos a raiz quadrada da variância, poderemos obter o desvio
padrão, que é 12,02. Por fim, vamos calcular o coeficiente de variação substituindo os
valores em sua respectiva fórmula:

𝐶𝑉 =
12,02
190
= 0,06

Quando fabricamos um produto em específico, algumas medidas ou pesos
podem variar um pouco, desde que essa variação esteja dentro da normalidade.
Avaliando os resultados desse caso, percebemos que os bifes possuem um
coeficiente de variação muito alto, o que nos leva à conclusão que eles não estão
dentro do padrão e, consequentemente, os clientes estão sendo enganados.

3 AMOSTRA QUANTITATIVA E QUALITATIVA
Antes de entrarmos no conceito de amostra quantitativa e qualitativa,
precisamos diferenciar população e amostra. Uma população consiste em um grupo
de seres, indivíduos ou objetos que possuem, ao menos, um aspecto em comum entre
seus elementos, enquanto uma amostra se trata de um subgrupo selecionado dessa
população, como podemos observar na imagem 1. Desse modo, precisamos perceber
essa mesma característica comum tanto na população quanto na amostra escolhida
para a pesquisa.

Imagem 1 – Diferença entre amostra e população

Fonte: https://iplogger.com/2dQb04

Quando escolhemos indivíduos de uma população com um aspecto específico,
com o intuito de colher dados, estamos fazendo um senso, que usa medidas
numéricas denominadas parâmetros. Se escolhermos alguns aspectos de uma
amostra para fins de pesquisa, estamos fazendo uma amostragem, que usa medidas
numéricas denominadas estimadores ou estatísticas.
São diversas as formas de selecionar sua amostra, assim como existem vários
usos para os dados coletados, uma vez que podemos nos aprofundar mais nesses
dados conforme a amostra utilizada. Podemos classificar as amostras em qualitativas
e quantitativas, que possuem diferenças em relação à profundidade dos
levantamentos e à metodologia da coleta de dados.
Em relação às amostras qualitativas, seus dados costumam ter uma
profundidade maior, pois as observações e os questionamentos são mais detalhados,

com poucas unidades amostrais avaliadas, é por esse motivo que as amostras
qualitativas não podem abrir margem para generalizar a população.
Gibbs (2009) afirma que esse tipo de pesquisa pretende verificar como é o
mundo, procurando descrever, compreender e, por vezes, justificar fenômenos sociais
que surgem em nossa sociedade de várias formas diferentes. Ela é feita verificando
interações, avaliando experiências e investigando documentos.
Por sua vez, as amostras quantitativas costumam generalizar os dados
coletados das amostras, uma vez que as informações são mais resumidas, deixando
a possibilidade de realizar resumos numéricos mais confiáveis e, por esse motivo,
podemos fazer essa generalização, desde que a amostra seja probabilística.
Com isso, devemos decidir adotar amostras qualitativas ou quantitativas com
base em alguns fatores, como:

➢ Objetivos da pesquisa;
➢ Tempo disponível;
➢ Avaliações finais que quer fazer;
➢ Resultado desejado;
➢ Hipóteses da pesquisa;
➢ População selecionada;
➢ Recursos financeiros disponíveis;
➢ Disponibilidade das unidades amostrais.

Tais fatores devem ser verificados pelo próprio pesquisador. A seleção do
melhor processo de amostragem precisa estar intimamente ligada à escolha da
hipótese da pesquisa e da população-alvo, que irão direcionar as demais escolhas do
estudo em questão.
A seleção da população que vai ser analisada, do local e do período de coleta
será essencial, já que o delineamento amostral e os aspectos em comum começam a
ser definidos conforme os objetivos selecionados. No entanto, nem sempre temos
uma descrição detalhada de nossas unidades amostrais, o que irá limitar o uso de
determinadas técnicas pelo fato de não sabermos como localizar ou identificar os
aspectos que a compõem e nem o tamanho exato de nossa população.
Outro fator muito relevante é o resultado que desejamos, ou seja, as

extrapolações e avaliações que almejamos realizar com essa amostragem, pois será
a partir disso que iremos definir as variáveis a serem pesquisadas, como será o
processo de coleta de dados e como eles serão avaliados depois de coletados. Todos
os fatores precisam ser considerados na seleção do tipo de amostragem que iremos
empregar.
A escolha de uma amostra quantitativa ou qualitativa está intimamente ligada a
esses e outros fatores. Em alguns casos, podemos fazer os dois tipos de amostragem,
como em pesquisas com um problema que não temos muito conhecimento. Nesse
contexto, podemos realizar uma pesquisa qualitativa para compreender o perfil da
população e, com base nisso, iniciar uma pesquisa quantitativa, coletando os dadosnecessários para extrapolar toda a população.
Em suma, as pesquisas quantitativas terão questões fechadas e estruturadas
que serão, majoritariamente, objetivas, enquanto as pesquisas qualitativas terão
questionamentos, perguntas e observações com respostas discursivas. Vale ressaltar
que as observações ou os questionamentos da pesquisa dizem respeito a suas
variáveis e, por esse motivo, devem ser bem pensadas para alcançar os objetivos
pretendidos no começo da pesquisa.
Geralmente, as pesquisas qualitativas aprofundam mais nas questões da
pesquisa para fins avaliativos, tendo como resultado análises mais descritivas das
variáveis pesquisadas. Por sua vez, as pesquisas quantitativas proporcionam
resumos gráficos, numéricos e estatísticas, podendo nos fornecer inferências para
toda a população caso as respostas sejam obtidas de modo aleatório.
3.1 Amostras representativas
O princípio de uma amostra é que ela precisa apresentar os mesmos aspectos
particulares da população pesquisada. A título de exemplo, vamos imaginar que
estamos entrevistando brasileiros que vivem no território nacional, nesse caso, não
podemos entrevistar um amigo que é brasileiro, mas vive fora do país. Desse modo,
devemos entrevistar apenas indivíduos com nacionalidade brasileira e que morem no
Brasil no período em que a pesquisa for realizada.
Precisamos redobrar nossa atenção para que a amostra consiga representar
toda a população. Para isso, ela precisa apresentar os mesmos aspectos

determinados para delimitar a população-alvo da pesquisa. A seleção de uma amostra
quantitativa ou qualitativa pode também definir se a amostra será ou não
representativa. Devemos ter em mente que uma amostra qualitativa não é capaz de
gerar uma amostra representativa pelos seguintes motivos:

➢ A amostra selecionada em uma pesquisa qualitativa não costuma ser muito
numerosa, ou seja, não será grande o suficiente para ter uma
representatividade fidedigna da população;
➢ Uma amostra qualitativa possui questionamentos realizados de modo descritivo
e mais profundo, o que não abre margem para generalização, sem falar que os
dados coletados são válidos para um pequeno número de informações, na
maioria das vezes.

Por sua vez, as amostras quantitativas podem ou não ser representativas da
população pesquisada, dependendo da forma com que a amostra foi selecionada, ou
seja, de seu delineamento amostral. Apenas as amostras quantitativas probabilísticas
podem ser representativas para uma população, além disso, precisa ser selecionada
de modo imparcial e não pode ser tendenciosa.
Uma amostra pode ser considerada probabilística quando cada indivíduo da
população tem uma probabilidade diferente de zero de ser selecionado para a
amostra. Por outro lado, em uma amostra não probabilística, a seleção dos indivíduos
dependerá, em grande parte, do julgamento do pesquisador. Resumidamente,
podemos definir esses métodos da seguinte maneira:

➢ Amostragem probabilística: Todos os componentes de uma população
possuem a mesma chance de serem selecionados, podendo ser por sorteio ou
de modo aleatório, independente do julgamento do pesquisador, o que permite
a aplicação de técnicas estatísticas. Com isso, podemos induzir ou inferir algo
sobre a população dependendo do resultado da pesquisa.
➢ Amostragem não-probabilística: Aqui, a seleção dependerá dos aspectos
apresentados pelos componentes da população, o que não abre margem para
generalizar o resultado da pesquisa para toda a população.

Com isso, podemos afirmar que somente uma amostra quantitativa
probabilística será representativa para a população pesquisada, permitindo que
façamos inferências, isto é, extrapolar os resultados para a população inteira
embasado na amostra. Apenas amostras probabilísticas permite fixarmos a
probabilidade de erro que a amostra consegue gerar, bem como a margem de erro
média e de erro percentual que cometemos ao coletar dados de uma amostra no lugar
da população inteira.
A possibilidade de erro demonstra o nível de confiança dos dados. Para
exemplificar, vamos considerar uma pesquisa com nível de confiança de 95%, isso
nos informa que a probabilidade dos dados coletados realmente condizerem com a
população pesquisada, levando em conta a margem de erro, é de 95%.
Nesse sentido, muitos podem se perguntar o porquê de existirem outros tipos
de amostragem se apenas as amostras probabilísticas quantitativas abrem margem
para termos inferências da população, além de fixar uma margem de erro e
proporcionar uma boa probabilidade dos resultados refletirem a realidade. Um fator
que devemos considerar é que nem sempre os objetivos da pesquisa permitem
realizar uma amostra quantitativa probabilística, uma vez que não tem a intenção de
fazer extrapolações.
A amostra qualitativa, por exemplo, nos proporciona um panorama do
comportamento da população quando não temos os dados necessários para formular
uma hipótese de pesquisa ou tomar qualquer tipo de decisão. Em alguns casos, uma
amostra quantitativa não probabilística é a única alternativa de pesquisa quando não
podemos adotar uma metodologia de coleta aleatória por causa da dificuldade de
acesso às unidades amostrais ou por outras limitações que podem aparecer.
Obviamente, isso não indica que o resultado está incorreto, no entanto, um
resultado como o da amostra quantitativa não probabilística será condizente apenas
com a amostra selecionada, não abrindo margem para uma inferência para toda a
população, já que não temos conhecimento da margem de erro dos dados coletados.
Algumas pesquisas quantitativas que adotam o método não probabilístico
costumam ter amostragem por quotas, onde os integrantes da amostra precisam
apresentar algumas características consideradas úteis para o pesquisador, como
escolaridade, sexo e renda. Considerando os métodos de seleção não probabilístico,
esse costuma proporcionar os resultados mais satisfatórios.

Outro exemplo muito empregado é a amostragem bola de neve, onde as
unidades amostrais são selecionadas por indicação, isto é, cada entrevistado indica
um amigo para responder à pesquisa, gerando uma rede de respostas. Além disso,
também usamos a escolha racional, onde a seleção das unidades amostrais é
induzida por algum aspecto importante para a hipótese da pesquisa.
Atualmente, a amostragem por voluntários, que também não é probabilística, é
uma forma rápida e fácil de coletar dados. Para realizar esse método, podemos
publicar os questionários nas redes sociais ou enviá-los por e-mail, desse modo, cada
respondente será um voluntário, no entanto, não foram selecionados de forma
aleatória pelo fato de estarem presentes em seu círculo social.
3.2 Tipos de amostragem qualitativa
Como vimos no tópico anterior, as amostras qualitativas são úteis quando
queremos conhecer profundamente um grupo de seres, indivíduos ou objetos, sendo
empregadas também quando queremos coletar dados mais detalhados sobre um
tema, dependendo de nossos objetivos.
Flick (2009) explana que, diferentemente da pesquisa quantitativa, a
metodologia qualitativa é dependente da comunicação do pesquisador de campo para
produzir o conhecimento almejado, não sendo considerado como um componente útil
para o processo. A subjetividade tanto dos entrevistados quanto do pesquisador são
parte integrante do processo de pesquisa.
Dentre os métodos de amostragem mais usados em uma pesquisa qualitativa,
podemos citar a pesquisa de cliente oculto, os grupos focalizados e a pesquisa por
observação. O método dos grupos focalizados procura uma pessoa com um perfil
específico para responder às perguntas e proporcionar o maior número de
informações possível.
Barbour (2009) afirma que o método é baseado em avaliar e gerar a interação
entre os participantes ao invés de fazer o mesmo grupo de perguntas para cada
integrante da amostra,o que chamamos de entrevista de grupo. Essa metodologia é
feita com pequenos grupos instigados por um mediador, segue um roteiro e tenta fazer
com que o grupo responda às perguntas com riqueza nos detalhes.
A título de exemplo, vamos imaginar que temos a intenção de lançar uma água

mineral flavorizada direcionada ao público fitness. Para isso, podemos começar
fazendo um teste cego com alguns sabores experimentais e, a partir disso, observar
as percepções do grupo.
Logo após, iremos demonstrar várias embalagens e perguntar qual o
participante considera mais atrativa e quais motivos o levaram a chegar nessa
conclusão, além de fazer outros questionamentos para melhorar a investigação. Os
resultados do método de grupo focalizado proporcionam respostas com detalhes
muito ricos, que podem ser úteis para uma boa tomada de decisão, possibilitando
também a realização de uma pesquisa quantitativa com um número mais assertivo de
opções para o teste.
Por sua vez, a metodologia do cliente oculto usa pesquisadores se passando
por clientes para verificar tanto o atendimento de concorrentes quanto o próprio
atendimento, permitindo até uma comparação entre ambos os atendimentos.
Para exemplificar, vamos imaginar que queremos saber o porquê de algumas
lojas em uma rede específica possuem um faturamento maior que as demais, para
isso, o entrevistador finge ser um cliente e avalia alguns fatores capazes de influenciar
na escolha da loja, como o atendimento, a limpeza do ambiente, a acessibilidade, as
características físicas dos vendedores e outros fatores.
O pesquisador precisa se atentar aos detalhes e ter a capacidade de relatar
cada elemento observado no roteiro depois da visita, possibilitando a produção de um
relatório comparativo entre as filiais da rede de lojas em questão.
Por fim, a pesquisa por observação possui um nome autoexplicativo, isto é,
precisamos observar de perto as amostras selecionadas para coletar dados. Como
exemplo, vamos imaginar que queremos verificar os hábitos alimentares de um bairro
popular, nesse caso, precisamos pedir permissão para os moradores e entrar em suas
casas para observar seus dados, como altura e peso, bem como solicitar alguns
exames para verificar distúrbios metabólicos e observar as comidas presentes em
suas geladeiras e armários.
De forma semelhante à amostragem quantitativa, o método selecionado deve
estar consoante com os objetivos da pesquisa. Podemos observar na tabela 1 uma
comparação resumida dos tipos de amostragem.

Tabela 1 – Amostras qualitativas e quantitativas
Amostragem
Tamanho da
amostra
Forma de coleta
Tipos de
resultado
Quantitativa
probabilística
Varia conforme a
margem de
confiança e erro,
desde que seja um
número
representativo da
população
Seleção aleatória
ou sorteio
Estatísticas, dados
quantitativos,
tabelas, resumos
numéricos,
gráficos.
Confiança e erro
fixados e faz
inferência para a
população
Quantitativa não
probabilística
Um número
representativo da
população
Seleção não
aleatória, depende
do julgamento do
pesquisador
Dados
quantitativos,
tabelas, resumos
numéricos,
gráficos. Não faz
inferência para a
população
Qualitativa
Uma amostra com
poucos integrantes
Seleção não
aleatória, depende
do julgamento do
pesquisador
Dados qualitativos,
com mais
profundidade na
avaliação. Não faz
inferência para a
população
Fonte: Elaborada pelo autor

4 REGRESSÃO LINEAR
Vamos imaginar que temos dados relacionados com duas variáveis e, com
base neles, poderemos identificar uma equação ou relação para caracterizar esses
dados, possibilitando fazer previsões referentes aos dados originais. Tal relação pode
ser quadrática, linear ou exponencial, sendo feitas com base nos gráficos dessas
variáveis, com isso, precisamos ajustar uma curva nos gráficos.
Vamos nos atentar à imagem 1 para observar um exemplo de aproximação
linear a partir da avaliação da dispersão de dados peso versus altura e outro de
aproximação não linear com base na dispersão de dados quantitativos do número de
apresentação versus tempo.

Imagem 1 – Aproximação linear e não linear em gráficos de dispersão

Fonte: Adaptado de Spiegel e Stephens (2009)

Na imagem 2, podemos ver exemplos de equações que podem ser usadas em
modelos polinomial e linear. As letras X e Y representam as variáveis dependentes e
independentes, respectivamente. Por sua vez, o an representa as constantes,
denominadas coeficientes, onde n é um número igual ou superior a 0.

Imagem 2 – Equações para modelar dados

Fonte: Adaptado de Spiegel e Stephens (2009)

Segundo Freund (2007), a regressão linear utiliza equações lineares para fazer
previsões e ajustar os dados, formadas por:

y = a + bx

Onde:

a = constante que representa o corte na reta do eixo y, também chamada de
intercepto, isto é, o valor de y quando x = 0.
b = constante referente à inclinação da reta.

Com base em uma reta estimada, podemos fazer as previsões, isto é, quando
consideramos um valor x relacionado com os valores originais, podemos calcular o
valor estimado de y.
4.1 Interpolação e regressão
No tópico anterior, conseguimos observar na imagem 1 que os pontos são
aproximados por uma função matemática em específico, o que permite identificar uma
equação que se adeque melhor aos pontos. A curva não passa, obrigatoriamente, por

todos os pontos, mesmo que seja traçada a melhor curva possível.
Podemos conceituar a interpolação como um processo que permite a criação
de novos dados com base em dados discretos. Justo et al. (2020) afirmam que o intuito
da interpolação é identificar os dados que faltam entre os pontos dados, possibilitando
criar funções interpoladas no conjunto de dados para conectar os pontos dados. Na
imagem 3, podemos observar exemplos de regressão linear (a), interpolação linear
(b) e polinomial de pontos de dados (c).

Imagem 3 – Exemplos de retas com pontos dados

Fonte: Adaptado de Chapra e Canale (2016)

Veja que a interpolação também aproxima os pontos, no entanto, deve passar,
necessariamente, por todos, criando uma curva de dados. A partir dela, também é
possível inferir valores de y com base em valores de x diferentes dos pontos dados
iniciais.
Chapra e Canale (2016) explanam que existem duas abordagens para ajustar
as curvas. A primeira abordagem é chamada de regressão por mínimos quadrados,
que possui uma grande chance de erro ou “ruído”, seu objetivo é identificar uma curva
de tendência. A segunda abordagem é a interpolação, onde os dados são

considerados mais precisos, pois é capaz de ajustar as curvas que passam por todos
os pontos.
4.2 Ajustando uma reta
Neste tópico, iremos aprender a encontrar a melhor reta para ajustar os dados
de interesse. O processo mais usado para identificar essa reta é o método de mínimos
quadrados e, para melhorar sua compreensão, vamos citar um exemplo.
Vamos imaginar que existem duas variáveis, uma de alcance auditivo de
indivíduos expostos a ruídos altos e uma de tempo de exposição. Os dados em
questão podem ser observados na tabela 1.

Tabela 1 – Alcance auditivo e número de semanas
Número de semanas (x) Alcance auditivo (y)
47 15,1
56 14,1
116 13,2
178 12,7
19 14,6
75 13,8
160 11,9
31 14,8
12 15,3
164 12,6
43 14,7
74 14,0
Fonte: Adaptado de Freund (2007)

Com os dados listados, podemos construir um gráfico de dispersão, como
mostrado na imagem 4. Com base nesse gráfico, podemos verificar quais dados
seguem um comportamento linear. Nesse contexto, uma reta serviria como um bom
modelo.

Imagem 4 – Gráfico de dispersão de dados

Fonte: Adaptado de Freund (2007)

Logo após, precisamos identificar a melhor reta para os pontos dados. Se
pegarmos uma régua para traçarretas, provavelmente teríamos diversas retas
encaixadas perto dos pontos, como mostra a imagem 5. Com isso, precisamos do
método de mínimos quadrados, onde usamos a propriedade mínima à soma dos
quadrados das distâncias verticais dos pontos para identificar a melhor reta.

Imagem 5 – Gráfico de dispersão de dados com retas próximas aos pontos

Fonte: Adaptado de Freund (2007)

Na imagem 6, temos duas possíveis retas ajustadas a quatro pontos, onde os
números representam a distância entre as retas e os pontos. Desse modo, quando
usamos a reta para prever os valores de y a partir dos dados de x, teríamos uma
diferença entre os valores previstos pelas retas e os valores reais, isto é, os pontos

dados.
Quando somamos os erros para a reta horizontal, teríamos como resultado – 3
+ 1 – 3 + 5 = 0, enquanto na segunda reta seria 0 + 1 – 5 + 0 = - 4. Mesmo que o erro
para a reta horizontal tenha sido 0, podemos observar que os pontos estão a uma boa
distância da reta. Em relação à segunda reta, sua margem de erro é numericamente
maior que a primeira, mesmo com os pontos estando, visualmente, mais adequados
para a reta.

Imagem 6 – Retas ajustadas aos pontos

Fonte: Adaptado de Freund (2007)

Para compreendermos melhor, vamos usar a soma dos quadrados da
distância:

(- 3)² + 1² + (- 3)² + 5² = 44 e 0² + 1² + (- 5)² + 0² = 26

Com isso, temos um valor menor para a segunda reta, se ajustando melhor aos
dados. Nesse contexto, podemos afirmar que o método dos quadrados mínimos tem
o intuito de reduzir o erro quadrático entre a reta (denominada reta dos quadrados
mínimos) e os dados.
Agora, iremos observar como encontrar a reta ideal a partir do exemplo a
seguir. Vamos supor que a reta ideal, dada por ŷ = a + bx, onde o número de pontos
dados são escritos como pares x e y. A soma da diferença quadrática entre a reta e
os dados fica representada na seguinte equação:

∑(𝑦 − ŷ)2 = ∑[𝑦 − (𝑎 + 𝑏𝑥)]²

Onde:
∑ = Símbolo da soma;
y = Variável dependente, isto é, aquela que precisamos prever ou explicar;
ŷ = Valor previsto ou estimado da variável dependente;
a = Interceptação da reta de regressão;
b = Inclinação da reta;
x = Variável independente que usaremos para prever o valor de y.

Desse modo, precisamos encontrar os valores das constantes a e b que
diminuam o erro quadrático. Podemos observar um esquema com os valores das
variáveis na imagem 7.

Imagem 7 – Representação das variáveis

Fonte: Adaptado de Freund (2007)

Resolvendo esse sistema, podemos encontrar o valor das constantes a e b.
Desse modo, dadas as quantidades:

𝑆𝑥𝑥 = ∑x
2 −
1
𝑛
(∑x)²

𝑆𝑥𝑦 = ∑xy −
1
𝑛
(∑x)(∑y)

As constantes são dadas por:

𝑏 =
𝑆𝑥𝑦
𝑆𝑥𝑥

𝑎 =
∑𝑛𝑦 − 𝑏(∑𝑛𝑥)
𝑛

Agora vamos retornar ao exemplo inicial: em relação ao alcance auditivo,
vamos definir a reta de mínimos quadrados. Com os somatórios, teremos ∑x = 975,
∑x² = 117.397, ∑xy = 12.884,4 e ∑y = 166,8, sendo x, x², xy e y as colunas da tabela
2 e ∑ a soma de cada coluna. Vale ressaltar que podemos fazer essa soma no Excel.

Tabela 2 – Somas dos dados (o resultado está em negrito)
x y x² xy
47 15,1 2209 709,7
56 14,1 3136 789,6
116 13,2 13456 1531,2
178 12,7 31684 2260,6
19 14,6 361 277,4
75 13,8 5625 1035
160 11,9 25600 1904
31 14,8 961 458,8
12 15,3 144 183,6
164 12,6 26896 2066,4
43 14,7 1849 632,1
74 14,0 5476 1036
975 166,8 117397 12884,4
Fonte: Adaptado de Freund (2007)

Com os somatórios calculados, vamos obter os seguintes valores (ressaltando

que n é o número de dados coletados que, nesse caso, é igual a 12):
𝑆𝑥𝑥 = 117397 −
1
12
(975)2 = 38178,25

𝑆𝑥𝑦 = 12884,4 −
1
12
(975)(166,8) = −668,1

Por meio desse cálculo, podemos definir o valor das constantes:

𝑏 =
−668,1
38178,25
≈ −0,0175

𝑎 =
166,8 − (−0,01175)(975)
12
≈ 15,3

Como vimos anteriormente, a equação da reta de mínimos quadrados é ŷ = a
+ bx que, substituindo os valores, fica sendo:

ŷ = 15,3 − 0,0175𝑥

Com a reta mínima de quadrado determinada, podemos prever os valores do
alcance auditivo considerando o número de semanas. A título de exemplo, vamos
imaginar que queremos saber o alcance auditivo relacionado com 300 semanas, para
isso, substituímos o x por 300 e, com isso, a equação será montada da seguinte forma:

ŷ = 15,3 − 0,0175𝑥300 = 15,3 − 5,25 = 10,5

Ou seja, o valor previsto do alcance auditivo é de 10,5.

4.2.1 Quantificando o erro na regressão linear

Para identificar a melhor reta, usamos a soma dos quadrados das diferenças,
conhecido também como a soma dos quadrados dos resíduos, representado pelo S:

𝑆𝑟 = ∑(𝑦 − ŷ)² = ∑[𝑦 − (𝑎 + 𝑏𝑥)]²

Com base nessa medida, podemos calcular o desvio-padrão para a reta
determinada, sendo representado pela seguinte fórmula:

𝑆𝑦/𝑥 = √
𝑆𝑟
𝑛 − 2

Onde o Sx/y é denominado “erro de padrão de estimativa”, que representa a
dispersão em torna da reta de regressão, bem parecido com o que temos ao calcular
a dispersão em torno da reta.
Com base nesses conceitos, podemos definir a precisão do ajuste feito, o que
também possibilita comparar várias regressões. Sendo assim, usaremos duas
quantidades, representadas por Sr e St, este último diz respeito à soma dos quadrados
dos resíduos entre a média (�̅�) e os pontos dados (y), isto é:

𝑆𝑡 = ∑(𝑦 − �̅�)²

Considerando esses valores, precisamos calcular o coeficiente de
determinação r², onde r representa o coeficiente de correlação. Podemos fazer isso
com a seguinte fórmula:

𝑟2 =
𝑆𝑡 − 𝑆𝑟
𝑆𝑡

O padrão descrito representa a redução do erro resultante do ajuste da reta.
Caso seja um ajuste perfeito, isto é, Sr = 0 e resultar em r = r² = 1, isso significa que a
reta justifica toda a variação de dados.
Agora, vamos citar um exemplo da aplicação desse ajuste calculando o
coeficiente de determinação para o alcance auditivo. Em primeiro lugar, precisamos
calcular o Sr e o St de acordo com a tabela 3.

Tabela 3 – Dados e somatório (em negrito)
x y y – �̅� (y – �̅�)² ŷ y - ŷ (y – ŷ)²
47 15,1 1,2 1,44 14,48 0,62 0,39
56 14,1 0,2 0,04 14,32 - 0,22 0,05
116 13,2 - 0,7 0,49 13,27 - 0,07 0,00
178 12,7 - 1,2 1,44 12,19 0,51 0,27
19 14,6 0,7 0,49 14,97 - 0,37 0,14
75 13,8 - 0,1 0,01 13,99 - 0,19 0,04
160 11,9 - 2 4 12,50 - 0,60 0,36
31 14,8 0,9 0,81 14,76 0,04 0,00
12 15,3 1,4 1,96 15,09 0,21 0,04
164 12,6 - 1,3 1,69 12,43 0,17 0,03
43 14,7 0,8 0,64 14,55 0,15 0,02
74 14,0 0,1 0,01 14,01 - 0,01 0,00
St = 13,02 Sr = 1,33
Fonte: Adaptado de Freund (2007)

Agora, iremos calcular o coeficiente da seguinte forma:

𝑟2 =
13,02 − 1,33
13,02
= 0,8975 𝑥 100 = 89,75%

Desse modo, 89,75% da incerteza original foi explicada pelo modelo linear.

5 NÍVEIS DE CONFIANÇA
Primeiramente, vamos relembrar alguns conceitos abordados nas aulas
anteriores, como o de estatística, também conhecida como estimativa ou estimador,
que consiste em uma medida numérica de uma amostra.
Por sua vez, o parâmetro se trata de uma medida numérica da população.
Algumas amostras nos permite estimar determinados valores na população, isto é,
conseguimos inferir um parâmetro populacional com base em uma estimativa.
A título de exemplo, vamos imaginar que temos em uma amostra uma quantia
considerável de clientes de um banco e calculamos a média do saldo que possuem
em sua conta-corrente. Essa média amostral tem como propósito estimar a média
populacional do saldo em conta-corrente.
Quando calculamos uma proporção ou média baseada em uma amostra,
conseguimos chegar a um valor. Podemos conceituar esse valor como estimador
pontual, isto é, uma estimação por ponto. Chamamos essa medida assim pelo fato de
ter um único valor para representar a medida numérica de uma amostra, como umaproporção ou uma média, por exemplo.

Imagem 1 – Parâmetros e estimadores

Fonte: https://iplogger.com/2rG6P7

Para calcular a média amostral de forma pontual, devemos somar todos os
valores presentes na amostra e dividir essa soma pelo número de elementos, com
base na seguinte fórmula:

�̅� =
∑ 𝑥𝑖
𝑛

Onde:

�̅� = média amostral;
xi = cada elemento da amostra;
n = número de elementos presentes na amostra.

Já a proporção amostral pode ser encontrada quando dividimos os casos
favoráveis do que estamos pesquisando pelo número de elementos da amostra,
através da seguinte fórmula:

𝑝 =
𝑥
𝑛

Onde:

p = proporção amostral;
x = quantidade de casos favoráveis;
n = número de elementos da amostra.

No entanto, a estimativa por intervalo, também conhecida como intervalo de
confiança, costuma ser mais útil que uma estimativa pontual. Não temos apenas um
valor pontual em um intervalo de confiança, ao invés disso, calculamos um intervalo
com a possibilidade de encontrarmos o verdadeiro valor do parâmetro populacional
nele.
Voltando ao exemplo da média de saldo bancário, não teríamos um valor único,
e sim um intervalo de valores contendo uma margem de erro bem estabelecida, que
permite termos a verdadeira média dos clientes cadastrado no banco em questão.
Para calcular a estimativa por intervalo, não consideramos apenas a estimativa
pontual, também levamos em conta uma margem de erro para identificarmos o

verdadeiro valor do parâmetro populacional. Podemos observar na imagem 2 um
intervalo de confiança para a média.

Imagem 2 – Intervalo de confiança para a média

Fonte: Adaptado de Doane e Seward (2015)

Desse modo, usaremos a estimativa pontual e a confiança para o cálculo do
intervalo de confiança. Para obtermos uma boa estimativa, precisaremos de
estimadores não tendenciosos e não viciados e, para isso, usaremos amostras
probabilísticas para proporcionar uma estatística inferencial, isto é, serão válidos
apenas estimadores capazes de inferir os parâmetros populacionais quando
calculamos amostras com um tamanho tendendo ao infinito ou amostras extraídas
através do método probabilístico.
5.1 Cálculo do intervalo de confiança
O cálculo do intervalo de confiança exige o valor da estimativa pontual do
parâmetro pesquisado, também precisamos ter a tabela de distribuição normal,
também conhecida como tabela t-student, com o intuito de obter os valores
padronizados do coeficiente de confiança escolhido.
Partimos do pressuposto que as amostras foram coletadas de populações que
sigam a distribuição normal ou que as amostras tenham um tamanho suficiente para
usarmos o teorema do limite central e empregarmos os coeficientes de confiança.
Levando em conta o desvio-padrão populacional conhecido, o intervalo de confiança
da média populacional conhecido é:

�̅� ± 𝑧𝑎/2.
𝜎
√𝑛

Ou seja:

�̅� − 𝑧𝑎/2.
𝜎
√𝑛
≤ 𝜇 ≤ �̅� + 𝑧𝑎/2.
𝜎
√𝑛

Onde:

�̅� = média amostral;
za/2 = coeficiente de confiança associado à norma padrão;
𝜎 = desvio-padrão populacional;
n = número de elementos em uma amostra.

Geralmente, não conseguimos obter o valor do desvio-padrão populacional,
sendo assim, calculamos apenas o desvio-padrão amostral. Desse modo, teremos um
intervalo de confiança para a média quando não sabemos o valor do desvio-padrão
populacional.
Doane e Seward (2015) afirmam que a distribuição t-student deverá ser
empregada no lugar da distribuição normal padrão caso a população seja normal e o
desvio-padrão populacional seja desconhecido. Isso será muito útil caso a amostra
seja pequena.

�̅� ± 1𝑎/2.
𝑠
√𝑛

Ou seja:

�̅� − 𝑡𝑎/2.
𝑠
√𝑛
≤ 𝜇 ≤ �̅� + 𝑡𝑎/2.
𝑠
√𝑛

Onde:
�̅� = média amostral;
ta/2 = coeficiente de confiança associado à distribuição t-student;
s = desvio-padrão populacional;
n = número de elementos da amostra.

Imagem 3 – Intervalo de confiança para a média

Fonte: Adaptado de Doane e Seward (2015)

Os autores complementam dizendo que o teorema do limite central também
podem ser usados em uma proporção amostral, pois a proporção consiste em uma
média de dados, onde os únicos valores são 0 ou 1. Em relação à proporção, o
teorema diz que a distribuição de uma proporção amostral tende à normalidade à
medida que o valor cresce.
Levando em conta que é possível a proporção amostral de uma distribuição
normal, iremos calcular o intervalo de confiança visando estimar a proporção
populacional da seguinte maneira:

𝑝 ± 𝑧𝑎/2. √
𝑝. (1 − 𝑝)
𝑛

Ou seja:

𝑝 − 𝑧𝑎/2. √
𝑝. (1 − 𝑝)
𝑛
≤ 𝜋 ≤ 𝑝 + 𝑧𝑎/2. √
𝑝. (1 − 𝑝)
𝑛

Onde:

p = proporção amostral;
za/2 = coeficiente de confiança associado à norma padrão;
n = número de elementos da amostra.
5.2 Níveis de Confiança
Navidi (2012) conceitua um nível de confiança como uma proporção de todas
as amostras possíveis usadas para que o intervalo de confiança consiga representar
o valor real.
Sendo assim, quando determinamos o coeficiente de confiança, estamos
definindo a possibilidade de estarmos calculando um intervalo com o verdadeiro valor
do parâmetro com uma probabilidade conhecida de acertarmos. Frequentemente,
usamos níveis de confiança por intervalo de 90%, 95% e 99%, considerando que o
nível de confiança é diretamente proporcional ao tamanho do intervalo, como
podemos observar na tabela 1.

Tabela 1 – Valores frequentemente usados da norma padrão
Níveis de confiança a 1 - a a/2 za/2
90% 0,10 0,90 0,05 1,645
95% 0,05 0,95 0,025 1,960
99% 0,01 0,99 0,005 2,576
Fonte: Elaborada pelo autor

Podemos usar esses valores não só para a distribuição normal padrão, como
também para a distribuição t-student, no entanto, esta última exige o cálculo dos graus
de liberdade para conseguirmos identificar o valor correspondente.

𝐺𝐿 = 𝑛 − 1

Onde:

GL = graus de liberdade;
n = tamanho da amostra.

A aproximação da distribuição t-student aos valores da distribuição padrão
normal aumenta proporcionalmente ao tamanho da amostra, como podemos observar
na última linha da tabela presente na imagem 4, quando o tamanho da amostra tende
ao infinito, teremos os mesmos valores da tabela normal padrão.

Imagem 4 – Tabela de distribuição t-student

Fonte: https://iplogger.com/2dYP44

Além disso, o coeficiente de confiança é diretamente proporcional aos valores
tabelados, ou seja, as estimativas por intervalo crescem com o aumento do nível de
confiança. Desse modo, o crescimento do intervalo aumenta as chances de

acertarmos o valor do verdadeiro parâmetro populacional.
Para exemplificar essa situação, vamos voltar à média do saldo bancário dos
clientes de um banco. Vamos supor que a média do saldo seja de R$ 1958,00 e que
o desvio-padrão seja de R$ 697,00. Tais estimativas correspondem aos dados
extraídos de uma amostra que contém 90 clientes do banco. Agora, vamos calcular o
intervalo de confiança com os níveis de 90%, 95% e 99% de confiança. Em relação
aos valores, temos:

�̅� = 1958
s = 697
n = 90
t0,05 = 1,645
t0,025 = 1,960
t0,005 = 2,576

Vale ressaltar que os três últimos valores foram empregados usando como
base a tabela 1. Em um nível de confiança de 90%, vamos usar a seguinte fórmula no
cálculo:

�̅� ± 𝑡𝑎/2.
𝑠
√𝑛

1958 − 1,645.
697
√90
= 𝟏𝟖𝟑𝟕, 𝟏𝟒 ≤ 𝜇 ≤ 1958 + 1,645.
697
√90
= 𝟐𝟎𝟕𝟖, 𝟖𝟔

Com isso, temos um intervalo de confiança entre 1837,14 e 2078,86. Agora,
vamos calcular o intervalo com um nível de confiança de 95% usando a mesma
fórmula.

1958 − 1,960.
697
√90
= 𝟏𝟖𝟏𝟒, 𝟎𝟎 ≤ 𝜇 ≤ 1958 + 1,960.
697
√90
= 𝟐𝟏𝟎𝟐, 𝟎𝟎

Nesse caso, o intervalo de confiança está entre 1814 e 2102. Por fim, iremos
calcular o intervalo com um nível de confiança de 99%.

1958 − 2,576.
697
√90= 𝟏𝟕𝟔𝟖, 𝟕𝟒 ≤ 𝜇 ≤ 1958 + 2,576.
697
√90
= 𝟐𝟏𝟒𝟕, 𝟐𝟔

Sendo assim, o intervalo de confiança fica entre 1768,74 e 2147,26. Observe
que o intervalo do parâmetro estudado aumentou junto com o nível de confiança
empregado.

6 ESTRUTURA DOS TESTES DE HIPÓTESE
Empregamos os testes estatísticos no ramo da estatística inferencial, com o
intuito de avaliar as hipóteses relacionadas com variância, médias, proporções e
outros. Podemos dividir esses testes em duas categorias, sendo elas a de testes não
paramétricos e a de testes paramétricos.
Em relação aos testes paramétricos, eles costumam ser usados quando
temos disponíveis determinadas variáveis quantitativas que possibilitam o cálculo de
intervalo de confiança. Além disso, também será necessária a existência da
normalidade de dados, que é necessária, geralmente, em amostras com mais de 30
elementos.
Já os testes não paramétricos não possuem tanta exigência e conseguem
englobar as variáveis qualitativas, uma vez que não é necessário conhecer a
distribuição de probabilidades que os dados seguem. Existem alguns contextos onde
os dados paramétricos não são aceitos e, com isso, podemos usar os testes não
paramétricos para variáveis quantitativas.
Não importa o teste estatístico empregado, sempre teremos as mesmas fases
para sua resolução. Nesse contexto, precisamos formular duas hipóteses, sendo uma
o oposto da outra, uma denominada hipótese nula (H₀) e outra chamada de hipótese
alternativa (H1).
Em ambos os testes, temos uma estatística de teste contendo um ou mais
cálculos matemáticos e teremos um cálculo diferente para cada teste. Os cálculos dos

testes paramétricos costumam ser um pouco menos complicados. Cada teste terá
uma tabela de distribuição de probabilidades associada para podermos determinar a
região crítica, onde a conclusão dependerá do resultado do teste nos passos
anteriores.

Tabela 1 – Passos para resolver um teste de hipóteses
1. Formular hipóteses
2. Calcular a estatística teste
3. Definir a região crítica
4. Concluir a respeito do teste
Fonte: Elaborada pelo autor
Os testes de hipóteses podem ser usados na comparação de um parâmetro
com uma estimativa, e até para comparar duas ou mais estimativas entre si. No caso
dos testes paramétricos, existem testes usados para uma, duas e ou mais de duas
médias.
6.1 Consequências dos tipos de erros
Por lidarmos com valores de médias, e não valores absolutos e únicos,
precisamos nos atentar sempre que fazemos um teste de hipótese. Isso porque
sabemos reconhecer a diferença numérica entre dois valores absolutos, no entanto,
não podemos dizer o mesmo quando analisamos tal diferença em uma amostra com
um tamanho específico que possui uma variabilidade e uma média.
Nesse contexto, existe a probabilidade de cometermos um erro de decisão,
como rejeitar uma hipótese verdadeira. Caso aceitamos uma hipótese nula e ela for
verdadeira, estamos tomando a decisão correta, isso também vale para o caso de
rejeitarmos uma hipótese nula que seja realmente falsa.
Entretanto, estaremos cometendo um erro quando recusamos uma hipótese
nula que seja verdadeira, configurando um erro do tipo I, também representado pelo
símbolo α. Um caso parecido acontece quando aceitamos uma hipótese nula que, na
verdade, é falsa, estaremos cometendo um erro do tipo II, simbolizado pela letra β.

Tabela 2 – Tipos de erros em um teste de hipótese

H₀ verdadeira H₀ falsa
H₀ aceita Decisão correta Erro tipo II (β)
H₀ recusada Erro tipo I (α) Decisão correta
Fonte: Elaborada pelo autor

Doane e Seward (2014) afirmam que nem sempre conseguimos diferenciar se
cometemos um erro do tipo II ou I, pois raramente obtemos informações perfeitas
relacionadas com uma situação verídica. Porém, podemos calcular a possibilidade de
tomarmos uma decisão errada por meio da estatística, diminuindo as chances de erro,
além de reunir uma quantidade considerável de evidências amostrais e escolher os
testes mais adequados.
Podemos utilizar algumas analogias para exemplificar os tipos de erros que
podemos cometer quando testamos duas hipóteses. Uma delas é o julgamento, como
na hipótese nula seja considerar um réu inocente, por consequência, a hipótese
alternativa é a do réu ser culpado. Nesse caso, o erro do tipo I se configura quando
condenamos um réu inocente e, em contrapartida, teremos um erro do tipo II quando
inocentamos um réu culpado. Em ambos os casos, estaríamos cometendo erros que
podem prejudicar tanto o próprio réu quanto a sociedade.
Partindo para outra analogia, vamos imaginar o lançamento de um
medicamento em uma indústria farmacêutica, onde a empresa investirá apenas no
medicamento com eficácia comprovada, ou seja, a hipótese nula será o medicamento
ser eficiente, enquanto a alternativa será o medicamento ineficiente. O erro tipo I irá
acontecer no caso de recusarmos um medicamento alegando sua ineficiência quando,
na verdade, ele é eficiente. Por sua vez, o erro tipo II acontecerá quando o lançamos
alegando sua eficiência, no entanto, o medicamento não é eficiente.
Para finalizar os exemplos, vamos imaginar uma agência bancária onde o
gerente concede crédito para qualquer cliente que ele julga ser um bom pagador, por
escores de crédito. Sendo assim, a hipótese nula representará um bom pagador,
enquanto a alternativa representa um mau pagador. O gerente cometerá um erro tipo
I caso não ceda crédito para um cliente que é bom pagador, em uma situação
parecida, pode cometer um erro tipo II caso ceda crédito para um cliente mau pagador.
Entre os dois erros, aquele considerado o mais importante para ser controlado
ou evitado é o erro tipo I, simbolizado pela letra α e reconhecido como o nível de

significância do teste estatístico aplicado. Seu complementar 1 – α ficou conhecido
como nível de segurança.
Podemos encontrar os valores para o nível de significância nas tabelas de
distribuição de probabilidades, que irão definir a região crítica, isto é, se devemos
rejeitar a hipótese nula ou se não temos evidências o bastante para recusá-la.
Vale ressaltar que a probabilidade de estarmos cometendo um erro tipo II não
é fixa, portanto, podemos cometê-lo ao aceitar uma hipótese nula. Sendo assim, não
podemos afirmar que aceitamos a hipótese nula com um nível de significância fixado,
já que esse tipo de erro não está na sentença.
Esse nível de significância irá definir a região crítica considerando as hipóteses
formuladas. Por meio de testes unilaterais, temos a probabilidade de rejeitar em
apenas uma das caudas da distribuição de probabilidade, levando em conta as
hipóteses formuladas. Em relação ao teste bilateral, teremos a possibilidade de rejeitar
nas duas caudas da distribuição, como podemos observar na imagem 1.

Imagem 1 – Regiões críticas conforme a distribuição normal

Fonte: Adaptado de Freund (2006)

O teste de hipótese também engloba reconhecer o tipo de erro, que consiste
em determinar o nível de significância do teste e isso acontece junto com a definição
das hipóteses, antes de qualquer procedimento de coleta de dados.
O nível de significância mais usado é de 5%, no entanto, o nível varia conforme
o rigor do pesquisador. Além disso, podemos definir o poder do teste com a teoria das
probabilidades de erro tipo I e II. A determinação do poder do teste é feita pela
probabilidade do complementar do erro do tipo II, isto é, o complementar 1 – β. Sendo
assim, o poder do teste aplicado é inversamente proporcional à probabilidade de erro
do tipo II e, para reduzir a chance desse tipo de erro, precisamos aumentar a amostra
estudada, ou seja, o poder é diretamente proporcional ao tamanho da amostra.
6.2 Tipos de erro na prática
Ao compararmos uma hipótese, temos a chance de tomar a decisão incorreta
e podemos ter certeza de tomar a decisão correta apenas quando sabemos a verdade.Para entendermos melhor a situação, podemos exemplificá-la citando o seguinte
ditado: “para toda situação existem três versões: a sua, a da outra parte e a verdade”.
Quando falamos de estatística, apenas quando obtemos o valor do parâmetro
populacional saberemos se alcançamos a verdade. Em qualquer outra condição,
sempre teremos a probabilidade de errar quando temos uma amostra populacional,
principalmente se a considerarmos como a realidade da população estudada.
Os exemplos não se resumem ao caso do lançamento do medicamento, do
julgamento e da concessão de crédito citados no tópico anterior, também temos outros
que acontecem em nosso cotidiano.
Entre eles, vamos citar o caso dos celulares contemporâneos que conseguem
desbloquear a tela por impressão digital, com isso, a hipótese nula seria a
comprovação da legitimidade da impressão e o consequente desbloqueio da tela,
enquanto a hipótese alternativa é o não desbloqueio da tela, já que as impressões não
conferem. Nesse caso, teremos um erro do tipo I quando não temos um desbloqueio
da tela, mesmo com as impressões sendo legítimas, em contrapartida, teremos um
erro do tipo II quando a tela é desbloqueada, mesmo com as impressões não
conferindo.

Desse modo, o erro a ser administrado é o do tipo I, que consiste em considerar
a hipótese “culpada” até que se prove o contrário. Isso fica evidente no exemplo do
julgamento, onde podemos considerar o erro tipo II (inocentar um culpado) mais
danoso à sociedade que o erro do tipo I (culpar um inocente). No entanto, não
podemos arcar com o dano de condenar uma pessoa inocente, principalmente quando
consideramos que podemos refinar os métodos de julgamento para controlar o erro
do tipo II.
O mesmo caso vale para o exemplo da indústria farmacêutica, uma vez que
podemos deixar um paciente sem uma boa solução para sua doença quando
cometemos o erro tipo I e recusamos um medicamento eficiente. Também iremos
causar danos semelhantes se lançarmos um medicamento ineficiente, configurando
um erro do tipo II, no entanto, a indústria farmacêutica é capaz de refinar seus métodos
de teste com o intuito de diminuir a chance desse tipo de erro.
Por fim, no exemplo da concessão de crédito, podemos considerar o erro do
tipo II (conceder crédito a um mau pagador) muito prejudicial à agência, no entanto,
ele não é muito comum devido ao aprimoramento nos escores de crédito. Por sua vez,
o erro do tipo I (negar crédito a um bom pagador) será prejudicial ao cliente e não ao
banco, o que causa danos na popularidade da instituição.
Desse modo, precisamos nos atentar ao falso positivo, isto é, a possibilidade
de uma hipótese ser nula quando, na realidade, é verdadeira, já que os falsos
negativos conseguem ser administrados facilmente quando aumentamos o tamanho
da amostra pesquisada. Além disso, devemos primar por um equilíbrio, a fim de
diminuir as duas possibilidades de erro.
Um teste estatístico precisa começar pela elaboração de hipóteses alternativas
e nulas para, posteriormente, calcular a estatística de teste, que pode ser facilmente
realizada em softwares estatísticos e planilhas eletrônicas, finalizando com a
conclusão desse teste.
Para exemplificar um teste estatístico na prática, vamos imaginar que
desejamos comparar as médias salariais de mulheres e homens que cumprem a
função de gerente. Para isso, coletamos dados de 12 mulheres e 15 homens, levando
em conta um nível de significância de 5%. Por estarmos lidando com duas amostras
independentes, iremos usar o teste t para cada uma, começando pela formulação das
hipóteses.

➢ H₀ (hipótese nula): O salário das mulheres é igual ao dos homens.
➢ H1 (hipótese alternativa): O salário das mulheres é diferente dos homens.

Logo após, vamos calcular a estatística do teste por meio da seguinte fórmula
(considerando uma média de 6640 e uma variância de 174000 para os homens; e
uma média de 6375 e uma variância de 367500 para as mulheres):

𝑡𝑐𝑎𝑙𝑐 =
(𝑥1̅̅̅ − 𝑥2̅̅ ̅)
√
𝑠1
2
𝑛1
+
𝑠2
2
𝑛2

Onde:

𝑥1̅̅̅ = Média amostral 1 (no caso, homens);
𝑥2̅̅ ̅ = Média amostral 2 (no caso, mulheres);
s²1 = variância da amostra 1;
s²2 = variância da amostra 2;
n1 = número de observações da amostra 1;
n2 = número de observações da amostra 2;

Substituindo os valores, teremos:

𝑡𝑐𝑎𝑙𝑐 =
(6640 − 6375)
√174000
15
+
367500
12
=
265
205,49
= 1,2896

Na tabela 3, podemos observar a saída do Excel:

Tabela 3 – Amostras presumindo variâncias diferentes
Homem Mulher
Média 6640 6375

Variância 174000 367500
Observações 15 12
Hipótese da diferença de média 0
gI 19
Stat t 1,289618
T crítico bicaudal 2,093
Fonte: Elaborada pelo autor

Logo após, devemos determinar a região crítica. Sendo assim, precisamos
identificar o valor tabelado da distribuição t-student com a/2 = 0,025 e o grau de
liberdade correspondente. Considerando as diferentes variações, o grau de liberdade
é calculado com o auxílio da seguinte fórmula:
𝐺𝐿 =
[
𝑠1
2
𝑛1
+
𝑠2
2
𝑛2
] ²
(
𝑠1
2
𝑛1
) ²
𝑛1 − 1
+
(
𝑠2
2
𝑛2
)
𝑛2 − 1

𝐺𝐿 =
[
174000
15
+
367500
12 ] ²
(
174000
15
) ²
14 +
(
367500
12 ) ²
11
≅ 18,7927844 = 19

Doane e Seward (2014) explanam que os graus de liberdade ajustados sempre
são arredondados para o próximo interior menor, para sermos conservadores. Na
imagem 2, temos uma tabela para conferir se o resultado está dentro do limite crítico.
Imagem 2 – Tabela de níveis críticos do grau de liberdade

Fonte: Adaptado de Doane e Seward (2014)

Podemos observar o valor de 2,093 na coluna 0,025 referente ao grau de
liberdade 19. Considerando que a estatística teste foi de 1,2896, podemos perceber
que o valor está abaixo do tabelado, portanto, está dentro do nível crítico aceitável, ou
seja, não existem evidências estatísticas para rejeitar a hipótese nula. Desse modo,
podemos concluir que o salário de homens e mulheres pode ser considerado igual no
nível de significância de 5%.

7 TESTES NÃO PARAMÉTRICOS
Na aula anterior, nos falamos sobre a diferença entre testes paramétricos e não
paramétricos. Para recapitular, podemos resumir afirmando que um teste paramétrico
avalia os parâmetros de uma população, como desvio padrão, média e variáveis,
enquanto um teste não paramétrico avalia os aspectos gerais das populações.
No caso dos testes não paramétricos, eles são bastante recentes, tanto que o
surgimento dos primeiros testes aconteceu no início do século XX e sua população
aconteceu nos últimos 40 anos.
Field (2009) complementa dizendo que os testes não paramétricos também são
chamados de “testes de distribuição livre”, pelo fato de realizarem nenhuma ou poucas
suposições referentes ao tipo de dado que pode ser usado.
Com isso, não será necessário seguir a suposição de normalidade nos testes
não paramétricos, já que podemos obter dados com distribuições não conhecidas ou
não simétricas. Sob a ótica do pesquisador, os testes paramétricos podem ser
considerados mais robustos, no entanto, eles não conseguem testar todas as
variáveis, ou seja, em uma pesquisa, devemos ter uma alternativa não paramétrica
para cada teste paramétrico. Dentre as principais vantagens de usar um teste não
paramétrico, podemos citar:

➢ Não são tão exigentes quanto os paramétricos, abrindo a possibilidade de
desprezar, inclusive, a normalidade dos dados;
➢ Normalmente, as probabilidades das afirmativas conseguidas em grande parte
dos testes não paramétricos são exatas, exceto quando usamos aproximações
para amostras grandes (superiores a 20, geralmente);
➢ Não dependem da forma com que a amostra foi obtida de uma população;
➢ São mais fáceis de aplicar e não precisam de um grande volume de cálculo;
➢ Alguns desses testes possibilitam trabalhar com dados de diferentes
populações, o que é impossível