Buscar

Análise Estatística de Dados - aula 1 (1)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 89 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 89 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 89 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Análise Estatística de Dados
Profa. Josiane Rodrigues
AULA 1
O que é Estatística?
Estatística é um conjunto de técnicas que permite coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.
O que é
Estatística?
Podemos dividir a Estatística em três áreas:
Estatística Descritiva;
Probabilidade;
Inferência Estatística.
Estatística Descritiva
Conjunto de técnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclusões a respeito das características de interesse.
Probabilidade
Teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos de caráter aleatório.
Inferência Estatística
Técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de um conjunto de dados de menor dimensão.
Estudos complexos que envolvem o tratamento estatístico dos dados, usualmente, incluem
as três áreas mencionadas.
População e
amostra
Em Estatística, o grande conjunto de dados que contém a característica de interesse recebe o nome de população.
Esse termos refere-se não somente a uma
coleção de indivíduos, mas também ao alvo
sobre o qual temos interesse:
Todos os habitantes de Araras;
Todas as lâmpadas produzidas por uma fábrica;
O sangue no corpo de uma pessoa.
População e
amostra
Nem sempre podemos acessar toda a população para estudarmos características de interesse:
Razões econômicas;
Tempo;
Inviabilidade de acessar toda a população;
Experimentos em laboratórios que
envolvem o uso de seres vivos.
População e amostra
Dessa forma, é muito comum selecionarmos uma parte da população (amostra) para ser estudada.
População e
amostra
A seleção da amostra pode ser feita de várias
formas, dependendo, entre outros fatores, do
grau de conhecimento que temos da população e da quantidade de recursos disponíveis, por exemplo.
Tipos de amostragem:
Amostragem simples;
Amostragem estratificada;
Amostragem sistemática.
Amostragem simples
Neste tipo de amostragem selecionamos, ao acaso, com ou sem reposição, os itens da população que irão compor a amostra.
Amostragem
estratificada
Se numa cidade temos mais mulheres do que homens, podemos selecionar um certo número de indivíduos entre as mulheres e outro número entre os homens.
Amostragem
sistemática
Neste tipo de amostragem selecionamos os indivíduos de forma pré-determinada, por exemplo de 8 em 8 ou de 10 em 10.
Variável
Cada uma das características observadas na população ou na amostra são chamadas de
variáveis.
Existem dois tipos de variáveis: as qualitativas
e as quantitativas.
Variável
Qualitativa
São aquelas que se baseiam em qualidades e não podem ser mensuradas.
Variável Qualitativa Ordinal: são aquelas que
podem ser colocadas em ordem. Exemplo:
classe social (A, B, C, D, ou E).
Variável Qualitativa Nominal: são aquelas que
não podem ser hierarquizadas ou ordenadas.
Exemplos: cor dos olhos, cor do cabelo.
Variável
Quantitativa
São aquelas que são mensuráveis, ou seja, que seus possíveis valores podem ser numéricos ou de contagem.
Variável Quantitativa Discreta: pode ser vista
como resultante de um processo de contagem,
assumindo assim valores inteiros. Exemplos:
número de filhos, número de alunos numa
escola.
Variável Quantitativa Contínua: assume
valores em intervalos dos números reais, e geralmente são provenientes de uma mensuração. Exemplos: peso, massa, altura, pressão sistólica, nível de açúcar no sangue.
Organização
dos dados
Os dados iniciais obtidos na pesquisa, muitas vezes, por não terem grande organização, não fornecem muita informação sobre o objeto em estudo.
Este conjunto de dados inicial é chamado
de conjunto de dados brutos.
Organização dos dados
Exemplo: Uma amostra de 50 casais de uma cidade é avaliada quanto
ao número de filhos.
Organização
dos dados
A partir do conjunto de dados brutos é possível construir uma tabela com as informações resumidas, chamada tabela de
frequências.
Nesta tabela devem constar a frequência
absoluta e a frequência relativa de cada um
dos valores assumidos pela variável de interesse.
Tabela de
frequências
A frequência absoluta (𝑛𝑖) de um valor é o número de vezes que uma determinada variável assume esse valor.
A frequência relativa (𝑓𝑖) é a porcentagem
relativa à frequência absoluta.
Ao conjunto das frequências dos diferentes
valores da variável dá-se o nome de distribuição de frequências.
Tabela de frequências
Distribuição de frequências – variável
“número de filhos”
	Número de
Filhos	Frequência
absoluta	Frequência relativa
	0	5	5 / 50 = 0,10 = 10%
	1	7	7 / 50 = 0,14 = 14%
	2	10	10 / 50 = 0,20 = 20%
	3	11	11 / 50 = 0,22 = 22%
	4	6	6 / 50 = 0,12 = 12%
	5	4	4 / 50 = 0,08 = 8%
	6	7	7 / 50 = 0,14 = 14%
	Total	n = 50	1 = 100%
Tabela de
frequências
Algumas vezes faz sentido incluirmos também uma coluna contendo as frequências acumuladas 𝑓𝑎𝑐.
A frequência acumulada até um certo valor
é obtida pela soma das frequências de
todos os valores da variável, menores ou
iguais ao valor considerado.
Tabela de
frequências
	Número de
Filhos	Frequência
absoluta (𝒏𝒊)	Frequência
relativa (𝒇𝒊)	Frequência
acumulada (𝒇𝒂𝒄)
	0	5	0,10 = 10%	0,10 = 10%
	1	7	0,14 = 14%	0,24 = 24%
	2	10	0,20 = 20%	0,44 = 44%
	3	11	0,22 = 22%	0,66 = 66%
	4	6	0,12 = 12%	0,78 = 78%
	5	4	0,08 = 8%	0,86 = 86%
	6	7	0,14 = 14%	1,00 = 100%
	Total	n = 50	1 = 100%	---
Organização
dos dados
Muitas vezes é inviável construir uma tabela
de frequência como a da variável “número de
filhos”, devido a grande variedade de valores
obtidos para a variável de interesse.
A alternativa utilizada consiste em construir
classes ou faixas de valores e contar o número
de ocorrência em cada faixa.
Organização dos dados
Exemplo: alturas, em cm, de 45 estudantes.
Tabela de
frequências
Para construir a tabela de frequências:
1.	Calculamos a diferença entre a maior e a
menor altura registrada, obtendo a amplitude total (195 – 160 = 35);
2.	Escolhemos o número de classes e
determinamos a amplitude de cada uma.
No nosso exemplo, vamos considerar 5
classes. Então, fazemos 35 : 5 = 7 cm;
3.	Elaboramos a tabela de frequência.
Tabela de
frequências
Distribuição de frequências – variável
“altura”
	A LT U R A
( C M )	F R E Q U Ê N C I A
A B S O LU TA ( 𝑛 𝑖 )	F R E Q U Ê N C I A
R E L AT I VA ( 𝑓𝑖 )	F R E Q U Ê N C I A
A C U M U L A DA
( 𝒇 𝒂𝒄 )
	160 ⊢ 167	9	9 / 45 = 0,20 = 20%	0,20 = 20%
	167 ⊢174	11	11 / 45 = 0,24 = 24%	0,44 = 44%
	174 ⊢ 181	7	7 / 45 = 0,16 = 16%	0,60 = 60%
	181 ⊢ 188	6	6 / 45 = 0,13 = 13%	0,73 = 73%
	188 ⊢⊣ 195	12	12 / 45 = 0,27 = 27%	1,00 = 100%
	Total	n = 45	1 = 100%	---
Gráficos
A representação gráfica fornece uma visão de conjunto mais rápida que a observação direta dos dados numéricos.
Gráficos
Existem diversas formas de representação
gráfica de um conjunto de dados, dentre elas
as mais usuais são o gráfico de barras, o gráfico de setores e o histograma.
Gráfico de barras
O gráfico de barras utiliza o plano cartesiano com os valores da variável no eixo-x e as frequências absolutas representadas no eixo-y.
Este tipo de gráfico se adapta bem às variáveis discretas ou qualitativas ordinais.
0
2
4
6
8
10
12
0
1
5
6
2	3	4
Frequência absoluta
Histograma
Quando uma variável tem seus valores indicados por classes, é comum o uso de um tipo de gráfico conhecido por histograma.
O histograma consiste em retângulos contínuos com base nas faixas de valores da variável. A altura de cada retângulo é determinada pela frequência absoluta de cada uma das faixas.
O histograma é muito utilizado para representar variáveis contínuas.
Gráfico de
setores
O gráfico de setores se adapta muito bem às
variáveis qualitativas nominais.
Para representar os dados em umgráfico de
setores é preciso que os valores estejam em
porcentagem, e para isso devemos definir a
frequência relativa dos dados observados.
Gráfico de setores
Exemplo: uma escola realizou uma pesquisa com seus 400 alunos sobre a preferência por modalidades esportivas.
	Esportes	Frequência
absoluta	Frequência
relativa
	Futebol	160	0,40 = 40%
	Vôlei	120	0,30 = 30%
	Basquete	60	0,15 = 15%
	Natação	40	0,10 = 10%
	Outros	20	0,05 = 5%
	Total	n = 400	1 = 100%
	Esportes	Frequência absoluta	Frequência relativa	Ângulo
	Futebol	160	0,40 = 40%	40 . 3,6 = 144°
	Vôlei	120	0,30 = 30%	30 . 3,6 = 108°
	Basquete	60	0,15 = 15%	15 . 3,6 = 54°
	Natação	40	0,10 = 10%	10 . 3,6 = 36°
	Outros	20	0,05 = 5%	5 . 3,6 = 18°
	Total	n = 400	1 = 100%	100 . 3,6 = 360°
Gráfico de
setores
Variável “esportes”
Software R
R é um software livre utilizado para a análise de dados.
Por que
utilizar o R?
Software gratuito com código aberto com uma linguagem acessível;
Expansão exponencial entre pesquisadores, engenheiros e
estatísticos;
Se reinventa constantemente por meio de novas aplicações (aproximadamente 11.200 pacotes);
Cobertura inigualável, tecnologia de ponta;
 	Totalmente flexível, permitindo desenvolver facilmente funções e
pacotes para facilitar o trabalho;
Capacidade gráfica;
Disponível para diferentes plataformas: Windows, Linux e Mac.
INSTALANDO O R...
INSTALANDO O R...
COMEÇANDO A USAR O R
Um dos primeiros hábitos que você deve adquirir para trabalhar com o R é não digitar os comandos diretamente no R, e sim em um editor de texto	Tinn-R
O Tinn-R é um editor de texto para o sistema operacional Windows, muito bem integrado ao ambiente estatístico e computacional R, para o qual possui características de interface gráfica e ambiente de desenvolvimento integrado.
Pode ser baixado gratuitamente.
Na imagem anterior há duas janelas com o funcionamento e objetivos muito diferentes:
a janela da parte superior apresenta um arquivo de texto puro que pode ser editado (script) –
Tinn-R;
a janela na parte inferior é o prompt do R, ou seja o programa propriamente dito. Essa janela recebe informações que são processadas pelo R e apresenta o resultado final desse processamento.
USO INICIAL DO R: O R COMO CALCULADORA
A forma de uso mais básica do R é usá-lo como
calculadora.
OPERADORES RELACIONAIS E LÓGICOS
OBJETOS DO R: O QUE SÃO?
vetores: uma sequência de valores numéricos
ou de caracteres (letras, palavras).
matrizes: coleção de vetores em linhas e
colunas, todos os vetores dever ser do mesmo
tipo (numérico ou de caracteres).
dataframe: O mesmo que uma matriz, mas
aceita vetores de tipos diferentes (numérico e
caracteres).
listas: conjunto de vetores, dataframes ou de
matrizes.
funções: as funções criadas para fazer diversos cálculos também são objetos do R.
ALGUMAS FUNÇÕES...
ATRIBUIÇÃO DE VALORES
Vetor
É uma estrutura de dados básica do R, que permite armazenar um conjunto de valores numéricos ou de caracteres sob um mesmo nome.
Vamos criar um conjunto de dados de contém
o número de espécies de aves (riqueza)
coletadas em 10 locais. As riquezas são 22, 28,
37, 34, 13, 24, 39, 5, 33, 32.
aves <- c(22,28,37,34,13,24,39,5,33,32)
Vetor
A letra c significa concatenar (colocar junto).
Entenda como "agrupe os dados entre
parênteses dentro do objeto que será criado",
neste caso no objeto aves.
Vetor
Para ver os valores (o conteúdo de um objeto),
basta digitar o nome do objeto na linha de
comandos.
aves
A função length fornece o número de observações (n) dentro do objeto.
length(aves)
Vetores com
caracteres
Também podemos criar vetores que contêm letras
ou palavras ao invés de números. Porém, as letras
ou palavras devem vir entre aspas.
letras <- c("a","b","c","d","e")
palavras <- c("Manaus","Boa
Vista","Belém","Brasília")
OPERAÇÕES COM VETORES
Podemos fazer diversas operações usando o objeto aves, criado anteriormente.
max(aves)
min(aves)
sum(aves)
aves^2
aves/10
mean(aves)
	MATRIZES			
	1	4	7	
	Como definir a matriz	2	5	8	no R?
	3	6	9	
OPERAÇÕES COM MATRIZES
Data frame
É uma tabela que permite armazenar diferentes tipos de dados (numéricos, caracteres).
Data frame
df <- data.frame(
nome <- c(“João”,”Pedro”,”Amanda”,”Fabio”,”Fernanda”,”Gustavo”),
altura <- c(1.80,1.77,1.71,1.65,1.66,1.63),
sexo <- c(“M”,”M”,”F”,”M”,”F”,”M”))
df
Listas
Uma lista pode ser entendida como um vetor
capaz de armazenar elementos com diferentes
tipos de dados. Logo, uma mesma lista pode
armazenar um vetor, um data frame e uma
matriz, por exemplo.
GRÁFICOS NO R
GRÁFICO DE BARRAS
No eixo vertical são construídas as barras que representam a variação de um fenômeno ou de um processo de acordo com sua intensidade. Essa intensidade é indicada pela altura da barra.
No eixo horizontal especifica-se as categorias da variável. As barras devem sempre possuir a mesma largura e a distância entre elas deve ser constante.
GRÁFICO DE
BARRAS
Para construir este tipo de gráfico no R, utilizaremos os dados da tabela abaixo,
referente a matrícula de professores e alunos
no município de Niterói (RJ), em 2009.
GRÁFICO DE
BARRAS
O primeiro passo na construção do gráfico é ter os dados armazenados em objeto apropriado. No caso de gráfico de barras é
necessário que os dados estejam armazenados
em um vetor ou matriz.
Vamos primeiramente construir um gráfico de
barras referente a matrícula de professores:
prof <- c(1751,1186,947,29)
GRÁFICO DE
BARRAS
Em seguida devemos nomear as posições do vetor prof através do comando names():
names(prof) <-
c("privada","estadual","municipal","federal")
Uma vez nomeada as posições do vetor, basta
fazer:
barplot(prof)
GRÁFICO DE
BARRAS
Como colocar título no gráfico?
barplot(prof, main="Distribuição dos
professores na cidade de Niterói, em 2009")
GRÁFICO DE
BARRAS
Colocando nomes nos eixos x e y:
barplot(prof, main="Distribuição dos
professores na cidade de Niterói, em 2009",
xlab="escolas", ylab="número de matrículas
de professores")
GRÁFICO DE
BARRAS
Acrescentando subtítulo citando a fonte:
barplot(prof, main="Distribuição dos professores na cidade de Niterói, em 2009", xlab="escolas", ylab="número de matrículas de professores" sub="Fonte: IBGE")
Gráfico de barras
barplot(prof, main="Distribuição dos professores na cidade de Niterói, em 2009", xlab="escolas", ylab="número de matrículas de professores", sub="Fonte: IBGE", col=rainbow(4))
Gráfico de
barras
Alterando o limite do eixo-y:
barplot(prof, main="Distribuição dos professores na cidade de Niterói, em 2009", xlab="escolas", ylab="número de matrículas de professores", sub="Fonte: IBGE", col=rainbow(4), ylim=c(0,2000))
GRÁFICO DE
BARRAS
Também podemos criar o gráfico de barras de duas variáveis, um ao lado do outro, na mesma janela
gráfica. Para isso, vamos imaginar que os dados
estejam armazenados em um objeto do tipo matriz,
conforme comando a seguir.
profalunos <-matrix(c(1751,1186,947,29,25280,21328,18432,280),
nrow=4, ncol=2)
GRÁFICO DE
BARRAS
Para colocarmos nome nas linhas e colunas
da matriz, utilizamos o argumento dimnames.
profalunos <-
matrix(c(1751,1186,947,29,25280,21328,18432, 280), nrow=4, ncol=2, dimnames=list(c("privada", "estadual", "municipal", "federal"), c("professores", "alunos")))
barplot(profalunos)
GRÁFICO DE
BARRAS
O default desse comando é colocar todas
as categorias uma em cima da outra, acumulando os resultados. Às vezes, essa
maneira não é a mais adequada para visualizar
o que se deseja, então poderemos usar o
seguinte argumento para obtermos barras
lado a lado:
barplot(profalunos, beside=TRUE)
GRÁFICO DE
BARRAS
Para finalizarmos a apresentação do gráfico,
adicionaremos legenda, título, nomes nos
eixos e cores.
barplot(profalunos, beside=TRUE, legend.text=rownames(profalunos), main="Distribuiçãode matrícula de professores e alunos do ensino fundamental em Niterói, 2009", ylab="n. de matrículas", xlab="matrícula", col=rainbow(4))
Gráfico de setor
Os gráficos de setor (ou pizza) são representados por círculos divididos proporcionalmente de acordo com os dados do fenômeno ou do processo a ser representado. Os valores são expressos em números ou em percentuais (%).
GRÁFICO DE SETOR
Os dados da tabela ao lado são referentes a preferência por modalidade esportiva.
Utilizaremos estes dados para fazer
um gráfico de setor no R.
	ESPORTE	NÚMERO DE PESSOAS
	Futebol	160
	Vôlei	120
	Basquete	60
	Natação	40
	Outros	20
	Total	400
GRÁFICO DE
SETOR
O primeiro passo na construção do gráfico é ter os dados armazenados em objeto apropriado, nomeando cada posição do vetor.
esporte <- c(160,120,60,40,20)
names(esporte) <-c("futebol","vôlei","basquete","natação","outros")
pie(esporte, main="Preferência por modalidades esportivas")
GRÁFICO DE
SETOR
Transformando os números em porcentagens:
porc <- esporte/400
porc
porc <- c("40%","30%","15%","10%","5%")
porc
GRÁFICO DE
SETOR
Para colocar as porcentagens utilizamos o
argumento labels.
Aqui é necessário que se coloque uma legenda para que o leitor compreenda o gráfico.
pie(esporte, main="Preferência por modalidades esportivas", label=porc, col=rainbow(5))
legend("topright",names(esporte),col =
rainbow(5), pch=rep(20,5))
Histograma
Para construir um histograma no R consideremos os dados referentes às alturas de 25 pessoas.
altura = c(1.3, 1.33, 1.4, 1.42, 1.45, 1.5, 1.5, 1.52, 1.55, 1.56, 1.58, 1.6, 1.62, 1.64, 1.65, 1.67, 1.68, 1.68, 1.7, 1.72, 1.72, 1.74, 1.8, 1.83,1.85)
Histograma
Para construir o histograma referente aos dados usamos o comando:
hist(altura)
Histograma
hist(altura, main="Histograma da variável altura", xlab="altura", ylab="frequência", col="green")
Histograma
Para alterar o número de faixas, basta acrescentar o argumento breaks=c(), que permite definir o limite de cada classe.
hist(altura, breaks=c(1.3,1.45,1.6,1.75,1.9), main="Histograma da variável altura", xlab="altura", ylab="frequência", col="green")
40%
30%
15%
10%
5%
Preferência por modalidades esportivas
futebol
vôlei
basquete
natação
outros

Continue navegando