Buscar

atividades_comp2014-1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

�PAGE �
�PAGE �55�
I - Departamento de Estatística
DISCIPLINA EMA 068 – Probabilidade e Processos Estocásticos
Horário: Terça-feira - Turma 10 / 14:00hs as 15:40hs
 Quinta-feira - Turma 11 e 12 / 14:00hs as 15:40hs
II - Resumo do Calendário 2014
	
	Iníco
	Término
	Edital
	10 Bimestre
	03/02/14
	05/05/14
	07/05/14
	20 Bimestre
	06/05/14
	17/06/14
	18/06/14
	Férias
	
	
	
	30 Bimestre
	14/07/14
	13/09/14
	15/09/14
	40 Bimestre
	14/09/14
	25/11/14
	26/11/14
	Exame final
	
	
	
Feriados: 04/03/14; 18/04/14; 21/04/14; 01/05/14; 19/06/14; 27/06/14 
 
III - Avaliações fórmula: Média Final = 
 
(Ni – Nota da prova 8.0 + Listas de Exercícios “Teórica e Prática” 2.0) 
Prova 1 - Cap 1; Cap 2; Cap 3 (Complemento *Estatística Descritiva) 
Prova 2 - Cap 4; Cap 5; Cap 6 
Prova 3 - Cap 7; Cap 8; Cap 9 ( Complemento *Processos Estocásticos)
Prova 4 - Cap 10; Cap11 
IV- Literatura
Teoria – Livro Adotado: Estatística para Cursos de Engenharia e Informática
	 Pedro A. Barbetta; Marcelo M. Reis; Antonio C. Bornia 
 
*DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. Tradução de Joaquim 
 Pinheiro Nunes da Silva. São Paulo: Thomson, 2006.
*MONTGOMERY, D. C.; RUNGER, G. C. Estatística Aplicada e Probabilidade para Engenheiros. 
 Rio de Janeiro: LTC, 2003.
*YE,K.; WALPOLE, R.; MYERS,R.;MYERS,S. Probabilidade e estatística para engenharia e 
 ciências. São Paulo : Pearson Prentice Hall. 2009
*TRIOLA, M. Introdução a estatística. Rio de Janeiro. LTC, 2008. 
Prática: Software R. 
INSTALAÇÃO "Home page do R" :(http://www.r-project.org)
Espelho: Brasil (UFPR)
Porque Deus amou o mundo de tal maneira que deu o seu Filho unigênito, para que todo aquele que nele crê não pereça, mas tenha a vida eterna (S. João 3:16)
CAPÍTULO 1 – INTRODUÇÃO 
I- Estatísticas - Informação numérica (Ex: taxa de inflação, quantidade de chuva, Número de alunos que ingressaram na UEL, Número de habitantes de certa cidade...)
II- Estatística - Envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou estudos observacionais (Barbetta, 2008). 
Estatística Descritiva ou estatística dedutiva - Tem por objetivo descrever, analisar e interpretar os dados de um conjunto, seja uma população ou amostra, inferindo os resultados somente para o conjunto observado.
Probabilidade - É a base da teoria da matemática utilizada para estudar fenômenos de caráter aleatório. A teoria das probabilidades é um importante instrumento para a análise de situações que envolvem um elemento de incerteza. A estatística indutiva não poderia ter-se desenvolvido sem as noções fundamentais da teoria das probabilidades.
Estatística Indutiva ou inferência estatística - Tem por objetivo descrever, analisar e interpretar os dados de uma amostra para inferir propriedades à respectiva população. A estatística indutiva pode ser separada em duas áreas principais: estimação por ponto e por intervalo de confiança; testes de hipótese paramétrico e não paramétrico. 
“A essência de uma análise estatística é tirar conclusões sobre uma população, com base em uma amostra de observações”
III - Conceitos Básicos
População é um conjunto de todos os objetos, indivíduos ou informações que interessam para pesquisa.	
Amostra é parte da população, onde os elementos devem ter as mesmas características da população. Isto é, espera-se que a amostra seja uma representação em miniatura da população e que produza estimativas razoáveis de suas características.
Geralmente o número de elementos existente na população é representado por N e da amostra por n. 
Parâmetro - Medidas que descrevem certa característica dos elementos da população.
Estatística - Medidas que descrevem certa característica dos elementos da amostra.
Estimativa - Valor resultante do cálculo de uma estatística.
	ESTATÍSTICA (amostra) PARÂMETRO (população)
	Média amostral 
 Média populacional 
	Variância amostral 
 Variância populacional 
Variável é qualquer quantidade ou característica que pode possuir diferentes valores numéricos ou atributos ( Lakatos & Marconi, 1983). 
Variável Qualitativa - Quando a variável é não numérica: 
ORDINAL ( a variável tem uma ordenação natural indicando intensidades crescentes de realizações. Exemplos: grau de escolaridade ( 10, 20, 30 ); classe social (baixa, média ,alta); tamanho ( pequeno, médio, grande ) 
NOMINAL ( a variável não pode ser ordenada, isto é, não é possível estabelecer uma ordem natural entre seus valores. Exemplos: religião, naturalidade, sexo.
	
		Variável Quantitativa - Quando pode ser expressa numericamente.
DISCRETAS ( a variável discreta pode assumir um número finito ou infinito enumerável de valores. Geralmente são as contagens, como por exemplo, a quantidade de estudante s em uma disciplina, quantidade de empregados da empresa, número de filhos de um casal. 
CONTÍNUAS ( a variável contínua pode assumir qualquer valor em certo intervalo, isto é, pode assumir um conjunto infinito e não enumerável de valores. Exemplos: tempo de estudo, distância entre duas cidades, peso de uma pessoa.
	�
Figura 1 - Classificação das Variáveis 
Atividade 1
1) Pesquise e escreva a definição de Estatística. Dê a referência bibliográfica.
2) Como se classifica a estatística?
3) Cite dois exemplos para cada variável: V. qualitativa nominal; V. qualitativa ordinal; V. quantitativa discreta e V. quantitativa contínua. 
4) Diferenciar população e amostra.
5) Dada a seguinte amostra A:{5,7,3,4,1}. Calcule a média, variância e o desvio padrão amostral. Refaça considerando o conjunto A uma população.
6) (pg22) - Dada a seguinte amostra, A:{7, 8, 6, 5, 9, 4}. Calcule a média, variância e o desvio padrão amostral.
7) (pg17)Considere uma indústria processadora de suco de frutas. Ao receber um carregamento de laranjas, os técnicos fazem a inspeção de qualidade nas frutas. Examinam uma amostra com 5 caixas tomadas de formas aleatórias dentre toda população de caixas do carregamento. 
Se X é o número de laranjas não aproveitáveis em cada uma das 5 caixas amostradas, logo temos 5 valores X: {4, 6, 2, 3, 0}. Qual a média de laranjas não aproveitáveis? Ou tomadas de formas aleatórias qual a estimativa do número médio de laranjas não aproveitáveis? Determine a variância e o desvio padrão.
####################### R ################################################
 8) a) Crie uma amostra n=6 elementos denominada de H, sendo os valores de H (12,15,20,22,25,30). 
b) Calcule a média; variância e desvio padrão dos elementos da amostra H. 
c) programe para encontrar a média 
d) programe para encontrar a variância e o desvio padrão 
e) Transforme os valores de H (num novo conjunto denominado K onde K =(H+2).Calcule a novamente a nova média dos dados transformados. 
O que vc comprovou entre as médias, e os 2 desvios das duas amostras? 
f) Some os elementos do conjunto denominado "Soma" = (H + K). 
9) Crie uma matriz denominada de Mat1 de dimensão(3x2) 
a) Utilize C1=(1,4,2); C2=(5,3,6) ou linha L1= (1,5); L2=(4,3); L3=(2,6) 
b) Encontre a inversa de Mat1; c) verifique a dimensão de Mat1 
 Crie uma matriz denominada de Mat2 de dimensão(3x2) 
c) Utilize C1=(10,40,20) C2=(50,30,60) ; b) Encontre a inversa de Mat2. 
d) verifique a dimensão de Mat2; d) some as matrizes Mat1 e Mat2 
10) Retire uma amostra de 6 alunos e encontre a média, desvio padrão 
da média final de cálculo e represente num gráfico as alturas dos alunos.
CAPÍTULO 2 – O PLANEJAMENTO DE UMA PESQUISA
2.1 Metodologia Estatística e Etapas da pesquisa
	No planejamentoda pesquisa, cada etapa deve ser bem determinada, pois o trabalho científico é bom ou não pelo planejamento e não pelos resultados. E não há análise estatística que conserte um mau planejamento.
	Etapas de uma pesquisa e da metodologia estatística:
Definição do problema e objetivos da pesquisa;
Planejamento da pesquisa;
Execução da pesquisa;
Dados;
Análise de dados - Aplicações métodos estatísticos apropriados;
Análise dos resultados
Conclusões com a significância estatística e significância prática. 
2.2 Pesquisa é uma indagação ou exame crítico e exaustivo na procura de fatos e princípios; uma diligente busca para averiguar algo. 
“É descobrir respostas para questões, mediante a aplicação de métodos científicos”.
 
*Definição do problema: Desenvolver uma descrição clara e concisa do problema. 
* Planejamento da Pesquisa 
2.2.a. Pesquisas observacionais: As características da população são observadas ou 
 medidas sem manipulação;
2.2.b. Pesquisas experimentais: Grupo de indivíduos são manipulados para avaliar o efeito de diferentes tratamentos.
Pesquisa Observacionais (Levantamento) 
*Delimitação da população: Ao desenvolver uma pesquisa, planeja-se tirar conclusões válidas para toda a população previamente definida, através das técnicas de amostragem.
*Variáveis a serem levantadas: As características que se observa na população. 
*Instrumento para mensuração de variáveis.
Medidas físicas: comprimento (cm), velocidade (Km/h), temperatura (graus Celsius).
Medidas em seres humanos: Questionários (Variáveis qualitativas e quantitativas)
 exemplo: Quantitativa - tempo de trabalho (anos) 
 Qualitativa - Estado Civil ( Casado, Solteiro, Divorciado, Viúvo) 
Censo: é o estudo de “todos” os elementos da população. 
 
Amostragem: é a parte da estatística que ensina obter amostras representativas de uma população. A finalidade da amostragem é fazer generalização sobre todo o grupo sem precisar examinar cada um de seus elementos.
2.2.1 Técnicas de amostragem probabilística – pg27
a. Amostragem Simples ao Acaso - ASA: Este tipo de amostragem deve ser usado sempre que, se tratar de uma população homogênea. Nesta amostragem todos os elementos têm a mesma probabilidade de serem sorteados. Deve enumerar os elementos da população e através de sorteio ou usando a “tabela de números aleatórios” retirar os elementos da população até completar a amostra..
b. Amostragem sistemática: Este tipo de amostragem é utilizada quando os itens de uma população se apresentam numa ordem determinada. O processo de formação da amostra consiste em:
b1. Calcular o intervalo de seleção (I). O valor de I obtém-se dividindo o tamanho da 
 população (N) pelo tamanho da amostra (n), tal que: 
 I = 
 (inteiro mais próximo)
b2. Sorteia-se um número x entre {1,2,3.....I} e formando a amostra correspondente aos 
 números tal que: A ={x; x + I; x+ 2I; ...; x + (n - 1)I }
c. Amostragem estratificada: Quando a população apresenta-se muito heterogênea, a amostragem simples ao acaso torna-se pouco representativa da população. Neste caso deve-se utilizar a amostragem estratificada, a qual consiste em dividir a população em subgrupos (estratos) mais ou menos homogêneos, e de cada um deles retirar uma amostra simples ao acaso. 
c1- Amostragem Estratifica Proporcional 
A proporcionalidade do tamanho de cada estrato da população é mantida na amostra. 
c2- Amostragem Estratificada Uniforme
Selecionamos o mesmo número de elementos em cada estrato.
 
Atividade 2A
Amostragem Aleatória Simples 
1) Definir tipos de amostragens probabilísticas (A. Aleatória Simples, Sistemática e Estratificada) e citar a referência bibliográfica. 
2) Considerando a população de funcionários de certa empresa (N=32). 
a- Extrair uma amostra aleatória simples (n = 5 funcionários). Use a primeira linha da tabela de números aleatórios. (pg28). b- Extrair uma amostra sistemática (n = 5) funcionários. Use a primeira linha da tabela de números aleatórios. c- retire uma amostra estratificada uniforme (n= 6 funcionários) e use a segunda coluna da tabela. (pg32). d- Retire uma amostra estratificada proporcional ao sexo (n=6 funcionários) use a quarta linha da tabela.
Tabela 1- Nome dos 32 funcionários de uma empresa. Londrina / 2008
	01. Aristóteles 
	09. Ermílio
	17.Gabriel
	25.José de Souza
	02.Anastácia
	10. Ercílio
	18.Getúlio
	26.Josefa
	03. Arnaldo
	11.Ernestino
	19.Hiraldo
	27.Josefina
	04. Bartolomeu
	12. Endevaldo
	20.João
	28.Maria José
	05. Bernadino
	13.Francisco
	21.Joana
	29.Maria Cristina
	06. Cardoso
	14.Felício
	22.Joaquim
	30.Mauro
	07. Carlito
	15.Fabrício
	23.Joaquina
	31.Paula
	08. Cláudio
	16.Geraldo
	24.José da Silva
	32.Paulo César
3) Os elementos de certa população estão dispostos numa lista, cuja numeração vai de 1580 a 8480. Descreva como você usaria uma Tabela de nos Aleatórios para obter uma amostra de 100 elementos. Retire os 5 primeiros elementos. 
Apresente também os resultados e a função no R.
4) Amostragem Sistemática 
Da lista de funcionários (tabela 1 - 2008), selecione n=4 funcionários, utilizando amostragem sistemática. Utilize a 30 linha da tabela. 
Amostragem Estratificada
5) Selecione uma amostra estratificada uniforme de tamanho (n=12 funcionários), utilizando 4 estratos separados por departamento. Use a terceira linha da tabela de N. aleatórios.
Tabela 2 - Nome dos 32 funcionários. Londrina / 2008
	Depto R H
	Depto Financeiro
	Depto Marketing
	Depto Vendas 
	01. Aristóteles 
	09. Ermílio
	17. Gabriel
	25.José de Souza
	02. Anastácia
	10. Ercílio
	18. Getúlio
	26. Josefa
	03. Arnaldo
	11. Ernestino
	19.Hiraldo
	27. Josefina
	04. Bartolomeu
	12. Endevaldo
	20. João
	28. Maria José
	05. Bernadino
	13. Francisco
	21. Joana
	29.Maria Cristina
	06. Cardoso
	14. Felício
	22. Joaquim
	30. Mauro
	07. Carlito
	15. Fabrício
	23. Joaquina
	31. Paula
	08. Cláudio
	16. Geraldo
	24. José da Silva
	32. Paulo César
6) Selecione uma amostra estratificada proporcional por categoria, para obter uma amostra de globla1 de 10 representantes da comunidade escolar, sendo a população composta de 20 Professores, 20 Servidores e 60 alunos. Sugestão: 1 coluna da Tabela de nos Aleatórios .
Tabela 3 – Cálculo do tamanho da amostra em cada estrato
	ESTRATO
	Proporção na população
	Tamanho subgrupo
	Professores
	
	np =
	Servidores
	
	ns = 
	Alunos
	
	na =
	Total
	 100 %
	n global = 10 
CAPÍTULO 2 – O PLANEJAMENTO DE EXPERIMENTOS – pg33
Existem dois tipos de pesquisa empíricas: 
a. Pesquisa observacionais – As características de uma população são levantadas, mas sem manipulação das variáveis.
b. Pesquisa experimentais – Grupos de indivíduos são manipulados para se avaliar o efeito de diferentes tratamentos. 
Planejamento de Experimentos
No estudo experimental manipula-se de forma planejada, certas variáveis independentes (Fatores A, B, C..) para verificar o efeito que essa manipulação provoca numa certa variável dependente ou resposta Y.
Exemplo - Uma empresa de informática quer verificar o tipo de equipamento adequado ao usuário. A resposta Y pode ser o tempo de resposta e os fatores podem ser:
A: processador (A); B: quantidade de memória RAM; C: quantidade de memória fixa; D: tipo de carga de trabalho a ser executada.
Estratégias no planejamento de experimentos. 
Reconhecer, estabelecer e delimitar claramente o problema;
Identificar os possíveis fatores que podem afetar o problema em estudo;
Identificar, para cada fator, o intervalo de variação e os níveis que entrarão no estudo;
Escolherum projeto experimental adequado, isto é, saber como combinar os níveis dos fatores de forma que se possa resolver o problema proposto com o menor custo possível;
Escolher a resposta adequada, ou seja, a variável Y que mede adequadamente o resultado do processo (a qualidade, o desempenho, etc.).
O planejamento de como será a análise dos dados do experimento.
Conceitos Básicos 
Unidades experimentais – São as entradas do processo que serão avaliadas. A unidade experimental receberá o tratamento e fornecerá os dados que refletirão seus efeitos.
Fatores – Os fatores de um estudo experimental são os fatores controláveis do processo que podem afetar seu desempenho.
Tratamentos – Uma particular combinação de níveis dos fatores incluídos no modelo do estudo experimental. (Elemento cujo efeito deseja medir ou comparar).
Replicações – Realiza-se mais de um ensaio em cada condição experimental (tratamento), também denominado de repetição.
Blocos – Caso as unidades experimentais são heterogêneas, deve construir blocos relativamente homogêneos, para tornar um experimento mais eficiente pela redução do erro experimental. (controle local).
Princípios básicos da experimentação
Replicação – Consiste na reprodução do experimento básico para estimar o erro 
experimental. 
Aleatorização – A alocação dos tratamentos nas unidades experimentais deve ser 
aleatorizada (Tabela de números aleatórios).
Controle local – A finalidade é dividir um ambiente heterogêneo em sub-ambientes 
homogêneos.
2.3.1 Projeto com 1 Fator – Delineamento Completamente Aleatorizado. 
 Neste caso utilizou-se de 2 princípios básicos: replicação e aleatorização.
Exemplo 2.2: Estuda a produção por m2 de certa cultura, considerando 3 níveis de dosagens de fertilizantes (a, b, c). O experimento tem 6 canteiros, donde pode fazer duas replicações.
	 ratamento
	A
	A
	B
	B
	C
	C
	Canteiro
	2
	4
	5
	3
	1
	6
	resposta
	12
	14
	16
	17
	15
	15
Projeto com 2 fatores - Delineamento em Blocos Aleatorizado 
Neste caso utilizou 3 princípios: replicação, aleatorização e controle local.
	Bloco
	1
	1
	1
	2
	2
	2
	Tratamento
	A
	B
	C
	A
	B
	C
	Canteiro
	2
	4
	5
	3
	1
	6
2.3.2 Projetos Fatoriais – Estuda o efeito de dois ou mais tipos de tratamento, ao mesmo tempo. Cada subdivisão de um fator é denominada de nível do fator e os tratamentos consistem de todas as combinações possíveis entre os diversos fatores nos seus diferentes níveis.
Exemplo - do fatorial 22 : K= número de fatores. 
(Kronka e Banzatto) Seja o experimento instalado para verificar a produção de certa cultura (saca /m2). Considere o tratamento A, a utilização de adubo, e o tratamento B a utilização de calcário. A+: com adubo; A-: sem adubo; B +: com calcário, B-: sem calcário. 
Tabela 4 – Utilização de calcário na produção de certa cultura
	
	 Fator
	B
	Fator A
	B-
	B+
	A+
	15
	17
	A-
	10
	12
	O efeito de um fator é definido como a variação na resposta, produzida pela mudança no nível do fator. 
Por exemplo, o efeito principal do fator A é a diferença entre a resposta média no nível positivo de A e a resposta média no nível negativo de A. 
O efeito principal do fator B é a diferença entre a resposta média no nível positivo de B e a resposta média no nível negativo de B.
Efeito Principal – Refere-se a fatores primários (A, B,C...) 
Efeito de Interação – Refere-se a fatores secundários (AB, AC, BC,...).
Existe interação entre dois fatores quando a diferença na resposta entre os níveis de um fator não é a mesma para todos os níveis do outro fator. 
Exemplo 2.4 – projeto de um fatorial 23 - (pg 44)
(Pezzin, M. Curso de Pós-graduação em Ciência da Computação / UFSC, 2001)
Um estudo foi desenvolvido para verificar os fatores que influenciam a qualidade da transmissão de dados através da porta serial de microcomputadores. Propositalmente, foram usados cabos com comprimento bastante superior às especificações técnicas. 
Observou-se a taxa de falhas de transmissão (Y) em função dos fatores:
A - Velocidade da transmissão (2400 / 9600 bauds)
B - Tamanho do arquivo (100 / 200 bytes)
C – Comprimento do cabo serial (15 / 20m).Os resultados do experimento, que foi realizado com 2 replicações, foram:
Tabela 5 – Sinais algébricos para efeitos do planejamento 23
	Exp
	I
	A
	B
	C
	AB
	AC
	BC
	ABC
	Rep 1
	Rep 2
	1
	+
	-
	-
	-
	+
	+
	+
	-
	32,5
	32,3
	2
	+
	-
	-
	+
	+
	-
	-
	+
	35,7
	35,9
	3
	+
	-
	+
	-
	-
	+
	-
	+
	33,1
	33,4
	4
	+
	-
	+
	+
	-
	-
	+
	-
	35,9
	36,1
	5
	+
	+
	-
	-
	-
	-
	+
	+
	34,1
	34,4
	6
	+
	+
	-
	+
	-
	+
	-
	-
	36,6
	36,9
	7
	+
	+
	+
	-
	+
	-
	-
	-
	34,2
	34,9
	8
	+
	+
	+
	+
	+
	+
	+
	+
	37,1
	36,9
Ef (A) = (
) = 35,6375 – 34,3625 = 1,275
= 
 = 35,6375
 = 
 = 34,3625
Quando a velocidade de comunicação passa de 2400 bauds para 9600 bauds, estima-se que a taxa média de falhas aumenta em 1,275 pontos. 
Atividade 2B
1) Diferencie o estudo observacional e estudo experimental?
2) pg39- Estuda a produção por m2 de certa cultura, considerando 3 níveis de dosagens de fertilizantes (A, B, C). O experimento tem 6 canteiros, donde pode fazer duas replicações.
Tabela 6 - Produção (m2 ) de certa cultura, considerando 3 níveis de dosagens de fertilizantes
	 Tratamento
	A
	A
	B
	B
	C
	C
	Canteiro
	2
	4
	5
	3
	1
	6
	
	y11=12
	Y12 =14
	Y21= 16
	Y22 = 17
	Y31=15
	Y32 =15
a- Calcule a média amostral por tratamento
b- Variância amostral da produção em cada tratamento 
c- Variância agregada
3) O estudo se refere ao Fator (A) - Tamanho da memória principal (níveis de 128 e 256 Mbytes. Fator (B) - tamanho da memória cachê (níveis 256 e 512 Kbytes). A variável resposta foi o número de operações de transferência de arquivos por segundos. Os resultados foram o seguinte:
Tabela 7 – Fatores influentes no número de operações de transferência de arquivos (segundos)
	
	 Fator
	Memória Principal
	Fator - Memória Cachê 
	B-
	B+
	A+
	30.3
	31.3
	A-
	29.9
	30.9
Calcule os Efeitos Principais: Efeito (A), Efeito (B) 
4) Exemplo 2.4 – projeto de um fatorial 23 - (pg 44). (Pezzin, M. Curso de Pós-graduação em Ciência da Computação / UFSC, 2001)
Um estudo foi desenvolvido para verificar os fatores que influenciam a qualidade da transmissão de dados através da porta serial de microcomputadores. Propositalmente, foram usados cabos com comprimento bastante superior às especificações técnicas. 
Observou-se a taxa de falhas de transmissão (Y) em função dos fatores:
A - Velocidade da transmissão (2400 / 9600 bauds)
B - Tamanho do arquivo (100 / 200 bytes)
C – Comprimento do cabo serial (15 / 20m).
Determine (dados na tabela 6) o efeito principal (B e C) 
5) Projeto Fatorial 22
Um estudo foi desenvolvido para verificar os fatores que influenciam a qualidade da transmissão de dados através da porta serial de microcomputadores. Observou-se a taxa de falhas de transmissão (Y) em função dos fatores:
A - Velocidade da transmissão (2400 / 9600 bauds)
B - Tamanho do arquivo (100 / 200 bytes)
Tabela 8- Os fatores que influenciam a qualidade da transmissão de dados
	 
	 Fator
	B 
	Fator A 
	B-
	B+
	A+
	1,20
	2,20
	A-
	0,80
	1,80
Calcule os Efeitos Principais: Efeito (A), Efeito (B), Efeito da Interação: Efeito (AB)
6) Projeto Fatorial 23
Pg 48 – Exercício 10 – Trabalho realizado no Curso de Pós - graduação em Engenharia Civil – UFSC, 2001. Para avaliar o efeito dos fatores: (A) tempo de hidratação (14/28 dias); (B) relação água/cimento (0,38 e 0,58); (C) Tipo de cimento (Comum e pozolânico), na resistência à compressão de um concreto (Y), realizou-se um experimento cujos resultadosda resistência em (MPa) são apresentadas a seguir. 
Tabela 9 – Fatores que influenciam na resistência à compressão de um concreto.
	Tipo Cimento ( C )
	
	 Tempo de 
	Hidratação (A)
	
	Relação
	 14 dias - 
	 28 dias +
	
	Água/cimento (B)
	
	
	Comum - 
	0,38 -
	23,1
	42,2
	
	0,58 +
	12,0
	27,9
	Pozolânico +
	0,38 -
	24,3
	39,5
	
	0,58 +
	11,1
	24,3
Construa a tabela de sinais algébricos desse experimento. Efeitos Principais: Efeito (A), Efeito (B), Efeito (C),Efeitos de Interação: Efeito (AB), Efeito (AC), Efeito (BC)
CAPÍTULO 3 – ANÁLISE EXPLORATÓRIA DE DADOS
	O papel da estatística descritiva é organizar, resumir e apresentar os dados de forma correta. A análise exploratória de dados, além de descrever os dados, identifica algumas características do processo, com base nos dados. Construindo-se tabelas e gráficos apropriados e gerando algumas medidas descritivas, podemos extrair aspectos importantes para os dados (mineração dos dados = data mining). 
Tabelas 
Uma tabela pode ser classificada em tabela simples ou de dupla entrada. 
Tabela simples é composta de uma coluna indicadora, onde são escritos os valores ou modalidades da ordem de classificação e de outra coluna, em que aparecem os valores que representam as ocorrências do fenômeno.
Tabela de dupla entrada é composta de dois atributos, qualitativos ou quantitativos, em que existem duas ordens de classificação: uma horizontal e outra em coluna indicadora. 
Elementos de uma Tabela
Os elementos essenciais são: título, cabeçalho, corpo e coluna indicadora.
Título: precede a tabela e contém a designação do fato observado, o local e a época em que o assunto foi registrado;
Cabeçalho: é a parte superior da tabela que específica o conteúdo das colunas;
Corpo: É o conjunto de linhas e colunas que contém as informações referentes ao fato observado.
Coluna Indicadora: Ë a parte da tabela que especifica o conteúdo das linhas.
Os elementos complementares são: Fonte, notas e chamadas.
Fonte: é situada no rodapé da tabela e específica a entidade responsável pelo fornecimento dos dados ou pela elaboração da tabela;
Notas: situadas abaixo da tabela dão informações gerais sobre a tabela ou indica a metodologia utilizada no levantamento ou na elaboração dos dados;
Chamadas: são informações mais específicas sobre determinadas partes da tabela, com o objetivo de fazer algum esclarecimento sobre os dados apresentados.
 
Considerações para construções de tabelas
	Na construção de tabela, recomenda-se:
O título precede a tabela e deve ser apresentado após a palavra tabela, identificada por um algarismo arábico;
O título com auxílio do cabeçalho, deverão responder as seguintes perguntas: 
 O quê? Onde? Quando?;
Não deixar casas (cruzamento de uma linha com uma coluna) em branco. Pode-se usar traço ou sinal convencional;
As linhas horizontais superior e inferior, que limitam a tabela, devem ser mais 
acentuadas;
As tabelas não devem ser fechadas lateralmente;
As chamadas devem ser indicadas no corpo da tabela em algarismos arábicos ou por asterisco; à esquerda nas casas.
	
 3.1 DADOS E VARIÁVEIS 
	Após a coleta de dados, prepara o arquivo em forma matricial, onde nas linhas situam os indivíduos e nas colunas as variáveis investigadas. 
Tabela 10. Perfil dos indivíduos que acessaram o site “A” – SP. - Janeiro 2008
	Usuário
	Sexo 
	Nível de instrução
	Provedor
	1
	M
	Superior
	A
	2
	M
	Fundamental
	A
	3
	F
	Fundamental
	C
	4
	F
	Médio
	B
	5
	F
	Médio
	C
	6
	M
	Superior
	B
	.............
	..........
	........
	......
	40
	M
	Superior
	C
Fonte: www. Site “A” 
Na descrição das variáveis envolvidas na pesquisa, deve-se incluir a medida (unidade) que foram mensuradas as variáveis quantitativas, e as categorias das variáveis qualitativas. Ex: Nível de Instrução - Fundamental, Médio, Superior, Pós-graduado. Provedor – A, B, C, D.
3.2 ANÁLISE DE VARIÁVEIS QUALITATIVAS 
Para construir a tabela de distribuição de freqüência da tabela 3.1, basta contar a quantidade de resultados observados em cada categoria. 
Distribuição de freqüências : Consistem na organização dos dados de acordo com as ocorrências dos diferentes resultados observados.
Para variável qualitativa a contagem de quantos indivíduos pertence em cada categoria forma uma distribuição de freqüências. As freqüências podem ser de forma absoluta, relativa ( %) ou ambas.
Exemplo 3.1 - Para adequar os produtos às preferências dos clientes, um projetista de páginas da internet pretende conhecer o perfil dos indivíduos que acessam um de seus sites. Observe os dados abaixo.
Tabela 11 – Perfil dos indivíduos e o tipo de provedor 
	Indivíduo
	Provedor
	Indiv.
	Provedor
	Indiv.
	Provedor
	Indiv.
	Provedor
	1
	C
	11
	C
	21
	B
	31
	A
	2
	A
	12
	A
	22
	A
	32
	A
	3
	B
	13
	B
	23
	A
	33
	B
	4
	B
	14
	D
	24
	B
	34
	C
	5
	C
	15
	A
	25
	A
	35
	B
	6
	B
	16
	B
	26
	A
	36
	D
	7
	D
	17
	B
	27
	B
	37
	B
	8
	B
	18
	C
	28
	D
	38
	B
	9
	B
	19
	D
	29
	D
	39
	B
	10
	A
	20
	B
	30
	C
	40
	C
Construa uma tabela de freqüência p/ variável qualitativa.
Tabela 12 - Distribuição de freqüência do provedor usado pelos visitantes. Janeiro/2010
	Provedor
	Freqüência absoluta (fi)
	Freq. Relativa (fri %)
	A
	10
	25
	B
	17
	42,5
	C
	7
	17,5
	D
	6
	15
	TOTAL
	40
	100
 
Representações gráficas para variáveis qualitativas 
	Os gráficos são mais indicados em situações que visem dar uma visão mais rápida e fácil a respeito das variáveis às quais se referem os dados. Estes facilitam as análises dos informes estatísticos. 
	O gráfico deverá ser auto-explicativo, isto é, conter toda informação necessária à sua compreensão, sem auxílio do texto. 
Elementos do gráfico: 
Título - deve responder as perguntas: O que? Onde? E Quando?
 Observação: situa-se abaixo do gráfico, é denominado de figura 1, 2.. 
Fonte - nome da entidade responsável pelos dados. 
Legendas – descrição dos atributos quando necessário. 
Notas e chamadas – quando for necessário fazer observações geral ou específica dos dados. 
Os tipos de gráficos mais usados para variável qualitativa são: 
Gráficos em colunas – Cada categoria é representada por uma coluna posicionada no eixo das abcissa, e a freqüência absoluta (ou relativa) é posicionada no eixo das ordenadas.
Diagrama de Pareto (barras) – As categorias são posicionadas em ordem decrescente pelas freqüências observadas. 
Gráfico de linha – Quando se tem por objetivo mostrar a tendência de uma variável contínua, geralmente em função do tempo.
Gráfico de setores (pizza) – Utilizado para representar a variável qualitativa quando o número de categorias não for grande e não obedecem a alguma ordem específica. Dá uma boa visão da parte no todo. 
3.3 ANÁLISE DE VARIÁVEIS QUANTITATIVAS – pg 58 
As observações desses dados geram amostras de dados quantitativos. 
Ex: Numa fábrica de cerâmicas podemos contar o número de defeitos (variável discreta) ou ainda, o grau de empeno da cerâmica (variável contínua).
Três informações importantes das variáveis quantitativas:
faixa em que os valores ocorrem com maior freqüência;
Detectar valores discrepantes;
Forma da distribuição, para comparar com modelos probabilísticos.
3.3.1 Variáveis discretas
Tabela de freqüências – A tabela de distribuição de freqüência pode ser feita de forma análoga à distribuição de freqüência de variáveis qualitativas. No lugar das categorias estarão representados os valores numéricos da variável.
Quando a variável é discreta, geralmente com poucos valores distintos é adequado construir uma distribuição de freqüência simples. Agrupa osdados conforme os valores distintos da variável com a sua respectiva freqüência absoluta (fi). 
		 
 Tabela 13 - Volumes (mm) da precipitação pluviométrica em 
 20 estações metereológicas do Paraná. Junho – 2003.
	Volumes (mm)
	Número de estações (fi)
	10
	2
	11
	4
	20
	7
	33
	3
	45
	2
	51
	1
	62
	1
	Total
	20
 Fonte: Iapar
	
Representação Gráfica de uma distribuição de freqüência 
	O gráfico usado para representar uma distribuição de freqüência simples é denominado gráfico em bastões. É formado de linhas verticais, onde cada valor distinto da distribuição de freqüência corresponde a uma linha vertical, com a altura equivalente a freqüência desse valor. 
Figura 1 - Volume de precipitação pluviométrica – Junho 2003
3.3.2 Variáveis contínuas 
Tabela de freqüências – Quando a variável é contínua, geralmente com muitos valores distintos é adequado construir uma distribuição de freqüência em classes. Os dados são agrupados em classes e a cada classe i, ( i =1,2,...,c ) associa-se as freqüências absolutas fi dos valores observados nas respectivas classes. 	
A construção segue basicamente as seguintes etapas: 
I – Construção do rol (valores em ordem) dos dados.
II – Cálculo da Amplitude total dos dados (At). 	É a diferença entre o maior e o menor valor: At = Xmáx – Xmín 
III – Cálculo do Número de Classes ( c ).
	O número de classes (k) necessário para agrupar n elementos em uma distribuição de freqüência é dado por: 
 
 ou 
Observações para a determinação do número de classes:
Quando o valor de c não for número inteiro, arredonda-se para mais ou menos, 
conforme o resultado obtido.	
Sugere-se que sejam utilizados de 5 a 20 classes. 
I V – Cálculo da Amplitude das classes (h). É dado por: 
 .
Na apresentação de uma tabela de freqüência, é comum apresentar no cabeçalho:
xi – Ponto médio da classe = média dos limites da classe;
fi - Freqüência absoluta é a quantidade de elementos na i-ésima classe; 
Fac – Freqüência absoluta acumulada crescente; 
fri - é a freqüência relativa dada por fri = 
 (i=1,2,....c);
Fri – é a freqüência relativa acumulada crescente (somatório da freqüência absoluta relativa da classe com as freqüências das classes anteriores). 
Gráficos da distribuição de freqüências em classes	
Polígono de freqüência – Quando o interesse está nas freqüências de observações. È um gráfico de linha, onde as freqüências se posicionam nas ordenadas e os pontos médios na abscissa.
Histograma - 	É um recurso gráfico de colunas ligadas umas nas outras, cuja base (eixo das abscissas) corresponde às classes e às alturas (eixo das ordenadas) proporcionais às freqüências absolutas ou relativas.
- Outras opções na análise exploratória de dados 
Diagrama de pontos - Uma forma simples de observar como poucos dados se distribuem, onde cada valor representa um ponto na reta real. Torna-se inadequado quando o número de observações for grande.
Diagrama de ramo-e-folhas - Consiste em apresentar os dados separando os primeiros dígitos, os quais formarão o ramo e os demais dígitos formarão as folhas. 
Atividade 3A
VARIÁVEIS QUALITATIVAS
Quais gráficos são utilizados para representar as variáveis qualitativas?
Apresente uma tabela e um construa um gráfico para esse tipo de variável (pg54/tabela12). 
VARIÁVEIS QUANTITATIVAS
3) Fonseca e Martins (pg102). Agrupe os dados numa tabela de frequência, observado no número de acidentes por dia na Rodovia (PR274), frente a UEL num determinado mês. Construa um gráfico e uma tabela de frequência para representar a variável discreta estudada. 
A={ 0,1,2,1,3,4,0,2,0,0,3,0,1,0,3,0,2,4,0,0,0, 5,1,2,1,3,5,1,1,3,4}
4) YE(pg12) – Construa o Diagrama de ramos e folhas da variável que representa a vida útil das baterias de carro. Qual a vida média das baterias?
X: [2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.7 3.2 4.5 3.3 3.6 4.4 2.6 3.2 3.8 2.9 3.2 3.9 3.7 3.1 3.3 4.1 3.0 3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1 3.4 3.5]
5) Preencha a tabela de distribuição de frequência referente as notas de 50 alunos do Curso de Ciência da Computação / 2008. 
Tabela 14- Distribuição de frequência dos 50 alunos Computação
	Classes
	fi
	xi
	Fac
	Fad
	fri
	Fri
	30 |-- 40
	4
	
	
	
	
	
	40 |-- 50
	6
	
	
	
	
	
	50 |-- 60
	8
	
	
	
	
	
	60 |-- 70
	13
	
	
	
	
	
	70 |-- 80
	9
	
	
	
	
	
6) Os dados abaixo representam 50 leituras de temperatura (0 C) de um pausterizador de leite. 
[Exercício 2 - Pg 67]
74,8 74,0 74,7 74,4 75,9 76,8 74,3 74,9 77,0 75,1
73,8 74,4 74,8 76,8 73,6 72,9 72,5 74,6 75,0 75,1
75,3 73,4 74,7 73,4 74,2 74,9 74,5 77,1 74,6 74,8
76,4 73,2 76,5 75,6 73,5 76,2 74,7 76,0 75,8 77,3
76,3 74,1 75,0 76,0 74,7 75,2 77,5 74,7 73,3 74,3 
A tabela de distribuição de frequência completa adequada aos dados;
Apresente a distribuição num Histograma;
O valor da amplitude total, número de classes e o intervalo de classe?
Qual a frequência relativa da 40 classe? E o limite inferior da 60 classe?
Qual a frequência acumulada crescente da 30 classe?
O valor do ponto médio da terceira classe? 
Qual a frequência acumulada crescente da última classe?
Dê o valor da frequência relativa acumulada crescente da 60 e 70 classe? 
Construa um diagrama ramo- e -folhas.
Capítulo 3 - MEDIDAS DESCRITIVAS
3B – Medidas de Posição ou Tendência Central 
I - MEDIDAS DE TENDÊNCIA CENTRAL OU MEDIDAS DE POSIÇÃO 
 (média, moda e mediana)
São medidas de posição que resumem ou descrevem informações numéricas de um conjunto, pois uma maneira conveniente de descrever um conjunto de dados é encontrar um número único que represente o que é típico, mediano ou médio. 
A- Média aritmética para dados não agrupados - 	 média aritmética é a medida de tendência central mais utilizada, pois considera todos os valores do conjunto. É um valor em torno da qual, os dados se distribuem, é o centro da distribuição. Pode ser calculada de duas formas: média aritmética simples e média aritmética ponderada.
Média aritmética simples. ( 
 ) - 	Sejam 
, n valores que a variável X assume em uma amostra. A média aritmética simples é definida por: 
 ou simplesmente 
	
Utiliza-se o símbolo 
 para a média de população, e N para o número de elementos da população. 
Algumas propriedades da média aritmética.
P1 - Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de dados, a média aritmética fica adicionada (ou subtraída) dessa constante.
Exemplo: A cada elemento de um conjunto de 1000 dados adicionamos o valor 10. Pelos histogramas abaixo, podemos perceber que a média dos valores da variável X que era 5 passou a ser 15 e o histograma não apresentou nenhuma alteração na sua forma.
 
P2 - Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de dados, a média aritmética fica multiplicada (ou dividida) por essa constante.
Exemplo: Neste caso, para o mesmo conjunto de 1000 dados, cada valor foi multiplicado por 2. Como resultado, a média ficou multiplicada por 2 e passou de 5 para 10 como podemos observar nos histogramas a seguir. Além da alteração na média ocorreu também alteração na forma. 
Média aritmética para dados agrupados (média ponderada) - A média aritmética ponderada é utilizada quando atribuímos um peso (ou ponderação) aos valores possíveis da variável. Quando os dados aparecem na forma de uma distribuição de freqüências, os ponderadores serão as freqüências absolutas (fi). Sejam 
, n valores que a variávelX assume e f1, f2, ......., fi os respectivos pesos (ou ponderadores). A média aritmética ponderada é definida como: 
 
B- Moda para dados não agrupados ( Mo ) - A moda é o valor que ocorre com maior freqüência na distribuição. Uma distribuição pode ser classificada:
Amodal: quando os dados não apresentam moda;
Modal: apresenta uma moda;
Bimodal: quando os dados apresentam duas modas;
Multimodal: quando os dados apresentam mais de duas modas.
A moda comparada com a média e a mediana, é a menos útil das medidas para representar os dados. A moda é útil quando um ou dois valores, ou um grupo de valores, ocorrem com freqüência muito maior que os outros valores. 
Exemplos: Encontre a moda em:
a) X = {3, 4, 4, 4, 7, 10, 12, 15}	( Mo = 4
b) Y = {12, 15, 20, 22, 30}		( Não existe moda. ( amostra amodal ).
W = {8, 10, 10, 10, 15, 15, 15, 18, 19, 20, 20} 
 A amostra apresenta dois valores modais: Mo = 10 e Mo = 15 ( amostra bimodal ). 
d) Z = { 2, 5, 5, 5, 5, 8, 8, 8, 8, 10, 12, 20, 20, 20, 20 } ( A amostra apresenta mais de dois valores modais: Mo = 5, Mo = 8, Mo = 20 ( amostra multimodal ). 
Moda para dados agrupados - Quando a distribuição de freqüências está organizada por classes de valores, devemos identificar a classe modal (classe em que observamos a maior freqüência). Fórmula de Czuber Mo = Li + (
).h 
Li : limite inferior da classe modal,
: Diferença entre a fi da classe modal e a fi anterior a classe modal,
: Diferença entre a fi da classe modal e a fi posterior a classe modal.
 h: amplitude das classes
C- Mediana para dados não agrupados (Md) - A mediana é o valor que ocupa a posição central da amostra ordenada (crescente ou decrescente). Isto é, divide a amostra em duas partes iguais de modo que 50% dos valores ficam à sua esquerda e 50% à sua direita. 
A ordem da mediana, indicada pela letra O, será: 
a) Se n for ímpar: 
 e Md = X (o)
b) Se n for par, calculam-se duas ordens: 
 e 
 Md = [X(O1) + X(O2) ] / 2.
Exemplo: Calcular a mediana para os seguintes conjuntos de dados.
Para n par - X: {20, 25, 25, 30, 32, 45, 46, 52} ( Md = 31
Para n ímpar - Y: {20, 25, 25, 30, 45, 46, 50}	 ( Md = 30
Mediana para dados agrupados é dada por ( 
, onde
EMd ( é o Elemento Mediano dado por n/2 (localiza-se na Fac);
Li ( é o limite inferior da classe que contém a mediana;
Fac-1 ( é a freqüência acumulada crescente anterior à da classe mediana;
fi ( é a freqüência absoluta da classe que contém a mediana; 
h ( é a amplitude das classes. 
Exemplo para aula: Determine todas medidas de posição:
a- Dados não agrupados – A média mínima para aprovação é nota igual 5,0. Um estudante obteve { 7,5; 8,0; 3,5; 6,0; 2,5; 2,0; 5,5; 4,0}. O aluno foi aprovado?
Média=?
Moda=?
Mediana=?
b – Dados agrupados para variável discreta – A tabela de freqüência representa os 53 alunos, distribuídos conforme o número de dependência adquirida nas 4 séries do curso.
Tabela 15- Número de alunos por dependência adquirida 
	N0de disciplinas
	0
	1
	2
	3
	4
	fi
	10
	25
	10
	5
	3
Média=?
Moda=?
Mediana=?
c- Dados agrupados para variável contínua
Tabela 16 – Número de funcionários pelo tempo de serviço
	Tempo de serviço (anos)
	2 |--- 4
	4 |--- 6
	6 |--- 8
	8|---10
	10|---12
	Frequência simples (fi)
	5
	40
	14
	8
	3
 
Média=?
Moda=? E Mediana=?
Atividade 3B
1) Apresente outra definição de média, moda e mediana. Dê a referência bibliográfica?
2) Propriedades da média: 
a) Seja um conjunto de dados W= { 17, 18, 24, 47, 50}. 
Prove as 2 propriedades da média (P1 e P2) utilizando uma constante k = 2
b) Utilizando a série de dados do conjunto T: [2,7,8,15]:
 b1. Prove que a soma dos desvios em torno da média é zero. 
 b2. Utilize k=2 o valor constante e prove P1. 
 b3. Utilize k=3 o valor constante para provar a P2. (Fonseca e Martins)
 
3) Calcule as medidas de tendência central (posição), do seguinte conjunto de dados.
 A: { 4,5,6,7,7,8,8,9,10,12}. [Ex3; pg 86].
4) Dados não agrupados – Ao testarem um novo sistema de freio, engenheiros da indústria automobilística constataram que 21 motoristas, correndo a 120 km/h conseguiram parar dentro das seguintes distâncias de frenagem (em metros):
Distâncias = [46, 55, 56, 58, 58, 58, 61, 61, 65, 66, 67, 68, 70, 70, 70, 70, 72, 75, 75, 80] . Determine a mediana, a média e a moda. 
Dados agrupados – Variável discreta
5) Calcule as medidas de posição (dados agrupados e não agrupados) da seguinte distribuição de frequência, a qual se refere ao número de defeitos encontrados em placas de circuito integrado. [Ex4; pg87] 
Tabela 17 – Número de defeitos em placas de circuito integrado.
	Num. de defeitos
	fi
	0
	30
	1
	25
	2
	10
	3
	5
	4
	2
Dados agrupados – Variável contínua
6) Determine as medidas de posição do exercício 6 da atividade 3A (leitura das temperaturas).
7) Sejam dois conjuntos referentes aos maiores salários de 5 funcionários de 2 empresas: Empresa A: [2000; 2500; 3000; 3250; 4000] e Empresa B: [2000; 2500; 3000; 3250; 15000] 
Calcule as medidas de posição. Qual a melhor medida de posição para comparar os salários das 2 empresas? 
8) Complete a tabela de distribuição de frequência para variável contínua e determine as medidas de posição.
Tabela 18 – Distribuição de frequência de uma variável contínua
	classes
	fi
	fri (%)
	Fac
	Fad
	Frac
	06 |-- 18
	6
	
	
	
	
	18 |-- 30
	10
	
	
	
	
	30 |-- 42
	13
	
	
	
	
	42 |-- 54
	8
	
	
	
	
	54 |-- 66
	5
	
	
	
	
	66 |-- 78
	6
	
	
	
	
3C - MEDIDAS DE DISPERSÃO 
Medidas de Dispersão- (amplitude total, desvio médio, variância, desvio padrão e coeficiente de variação) 
	Analisar um conjunto de observações com base em uma única medida de tendência central não nos fornece informações suficientes. É necessário ter uma medida de dispersão que diga algo sobre a dispersão dos valores em torno dessa medida de tendência central.
	As medidas de dispersão servem para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de dados. Estas medidas permitem estabelecer comparações entre fenômenos de mesma natureza ou de natureza distinta e, em geral, essa variabilidade é observada em torno de uma medida de tendência central. As medidas de dispersão podem ser absolutas ou relativas. São elas: 
i) Absolutas: medidas de dispersão que são expressas na mesma unidade de medida da variável em estudo: \SÍMBOLO SYMBOL \f "Symbol" \s 10 \h Amplitude total, \SÍMBOLO SYMBOL \f "Symbol" \s 10 \h��\SÍMBOLO SYMBOL \f "Symbol" \s 10 \h Variância e\SÍMBOLO SYMBOL \f "Symbol" \s 10 \h Desvio padrão.
ii) Relativas: medidas que independem da unidade de medida da variável observada. Servem para estudar comparativamente duas ou mais distribuições com natureza distinta ou com unidades de medida diferentes: \SÍMBOLO SYMBOL \f "Symbol" \s 10 \h Coeficiente de variação. 
Amplitude Total para dados não agrupados - É a diferença entre os valores extremos da distribuição
1ª) A amplitude total é a medida mais simples de dispersão.
2ª) A desvantagem desta medida de dispersão é que considera apenas os valores mínimo e máximo do conjunto. Se ocorrer qualquer variação no interior do conjunto de dados, a amplitude total não nos dá qualquer indicação dessa mudança.
3ª) A amplitude total também sofre a influência de um valor "atípico" na distribuição (um valor muito elevado ou muito baixo em relação ao conjunto). 
Amplitude total para dados agrupados – Quando a distribuição de freqüências é organizada por classes de valores, costuma-se tomar como amplitude total à diferença entre o limite superior da última classe e o limite inferior da primeira classe. Não é possível definir a amplitude total, para dados agrupados em classesde freqüências, quando existem classes abertas.
Variância e desvio padrão para dados não agrupados - Sejam 
, N valores que a variável X assume. Se os valores tem média 
, as diferenças (xi-
), i=1, 2,...,N, são chamadas de desvios a contar da média, o que sugere que se pode tomar a média desses desvios como medida de variação.
A média dos valores é: 
 
Os desvios dos valores são dados por: 
A média dos desvios é dada por: 
 
Exemplo - Considere os seguintes números: {1,2,3}. Calcule a média e a média dos desvios.Solução: 
 = 2 
 
 = -1 
 
= 0
 
 = +1; mas como 
, e sempre será zero, pois é uma das propriedades da média. Para se calcular a média dos desvios, têm-se duas soluções:
1) Considerar a soma dos desvios em módulo, os valores negativos ficam positivos e, dividindo o total por N, se obtém o Desvio Médio populacional: DM = 
 .
2) Considerar os quadrados dos desvios a contar da média, isto também elimina o efeito dos sinais. Tomando então a média dos quadrados dos desvios: 
��EMBED Equation.3. Essa média dos desvios ao quadrado é denominada variância populacional e representada por 
. 
, desenvolvendo o produto notável 
 (Ver Morettin 2000)
 Variância Populacional
Quando o estudo é feito sobre os dados de uma amostra, para se fazer inferência sobre uma população de interesse, a variância amostral é definida por:
 
 Variância Amostral
		Desvio-padrão - O desvio-padrão é a raiz quadrada positiva da variância. 
 ( Desvio-Padrão Populacional
 
Desvio-Padrão Amostral
È expresso na mesma unidade da variável, sendo, por isso, de maior interesse que a variância nas aplicações práticas. O desvio-padrão não reflete a magnitude dos dados, reflete apenas a dispersão em torno da média.
Um significado prático e importante do desvio padrão, decorre da afirmativa de que, para dados com distribuição normal, quase a totalidade dos valores deverão estar contidos no intervalo que dista de três desvios padrão à esquerda e à direita da média. Portanto valores que distem da média por mais ou menos três desvios padrão são bastante raros (CURI, 1997). 
Propriedades da variância e do desvio padrão.
1ª) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada elemento de um conjunto de dados o desvio padrão não se altera.
	Como tínhamos mostrado, ao apresentarmos as propriedades da média aritmética, quando somamos 10 unidades a cada elemento do conjunto, a média ficou alterada desse valor mas a dispersão, observada pela forma da curva, ficou exatamente a mesma.
2ª) Multiplicando-se (ou dividindo-se) por um valor constante e arbitrário cada elemento de um conjunto de dados, o desvio padrão fica multiplicado (ou dividido) por essa constante.
	Ocorreu mudança na forma da curva quando duplicamos o valor de cada observação do conjunto de dados, pois os valores do conjunto ficaram mais espalhados (ou menos concentrados). Vamos observar este fato num pequeno conjunto de dados. 
Exemplo 1: Sejam os conjuntos X e Y (onde os valores de Y são os do conjunto X multiplicado por 2) e, ambos com n = 5 elementos:
X = {2, 4, 6, 8, 10} 	=> 
= 6 e s = 3,16
Y = {4, 8, 12, 16, 20}		=> 
 = 12 e s = 2 x 3,16 = 6,32
Variância e desvio padrão para dados agrupados
 variância amostral 
A variância do ponto de vista prático tem o inconveniente de se expressar numa unidade quadrática em relação à variável em questão. Esse inconveniente é sanado com a definição do desvio padrão (é a raiz quadrada da variância). 
Coeficiente de Variação - 	O coeficiente de variação é definido como o quociente entre o desvio padrão e a média. È frequentemente expresso em porcentagem. 
	
 ou 
Esse coeficiente é adimensional e permite comparar a variabilidade de duas ou mais distribuições, mesmo quando esse, se refere a diferentes fenômenos e seja expresso em unidades de medida distintas.
Classificação: 0% 
 CV < 10% - Baixo; 10% 
 CV < 20% - Médio
 20% 
 CV 
 30% - Alto; CV > 30% - Muito alto 
Exemplo para aula: Determine todas medidas de variabilidade:
a- Dados não agrupados – A média mínima para aprovação é nota igual 5,0. Um estudante obteve { 7,5; 8,0; 3,5; 6,0; 2,5; 2,0; 5,5; 4,0}. O aluno foi aprovado?
b – Dados agrupados para variável discreta – A tabela de freqüência representa os 53 alunos, distribuídos conforme o número de dependência adquirida nas 4 séries do curso.
Tabela 19 - Número de alunos por dependência adquirida 
	N0de disciplinas
	0
	1
	2
	3
	4
	fi
	10
	25
	10
	5
	3
c- Dados agrupados para variável contínua
Tabela 20 – Número de funcionários pelo tempo de serviço
	Tempo de serviço (anos)
	2 |--- 4
	4 |--- 6
	6 |--- 8
	8|---10
	10|---12
	Frequência simples (fi)
	5
	40
	14
	8
	3
 
Atividade 3C
1) Demonstrar que as duas fórmulas de variância populacional abaixo são iguais. 
 
2) Dê exemplo de um conjunto com 5 números quaisquer, positivo e demonstre as duas 
 propriedades de variância. 
3) Quais são as medidas de dispersão? Definir cada medida em estudo e apresentar a Referência Bibliográfica.
4) A seguir têm-se as notas da segunda chamada de 3 Cursos da UEL. Determine as medidas abaixo e responda qual turma teve melhor desempenho? (Pg69) 
 Tabela 21 - Notas da segunda chamada de três Cursos da UEL - 2009
	Turma
	Notas
	Média
	Desvio padrão
	Coef. de
Variação
	Engenharia
	4, 5, 5, 6, 6, 7, 7, 8
	
	
	
	Computação
	1, 2, 4, 6, 6, 9, 10, 10
	
	
	
	Química
	0, 6, 7, 7, 7; 7,5; 7,5
	
	
	
5) Calcule as medidas de dispersão do seguinte conjunto de dados não agrupados.
A ={ 7, 8, 6, 10, 5, 9, 4, 12, 7, 8}. [Ex3; pg 86].
Dados agrupados – Variável discreta
6) Calcule as medidas de dispersão (dados agrupados e não agrupados) da seguinte distribuição de frequência, a qual se refere ao número de defeitos encontrados em placas de circuito integrado. [Ex4; pg87].
Tabela 22 - Número de defeitos encontrados em placas de circuito integrado
	Número de defeitos
	fi
	0
	30
	1
	25
	2
	10
	3
	5
	4
	2
Dados agrupados - Variável Contínua
7) Calcule as medidas de dispersão para o exercício 6 (Leituras das temperaturas) da atividade 3A. 
8) Os dados a seguir registram a leitura da pressão do homogeneizador de um laticínio em dois tipos diferentes de leite. Com base nos dois conjuntos de dados, discuta as medidas descritivas. [Ex 7 - pg87]
Tabela 23 - Leitura da pressão do homogeneizador de um laticínio. 
	Leite tipo C
	Leite UHT
	3,0 3,1 3,0 3,0 3,0 2,9 2,9 3,0
	2,2 2,2 2,3 2,2 2,2 2,2 2,4 2,4
	3,1 2,9 3,0 3,0 3,0 3,0 3,0 3,0
	2,2 2,4 2,6 2,6 2,4 2,2 2,2 2,8
	3,0 3,0 3,0 3,0 2,9 
	2,6 2,2 2,6 2,4 2,0
3D - MEDIDAS BASEADAS NA ORDENAÇÃO DOS DADOS
(Mediana, Quartis, Decis e Percentis)
Separatrizes - As separatrizes são medidas de localização não centrais, que são empregadas particularmente para dividirem em partes iguais, grandes conjunto de dados numéricos. As separatrizes são: a mediana (que é também uma medida de tendência central); os quartis; os decis e os percentis.
Quartis para dados não agrupados - São medidas descritivas que dividem os dados em quatro partes iguais.
 25% 25% 25% 25%
_________Q1_________Q2_________Q3_________
O primeiro quartil, Q1, é o valor que faz com que 25% das observações sejam menores e 75% maiores. 
O segundo quartil, Q2, é o valor que faz com que 50% das observações sejam menores e 50% maiores.
Oterceiro quartil, Q3, é o valor que faz com que 75% das observações sejam menores e 25% maiores. 
 Para n ímpar - A ordem do quartil “i” (i=1, 2 ou 3)é dada por 
 e o valor é localizado no rol. 
Para n par - O quartil será a média dos dois elementos de ordens: 
 e 
.
Quartis para dados agrupados 
qi : 
 localizar classe qi na Fac; 
 qi = Li + 
 .h
Decis para dados não agrupados - São medidas descritivas que dividem os dados em dez partes iguais.
10% 10% 10% 10% 10% 10% 10% 10% 10% 10% 
___D1___D2___D3___D4___D5___D6___D7___D8___D9___
O primeiro decil, D1, é o valor que faz com que 10% das observações sejam menores e 90% maiores. 
O segundo decil, D2, é o valor que faz com que 20% das observações sejam menores e 80% maiores, e assim sucessivamente. 
Para n ímpar - A ordem do decil “i”( i= 1, 2, ....,9) é dada por 
 e o valor é localizado no rol . 
Para n par - O decil será a média dos dois elementos de ordens: 
 e 
.
Decis para dados agrupados
 di : 
 localizar classe di na Fac 
 di = Li + 
 .h
Percentis para dados não agrupados - São medidas descritivas que dividem os dados em cem partes iguais.
 1% 1% 1% 1% ...................... 1% 1% 1% 1% 
___P1___P2___P3___.……………...___P97___P98___P99___
O primeiro percentil, P1, é o valor que faz com que 1% das observações sejam menores e 99% maiores.
O segundo percentil, P2, é o valor que faz com que 2% das observações sejam menores e 98% maiores, e assim sucessivamente.
Para n ímpar- A ordem do percentil “i”( i= 1, 2, ....,99) é dada por 
 e o valor é localizado no rol. 
Para n par- O percentil será a média dos dois elementos de ordens: 
 e 
.
Percentis para dados não agrupados
 pi : 
 localizar classe pi na Fac 
 pi = Li + 
 .h
Atividade 3D
1) Dados não agrupados – pg79 – 
Calcule todos quartis da distribuição: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12. 
Calcule todos quartis da distribuição: 15, 18, 5, 7, 9, 11, 3, 5, 6, 7, 8, 10, 12, 15.
2) Dados não agrupados – Variável em estudo: Tempo (em segundos) para carga de um aplicativo, num sistema compartilhado. Se necessário utilize a interpolação.
{5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3
5.1, 8.4, 6.2, 8.9, 7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1
4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1, 6.0, 4.7, 14.1
5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9} . Determine os quartis. 
Dados agrupados – variável discreta
3) Calcule o primeiro, segundo e terceiro quartil; quinto decil e o vigésimo quinto percentil da seguinte distribuição de frequência, da qual se refere ao número de defeitos encontrados em placas de circuito integrado. Considere os dados não agrupados [Ex4; pg 87)
Tabela 24 - Número de defeitos encontrados em placas de circuito integrado
	Número de defeitos
	fi
	0
	30
	1
	25
	2
	10
	3
	5
	4
	2
4) Calcule os quartis, quinto decil e décimo, quinquagésimo, nonagésimo percentil, para o (ex6) da atividade 3A (Leitura das temperaturas). 
5) Dados agrupados - Variável contínua - A tabela apresenta a distribuição de frequências dos salários mensais, em dólares, de 100 empregados da companhia P&R. Determine Q1, Q3, P10, P90.
 
Tabela 25 – Distribuição de frequências para uma variável contínua
	Classes
	fi
	06 |-- 18
	6
	18 |-- 30
	10
	30 |-- 42
	13
	42 |-- 54
	8
	54 |-- 66
	5
	66 |-- 78
	6
3E - MEDIDAS DE ASSIMETRIA E MEDIDAS DE CURTOSE
Assimetria - Assimetria é o grau de afastamento de uma distribuição em relação ao eixo simétrico. Uma distribuição pode ser:
simétrica;
assimétrica positiva ou à direita;
assimétrica negativa ou à esquerda.
Comparação entre as medidas de posição-Em uma distribuição simétrica, a média, a mediana e a moda são iguais, isto é, 
 = Med = Mo. Em um gráfico de distribuição essas medidas se coincidem.
Em uma distribuição assimétrica positiva ou assimétrica à direita, a média é maior que a mediana, e esta por sua vez, é maior que a moda, isto é, Mo < Med < 
. Em um gráfico de distribuição essas medidas ficam:
Em uma distribuição assimétrica negativa ou assimétrica à esquerda, a média é menor que a mediana, e esta por sua vez, é menor que a moda, isto é, 
<Med < Mo. Em um gráfico de distribuição essas medidas ficam:
Coeficiente de assimetria de Pearson - O coeficiente de assimetria de Pearson pode ser determinado através das seguintes equações:
1o coeficiente de Pearson : 
 ou	
2o coeficiente de Pearson : 
onde: q1 é o 1o quartil, q3 é o 3o quartil, Med é a mediana.
Obs.: Se As = 0 ( a distribuição é simétrica 
	 As > 0 ( a distribuição é assimétrica positiva (à direita)
 As < 0 ( a distribuição é assimétrica negativa (à esquerda).
Curtose - Curtose é o grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal.
Uma distribuição que não é nem chata e nem delgada é denominada de mesocúrtica. A curva normal, por exemplo, que é a nossa base referencial, recebe o nome de mesocúrtica.
Quando a distribuição apresenta uma curva de frequência mais fechada que a normal (ou mais aguda em sua parte superior) ela recebe o nome de leptocúrtica. 
Quando a distribuição apresenta uma curva de frequência mais aberta que a normal (ou mais achatada na sua parte superior), ela é chamada de platicúrtica.
Os gráficos abaixo mostram essas distribuições:
Coeficiente de curtose: 
; onde: P10 e P90 são os percentis 10 e 90. 
	C = 0,263 ( curva mesocúrtica
C < 0,263 ( curva leptocúrtica
C > 0,263 ( curva platicúrtica
Atividade 3E
1) Dados não agrupados - Defina o coeficiente de assimetria e o coeficiente de curtose. Apresente uma literatura com essa definição. Encontre o coeficiente de assimetria e curtose do ex2 – Atividade 3D.
2) Dados agrupados - Calcule o coeficiente de assimetria e curtose, para o (ex 6) da atividade 3A.
3) A tabela apresenta a distribuição de frequências dos salários mensais, em dólares, de 100 empregados da indústria de peças para computadores na China. Determine as medidas de posição; medidas de dispersão; (quartis, terceiro e sexto decil, décimo percentil, trigésimo percentil); coeficiente de assimetria e curtose.
Tabela 23 - Distribuição de frequências dos salários mensais de 100 funcionários de uma indústria 
	SALÁRIOS
	fi
	140 /--- 160
	6
	160 /--- 180
	21
	180 /--- 200
	32
	200 /--- 220
	26
	220 /--- 240
	10
	240 /--- 260
	5
	Total
	n=100
 3F- Aplicação das Medidas Descritivas
GRÁFICO BOX-PLOT – O Box-plot mais simples tem base no resumo dos 5 números. (Mínimo, Primeiro quartil, Mediana, Terceiro quartil e Máximo). A amplitude interquatílica (dq) é encontrada pela diferença do terceiro e primeiro quartil. A distribuição terá outlier se verificar valores acima (ou abaixo) de 1,5 dq; e outlier extremo se verificar valores acima (ou abaixo 3 dq). Encontre a amplitude interquartil dq= Q3 – Q1. Os limites : LI = Q1 - (1,5) dq e LI = Q3 - (1,5) dq e LS = Q3 + (1,5) dq e LI = Q3 + (1,5) dq
Exemplo 1- Livro: Estatística aplicada a administração e economia. Seja a distribuição de dados referente a salários do departamento de uma empresa. Construa o Box-plot.
2710, 2755, 2850, 2880, 2880, 2890, 2920, 2940, 2950, 3050, 3130, 3325 
 
 Outliers Extremos 
3405 ------------------------------------------------------ Lim Superior Extremo Q3+ 3,0 dq
 OUTLIERS Max = 3325
3202 --------------------------------------------------------- Lim. Superior Q3 + 1,5 dqQ3 = 3000 30 Quartil
 
 Mediana
 Q2 = med = 2905 20 Quartil
 10 Quartil
 Q1 = 2865 
 
2800
 
 Mínimo=2710
 
2662,5 ------------------------------------------------------------------------
 OUTLIERS Lim. Inferior
 Q1 - 1,5 dq
�
 Lim.Inferior Extremo 
 2460 -------------------------------------------------------------------------- Q1 - 3,0 dq 
 Outiliers Extremos 
Atividade 3F
Dados não agrupados
1) Os dados se referem aos salários mensais iniciais em reais, de uma amostra de 12 recém-graduados do Curso de Computação da UEL (2007). Faça um desenho esquemático do Box-plot dos dados acima. Verificar se há outlier. 
SM = {2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325}.
2) Exemplo: Seja um experimento realizado na UNESP - Botucatu (2005), onde a variável observada foi a altura de 40 pés de eucalipto (metros) de certa espécie. 
2.2 2.3 2.5 2.6 3.0 3.5 3.5 3.8 3.8 3.9 4.1 4.1 4.1 4.1 4.1 4.2 4.3 4.3 4.4 4.4 4.6 4.9 5.0 5.0 5.3 5.8 6.0 6.0 6.0 6.0 6.0 6.5 6.9 7.1 7.2 7.7 8.3 8.5 11.3 13.8.
a) Realize uma análise exploratória dos dados. Dados não agrupados.
b) Verifique se há dados discrepantes (outliers). Retire os outliers e refaça a A.E.D
Aplicar o resumo dos 5 números no gráfico Box plot. 
3) A concentração de cocaína no sangue (mg/l) foi determinada para uma amostra de indivíduos que morreram de delírio induzido por cocaína (ED) e para uma amostra de indivíduos que morreram de overdose de cocaína sem delírio. O tempo de sobrevida das pessoas de ambos os grupos foi de, no máximo 6 horas. Os dados a seguir foram retirados de um artigo (“Fatal Excited Delirium Following Cocaine; J. of Forensic Sciences, 1997, p 25-31)
3a. Realize uma análise exploratória de dados.
3b. Qual conjunto apresenta mais uma distribuição simétrica?
3c. Construa dois gráficos box-plot e discuta as diferenças. Há algum outlier na amostra? Algum extremo?
ED:[0,0,0,0,0.1,0.1,0.1,0.1,0.2,0.2,0.3,0.3,0.3,0.4,0.5,0.7,0.8,1.0,1.5,2.7,2.8,3.5,4.0,8.9,9.2,11.7,21.0.]
NED [0,0,0,0,0,0.1,0.1,0.1,0.1,0.2,0.2,0.2,0.3,0.3,0.3,0.4,0.5,0.5,0.6,0.8,0.9,1.0,1.2,1.4,1.5,1.7,2.0,3.2,3.5,4.1,4.3,4.8,5.0,5.6,5.9,6.0,6.4,7.9,8.3,8.7,9.1,9.6,9.9,11.0,11.5,12.2,12.7,14,16.6,17.8] 
4) Apresentar um artigo científico de sua área onde apresente as medidas descritivas e um dos respectivos gráficos (Histograma ou Box-plot) 
########################
PROGRAMA R
#########################
###################
SCRIPT Introdução
#----------------------------------------------------------
# INSTALAÇÃO "Home page do R" :(http://www.r-project.org)
# Espelho: Brasil (UFPR)
#----------------------------------------------------------
• R é uma aplicação de distribuição gratuita. É um ambiente no qual se pode efetuar
análises estatísticas e produzir gráficos e é também uma linguagem de programação.
#-------------------------------------------------------------- 
#---------------------------------------------------------------
# OPERAÇÕES ARITMÉTICAS 
#---------------------------------------------------------------
2+1 
14-10
4*5
48/12
 sqrt(16) 
b <- sqrt(16) # armazena a raiz quadrada de 16 em b
b
#ou # digite o nome do objeto para ver seu conteúdo; 
b= sqrt (16); b 
4*3**3 + 2^5 
56^(1/3) + 28^(1/4) # raiz cúbica e raiz quarta
 #----------------------------------------
# FUNÇÕES ARITMÉTICAS 
#------------------------------------------
# log, exp, sin, cos, tan, atan, sqrt, abs, ...
 log(100, base=7) # Dessa forma, pode-se calcular logaritmos em qualquer base
 pi 
 factorial(5) 
 abs(3) 
 abs(-3)
 sin(pi)
 b <- sqrt(16) # armazena a raiz quadrada de 16 em b
 b
 #ou # digite o nome do objeto para ver seu conteúdo; 
 b= sqrt (16); b
 d <- sqrt(log(100))
 d 
 b+d #executa a operação de adição
#-------------------------------------------------------------------------
# LER SEQUÊNCIA DE NÚMEROS 
#-------------------------------------------------------------------------
1:6 # sequencia de 1 a 6 ou
seq(1:6)
seq(1,10,1) # o mesmo que 1:10, observe o valor 1 no final. 
 #Ele é o incremento
seq(1,10,2) # de 2 em 2 - não necessariamente termina em 10
seq(10,1,-2) # tentando ordem inversa...
seq(10,1,-3) # a forma correta é usando passo negativo...
a=seq(-5, 5, by=.2) # posso, se quiser, usar o by
a
b= seq(0,1, by=0.1) ; b # seq de 0 a 1 de 0.1 em 0.1 
c= seq(0,1, l=11) ; c # seq de o a 1 com 11 valores 
#------------------------------------------------------------------
# VARIÁVEIS 
#------------------------------------------------------------------
X = 1:5 ;X
Y = X+2 ;Y
Z = X*Y ;Z 
Z[3] #extrai o elemento 3 do conjunto
Z[Z<15] #extrai elementos menor que 15 do conjunto
#-------------------------------------------------------------------
# OBJETOS: Vetores; Matrizes; Funções 
#-------------------------------------------------------------------
#VETOR: É uma colecção ordenada de elementos do mesmo tipo (valores
# numéricos, lógicos, alfanuméricos...).
#------------------------------------------------------------------
 A= c(10,12,14,15,20); A
length(A) #largura do vetor
 
B<- c(FALSE, TRUE, TRUE); B
nomes <- c("Ana","João","Maria")
nomes
#---------------------------------------------------------------------------
#Para atribuir nomes às componentes de um vector usa-se a função "names()".
#---------------------------------------------------------------------------
idades = c(22,19,17)
idades
names(idades)= nomes
idades
#------------------------------------------------------------
# Usando rep() 
# Outra função útil para produzir vetores é a 
# função rep() que retorna o primeiro argumento repetindo o 
# número de vezes indicado pelo segundo argumento: 
#------------------------------------------------------------
rep(1,10) # repete o número 1 dez vezes
rep(c(1,2),10) # repete o vetor [1,2] dez vezes
c(rep(0,10), rep(1,5)) # repete 0, 10 vezes e repete 1, 5 vezes 
#----------------------------------------------
# Pode-se aindausar variáveis (objetos) como 
# argumentos das funções: 
#----------------------------------------------
w <- 10; w
rep(c(1,2,3),w) # ou
rep(c(1,2,3),10)
#--------------------------------------------------------------------------
# MATRIZES: É uma coleção de dados (todos do mesmo tipo) referenciados
# por dois índices. É uma generalização para duas dimensões de um
# vector
#--------------------------------------------------------------------------
# função matrix()
 E = matrix(1:9, ncol=3); E
 E1= matrix(1:12, nrow=3); E1
 E2= matrix(1:12,3,4); E2 #linha=3; coluna=4
 E3= c(1,3,5,7,9,11);E3 
 dim(E3)= c(3,2) #dim é a função dimensão
 E3
 is.matrix(E)
 is.vector(E)
 is.character(E)
 E4= c(1,5,9,3,7,11);E4 
 dim(E4)= c(3,2) 
 E4
 is.matrix(E)
 is.vector(E)
 is.character(E)
t(E4) # matriz transposta 
x<-1:12 #cria uma seqüência de 1 a 12 no objeto x
xmat<-matrix(x, ncol=3) #cria uma matriz de 3 colunas usando o objeto x
xmat #exibe a matriz criada
matrix(x,ncol=3,byrow=TRUE) #agora preenchendo a matriz pelas linhas
matrix(x,ncol=3,byrow=FALSE) #agora preenchendo a matriz pelas colunas
#-------------------------------
# Operações com matrizes
#-------------------------------
W = matrix (c(1,4,5,2,5,6,3,6,7), nrow=3) ; W
dim(W)
nrow(W)
ncol(W)
W [1,2] # elemento da linha 1 e coluna 2
W [1,2] + W [2,1] # somando elementos da matriz E 
#adição e subtração
 F = cbind(1:3, 4:6 ,5:7); F
 is.matrix(F)
 dim(F)
 W + F # não soma matrizes (dimensões diferentes)
 W - F
#------------------------------------------------------------
# multiplicaçào e divisão de matrizes
# lembrar propriedade de matrizes (numero de colunas M1= número de linhas M2)
#---------------------------------------------------------------------------
H = matrix (c(55,62,48,71,48,10), nrow=2) ; H
P= matrix (c(0,0,0.5,1,0,0.5,0,1,0), ncol=3) ; P
Q= H%*%P; Q
dim(H)
dim(P)
dim(Q) 
#-------------------------------------------------
# nomear linhas e colunas
#------------------------------------------------ 
 I = matrix (c(55,62,48,71,48,10), ncol=2,
 dimnames = list(c("row1", "row2","row3"), c("C.1", "C.2")))
 I
 II = matrix (c(55,62,48,71,48,10), nrow=3,
 dimnames = list(c("row1", "row2","row3"), c("C.1", "C.2")))
 II
 #Divisão de matrizes
III= I/II; III
#--------------------------------------------------------------
W = matrix (c(2,1,0,1,3,1,1,1,2), nrow=3) ; W
Inv= solve(W); Inv
WI= W*Inv; WI
#Para fazermos arredondamentos com 5 casas decimais,por exemplo:
Ident = round(solve(W)%*%W); Ident 
#--------------------------------------
# CRIAR ou LER ARQUIVOS
#--------------------------------------
 Para remover dados antigos:
 rm(list=ls())
#---------------------------------------------------------------
# OPÇÃO 1 - CRIAR UM CONJUNTO Y (SCAN)
#-------------------------------------------------------------------
 y = scan()
 1: 7
 2: 8
 3: 6
 4: 5
 5: 9
 6: 4
 ......
 y # aparece os dados
 table(y) # conta frequências 
#-------------------------------------------------------------------
# OPÇÃO 2 - CRIAR UM CONJUNTO W - Vetor
#-------------------------------------------------------------------
 W= c(7,8,8,6,5,9,4,4); W
 table(W)
 length(W)
 min(W)
 max(W)
 mean(W)
#-----------------------------------------------------------------------------
# OPÇÃO 3 - IMPORTAR ARQUIVO DO EXCEL. CSV
#---------------------------------------------------------------------------------
 dados=read.csv(E;/Pesquisa 2013.csv, sep=";")
 dados # apresenta a planilha
 attach(dados) # registra na memória
 names(dados) # mostra o nome das variáveis
 dim(dados) # mostra a dimensão do conjunto
#-------------------------------------------
# CRIAR DATA-FRAMES
#-------------------------------------------
 DF= data.frame(M=2:8, N=c(0,5,10,15,20,25,30))
 DF 
 names(DF) # nome das variáveis do data frame 
 plot(DF) # gráfico de dispersão
 mean(DF$M) # média da variável M
 mean(DF$N) # Média da variável N
 var(DF$M) # variância M
 sd(DF$M) #desvio padrão M
#############
SCRIPT AULA 1
############# 
#---------------------------------------------------------------
#ATIVIDADE 1 - PRÁTICA
#---------------------------------------------------------------
#8) Crie uma amostra n =6 elementos denominada de H. Os valores de 
#H (12,15,20,22,25,30).
a) Calcule a média; variância e desvio padrão dos elementos da amostra H.
b) calcule a média usando a função. 
c) não use a função média, programe para encontrar a média.
d) comprimento do vetor.
e) não use a função, programe para encontrar a variância e desvio padrão. 
f) Transforme os valores de H (num novo conjunto denominado K, onde K = (H+2).
 Calcule a novamente a nova média e o desvio padrão dos dados transformados. 
 O que vc comprovou entre as médias dos conjuntos H e K? E os desvios padrões das duas amostras? 
e) Some os elementos do conjunto denominado "Soma" = (H + K).
# a)
H=c(12,15,20,22,25,30)
#b)
#c) Média 
#d) Variância: opção 1
#opção 2 
#f) soma
#---------------------------------------------
# ex9)matrizes
#--------------------------------------------
4) Crie uma matriz denominada de MAT1 de dimensão(3x3)
C1 (1,4,2) C2 (5,3,6) C3 (2,1,1)
a) Encontre a Matriz transposta.
b) verifique a dimensão de Mat.
c) nomear linhas e colunas 
d) realize a operação de adição e subtração dessa matriz MAT1
 
Crie uma matriz denominada de MAT2 de dimensão(3x2)
a) Utilize C1=(10,40,20) C2=(50,30,60) 
b) verifique a dimensão de Mat
c) multiplique MAT1 e MAT2
#--------
# ex10)
#---------
sample(1:30, 6, replace=FALSE)
#----------------------------------------------------------------
#############
SCRIPT AULA 2A
############# 
# Exercicio 2 - Seja 28 alunos numa sala de aula. 
#Retire uma amostra com reposição e sem reposição. 
#Retire a altura dos 6 alunos e calcule média e desvio padrão.
#------
#ex3
#------
ex3 = seq(1580:8480)
sample(ex3, 100, replace=F)
#------
#ex5
#------
a1= 1:8; a1
a2= 9:16; a2
a3= 17:24 ;a3
a4= 25:32; a4
continue.......
#################
#SCRIPT AULA 3A 
#--------------------------------------------------------------------------------------------
# ex1- TABELA SIMPLES e GRÁFICOS – Variáveis qualitativas – ex1 / pg54
#------------------------------------------------------------------------------------------
prov = c ( "C","A","B","B","C","B","D","B",
 "B","A","C","A","B","D","A","B",
 "B","C","D","B","B","A","A","B",
 "A","A","B","D","D","C","A","A",
 "B","C","B","D","B","B","B","C") 
 table(prov) # não gera tabela
 t1=table(prov); t1 # conta valores e fixa nome da tabela(t1)
#-----------------------------------------------
# Totais marginais na tabela 
#-----------------------------------------------
addmargins(t1) # soma total da linha 
#-----------------------------------------------------
# Frequências relativas 
#------------------------------------------------------

Outros materiais