Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ DEPARTAMENTO ACADÊMICO DE ESTATÍSTICA DESCRIÇÃO DOS ESTUDANTES DA DISCIPLINA PROBABILIDADE E ESTATÍSTICA (MA70H), TURMA S11, CONFORME A QUANTIDADE DE DISCIPLINAS MATRICULADAS NO SEMESTRE LETIVO 2/2020 Exemplo de Relatório Estatístico - Estatística Descritiva Silvana Heidemann Rocha Curitiba, Fevereiro/2020 SILVANA HEIDEMANN ROCHA DESCRIÇÃO DOS ESTUDANTES DA DISCIPLINA PROBABILIDADE E ESTATÍSTICA (MA70H), TURMA S11, CONFORME A QUANTIDADE DE DISCIPLINAS MATRICULADAS NO SEMESTRE LETIVO 2/2020 Relatório apresentado na disciplina Probabilidade e Estatística (MA70H), do curso de Engenharia Eletrônica da Universidade Tecnológica Federal do Paraná, campus Curitiba, como requisito de proporcionar exemplo de relatório de estatística descritiva aos estudantes. Orientação: Profª Drª Silvana Heidemann Rocha Curitiba, Fevereiro/2020 2 1 APRESENTAÇÃO Este relatório apresenta a descrição dos estudantes da turma S11 da disciplina Probabilidade e Estatística (MA70H), semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná (UTFPR), campus Curitiba, segundo a variável "quantidade de disciplinas matriculadas". A população-alvo é formada por todos os 20 estudantes matriculados em tal disciplina MA70H-S11 e a unidade elementar é cada estudante da população-alvo. O sistema de referência usado para acessar cada unidade elementar foi o diário de frequência às aulas da referida disciplina. Assim, a população referenciada coincide com a população-alvo, sendo ambas formadas pelos 20 estudantes matriculados em MA70H-S11. A técnica de levantamento de dados usada foi o recenseamento, uma vez que o objetivo era levantar os dados em toda a população-alvo. Após a coleta de dados, foi possível identificar a população amostrada, sendo ela formada por 16 estudantes da disciplina MA70H-S11, uma vez que dois estudantes chegaram atrasados e dois estudantes faltaram à aula realizada em 23 de fevereiro de 2020, primeiro dia de aula da referida disciplina. Nesse dia, foi realizada a coleta de dados mediante fazer a cada estudante a seguinte pergunta: "Em quantas disciplinas você se matriculou no semestre letivo 2/2020?". O censo apurado foi 3, 8, 3, 13, 8, 12, 6, 7, 3, 10, 6, 9, 8, 7, 8, 8. A Tabela 1 e os Gráficos 1 e 2, abaixo, apresentam os dados coletados. A Tabela 1 é denominada tabela primitiva. O gráfico 1, denominado diagrama ramo e folhas, serve para apresentar os dados brutos, sendo que os números à esquerda da barra vertical são os ramos e os números à direita da barra vertical são as folhas. Como a unidade da folha é 1,0, isso significa que os dados brutos apresentados em 2 (a) são 03,0; 08,0; 03,0;...; 13,0; 12,0; 10,0. No gráfico 1 (a) os dados não estão ordenados e no gráfico 1 (b) os dados estão ordenados. O gráfico 2, denominado diagrama de dispersão ou scatter plot , apresenta a nuvem de pontos da quantidade de disciplinas matriculadas, por estudante. Como toda tabela e gráfico devem ser autoexplicativos, o título busca responder as perguntas "O que a tabela ou o gráfico apresenta?", "Onde e quando o levantamento de dados foi feito?". As informações complementares estão no rodapé 3 das tabelas e dos gráficos na seguinte ordem, fonte, nota e chamada, sendo que as notas esclarecem aspectos gerais e as chamadas esclarecem aspectos específicos ou individuais. Tabela 1 – Estudantes da disciplina Probabilidade e Estatística (MA70H), turma S11, semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná, campus Curitiba, segundo a quantidade de disciplinas matriculadas – Curitiba, fevereiro/2021 Estudante Nº de disciplinas matriculadas 1 3 2 8 3 3 4 13 5 8 6 12 7 6 8 7 9 3 10 10 11 6 12 9 13 8 14 7 15 8 16 8 17 (1) Não informado, pois não participou da coleta de dados 18 (1) Não informado, pois não participou da coleta de dados 19 (2) ão informado, pois não participou da coleta de dados 20 (2) Não informado, pois não participou da coleta de dados Fonte: A autora. Nota: No semestre letivo 2/2020, a turma MA70H-S11 tinha 20 estudantes matriculados, mas apenas 16 estiveram presentes no momento da coleta de dados. (1) Chegou atrasado à aula de MA70H-S11, em 23/02/2021, quando foi realizada a coleta de dados. (2) Faltou à aula de MA70H-S11, em 23/02/2021. 4 (a) (b) Gráfico 1 – Estudantes da disciplina Probabilidade e Estatística (MA70H), turma S11, semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná, campus Curitiba, segundo a quantidade de disciplinas matriculadas – Curitiba, fevereiro/2021 Fonte: A autora. Nota: No semestre letivo 2/2020, a turma MA70H-S11 tinha 20 estudantes matriculados, mas apenas 16 estiveram presentes no momento da coleta de dados. Gráfico 2 – Estudantes da disciplina Probabilidade e Estatística (MA70H), turma S11, semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná, campus Curitiba, segundo a quantidade de disciplinas matriculadas – Curitiba, fevereiro/2021 Fonte: A autora. Nota: No semestre letivo 2/2020, a turma MA70H-S11 tinha 20 estudantes matriculados, mas apenas 16 estiveram presentes no momento da coleta de dados. Diagrama Ramo e Folhas Unidade da folha 1,0 0 | 3 3 3 0 | 6 6 7 7 8 8 8 8 8 9 1 | 0 2 3 0 2 4 6 8 10 12 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17N º d e d e d is ci p lin as m at ri cu la d as Estudante Diagrama de dispersão Diagrama Ramo e Folhas Unidade da folha 1,0 0 | 3 8 3 8 6 7 3 6 9 8 7 8 8 1 | 3 2 0 5 2 DESENVOLVIMENTO A partir da Tabela 1, apurou-se as frequências e o resultado está na Tabela 2, a seguir, a qual representa uma tabela de distribuição de frequência sem intervalos de classe, pois os dados não estão agrupados em classe. Na sequência, os Gráficos 3 e 4 ilustram a Tabela 2. Tabela 2 – Estudantes da disciplina Probabilidade e Estatística (MA70H), turma S11, semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná, campus Curitiba, segundo a quantidade de disciplinas matriculadas – Curitiba, fevereiro/2021 Nº de disciplinas matriculadas Frequência 3 3 6 2 7 2 8 5 9 1 10 1 12 1 13 1 Total 16 Fonte: A autora. Nota: No semestre letivo 2/2020, a turma MA70H-S11 tinha 20 estudantes matriculados, mas apenas 16 estiveram presentes no momento da coleta de dados. Gráfico 3 – Estudantes da disciplina Probabilidade e Estatística (MA70H), turma S11, semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná, campus Curitiba, segundo a quantidade de disciplinas matriculadas – Curitiba, fevereiro/2021 Fonte: A autora. Nota: No semestre letivo 2/2020, a turma MA70H-S11 tinha 20 estudantes matriculados, mas apenas 16 estiveram presentes no momento da coleta de dados. 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Fr eq u ên ci a Nº de disciplinas matriculadas Diagrama de frequência para dados não agrupados em classe 6 Gráfico 4 – Estudantes da disciplina Probabilidade e Estatística (MA70H), turma S11, semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná, campus Curitiba, segundo a quantidade de disciplinas matriculadas – Curitiba, fevereiro/2021 Fonte: A autora. Nota: No semestre letivo 2/2020, a turma MA70H-S11 tinha 20 estudantes matriculados, mas apenas 16 estiveram presentes no momento da coleta de dados. O gráfico 4 é denominado histograma de haste. Esse tipo de histograma é indicado para variável quantitativa discreta.Histogramas são gráficos usados para representar variáveis quantitativas. A variável "quantidade de disciplinas matriculadas" é classificada como quantitativa discreta. Por haver poucos dados (16 dados, apenas) e pela variável ser quantitativa discreta não tem sentido agrupar os dados em intervalos de classe ou construir histograma de frequência com colunas justapostas. Assim, apenas o histograma de haste ou o diagrama de frequência para dados não agrupados em classe são suficientes para representar o fenômeno em estudo, de forma clara, objetiva, concisa e precisa. A variável "quantidade de disciplinas matriculadas" tem um zero absoluto (o zero matemático coincide com o zero físico), pois zero disciplina significa nenhuma disciplina matriculada, realmente. Ainda, a escala de medição da variável atende a definição de escala intervalar e a de escala de proporcionalidade, pois, por exemplo, a diferença entre quaisquer dois pontos consecutivos é a mesma e 4 disciplinas é o dobro de 2 disciplinas, 12 disciplinas é o triplo de 4 disciplinas. Assim, 7 a escala de medição da referida variável é a escala de proporcionalidade, também denominada escala de razão. Portanto, é válido calcular medidas estatísticas como média, desvio-padrão, percentis, dentre outros. O tipo de média indicado, no caso, é a média aritmética. A Tabela 3, a seguir, apresenta as medidas estatísticas que descrevem o conjunto de dados expostos na Tabela 2. Tabela 3 – Medidas estatísticas para descrever os estudantes da disciplina Probabilidade e Estatística (MA70H), turma S11, semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná, campus Curitiba, segundo a quantidade de disciplinas matriculadas – Curitiba, fevereiro/2021 Medida estatística Valor calculado Unidade de medida Quantidade de dados (N) 16 - Mínimo (Min) 3 disciplina Máximo (Max) 13 disciplina Amplitude (A) 10 disciplina Moda (Mo) 8 disciplina (1) Percentil 10 (P10) 3 disciplina (1) Primeiro Quartil (Q1) 6 disciplina Mediana (�̃�) 8 disciplina (1) Terceiro Quartil (Q3) 8 disciplina (1) Percentil 90 (P90) 10,8 disciplina Média (𝜇) 7,4 disciplina Variância populacional (𝜎2) 7,87 disciplina 2 Desvio-padrão populacional (𝜎) 2,8 disciplina Coeficiente de variação (CV) 37,7 % (2) Coeficientes de assimetria (As) 0,058; -0,602; -0,201; -1,000 - (2) Coeficientes de curtose (K) -0,365; 0,128 - Fonte: A autora. (1) Há várias fórmulas para calcular os quantis. Os quantis mais usuais são os percentis, os decis e os quartis. Os quantis também são denominados medidas de posição. (2) Há várias fórmulas para calcular assimetria e curtose. Pela tabela 3, constata-se que o menor número de disciplinas matriculadas foi 3 e o maior foi 13, sendo que o valor mais frequente foi 8 disciplinas matriculadas. Esses valores são denominados mínimo, máximo e moda, respectivamente. Constata-se também que 10% da turma de estudantes de MA70H-S11 matricularam- se em até 3 disciplinas, 25% da turma matricularam-se em até 6 disciplinas, 50% da 8 turma matricularam-se em até 8 disciplinas, 75% da turma em até 8 disciplinas e 90% da turma em até 10,8 disciplinas, ou seja, em até 11 disciplinas, por arredondamento. Esses valores são denominados 10º percentil ou percentil 10, primeiro quartil ou quartil 1, mediana, terceiro quartil ou quartil 3 e 90º percentil ou percentil 90, respectivamente. Constata-se, ainda, que em média os estudantes se matricularam em 7,4 disciplinas com um desvio-padrão de 2,8 disciplinas, apresentando um coeficiente de variação de 37,7%, um coeficiente de assimetria de 0,058 e um coeficiente de curtose de -0,36. A variância, o desvio-padrão e o coeficiente de variação buscam quantificar a variabilidade presente no conjunto de dados. Nesse caso, o coeficiente de variação está informando que essa variabilidade é de 37,7% se comparada com a média do conjunto de dados. Os coeficientes de assimetria e de curtose buscam avaliar o quão a curva de densidade da distribuição dos dados se desvia da curva normal-padrão, horizontal e verticalmente, respectivamente. O Gráfico 5, abaixo, denominado box plot ou diagrama de caixa, apresenta o menor e o maior valores observados para a variável X, o primeiro e o terceiro quartis e a mediana. Além disso, aponta como ponto discrepante o valor 13 disciplinas matriculadas. Esse gráfico usa o intervalo [ Q1 – 1,5(Q3 – Q1); Q3 + 1,5(Q3 – Q1) ] para localizar o menor e o maior valores observados, bem como os eventuais pontos discrepantes. Esse intervalo é comentado adiante. Gráfico 5 - Medidas estatísticas para descrever os estudantes da disciplina Probabilidade e Estatística (MA70H), turma S11, semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná, campus Curitiba, segundo a quantidade de disciplinas matriculadas – Curitiba, fevereiro/2021 Fonte: A autora. 9 A Tabela 4, adiante, apresenta os escores padronizados para a variável "quantidade de disciplinas matriculadas". Por um teorema de Chebyshev, considera- se valores não-usuais da variável X aqueles que possuem escore padronizado menor que -2 ou maior que 2 e valores discrepantes aqueles com escore padronizado menor que -3 ou maior que 3. Por tal teorema, não há valores discrepantes nem não usuais de X, como se constata pela tabela 4. Ainda, há um outro critério para se detectar valor discrepante, também denominado ponto discrepante ou outlier, que é o intervalo [ Q1 – 1,5(Q3 – Q1); Q3 + 1,5(Q3 – Q1) ]. Valores da variável X que estejam fora desse intervalo são classificados como ponto discrepante (ou outlier). No problema sob estudo, esse intervalo corresponde a [3, 11]. Dessa forma, os valores 12 e 13 disciplinas matriculadas são pontos discrepantes, ou seja, destoam muito da massa das observações de X também denominada nuvem de pontos de X. Tabela 4 – Escores padronizados para a quantidade de disciplinas matriculadas referente aos estudantes da disciplina Probabilidade e Estatística (MA70H), turma S11, semestre letivo 2/2020, da Universidade Tecnológica Federal do Paraná, campus Curitiba – Curitiba, fevereiro/2021 Nº de disciplinas matriculadas (X) Frequência Escore padronizado z, com 𝑧𝑖 = 𝑥𝑖−𝜇 𝜎 3 3 -1,58 6 2 -0,51 7 2 -0,16 8 5 0,20 9 1 0,56 10 1 0,91 12 1 1,63 13 1 1,98 Total 16 Fonte: A autora. Nota: No semestre letivo 2/2020, a turma MA70H-S11 tinha 20 estudantes matriculados, mas apenas 16 estiveram presentes no momento da coleta de dados. 10 3 CONCLUSÃO O conjunto de dados 3, 3, 3, 6, 6, 7, 7, 8, 8, 8, 8, 8, 9, 10, 12, 13 representa a quantidade de disciplinas nas quais os(as) estudantes da disciplina MA70H-S11 matricularam-se, no semestre letivo 2/2020. Por meio de técnicas de estatística descritiva, constatou-se que o menor número de disciplinas matriculadas foi 3 e o maior foi 13, sendo que a moda foi 8 disciplinas matriculadas. Constatou-se também que 10% da turma de estudantes de MA70H-S11 matricularam-se em até 3 disciplinas, 25% da turma matricularam-se em até 6 disciplinas, 50% da turma matricularam-se em até 8 disciplinas, 75% da turma em até 8 disciplinas e 90% da turma em até 10,8 disciplinas, ou seja, em até 11 disciplinas, por arredondamento. Constatou-se, ainda, que em média os estudantes se matricularam em 7,4 disciplinas com um desvio-padrão de 2,8 disciplinas, apresentando um coeficiente de variação de 37,7% e um coeficiente de assimetria de 0,058. Como a média 7,4, a mediana 8 e a moda 8 são valores próximos, em termos de desvio-padrão 2,8, conclui-se que os dados estão distribuídos aproximadamente simétricos (baixa assimetria) em torno da média. No entanto, é preocupante pedagogicamente os valores isolados acima da moda, em especial, os valores 10, 12 e 13 disciplinasmatriculadas. A preocupação tem em vista que as aulas acontecerão de modo remoto, não presencial, devido aos necessários cuidados sanitários decorrentes da pandemia de COVID-19, doença altamente contagiosa e mortal em alguns casos. Como o principal objetivo da Estatística, como ciência, é fornecer estudos técnicos que subsidiem a tomada de decisão, sinceramente, espera-se que este estudo sirva para os(as) estudantes reavaliarem a viabilidade de construir conhecimento sólido, com a quantidade de disciplinas nas quais se matricularam. 11 REFERÊNCIAS ROCHA, S. H. Conceitos básicos em estatística: notas de aulas. Curitiba-PR: UTFPR, 2021. Disponível em: <http://paginapessoal.utfpr.edu.br/heidemann/probabilidade-e-estatistica>. Acesso em 24/02/2021. 12 APÊNDICE A Fórmulas de Estatística Descritiva Seja a amostra (𝑥1, 𝑥2, … , 𝑥𝑛) ou a população (𝑥1, 𝑥2, … , 𝑥𝑁) de uma variável quantitativa contínua X, medida em escala de proporcionalidade (ou escala de razão). Em ordem crescente, essa amostra e população são representadas, respectivamente, por (𝑥(1), 𝑥(2), … , 𝑥(𝑛)) e (𝑥(1), 𝑥(2), … , 𝑥(𝑁)). As seguintes fórmulas de estatística descritiva são válidas: Medidas descritivas para uma variável quantitativa contínua X, medida em escala de proporcionalidade (continua) Nome da estatística Representação Fórmula para amostra Fórmula para população Quantidade de dados 𝑛 ou 𝑁 𝑛 = 𝐶𝑜𝑛𝑡𝑎𝑟{𝑥1, 𝑥2, … , 𝑥𝑛} 𝑁 = 𝐶𝑜𝑛𝑡𝑎𝑟{, 𝑥2, … , 𝑥𝑁} Mínimo Min ou 𝑥(1) 𝑀𝑖𝑛 = 𝑥(1) = 𝑀𝑒𝑛𝑜𝑟{𝑥1, 𝑥2, … , 𝑥𝑛} 𝑀𝑖𝑛 = 𝑥(1) = 𝑀𝑒𝑛𝑜𝑟{𝑥1, 𝑥2, … , 𝑥𝑁} Máximo Max, 𝑥(𝑛)ou 𝑥(𝑁) 𝑀𝑎𝑥 = 𝑥(𝑛) = 𝑀𝑎𝑖𝑜𝑟{𝑥1, 𝑥2, … , 𝑥𝑛} 𝑀𝑎𝑥 = 𝑥(𝑁) = 𝑀𝑎𝑖𝑜𝑟{𝑥1, 𝑥2, … , 𝑥𝑁} Amplitude A 𝐴 = 𝑀𝑎𝑥 − 𝑀𝑖𝑛 = 𝑥(𝑛) − 𝑥(1) 𝐴 = 𝑀𝑎𝑥 − 𝑀𝑖𝑛 = 𝑥(𝑁) − 𝑥(1) Moda Mo 𝑀𝑜 = 𝑀𝑎𝑖𝑠𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑡𝑒{𝑥1, 𝑥2, … , 𝑥𝑛} 𝑀𝑜 = 𝑀𝑎𝑖𝑠𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑡𝑒{𝑥1, 𝑥2, … , 𝑥𝑁} Percentil 10 𝑃10 𝑃10 = 𝑥( 10𝑛 100 ) de (𝑥(1), 𝑥(2), … , 𝑥(𝑛)) 𝑃10 = 𝑥(10𝑁 100 ) de (𝑥(1), 𝑥(2), … , 𝑥(𝑁)) Primeiro Quartil 𝑄1 𝑄1 = 𝑥( 𝑛 4 ) de (𝑥(1), 𝑥(2), … , 𝑥(𝑛)) 𝑄1 = 𝑥(𝑁 4 ) de (𝑥(1), 𝑥(2), … , 𝑥(𝑁)) Mediana �̃� ou Md �̃� = 𝑥(𝑛 2 ) de (𝑥(1), 𝑥(2), … , 𝑥(𝑛)) �̃� = 𝑥(𝑁 2 ) de (𝑥(1), 𝑥(2), … , 𝑥(𝑁)) Terceiro Quartil 𝑄3 𝑄3 = 𝑥(3𝑛4 ) de (𝑥(1), 𝑥(2), … , 𝑥(𝑛)) 𝑄3 = 𝑥(3𝑁 4 ) de (𝑥(1), 𝑥(2), … , 𝑥(𝑁)) Percentil 90 𝑃90 𝑃90 = 𝑥(90𝑛100) de (𝑥(1), 𝑥(2), … , 𝑥(𝑛)) 𝑃90 = 𝑥(90𝑁 100 ) de (𝑥(1), 𝑥(2), … , 𝑥(𝑁)) Média (aritmética) �̅� ou 𝜇 �̅� = (𝑥1 + 𝑥2 + … + 𝑥𝑛)/𝑛 𝜇 = (𝑥1 + 𝑥2 + … + 𝑥𝑁)/𝑁 13 Medidas descritivas para uma variável quantitativa contínua X, medida em escala de proporcionalidade (conclusão) Nome da estatística Representação Fórmula para amostra Fórmula para população Variância 𝑠2 ou 𝜎2 𝑠2 = ∑ (𝑥𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 𝜎2 = ∑ (𝑥𝑖 − 𝜇) 2𝑁 𝑖=1 𝑁 Desvio-padrão 𝑠 ou 𝜎 𝑠 = √ ∑ (𝑥𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 𝜎 = √ ∑ (𝑥𝑖 − 𝜇) 2𝑁 𝑖=1 𝑁 Coeficiente de Variação CV 𝐶𝑉 = 𝑠 �̅� ∙ 100% 𝐶𝑉 = 𝜎 𝜇 ∙ 100% Coeficientes de assimetria As Observação: 𝐴𝑠 = 0, 𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 |𝐴𝑠| ≤ 0,15, 𝑎𝑠𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 𝑏𝑎𝑖𝑥𝑎, 𝑓𝑟𝑎𝑐𝑎 0,15 < |𝐴𝑠| ≤ 1, 𝑎𝑠𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 𝑚𝑜𝑑𝑒𝑟𝑎𝑑𝑎 |𝐴𝑠| > 1, 𝑎𝑠𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 𝑎𝑙𝑡𝑎, 𝑓𝑜𝑟𝑡𝑒 𝐴𝑠 > 0, 𝑐𝑢𝑟𝑣𝑎 𝑒𝑛𝑣𝑖𝑒𝑠𝑎𝑑𝑎 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎 𝐴𝑠 < 0, 𝑐𝑢𝑟𝑣𝑎 𝑒𝑛𝑣𝑖𝑒𝑠𝑎𝑑𝑎 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎 𝐴𝑠 = 1 𝑛 ∑( 𝑛 𝑖=1 𝑥𝑖 − �̅� 𝑠 )3 𝐴𝑠 = 3(�̅� − �̃�) 𝑠 𝐴𝑠 = �̅� − 𝑀𝑜 𝑠 𝐴𝑠 = 𝑄1 + 𝑄3 − 2�̃� 𝑄3 − 𝑄1 𝐴𝑠 = 1 𝑁 ∑( 𝑁 𝑖=1 𝑥𝑖 − 𝜇 𝜎 )3 𝐴𝑠 = 3(𝜇 − �̃�) 𝜎 𝐴𝑠 = 𝜇 − 𝑀𝑜 𝜎 𝐴𝑠 = 𝑄1 + 𝑄3 − 2�̃� 𝑄3 − 𝑄1 Coeficientes de curtose K Observação para o segundo coeficiente 𝐾 = 0,263, 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑚𝑒𝑠𝑜𝑐ú𝑟𝑡𝑖𝑐𝑎 𝐾 < 0,263, 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑙𝑒𝑝𝑡𝑜𝑐ú𝑟𝑡𝑖𝑐𝑎 𝐾 > 0,263, 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑝𝑙𝑎𝑡𝑖𝑐ú𝑟𝑡𝑖𝑐𝑎 𝐾 = 1 𝑛 ∑( 𝑛 𝑖=1 𝑥𝑖 − �̅� 𝑠 )4 − 3 𝐾 = 𝑄3 − 𝑄1 2(𝑃90 − 𝑃10) 𝐾 = 1 𝑁 ∑( 𝑁 𝑖=1 𝑥𝑖 − 𝜇 𝜎 )4 − 3 𝐾 = 𝑄3 − 𝑄1 2(𝑃90 − 𝑃10) Escore padronizado Z 𝑧𝑖 = 𝑥𝑖 − �̅� 𝑠 𝑧𝑖 = 𝑥𝑖 − 𝜇 𝜎 14 APÊNDICE B Comandos do software estatístico R para gráficos de Estatística Descritiva # Para limpar o console do R, dê o comando Ctrl + L # Entrando com os dados e organizando-os em ordem crescente Y<-c(3, 8, 3, 13, 8, 12, 6, 7, 3, 10, 6, 9, 8, 7, 8, 8) Y X<-sort(Y) X # Diagrama Ramo e Folhas X<-c(rep( c(3,6,7,8,9,10,12,13), c(3,2,2,5,1,1,1,1) ) ) X stem(X, scale = 0.5) # experimente trocar o valor de "scale" para 1, 2, 5, 10, 20 # Diagrama de pontos X<-c(rep( c(3,6,7,8,9,10,12,13), c(3,2,2,5,1,1,1,1) ) ) X stripchart(X, method = "stack", xlab="Nº disciplinas matriculadas", xlim=c(0,14)) stripchart(X, method = "overplot", xlab="Nº disciplinas matriculadas", xlim=c(0,14)) stripchart(X, method = "jitter", jitter = 0.1, xlab="Nº disciplinas matriculadas", xlim=c(0,14)) # Diagrama de dispersão, na ordem que os dados são fornecidos X<-c(3, 8, 3, 13, 8, 12, 6, 7, 3, 10, 6, 9, 8, 7, 8, 8) X dotchart(X, xlim=c(0,14), xlab="Nº disciplinas matriculadas") # Diagrama de frequência para dados não agrupados em classe x<- c(3,6,7,8,9,10,12,13) y<- c(3,2,2,5,1,1,1,1) x y plot (x, y, type="p", xlim=c(0,14), ylim=c(0,6), xlab="Nº de disciplinas matriculadas", ylab="Frequência") 15 # Histograma de Haste x<- c(3,6,7,8,9,10,12,13) y<- c(3,2,2,5,1,1,1,1) x y plot (x, y, type="h", xlim=c(0,14), ylim=c(0,6), xlab="Nº de disciplinas matriculadas", ylab="Frequência") # Box Plot X<-c(rep( c(3,6,7,8,9,10,12,13), c(3,2,2,5,1,1,1,1) ) ) X boxplot ( X, horizontal=TRUE, xlab="Nº de disciplinas matriculadas", pch=8, range=1.5, ylim=c(0,14) ) # Para calcular a média, a mediana, a amplitude, a variância amostral, a variância populacional, o desvio-padrão amostral e o desvio-padrão populacional digite os comandos abaixo no console do R X<-c(rep( c(3,6,7,8,9,10,12,13), c(3,2,2,5,1,1,1,1) ) ) X min(X) # mínimo max(X) # máximo range(X) # amplitude mean(X) # média median(X) # mediana var(X) # variância amostral ((N-1)/N)*var(X) # variância populacional sd(X) # desvio-padrão amostral ((N-1)/N)^0.5)*sd(X) # desvio-padrão populacional #Digite os comandos abaixo no console do R X<-c(rep( c(3,6,7,8,9,10,12,13), c(3,2,2,5,1,1,1,1) ) ) X summary(X) 16 # Sobre as fórmulas para calcular quantis, digite o comando abaixo no console do R ?quantile # Para cálculo dos quartis e dos percentis, digite os comandos abaixo no console do R X<-c(rep( c(3,6,7,8,9,10,12,13), c(3,2,2,5,1,1,1,1) ) ) X quantile(X) quantile(X, probs=seq(0,1,0.25)) quantile(X, probs=seq(0,1,0.1)) quantile(X, probs=seq(0,1,0.01)) quantile(X, probs=c(0.1, 0.25, 0.5, 0.75, 0.9)) quantile(X, probs=seq(0,1,0.25), type=1) quantile(X, probs=seq(0,1,0.25), type=2) quantile(X, probs=seq(0,1,0.25), type=3) quantile(X, probs=seq(0,1,0.25), type=4) quantile(X, probs=seq(0,1,0.25), type=5) quantile(X, probs=seq(0,1,0.25), type=6) quantile(X, probs=seq(0,1,0.25), type=7) quantile(X, probs=seq(0,1,0.25), type=8) quantile(X, probs=seq(0,1,0.25), type=9) quantile(X, probs=seq(0,1,0.1), type=1) quantile(X, probs=seq(0,1,0.1), type=2) quantile(X, probs=seq(0,1,0.1), type=3) quantile(X, probs=seq(0,1,0.1), type=4) quantile(X, probs=seq(0,1,0.1), type=5) quantile(X, probs=seq(0,1,0.1), type=6) quantile(X, probs=seq(0,1,0.1),type=7) quantile(X, probs=seq(0,1,0.1), type=8) quantile(X, probs=seq(0,1,0.1), type=9) # Sobre as fórmulas para calcular assimetria, digite o comando ??skewness no console do R. Você verificará que a função "skewness" pertence ao pacote e1071, o qual precisa ser instalado e requerido, antes de poder usar suas funções. Digite os comandos abaixo no console do R X<-c(rep( c(3,6,7,8,9,10,12,13), c(3,2,2,5,1,1,1,1) ) ) install.packages("e1071") require(e1071) skewness(X, type = 1) # experimente variar o valor de type para 2 e 3 17 # Sobre as fórmulas para calcular curtose, digite o comando ??kurtosis no console do R. Você verificará que a função "kurtosis" pertence ao pacote e1071, o qual precisa ser instalado e requerido, antes de poder ser usado suas funções. Digite os comandos abaixo no console do R X<-c(rep( c(3,6,7,8,9,10,12,13), c(3,2,2,5,1,1,1,1) ) ) install.packages("e1071") # não precisa instalar de novo, se o pacote foi instalado require(e1071) kurtosis(X, type = 1) # experimente variar o valor de type para 2 e 3 # Sobre as fórmulas para calcular momentos, digite os comandos abaixo no console do R X<-c(rep( c(3,6,7,8,9,10,12,13), c(3,2,2,5,1,1,1,1) ) ) install.packages("e1071") # não precisa instalar de novo, se o pacote foi instalado require(e1071) moment(X, order = 1, center = TRUE, absolute = FALSE) # experimente variar o valor de order para 2, 3 e 4, center para FALSE e absolute para TRUE # Para saber os argumentos de uma função, digite o comando abaixo no console do R args(nome_da_função) # troque nome_da_função pelo nome de uma função args(moment) # exemplo para a função moment # Para fornecer o maior número inteiro, menor que determinado número, digite os comandos abaixo no console do R floor(3.75) floor(-4.52) # Para fornecer o menor número inteiro, maior que determinado número, digite os comandos abaixo no console do R ceiling(3.75) ceiling(-4.52)
Compartilhar