Prévia do material em texto
Técnicas estatísticas: teoria e prática (R Programing) Professor(a): Marcelo Osnar Rodrigues de Abreu (Doutorado) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! A estatística, assim como as outras ciências, foi construída ao longo dos tempos. Ao longo desta construção, uma série de acontecimentos marcou o processo de construção da estatística. Sobre os acontecimentos registrados na história da estatística, avalie as afirmativas a seguir. I. A primeira vez que o termo estatística foi utilizado aconteceu por volta do século XVII. II. A história atribui ao austríaco Gottfried Achemmel a criação do termo estatística. III. A palavra estatística é originária da palavra latina status, que era um termo relacionado ao Estado. IV. A criação da palavra estatística é atribuída a um personagem da história de origem alemã. V. O primeiro levantamento estatístico que se tem registrado na história foi realizado por Heródoto. Assinale a alternativa que contém as alternativas verdadeiras. Alternativas: I, II e IV. II e III. III e IV. I, II e III. III, IV e V. CORRETO Código da questão: 47589 O programa R é um software para análise estatística de dados. É um programa que está em crescimento quanto ao número de usuários, movimento motivado por uma série de fatores que influenciam na decisão de utilizá-lo. A respeito do programa R, avalie as afirmativas a seguir. I. O R é um programa gratuito e de código aberto (open source). II. A linguagem R foi desenvolvida por John Chambers e colaboradores. III. A linguagem R é baseada em linhas de comando e é semelhante à linguagem S. IV. Os argumentos das funções da linguagem R devem ser escritos sempre dentro de parênteses. Assinale a alternativa que contenha as afirmativas CORRETAS. Alternativas: I, II e III. I, II, III e IV. CORRETO Apenas IV. I e II. Apenas I. Resolução comentada: Afirmativas III, IV e V estão corretas. Na afirmativa I, pode-se dizer que o primeiro registro que se tem na história sobre levantamento estatístico está associado a um personagem da história chamado Heródoto, que foi um geógrafo e historiador grego. Na afirmativa II, pode-se dizer que a palavra estatística tem sua origem atribuída a um alemão chamado Gottfried Achemmel e tem origem no latim, da palavra status, a qual estava relacionada com as atividades do Estado. Descrever de maneira suscinta a resolução da questão. Resolução comentada: 3) 4) Código da questão: 47590 Os modelos preditivos podem ser implementados em linguagem R de diversas formas. Sobre a aplicação de modelos preditivos para classificação em linguagem R, avalie as afirmativas a seguir. I. Para criar um modelo de classificação no R, o banco de dados é dividido em duas partes iguais. II. A função factor( ) converte uma variável para quantitativa. III. A função summary( ) exibe um resumo descritivo das variáveis de um conjunto de dados. IV. A função sample(ncol(dados), 0.7*nrow(dados)) seleciona parte das linhas de um conjunto de dados. V. A função table( ) cria uma tabela de resultados de variáveis. Assinale a alternativa que contém as afirmativas CORRETAS. Alternativas: III e V, apenas. CORRETO I, II e III, apenas. I, II e IV, apenas. I, II, III, IV e V. III, IV e V, apenas. Código da questão: 47619 I. A estatística é um conjunto de métodos quantitativos utilizados para realizar a coleta, organização e apresentação de dados para a busca de respostas a perguntas de pesquisas. Para facilitar a realização destas atividades, recorre-se aos programas computacionais como o software R, pois o uso de programas computacionais facilita a obtenção de resultados. PORQUE II. Com a utilização de programas computacionais, a execução das etapas de realização de uma análise estatística ocorre com muito mais velocidade e muito mais segurança do que se realizada manualmente. Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas: Alternativas: As duas asserções estão corretas, mas a segunda não justifica a primeira. A primeira asserção está incorreta e a segunda está correta. As duas asserções estão incorretas. A primeira asserção está correta e a segunda está incorreta. A duas asserções estão corretas e a segunda justifica a primeira. CORRETO As afirmativas I, II, III e IV estão corretas. O R é um programa gratuito e de código aberto (open source) desenvolvido por John Chambers e colaboradores. A linguagem R é baseada em linha de comando semelhante à linguagem S, onde os argumentos das suas funções devem ser digitados sempre dentro de parênteses. Resolução comentada: Para criar um modelo de classificação, divide-se o banco de dados em duas partes, onde 70% fica em uma delas e 30% na outra. A função factor( ) converte uma variável para categórica. A função summary( ) exibe resumo descritivo das variáveis do banco de dados. A função sample(ncol(dados), 0.7*nrow(dados)) seleciona 70% das colunas de um conjunto de dados. A função table( ) cria uma tabela de resultados de variáveis. Resolução comentada: 5) 6) Código da questão: 47591 Existe uma série de gráficos que podem ser utilizados como recursos de visualização de dados para apresentação de resultados de análise de dados. Com relação aos tipos de gráficos, avalie as afirmativas a seguir. I. Para uma correta apresentação gráfica, é necessário identificar o tipo da variável tratada. II. O gráfico de colunas é apropriado para apresentar resultados de variáveis categóricas, tanto nominais quanto discretas. III. O gráfico de setores é apropriado para apresentar, preferencialmente, em percentual informações de variáveis qualitativas. IV. Um gráfico de série temporal é apropriado para apresentar resultados que variam ao longo do tempo, ou seja, que foram coletados considerando uma variação temporal e que tenham alguma dependência entre si. V. Apresentar dados sobre a quantidade de consultas médicas de uma pessoa pode ser realizada com o uso de um diagrama de dispersão bidimensional. Assinale as alternativas que contém as afirmativas CORRETAS. Alternativas: III, IV e V. I, II e IV. I, III e IV. CORRETO II, IV e V. II, III e V. Código da questão: 47609 A organização de dados para uma análise estatística requer uma série de manipulações para transformar os dados em informações úteis e aproveitáveis para pesquisas diversas. Um dos possíveis resultados de uma manipulação de dados se refere à obtenção de medidas ou estatísticas. Uma estatística é uma medida que é uma função dos dados de uma amostra. Qual dos itens apresentados pode ser considerado uma estatística? Assinale a alternativa CORRETA. Alternativas: Amostra. Apuração. Parâmetro. Coleta. Variância. CORRETO Para realizar uma análise estatística adequada e correta, uma série de etapas deve ser realizada com respeito aos dados. Para facilitar a execução destas etapas, assim como a obtenção dos resultados mais rapidamente, recorre-se ao uso de programas computacionais como o software R. Resolução comentada: Para uma correta apresentação visual (gráfica) é necessário conhecer o tipo de variável que será apresentada. Por exemplo, um gráfico de colunas é apropriado para apresentar variáveis categóricas, tanto nominais quanto ordinais. Um gráfico de setores é bastante utilizado para apresentação de resultados percentuais de variáveis categóricas ou qualitativas, no entanto, também podem apresentar frequências absolutas. Um gráfico de série temporal é apropriado para apresentar resultados coletados ao longo do tempo, de um determinado período. O gráfico apropriado para apresentar o número de consultas médicas realizadas em determinado período é o gráfico de dispersão unidimensional. Resolução comentada: 7)8) Código da questão: 47587 A correlação entre variáveis é uma informação de extrema importância porque a partir de sua existência é possível analisar efeitos de causalidade entre si, assim como elaborar modelos de regressão eficientes. Sobre correlação, causalidade e modelos de regressão, avalie as afirmativas a seguir e classifique com (V) se verdadeira e (F) se falsa. ( ) O coeficiente de correlação de Pearson verifica a existência de relação linear entre variáveis quantitativas. ( ) O coeficiente de correlação de Pearson assume valores numéricos entre -1 e +1. ( ) Para elaborar um modelo de regressão são necessárias pelo menos duas variáveis. ( ) Uma variável dependente de um modelo de regressão também é conhecida como variável endógena. Assinale a alternativa que contenha a sequência CORRETA. Alternativas: V – F – V – F. F – F – F – F. V – V – V – V. CORRETO F – V – F – V. V – V – F – F. Código da questão: 47596 O teste de hipóteses compõe o conjunto de técnicas estatísticas conhecido como inferência estatística. Ele é utilizado para constatar ou refutar hipóteses de pesquisa através de conjuntos de dados. Com base no texto, avalie as afirmativas sobre teste de hipóteses e assinale (V) se verdadeiras e (F) se falsas. ( ) Um teste de hipóteses é composto por três hipóteses. ( ) A hipótese do problema investigado é representada pelo hipótese nula. ( ) O erro tipo I é representado pelo nível de significância associado ao teste de hipóteses. ( ) O critério de decisão é baseado na estatística do teste. Assinale a alternativa que contenha a sequência CORRETA. Alternativas: F – F – F – F. F – F – V – V. CORRETO V – V – V – V. F – V – F – V. V – V – F – F. Qualquer função dos dados de uma amostra é considerada uma estatística ou uma medida resumo. Um exemplo de uma função da amostra é a variância, que é o nome simplificado dado para a variância amostral. Resolução comentada: A sequência correta é V – V – V – V. O coeficiente de correlação avalia a existência de relação linear entre variáveis quantitativas e é uma medida que assume valores entre -1 e +1. Para um modelo de regressão ser elaborado são necessárias pelo menos duas variáveis, e a variável dependente também é conhecida como variável endógena. Resolução comentada: A sequência correta é F – F – V – V. Um teste de hipóteses é composto por duas hipóteses, conhecidas como hipótese nula e alternativa, respectivamente. A hipótese do problema investigado é a hipótese alternativa. O erro tipo I é representado pelo nível de significância do teste e o critério de decisão é baseado na estatística do teste. 9) 10) Código da questão: 47595 Uma análise completa de dados se particiona em duas grandes partes. Uma delas é realizada com métodos estatísticos que permitem a extrapolação dos resultados encontrados numa amostra para toda a população. Qual o nome desta etapa de análise de dados? Assinale a alternativa CORRETA. Alternativas: Tabelas e gráficos. Associação. Correlação. Inferencial. CORRETO Descritiva. Código da questão: 47602 O RStudio apresenta uma série de funcionalidades que facilitam a utilização da linguagem R em seu ambiente. Considerando esta informação, avalie as afirmativas a seguir. I. Ao digitar uma linha de comando no editor de códigos do RStudio só é possível executar tal comando apertando a tecla enter. II. A utilização de um pacote do R é realizada quando se deseja fazer uso dos scripts nele existente. III. Só é possível instalar pacotes no RStudio se estiver com o computador conectado à internet. IV. A utilização de um pacote específico do R só pode ser realizada se ele for carregado na sessão de trabalho. V. Os argumentos de uma função do R não podem ser omitidos quando uma função específica for utilizada. Assinale a alternativa que contém as afirmativas verdadeiras. Alternativas: I, II e IV. III, IV e V. II, III e IV. CORRETO I, IV e V. III e V. Código da questão: 47599 Resolução comentada: A etapa de uma análise de dados que é realizada com métodos estatísticos que permitem a extrapolação dos resultados encontrados em uma amostra para a população de onde foi retirada é a análise inferencial. Resolução comentada: As afirmativas corretas são II, III e IV. Ao digitar linhas de comando no editor de códigos do RStudio só é possível executá-los com o uso da tecla “Run” ou da tecla “Source”. Utiliza-se um pacote específico do R quando se pretende utilizar os scripts contidos nele e, para instalar um novo pacote, é necessário estar com o computador conectado à internet. Para utilizar um pacote qualquer, faz-se necessário o seu carregamento na sessão de trabalho em curso. Pode-se omitir a declaração dos argumentos de uma função do R, desde que sejam digitados na ordem em que estão implementados no código.