Baixe o app para aproveitar ainda mais
Prévia do material em texto
Técnicas estatísticas: teoria e prática (R Programing) 1) Árvore de decisão é um dos modelos preditivos de classificação muito utilizado para ajustar modelos matemáticos a conjuntos de dados. Sobre este modelo, avalie as asserções a seguir e a relação entre elas. I. O modelo de classificação árvore de decisão é um método preditivo bastante utilizado em mineração de dados. PORQUE II. A árvore de decisão consiste em criar um conjunto de regras que dividem as variáveis preditoras em duas partes. Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas. Alternativas: • As asserções I e II estão incorretas. • As asserções I e II estão corretas, mas a asserção II não é justificativa da asserção I. checkCORRETO • A asserção I está incorreta e a asserção II está correta. • A asserção I está correta e a asserção II está incorreta. • As asserções I e II estão corretas e a segunda justifica a primeira. Resolução comentada: O modelo de classificação árvore de decisão é um método preditivo bastante utilizado em mineração de dados. Uma árvore de decisão consiste em criar um conjunto de regras que dividem as variáveis preditoras em duas partes. Código da questão: 47621 2) Sobre criação de bancos de dados em ambiente R, avalie as afirmações a seguir e assinale (V) para verdadeira e (F) para falsa. ( ) Um objeto do tipo data frame é mais genérico que um objeto do tipo matriz. ( ) O comando para selecionar as duas primeiras colunas de conjuntos de dados denominado “dados” é dados[1:3]. ( ) O comando R para selecionar uma variável de um banco de dados é igual a “nome_variável$dados”. ( ) Para juntar vetores em colunas, utiliza-se a função cbind( ) em linguagem R. ( ) O comando aggregate( ) resume variáveis quantitativas segundo algumas variáveis categórica. Assinale a alternativa que contenha a sequência correta: Alternativas: • V – V – V – V – V. • V – F – F – V – V. checkCORRETO • F – V – F – V – F. • F – V – V – F – F. • F – F – F – F – F. Resolução comentada: Um objeto do tipo data frame é mais genérico que um objeto do tipo matriz, porque pode conter diversos tipos de variáveis. O comando que seleciona as duas primeiras colunas de um conjunto chamado “dados” é dados[1:2]. O comando que seleciona uma variável do conjunto “dados” é dados$nome_variável. A junção de vetores em colunas é feita com o uso do comando cbind( ). O comando aggregate( ) resume variáveis quantitativas em médias, por exemplo, segundo alguma outra variável categórica. Código da questão: 47615 3) A linguagem R foi elaborada com o intuito de realizar análise de dados. Sobre esta linguagem de programação, avalie as afirmativas a seguir. I. A linguagem R possui diversas IDE (Ambiente de Desenvolvimento Integrado) que foram elaboradas para facilitar o seu uso. II. A IDE RStudio tem interface dividida em três partes. III. Um dos pacotes que permite elaboração de tabelas de frequências é o crosstab. IV. O comando “summary( )” é utilizado para se obter medidas resumo das variáveis de um conjunto de dados. V. A função “fisher.test( )” é utilizada para avaliar correlação entre variáveis quantitativas. Assinale a alternativa que apresenta a sequência CORRETA. Alternativas: • II, III e IV. • I e IV. checkCORRETO • I, II e IV. • IV e V. • II e III. Resolução comentada: A linguagem R possui diversas IDE, as quais foram elaboradas para facilitar o seu uso. A IDE RStudio tem interface dividida em quatro partes. Um dos pacotes da linguagem R que permite a elaboração de tabelas de frequências é o “descr”. O comando “summary( )” é utilizado para obter medidas resumo de variáveis de um conjunto de dados. A função “fisher.test( )” é utilizada para verificar associação entre variáveis qualitativas. Código da questão: 47604 4) Existem diversas maneiras de elaboração de um banco de dados em linguagem R. Sobre esta característica, avalie as afirmativas a seguir. I. As estruturas de arranjos de dados em linguagem R são classificadas como escalares, vetores, matrizes, arrays, data frames e listas. II. Um banco de dados escalar em linguagem R tem dimensão de uma linha e várias colunas. III. Um banco de dados do tipo data frame pode possuir diversos tipos de variáveis. IV. Em linguagem R, as variáveis categóricas são classificadas como factor. V. Em linguagem R, denomina-se objeto qualquer elemento que possa ser atribuído a uma variável. São verdadeiras: Alternativas: • I, III, IV e V, apenas. checkCORRETO • III e V, apenas. • I, II e IV, apenas. • IV e V, apenas. • I, II, IV e V, apenas. Resolução comentada: As estruturas de bancos de dados existentes em linguagem R são escalares, vetores, matrizes, arrays, data frames e listas. Um banco de dados escalar tem dimensão de uma linha e uma coluna, apenas. Um banco de dados do tipo data frame pode conter vários tipos de variáveis. As variáveis categóricas, em linguagem R, são classificadas como factor e denomina-se objeto qualquer elemento que possa ser atribuído a uma variável. Código da questão: 47614 5) A classe de modelos preditivos é diversa e, também, classificada segundo os objetivos que se tem com os dados. A esse respeito, avalie a afirmativa a seguir para completar corretamente suas lacunas. Os modelos preditivos são uma classe de modelos ____________ utilizados para representarem __________ para tomada de decisão. Os modelos preditivos para ____________ também são conhecidos como modelos de _____________ supervisionada. Assinale a alternativa que completa adequadamente as lacunas acima: Alternativas: • Matemáticos; problemas; classificação; aprendizagem. checkCORRETO • Visuais; fórmulas; equação; atividade. • Estatísticos; problemas; classificação; atividade. • Visuais; problemas; equação; atividade. • Constantes; problemas; classificação; aprendizagem. Resolução comentada: Os modelos preditivos são uma classe de modelos matemáticos utilizados para representarem problemas para tomada de decisão. Os modelos preditivos para classificação também são conhecidos como modelos de aprendizagem supervisionada. Código da questão: 47618 6) Sobre o uso da linguagem de programação R para elaboração de gráficos estatísticos, avalie as afirmativas a seguir e assinale (V) se verdadeira e (F) se falsa. ( ) O RStudio é uma IDE (Ambiente de Desenvolvimento Integrado) para uso da linguagem R. ( ) O RStudio tem uma série de facilidades que ajudam na manipulação da linguagem R para elaboração de gráficos. ( ) O comando barplot( ) é utilizado para elaborar gráfico de setores com a linguagem R. ( ) A opção “ylab=” de um comando R é usada para inserir rótulo no eixo horizontal de um gráfico. ( ) O comando stripchart( ) é usado para produzir gráfico de séries temporais no R. Assinale a alternativa que contenha a sequência correta: Alternativas: • F – V – F – V – F. • V – V – F – F – F. checkCORRETO • V – V – V – V – V. • F – F – F – F – F. • V – V – F – V – F. Resolução comentada: O RStudo é uma IDE para uso da linguagem R e apresenta uma série de facilidades em seu uso. O comando barplot( ) é usado para elaborar gráficos de colunas com o R. A opção “ylab=” é usada em comandos de elaboração de gráficos para inserir rótulos no eixo vertical. O comando stripchart( ) é utilizado para produzir gráficos de dispersão unidimensional. Código da questão: 47610 7) Segundo Siqueira e Tibúrcio (2011, p. 5) “existe mais de uma ênfase de análise estatística”. Considerando esta afirmação, analise a afirmativa a seguir para completar suas lacunas corretamente. Os métodos ____________ estatísticos são métodos de análise ____________ de dados, os quais são elaborados com a produçãode ____________. Assinale a alternativa que preenche CORRETAMENTE as lacunas. Alternativas: • Bayesianos; descritiva; tabelas. • Clássicos; descritiva; tabelas. checkCORRETO • Bayesianos; inferencial; valor p. • Bayesianos; inferencial; tabelas. • Clássicos; descritiva; probabilidades. Resolução comentada: Siqueira e Tibúrcio (2011, p. 5) afirmam que “existe mais de uma ênfase de análise estatística” e uma é a ênfase clássica, onde os métodos clássicos estatísticos são métodos de análise descritiva, onde um dos seus produtos é a elaboração de tabelas. Código da questão: 47603 8) É possível utilizar o RStudio e realizar as principais operações matemáticas através de simbologia apropriada. Essa atividade pode ser realizada tanto no editor de códigos quanto no console. Para obter o resto de uma divisão de valores, utiliza-se qual símbolo matemático? Assinale a alternativa CORRETA. Alternativas: • Diferença. • Mod. checkCORRETO • Multiplicação. • Divisão. • Soma. Resolução comentada: Sempre que se desejar obter como resultado o resto de uma divisão entre dois números, deve-se utilizar no RStudio o símbolo referente à operação Mod, que é representado por %%. Tal informação encontra-se no Quadro 1 da leitura fundamental. Código da questão: 47597 9) I. A execução de um comando em linguagem R requer conhecimento apropriado sobre criação de funções e objetos para o seu uso adequado. Também é necessário ter um conhecimento razoável sobre a linguagem. PORQUE II. É possível realizar os cálculos diferentes com comandos de execução diversos, ou seja, é possível realizar “caminhos” distintos para se obter os mesmos resultados. Analisando as afirmações acima, conclui-se que: Alternativas: • A primeira afirmação é verdadeira e a segunda é falsa. • As duas afirmações são verdadeiras e a segunda não justifica a primeira. checkCORRETO • A primeira afirmação é falsa e a segunda é verdadeira. • As duas afirmações são verdadeiras e a segunda justifica a primeira. • As duas afirmações são falsas. Resolução comentada: É possível obter resultados semelhantes e fazer as mesmas análises com procedimentos distintos no R. Essa é uma das vantagens que a linguagem possui. Cálculos diferentes ou diversos também podem ser realizados com programação diversa. Código da questão: 47601 10) O uso de recurso gráfico para apresentação de resultados de análise de dados é uma boa opção quando se deseja atingir um amplo público e, também, quando se deseja facilitar a compreensão dos resultados encontrados. É uma forma rápida de divulgação de informações. Estudiosos como Chambers et al. (1983 apud Bussab e Morettin, 2017) listaram alguns fins que justificam o uso de recursos gráficos, como, por exemplo, a busca de padrões e relações. Se um diagrama de dispersão apresentar padrão crescente da esquerda para a direita, ou seja, da origem do plano cartesiano para a direita do mesmo, o que pode ser concluído desta visualização? BUSSAB, Wilton.; MORETTIN, Pedro A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017. 554p. Assinale a alternativa CORRETA. Alternativas: • Os dados plotados apresentam correlação positiva entre eles. checkCORRETO • Os dados plotados têm correlação negativa entre eles. • Os dados plotados não são apropriados para o tipo de gráfico. • Os dados plotados apresentam variância negativa. • Os dados plotados não têm correlação entre eles. Resolução comentada: Se um gráfico de dispersão apresentar pontos com padrão crescente da esquerda para a direita, há um indício de que os dados plotados apresentam correlação positiva entre eles. Código da questão: 47607
Compartilhar