Prévia do material em texto
30/11/2021 22:00 Atividade Objetiva 3 (Teste): 04. Recuperação da Informação na Web e em Redes Sociais (2019) https://pucminas.instructure.com/courses/1762/quizzes/23842 1/4 Atividade Objetiva 3 (Teste) Entrega Sem prazo Pontos 10 Perguntas 5 Limite de tempo Nenhum Tentativas permitidas Sem limite Instruções Histórico de tentativas Tentativa Tempo Pontuação MANTIDO Tentativa 3 Menos de 1 minuto 10 de 10 MAIS RECENTE Tentativa 3 Menos de 1 minuto 10 de 10 Tentativa 2 2 minutos 8 de 10 Tentativa 1 3 minutos 6 de 10 As respostas corretas estão ocultas. Pontuação desta tentativa: 10 de 10 Enviado 30 nov em 22:00 Esta tentativa levou Menos de 1 minuto. Nessa avaliação você vai demonstrar a retenção de alguns conceitos importantes que discutimos na terceira unidade do curso. Bom teste! Nota do professor: Você tem visto perguntas sobre siglas e termos-chave. É meio "decoreba" mesmo. Isso é importante para que você separe técnicamente cada recurso e estratégia. Assim não se perde ao procurar nodes no KNIME, artigos a respeito dos assuntos ou bibliotecas específicas em linguagens de programação. Fazer o teste novamente 2 / 2 ptsPergunta 1 Qual regra XPATH você utilizaria para extrair apenas a linha "<td>Conteúdo A</td>" na tabela HTML abaixo? <table> <tr> <td>Conteúdo A</td> https://pucminas.instructure.com/courses/1762/quizzes/23842/history?version=3 https://pucminas.instructure.com/courses/1762/quizzes/23842/history?version=3 https://pucminas.instructure.com/courses/1762/quizzes/23842/history?version=2 https://pucminas.instructure.com/courses/1762/quizzes/23842/history?version=1 https://pucminas.instructure.com/courses/1762/quizzes/23842/take?user_id=46471 30/11/2021 22:00 Atividade Objetiva 3 (Teste): 04. Recuperação da Informação na Web e em Redes Sociais (2019) https://pucminas.instructure.com/courses/1762/quizzes/23842 2/4 <td>Conteúdo B</td> </tr> </table> /table//td[1] Outra opção correta seria colocar o caminho completo e barras simples /table/tr/td[1] . //table[@class=’tabelaX’] /html/get("Conteudo A") /XPATH/<td>[1] 2 / 2 ptsPergunta 2 Podemos coletar, processar e analisar todo e qualquer tipo de informação acessível na Web. Verdadeiro Falso Correto! Nem todas informações acessíveis na Web são permitidas de serem coletadas e utilizadas para mineração. Precisamos ficar atentos as normas descritas em cada sistema (i.e. robots.txt, páginas que descrevem de direitos da informação disponível e privacidade) 2 / 2 ptsPergunta 3 O que é e para que serve o robots.txt ? Um padrão de regras definido como "Protocolo de Exclusão de Robôs"; Define Define as permissões do coletor automático em um determinado website. 30/11/2021 22:00 Atividade Objetiva 3 (Teste): 04. Recuperação da Informação na Web e em Redes Sociais (2019) https://pucminas.instructure.com/courses/1762/quizzes/23842 3/4 Um tipo de robô ou coletor automático; Faz download do conteúdo de websites Um conjunto de regras; Define a estrutura do documento HTML em que as informações estão. Um padrão de regras definido como "Protocolo de Exclusão de Robôs"; Define a estrutura do documento HTML em que as informações estão. 2 / 2 ptsPergunta 4 O que é RSS? RSS é um padrão desenvolvido em linguagem XML que permite aos responsáveis por sites e blogs divulgarem notícias ou novidades destes. Para isso, o link e o resumo daquela notícia (ou a notícia na íntegra) é armazenado em um arquivo de extensão .xml, .rss ou .rdf (é possível utilizar outras extensões). Este arquivo é conhecido como feed ou feed RSS. É uma linguagem de consulta (Query Language) para selecionar nós de um documento XML. Pode ser usada para computar valores (por exemplo, strings, números ou valores booleanos) do conteúdo de um documento XML. Foi definido pelo World Wide Web Consortium (W3C) É uma das linguagens que utilizamos para desenvolver websites. Softwares que “varrem” a internet buscando e armazenando informações. 2 / 2 ptsPergunta 5 O que é uma API, e qual o nosso interesse nesse tipo de recurso ? 30/11/2021 22:00 Atividade Objetiva 3 (Teste): 04. Recuperação da Informação na Web e em Redes Sociais (2019) https://pucminas.instructure.com/courses/1762/quizzes/23842 4/4 API é o acrônimo de Application Programming Interface ou, em português, Interface de Programação de Aplicativos; Um exemplo popular é a utilização para leitura e publicação de mensagens (por exemplo no Twitter). No nosso caso queremos coletar dados de aplicações da Web como as mídias sociais. API é o acrônimo de Application Programming Interface ou, em português, Interface de Programação de Aplicativos; É uma linguagem de consulta (Query Language) que nos permite selecionar nós de um documento XML. Pode ser usada para computar valores (por exemplo, strings, números ou valores booleanos) do conteúdo de um documento XML. Softwares que “varrem” a internet buscando e armazenando informações. Nosso interesse é em baixar o conteúdo HTML de websites API é o acrônimo de Application Processing Information ou, em português, Interface de Processamento de Informações de Aplicativos; É um padrão RSS desenvolvido em linguagem XML que nos permite coletar informações em sites e blogs de notícias. Pontuação do teste: 10 de 10