Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

O QUE SÃO DADOS?
Quase tudo começa com uma pergunta
A exploração de dados começa com uma história para contar ou um problema para resolver. Na maioria dos casos, parte de uma pergunta.
Exemplos: 
Quantos dias de sol a minha cidade costuma ter? 
Como o meu governo gasta os seus recursos, de onde eles vêm?
Meus parlamentares costumam apresentar mais projetos de lei ou fazer homenagens? 
Uma questão bem elaborada é um bom ponto de partida para exploração de dados – detecta tendências e fornece foco. 
E dá para começar qualquer história ou conteúdo sem uma pergunta? 
Quase tudo começa com uma pergunta
Esteja preparado também para perceber os padrões inesperados, resultados incomuns e qualquer coisa que surpreenda!
As histórias mais interessantes podem surgir quando não estamos procurando. 
Tarefa: Pense numa pergunta que você gostaria de responder usando dados.
Mas o que são dados?
Mesmo os objetos mais comuns levam com eles um monte de dados. 
O que você pode dizer sobre essas bolas? Elas são bolas de golfe, correto? Logo, um dos primeiros dados que temos é que elas são usadas para o golfe, um tipo de esporte. Isso já nos ajuda a classificá-las numa taxonomia (ciência da classificação). Mas há mais coisas. Sabemos a cor delas: branca. A condição delas: usada. Todas têm um tamanho, há um número determinado delas, provavelmente elas têm uma valor monetário, e por aí vai. Mesmo os objetos mais comuns levam com eles um monte de dados. Você, também. Você tem um nome (muitas pessoas tem um nome e um sobrenome), uma data de nascimento, peso, altura, nacionalidade e etc. Tudo isso são dados. 
5
Categorias de dados
Dados qualitativos: tudo o que se refere à qualidade de algo. 
Dados quantitativos: dados que se referem a números. 
Categorias de dados
Dados categóricos: são os que categorizam o item que você está descrevendo. 
Dados discretos: são dados numéricos com brechas na sequência entre eles.
 
Dados contínuos: são dados em que todos os valores são possíveis. 
De dados para informação e conhecimento... 
Dados, quando coletados e estruturados, se tornam de repente bem mais úteis.
	Cor	Branco
	Categoria	Esporte – Golfe
	Condição	Usado
	Diâmetro	43mm
	Preço (por bola)	R$1,00
Cada um dos valores não diz muito sozinho. Para ter informação dos dados, precisamos interpretá-los. Vamos pegar o tamanho. Um diâmetro de 43 mm não nos fala muita coisa. Ele somente ganha significado quando o comparamos com outras coisas. Nos esportes há regras para equipamentos. O tamanho mínimo de uma bola para uma competição de golfe é 42,67 mm. OK. Podemos usar essa bola de golfe num campeonato. Isso é informação. Mas ainda não é conhecimento. Conhecimento é criado quando a informação é aprendida, aplicada e entendida.
8
Dados não estruturados x Dados estruturados
Dados para humanos: 
Uma frase simples como “temos cinco bolas de golfe brancas e usadas com um diâmetro de 43 mm a R$ 1 cada uma” pode ser fácil de ser entendida por um humano, mas para um computador não é.
Dados para computadores: 
Tarefa: Pense no último livro que você leu. Que dados se relacionam com ele e 
como você os tornaria dados estruturados?
A frase é o que chamamos de dados não estruturados. Esses dados não têm uma estrutura fixa básica. Não fica claro na frase que palavra se refere a quê. Da mesma forma, PDFs e imagens escaneadas podem com
Computadores são bem diferentes de humanos. Pode ser extremamente difícil fazer computadores extraírem informações de determinadas fontes. Algumas tarefas fáceis para humanos ainda são difíceis de serem automatizadas com computadores. A interpretação de um texto apresentado como uma imagem é por exemplo um desafio para um computador. Se você quiser que o seu computador processe e analise os seus dados, ele tem que ser capaz de lê-los. Isso significa que os seus dados têm que estar estruturados, passíveis de serem lidos por computadores. Um dos formatos mais usados para a troca de dados é o CSV, sigla em inglês para valores separados por vírgula. A frase sobre bolas de golfe citada acima poderia ficar assim em CSV:ter informações bem arrumadas para o olho humano, mas elas não são legíveis por computadores.
 Notem que as palavras estão entre aspas. Isso as diferencia como texto (valores “string” na linguagem dos computadores). Os números não têm aspas. Vale mencionar que há vários outros formatos que são estruturados e passíveis de serem lidos por computadores.
9
media1.m4a
image1.png
image2.png
media2.m4a
image3.png
media3.m4a
media4.m4a
media5.m4a
image4.jpg
media6.m4a
media7.m4a
media8.m4a
media9.m4a
image5.png

Mais conteúdos dessa disciplina