Prévia do material em texto
Aprendizado de Máquina (Machine
Learning)
APRESENTAÇÃO
Nos últimos anos, a sociedade tem sido marcada por grandes evoluções. A mais marcante é a
tecnológica, a qual se pode afirmar que é vivenciada desde os primórdios da humanidade.
A diferença é que hoje essa tecnologia está associada a recursos computacionais cada vez mais
potentes e complexos.
Uma dessas tecnologias é o aprendizado de máquina ou, em inglês, machine learning, que é
uma vertente da inteligência artificial voltada ao aprendizado oriundo do conhecimento gerado
pela análise de dados.
Nesta Unidade de Aprendizagem, você vai estudar conceitos sobre essa tecnologia, assim como
de seus algoritmos e aplicações que desempenham papéis importantes no mundo corporativo
atual.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Definir aprendizado de máquina.•
Descrever algoritmos de aprendizagem de máquina.•
Listar aplicações de aprendizagem de máquina.•
DESAFIO
O aprendizado de máquina ocorre devido à inserção de dados e informações em sistemas
dominados por técnicas de inteligência artificial. Com isso, eles se tornam capazes de criar seus
próprios conhecimentos ao longo dos tempos.
A tecnologia passou a ser um fator primordial para o contexto corporativo e, dessa forma, o
lucro está atrelado à maneira como as empresas lidam com seus processos.
Pensando nisso, para este Desafio, considere o seguinte cenário:
A partir do exposto, imagine que você tenha sido contratado por essa empresa para demonstrar
como o aprendizado de máquina e a inteligência artificial podem contribuir com melhorias em
alguns problemas relatados, os quais estão afetando os lucros da empresa. Qual seria o seu
posicionamento?
INFOGRÁFICO
A aprendizagem de máquina tem o intuito de automatizar a análise de dados, com o uso de
recursos de inteligência artificial e estatística. Seu principal ativo é o dado. Dessa forma, todos
os processos são oriundos dele e de sua veracidade.
A limpeza dos dados é um passo primordial para todos os restantes, tendo em vista que o
resultado final será com base nos dados inseridos. Nesse sentido, as ferramentas utilizadas na
coleta podem acarretar problemas, assim como a transmissão e o armazenamento dos dados.
No Infográfico a seguir, aproveite para conhecer alguns aspectos que podem afetar a qualidade
dos dados.
CONTEÚDO DO LIVRO
A aprendizagem de máquina remete à inserção de conceitos tecnológicos em conjunto a outros
contextos, como o da estatística, da matemática e até mesmo da inteligência artificial, em
recursos computacionais.
No capítulo Aprendizado de máquina (machine learning), da obra Introdução a big data e
internet das coisas (IoT), você verá conceitos que norteiam esse aprendizado, assim como
alguns dos algoritmos que proporcionam sua aplicação nas mais variadas áreas de atuação.
Boa leitura.
INTRODUÇÃO A BIG
DATA E INTERNET
DAS COISAS (IOT)
Izabelly Soares de Morais
Aprendizado de máquina
(Machine Learning)
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
Definir aprendizado de máquina.
Descrever algoritmos de aprendizado de máquina.
Listar aplicações de aprendizado de máquina.
Introdução
No aprendizado de máquina, temos uma junção entre recursos com-
putacionais, inteligência artificial, dados, dentre outros elementos. Esses
sistemas devem estar aptos não só a memorizar dados, mas também a
observá-los e explorá-los para que suas habilidades evoluam por meio
da prática e, consequentemente, da construção do conhecimento.
Neste capítulo, você aprenderá conceitos fundamentais sobre o apren-
dizado de máquina, assim como seus poderosos algoritmos e, por fim,
conhecerá algumas aplicações do aprendizado de máquina.
Conceitos sobre aprendizado de máquina
O termo aprendizado engloba alguma experiência ou prática sobre algum
assunto. Neste caso, especifi camente, o aprendizado de máquina remete à
inserção desse conceito em máquinas computacionais. Porém, sempre há
um propósito e, aqui, veremos a relação do aprendizado de máquina com
os dados.
Antigamente, adquiríamos conhecimento por meio de livros, pesquisas,
entrevistas, entre outros meios, e esses conhecimentos eram aplicados ao
desenvolvimento de métricas voltadas ao uso dos recursos computacionais.
Com o tempo, além dos recursos, as tecnologias foram sendo aplicadas a
outras vertentes, e uma delas é a inteligência artificial.
Nós, seres humanos, temos a capacidade de raciocinar, ao contrário de uma
máquina. Apesar de atualmente podermos contar com esses artefatos para quase
tudo, eles ainda desempenham apenas funcionalidades pré-programadas. É
aí que entra a inteligência artificial, a qual, como o nome já diz, proporciona
o conhecimento a esses mecanismos por meio de dados.
Conforme Amaral (2016), aprendizado de máquina computacional (AM) é
a aplicação de técnicas computacionais com o objetivo de encontrar padrões
ocultos em dados. Segundo o autor, esses padrões ocultos são aquelas carac-
terísticas que não podem ser observadas tão claramente nos dados. Assim,
ainda sob a ótica de Amaral (2016), além de estar relacionado à inteligência
artificial, o aprendizado de máquina está interligado, também, com a esta-
tística e, consequentemente, com a mineração de dados. Por esse motivo,
o autor ainda ressalta a diferença entre ambos os termos e suas respectivas
aplicações: enquanto o aprendizado de máquina trata de algoritmos que
buscam reconhecer padrões em dados, a mineração de dados é a aplicação
desses algoritmos em grandes conjuntos de dados em busca de informação
e conhecimento.
Em torno desse tema, ainda podemos mencionar Big Data, a qual lida com
grande quantidade de dados — se não fosse por esses conceitos, o aprendizado
de máquina não teria ativo suficiente. Para Coppin (2010), na maioria dos
problemas de aprendizado, a tarefa é aprender a classificar entradas de acordo
com um conjunto finito (ou, às vezes, infinito) de classificações. Tipicamente,
um sistema de aprendizado é dotado de um conjunto de dados de treinamento
que foram classificados manualmente. O sistema, então, tenta aprender, a
partir desses dados de treinamento, a como classificar esses mesmos dados
(geralmente, uma tarefa relativamente fácil) e também a como classificar
novos dados ainda não observados.
De acordo com Carvalho et al. (2011, p. 113), os algoritmos de treinamento
são formados por um conjunto de regras bem definidas que especificam quando
e como deve ser alterado o valor de cada peso. É interessante ressaltar alguns
conceitos, os quais são trazidos a seguir, no Quadro 1.
Aprendizado de máquina (Machine Learning)2
Treinamento O treinamento faz parte do aprendizado de máquina,
já que é devido ao uso de algoritmos e à inserção de
dados que a máquina adquire os conhecimentos ne-
cessários para desempenhar as funções para as quais foi
designada.
Indução O processo de indução traz a procura de uma melhor
hipótese, ou seja, de uma melhor resposta ou solução
para determinada situação.
Regras Limitam as possibilidades do algoritmo de aprendizado
de máquina.
Hipóteses São possíveis conclusões, ou seja, possíveis respostas
predeterminadas e que são provadas, ou não, ao final.
Quadro 1. Conceitos do aprendizado de máquina
Deve haver a caracterização dos dados, em que esses são analisados
para definir tipo, que determina se os atributos do objeto são quantitativos
ou números, ou qualidade, de acordo com a qual podem ser chamados
de qualitativos, simbólicos (que são facilmente compreendidos por nós,
humanos) ou categóricos (quando os atributos possuem valores em um
conjunto finito).
Além do tipo, escalas são definidas e caracterizam quais operações podem
ser realizadas com os valores de cada atributo.
As escalas podem ser:
Nominais (quando os valores apresentados possuem nomes diferentes
e não trazem muitas informações), como, por exemplo,RG, CPF.
Ordinais, que estão relacionados à ordem das categorias, como, por
exemplo, temperatura, se está frio ou quente.
Intervalares, que são números que podem variar dentro de um intervalo,
como, por exemplo, a temperatura variar entre 10 a 15 graus em dias
de inverno em uma mesma região.
Racionais, que trazem mais informações sobre o atributo, como, por
exemplo, a quantidade de vezes que um aluno cursou tal disciplina.
3Aprendizado de máquina (Machine Learning)
Um exemplo de tipo de dado qualitativo é o indicativo de se ele é grande, pequeno
ou médio. Além disso, eles ainda podem ser contínuos, quando seu número de valor
é indefinido, e discretos, quando os valores são definidos.
A exploração dos dados pode contribuir na definição de métricas coerentes
e com o aprendizado de máquina. Um dos conceitos mais utilizados para isso
é a estatística descritiva, cujo objetivo é resumir de maneira quantitativa as
características mais relevantes de um conjunto de dados.
Ainda sobre a exploração dos dados, temos os dados univariados, com os
quais, em um conjunto de dados, o mesmo valor de um atributo pode surgir mais
de uma vez, ou seja, podem repetir-se, por exemplo, caso haja dados de cadastro
de pessoas, e, em algum momento, o nome da mesma pessoa pode surgir mais
de uma vez, com os mesmos dados de peso ou idade. Eles podem ser de: medidas
de localidade (pontos de referências, que podem ser numéricos ou simbólicos),
medidas de espalhamento (permitem a observação em relação à concentração de
um conjunto de valores em um só valor — as medidas mais comuns são intervalo,
variância, desvio padrão, dentre outras), medidas de distribuição, que são defini-
das por meio da média de um conjunto de valores. Os dados também podem ser
multivariados, que são os dados que possuem mais de um atributo de entrada.
Outro fator primordial é o pré-processamento de dados, que é importante
tendo em vista que os dados podem surgir das mais variadas fontes e qualquer
anomalia (como ruídos, imperfeições, dados incorretos, duplicados, dentre
outros) pode afetar todo o conjunto de dados. Para evitar esse tipo de situação,
existem algumas técnicas de processamento. Dentre as mais variadas técnicas,
podemos mencionar:
Eliminação manual de atributos: pode ocorrer quando alguns valores
de atributos passam a ser irrelevantes para o contexto.
Integração de dados: traz a necessidade da identificação dos objetos e
de seus respectivos conjuntos. Cada conjunto de dados pode representar
diferentes atributos de um mesmo grupo de objetos.
Amostragem de dados: a amostragem pode ocorrer por meio de uma
representação dos dados originais.
Dados desbalanceados: é um fator observado quando o conjunto de
dados apresenta valores irregulares. Para isso, pode-se utilizar artifí-
Aprendizado de máquina (Machine Learning)4
cios para balancear os dados, como redefinição de conjunto de dados,
classificadores para diferentes classes, dentre outros.
Limpeza dos dados: ocorre para evitar dados incompletos, inconsis-
tentes, redundantes e com ruídos.
Transformação dos dados: ocorrem conversões simbólico-numéricas,
numérico-simbólicas e transformações de atributos numéricos.
Redução de dimensionalidade: podem ocorrer devido a agregação,
seleção de atributos, técnicas de ordenação e de seleção de subconjuntos.
No geral, podemos afirmar que existem alguns tipos de aprendizado de
máquina, dentre os quais podemos citar:
Supervisionado: traz um objetivo estabelecido e pode ser dividido
entre problemas de regressão e de classificação.
Não supervisionado: quando o objetivo não está bem definido e temos
o intuito de compreender melhor os dados para realizar o agrupamento.
Por reforço: quando as saídas não estão bem definidas e as respostas
só podem ser aferidas após algumas execuções.
No próximo tópico, você verá como isso tudo pode ser desempenhado por
uma máquina.
Algoritmos de aprendizado de máquina
O aprendizado pode ocorrer de diversas formas, já que tudo dependerá do
algoritmo que será utilizado. Mas o que seria algoritmo? Algoritmo nada mais
é do que o passo a passo da resolução de um problema; neste caso, resolvemos
por meio das linguagens de programação, já que temos que nos comunicar
com os componentes computacionais. Essas linguagens traduzem para o
computador o que nós, humanos, queremos que ele desempenhe.
Para isso, precisamos seguir alguns passos primordiais, até porque a má-
quina irá adquirir o conhecimento conforme os dados e as métricas que foram
programadas anteriormente. A diversidade entre os problemas que são tratados
com o uso de recursos computacionais faz com que haja a geração de um
grande volume de dados oriundos de diferentes setores. Consequentemente,
as máquinas acabam tendo que acompanhar a demanda social. Na inteligência
artificial e no aprendizado de máquina, deve ocorrer o desenvolvimento de
5Aprendizado de máquina (Machine Learning)
métricas, a partir das quais as máquinas devem ser capazes de criar hipóteses
e, assim, resolvê-las.
Conforme Carvalho et al. (2011, p. 2), um exemplo simples é a descoberta
de uma hipótese na forma de uma regra ou conjunto de regras para definir que
clientes de um supermercado devem receber material de propaganda de um
novo produto, utilizando, para isso, dados de compras passados dos clientes
cadastrados na base de dados do supermercado. A esse processo de indução
de uma hipótese (ou aproximação de função) a partir da experiência passada,
dá-se o nome aprendizado de máquina (AM). Ainda sob o ponto de vista
dos autores, os algoritmos de AM aprendem a induzir uma função ou hipótese
capaz de resolver um problema a partir de dados que representam instâncias
do problema a ser resolvido. Esses dados formam um conjunto, simplesmente
denominado conjunto de dados.
Uma hipótese pode ser compreendida como uma ideia inicial, uma suposição
de algo, ou seja, você sugere algo, mas, posteriormente, terá que comprovar
se sua ideia está, ou não, correta. Métricas, nesse contexto, representam me-
todologias, que serão seguidas para comprovar ou até mesmo desenvolver
novas hipóteses.
Sobre a hipótese, dizemos que há uma indução. Como exemplo, podemos
imaginar um conjunto de dados de estudantes de uma escola, em que cada
aluno, ou seja, cada objeto, possuirá seus atributos. Nesse contexto, os atri-
butos, que representam as características de um objeto, podem ser chamados
também de variáveis. Como atributos, podemos citar nome, idade, sexo, ano
escolar, dentre outros.
Um algoritmo de aprendizado de máquina aprende por meio dos dados, que
são denominados conjunto de treinamento, ou seja, é um modelo ou hipótese
que relaciona os valores dos atributos de entrada e o conjunto de treinamento
ao valor de saída. Nem sempre os dados obtidos são regulares, ou seja, são
livres de anomalias. Por isso, o objetivo do algoritmo é o de ser capaz de
indicar uma hipótese, ou seja, uma possível solução correta diante de dados
diversos, mas que podem ter algo em comum e que, claro, sejam relevantes
para se atingir o objetivo esperado.
Os algoritmos podem utilizar formas de representações diversas para cada
hipótese. Podemos destacar, aqui, alguns tipos, como redes neurais, árvores
de decisão ou até mesmo vieses (Figura 1).
Aprendizado de máquina (Machine Learning)6
Figura 1. Diferentes vieses de representação.
Fonte: Carvalho et al. (2011, p. 5).
O viés é responsável pela restrição das hipóteses a serem visitadas no
espaço de busca, ou seja, essa busca retrata a maneira com que o algoritmo
procura pela melhor hipótese conforme seus dados de treinamento. Além do
viés de busca, podemos citar, também, o viés de representação, como mostrado
na Figura 1. O aprendizado requer algumas tarefas de aprendizado, as quais
são: preditivas, que buscam antecipar, e descritivas, que buscam descrever
um conjunto de dados.
A Figura 2, a seguir, mostra a hierarquia existente no aprendizadoindutivo.
Figura 2. Hierarquia de aprendizado.
Fonte: Carvalho et al. (2011,p. 6)
No topo da Figura 2, vemos o aprendizado indutivo, processo pelo qual são
realizadas as generalizações a partir dos dados. Tem-se, em seguida, os tipos
de aprendizado supervisionado (preditivo) e não supervisionado (descritivo).
7Aprendizado de máquina (Machine Learning)
No aprendizado supervisionado ou preditivo, os métodos recebem como
entrada dados rotulados e usam esses dados e seus atributos para determinar
um novo conjunto de dados desconhecidos (CARVALHO et al., 2011; DIAS;
PASCUTTI; SILVA, 2016). Os algoritmos do aprendizado supervisionado
passam por uma etapa denominada treinamento, na qual o classificador vai
aprender um determinado padrão de acordo com os dados utilizados para
treinar o sistema (FERREIRA JUNIOR, 2015). O aprendizado supervisionado
resolve problemas de:
Regressão: mapeiam um exemplo em um valor real. Um exemplo
de regressão é prever o tempo de internação de um paciente em um
hospital.
Classificação: associa a descrição de um objeto a uma classe. Um
exemplo de classificação é determinar a doença de um paciente pelos
seus sintomas.
No aprendizado não supervisionado ou descritivo, agrupam-se objetos
de acordo com suas características (FERREIRA JÚNIOR, 2015). Essa apren-
dizagem recebe dados do tipo {x1, x2.. xn} e encontra associações entre esses
dados (DIAS; PASCUTTI; SILVA, 2016). O aprendizado não supervisionado
resolve problemas de (CARVALHO et al., 2011, p.6).
Agrupamento: os dados são agrupados de acordo com sua similaridade.
Sumarização: busca encontrar uma descrição simples e compacta para
um conjunto de dados.
Associação: consiste em encontrar padrões frequentes de associações
entre os atributos de um conjunto de dados
Além dos aprendizados supervisionados e não supervisionados, existe o
aprendizado semissupervisionado, que é utilizado quando os problemas pos-
suem uma pequena quantidade de dados rotulados e os dados não rotulados
são utilizados para constituir o conjunto de treinamento (DIAS; PASCUTTI;
SILVA, 2016).
Vários algoritmos foram desenvolvidos para implementar os aprendiza-
dos supervisionado e não supervisionado. O Quadro 2, a seguir, apresenta
alguns desses algoritmos (FERREIRA JÚNIOR, 2015; SILVA, 2016; DIAS;
PASCUTTI; SILVA, 2016; CARVALHO et al., 2011).
Aprendizado de máquina (Machine Learning)8
Modelo Tipo Algoritmo Características
Supervisio-
nado
Regressão Regressão
linear
Recebe valores de determinadas
variáveis e, por meio de equações,
traz estimativas, as quais passam a ser
aplicadas por outras variáveis.
Classificação Naïve Bayes Busca calcular a probabilidade de
algo após as variáveis terem sido
caracterizadas anteriormente.
Algoritmo
máquina vetor
de suporte
Constrói um modelo indicando
onde o objeto se enquadra, utili-
zando um classificador e um analisa-
dor por regressão (linear binário não
probabilístico).
Regressão
logística
Possibilita a definição de caracterís-
ticas semelhantes a determinados
grupos de variáveis.
Árvores de
decisão
Realizam uma procura top-down nos
dados calculando todas as árvores
possíveis. Quando a árvore é muito
complexa, seu tamanho é reduzido
para que ela seja o mais generalista
possível. Para classificar um elemento,
a árvore é percorrida e, quando uma
instância encontra a folha, a sua classe
é a classe da folha correspondente.
Redes neurais
artificiais
É baseado no sistema de aprendiza-
gem biológico, formado pela inter-
ligação dos neurônios. Assim como
nos neurônios, o sistema conecta
várias unidades simples, que recebem
a informação de outros elementos
(entradas) e enviam as informações
processadas para outros elementos.
Esses algoritmos aprendem exemplos
e generalizam conceitos.
K-Vizinhos
mais próximos
A classificação de um item é reali-
zada comparando as similaridades
do item a ser classificado com os
dados de treinamento.
Quadro 2. Algoritmos para aprendizado supervisionado e não supervisionado
(Continua)
9Aprendizado de máquina (Machine Learning)
Aplicações do aprendizado de máquina
Assim como a diversidade dos algoritmos, existem diversos exemplos de
aplicações do aprendizado de máquina, e um bem interessante é mencionado
no Guia do Google (GOOGLE CLOUD, 2017), que relata que o objetivo da
inteligência artifi cial (IA) vai além da simples automatização de tarefas que
antes eram manuais.
No contexto do varejo on-line, por exemplo, os algoritmos de aprendizado
de máquina são capazes de processar e analisar volumes imensos de dados
de consumidores conforme os compradores em potencial navegam na loja
on-line ou no aplicativo para dispositivos móveis de um varejista. Quanto
mais dados o modelo processar, mais ele se aproxima de compreender quando
e por que um comprador específico decidirá fazer uma determinada com-
pra. Em algum momento, esse aprendizado se torna preditivo, permitindo
que o varejista selecione o produto certo para uma determinada pessoa no
Fonte: Adaptado de Ferreira Junior (2015), Silva (2016), Dias, Pascutti e Silva (2016) e Carvalho et al. (2011).
Modelo Tipo Algoritmo Características
Não super-
visionado
Agrupamento K-Means É um algoritmo particional, que divide
os dados em grupos (clusters) não
interseccionados, em que um objeto
faz parte apenas de um grupo. O
algoritmo encontra a melhor divisão
de X dados em K grupos, agrupando
os dados semelhantes. Cada grupo é
representado pelo seu centro e cada
dado é incluído no grupo que está
mais próximo.
Hierárquicos A sequência de partições aninha-
das são geradas baseadas em uma
matriz de proximidade. O resultado
desses algoritmos depende da
ordem de entrada dos dados.
Grafos Algoritmos realizam o agrupamento
utilizando grafos de proximidade.
Quadro 2. Algoritmos para aprendizado supervisionado e não supervisionado
(Continuação)
Aprendizado de máquina (Machine Learning)10
momento certo. Este nível de personalização, antes atingido por pequenos
comerciantes de cidadezinhas que sabiam os nomes e idades dos filhos da
cliente, agora se tornou algo possível em grande escala (GOOGLE CLOUD,
2017, documento on-line).
No entanto, esses conceitos não são aplicados apenas no mercado de negó-
cios financeiros, mas também na área da agricultura, da saúde, dentre outras. A
demanda social exige cada vez mais recursos naturais e, com o tempo, as com-
panhias de energia buscam novas fontes e melhorias em seus processos, de modo
que o aprendizado de máquina pode ser nesse contexto. Conforme Carvalho et
al. (2011, p. 326), algoritmos de aprendizado de máquina têm sido utilizados em
diversas aplicações, relacionados tanto a aspectos operacionais, como distribuição,
exploração, geração de recursos energéticos, quanto a aspectos relacionados a
planejamento e comercialização de energia. Nessas aplicações, os algoritmos
têm sido utilizados principalmente em ferramentas de otimização e de suporte à
tomada de decisão. Dentre as principais aplicações, podem ser listadas: previsão
de carga, de preço; planejamento reativo, de expansão de sistemas de distribuição,
de redistribuição de alimentadores, de agendamento de geradores, de minimização
de perdas; controle da operação; proteção de sistemas de energia; composição de
fontes energéticas; previsão de rompimento de dutos, dentre outros.
Na área da saúde estes algoritmos estão sendo utilizados para mapear carac-
terísticas comuns a diversos contextos, como epidemias, por exemplo. Na prática,
ocorre o armazenamento dos dados e algoritmos desempenham suas funções sob
eles, determinando os dados relevantes para o processo, como idade, sexo, quantas
vezes o paciente contraiu aquela doença, dentre outras informações. Ainda nesse
universo, as ferramentas computacionais dão agilidade ao armazenamento de
informações sobre os pacientes, sejam dados presentes ou antigos, que trazem
um histórico e, às vezes, contribuem para a formação de alguns diagnósticos.
Outros exemplossão citados por Cortez e Morais (2007 apud CARVA-
LHO et al., 2011, p. 324), que mostram como algoritmos de AM podem ser
utilizados para a prevenção de incêndios florestais. Nesse trabalho, cinco
algoritmos de AM tiveram sua acurácia preditiva comparada: algoritmo de
indução de árvores de decisão, florestas aleatórias, máquinas de vetores de
suporte, modelo de regressão múltipla e redes neurais. Os dados originais
tinham atributos relacionados a coordenadas da área de incêndio, mês do ano,
dia da semana, condições atmosféricas, temperatura, umidade relativa do ar,
velocidade do vento e precipitação atmosférica. Técnicas de transformação
converteram atributos qualitativos em quantitativos, e técnicas de seleção
foram utilizadas para selecionar os atributos mais relevantes. Os melhores
resultados foram obtidos por máquinas de vetores de suporte com quatro
11Aprendizado de máquina (Machine Learning)
atributos, dados meteorológicos relacionados a temperatura, umidade relativa
do ar, precipitação pluviométricas e velocidade do vento.
Cada algoritmo agirá diante das necessidades apresentadas por cada situ-
ação. Dessa forma, eles podem ser desenvolvidos com o intuito de solucionar
problemas demonstrados pelos negócios das empresas.
Enquanto a mineração de dados traz métricas sobre a extração das informações diante
de um conjunto de dados, o aprendizado de máquina constrói e aplica estudos nos
sistemas para que possa adquirir conhecimentos com os dados.
AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de
Janeiro: Alta Books, 2016.
CARVALHO, A. C. P. L. F. et al. Inteligência artificial: uma abordagem de aprendizagem
de máquina. Rio de Janeiro: LTC, 2011.
COPPIN, B. Inteligência artificial. Rio de Janeiro: LTC, 2010.
DIAS, M. F. R.; PASCUTTI, P. G.; SILVA, M. L. Aprendizado de máquina e suas aplicações
em bioinformática. Revista Semioses, v. 10, n. 1, 2016. Disponível em: <http://apl.uni-
suam.edu.br/revistas/index.php/Semioses/article/view/1070>. Acesso em: 17 jan. 2019.
FERREIRA JÚNIOR, M. M. Modelos computacionais baseados em aprendizado de máquina
para classificação e agrupamento de variedade de tucumã. 2015. 142 f. Dissertação (Mes-
trado em Ciência e Tecnologia para Recursos Amazônicos) - Universidade Federal
do Amazonas, Itacoatiara, 2015. Disponível em: <https://tede.ufam.edu.br/handle/
tede/4739>. Acesso em: 17 jan. 2019.
GOOGLE CLOUD. Guia sobre análise de dados e aprendizado de máquina para CIO. 2017.
Disponível em: <https://lp.google-mkto.com/rs/248-TPC-286/images/Guide_to_Data_
Analytics_%26_Machine_Learning_portuguese.pdf>. Acesso em: 17 jan. 2019.
SILVA, M. C. R. Aprendizagem de máquina em apoio ao diagnóstico em ortopedia. 2016. 132
f. Dissertação (Mestrado em Engenharia Elétrica) - Pontifícia Universidade Católica de
Campinas, Campinas, 2016. Disponível em: <http://tede.bibliotecadigital.puc-campinas.
edu.br:8080/jspui/handle/tede/902>. Acesso em: 17 jan. 2019.
Aprendizado de máquina (Machine Learning)12
Leituras recomendadas
MITCHELL, T.M. Machine learning. New York: McGraw-Hill, 1997.
ROSA, J. L. G. Fundamentos da inteligência artificial. Rio de Janeiro: LTC, 2011.
SOUTO, M. C. P. et al. Técnicas de aprendizado de máquina para problemas de biologia
molecular. In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO, 23., 2003,
Campinas. Anais... Porto Alegre: SBC, 2003. Disponível em: <http://www.cin.ufpe.
br/~mcps/ENIA2003/jaia2003-14-08.pdf>. Acesso em: 17 jan. 2019.
13Aprendizado de máquina (Machine Learning)
Conteúdo:
DICA DO PROFESSOR
A construção do conhecimento ocorre devido às informações que os dados podem trazer
consigo. A preparação dos dados está relacionada às etapas e aos procedimentos que eles podem
passar para que possam ser válidos para a aprendizagem de máquina.
Saiba mais sobre esse processo assistindo à Dica do Professor a seguir.
Conteúdo interativo disponível na plataforma de ensino!
EXERCÍCIOS
1) O conhecimento sobre algo é oriundo dos dados e informações adquiridas por
diversas fontes. A aprendizagem de máquina ocorre por meio desses artefatos e seu
objetivo é sempre o de trazer soluções computacionais para situações cotidianas no
mundo dos negócios. Sobre os conceitos de aprendizado de máquina e de mineração
dos dados, está correto dizer que:
A)
o aprendizado de máquina tem como foco a predição, com base em características já
conhecidas, enquanto a mineração de dados extrai informação dos conjuntos de dados.
B)
o aprendizado de máquina é um processo automático, com base em grande quantidade de
dados. Já a mineração de dados, trabalha com quantidades limitadas de dados.
C)
a mineração de dados pode ser do tipo de reforço, e o aprendizado de máquina trabalha
com regras de associação com grandes bases de dados.
D)
enquanto o aprendizado de máquina lida com previsão e classificação, a mineração de
dados lida com automação de controle e predição.
E)
o aprendizado de máquina pode ser de padrões sequenciais e de agrupamento, já a
mineração de dados pode ser supervisionada e não supervisionada.
A caracterização dos dados pode definir padrões para determinadas situações. O
aprendizado de máquina precisa disso para construir o conhecimento sobre os dados
e as informações. Quando ocorre o pré-processamento de dados, por meio da
identificação dos objetos e seus respectivos conjuntos, qual técnica está sendo
2)
mencionada?
A)
Eliminação manual de atributos.
B)
Amostragem de dados.
C)
Integração de dados.
D)
Dados desbalanceados.
E)
Limpeza de dados.
3) Os dados são primordiais e passam por diversos processos antes de serem utilizados
na aprendizagem de máquina. Essa exploração define métricas e uso de conceitos de
diversas áreas, desde estatística até inteligência artificial. Diante das perspectivas de
exploração, assinale a alternativa que contextualiza os dados corretamente.
A)
A exploração de dados pode ocorrer por meio de medidas de localidade, em que as
medidas mais comuns podem ser de desvio padrão.
B)
A exploração de dados pode ocorrer por meio de medidas de distribuição, em que a média
de um conjunto de valores é obtida.
C)
A exploração de dados pode ocorrer por meio do uso de dados multivariados que possuem
o mesmo valor de um atributo que pode ser detectado mais de uma vez.
D)
A exploração de dados pode ocorrer por meio de dados univariados em que os dados são
compostos por mais de um atributo de entrada.
E)
O intervalo e a variância estão contidos nas medidas de exploração de dados
multivariados.
4) A caracterização dos dados analisa-os para definir se os atributos do objeto são
quantitativos ou números, com o objetivo de trazer um tipo para o dado. Além disso,
os dados podem possuir escalas, que definem quais operações os valores dos atributos
podem realizar. Sobre a caracterização dos dados, está correto inferir que:
as escalas definidas na caracterização dos dados podem ser ordinais, já que não trazem
A)
muitas informações, como o CEP.
B)
as escalas racionais relacionam a ordem das categorias, como o RG.
C)
as escalas intervalares permitem variações entre um intervalo, como exemplo pode-se citar
a previsão da temperatura.
D)
as escalas nominais e ordinais não trazem relação de ordem para seus valores.
E)
as escalas determinam se os atributos podem ou não ser associados a categorias.
5) Um algoritmo é responsável por determinar quais são os passos e como eles devem
ser seguidos para resolver algum problema, por meio de um recurso computacional.
No aprendizado de máquina, esses algoritmos aprendem por meio dos dados ou de
conjunto de treinamento. Pode-se afirmar que uma aplicação prática do aprendizado
de máquina é:
A)
a definição de locais para construção de redes de água.
B)
a indicação automática de remédios a pacientes hospitalares.
C)
o controle de recursos pessoais e físicos.
D)
o uso de planilhas e dados manuscritos para tomada de decisões.
E)a localização de falhas em linhas de transmissão de energia.
NA PRÁTICA
Um padrão tem como objetivo definir métricas para a aplicação de algo. O uso da padronização
para aprendizagem de máquina, aplicada no contexto do agronegócio, possibilita que as
máquinas se tornem capazes de detectar o que é ou não apto a ser classificado como bom diante
do mercado de frutas e verduras.
Acompanhe um exemplo dessa aplicação Na Prática.
SAIBA +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do
professor:
Bibliotecas importantes para Data Science
Existem, no mercado, diversas tecnologias voltadas para os dados. No vídeo a seguir, veja
bibliotecas voltadas para o aprendizado de máquina e demais tecnologias.
Conteúdo interativo disponível na plataforma de ensino!
Guia sobre análise de dados e aprendizado em máquina para CIO
No link a seguir, acesse este guia elaborado pela Google com base em várias pesquisas, tanto
externas quanto internas da empresa.
Conteúdo interativo disponível na plataforma de ensino!
Algoritmos de aprendizagem de máquina e variáveis de sensoriamento remoto para o
mapeamento da cafeicultura
A aprendizagem de máquina está presente em vários setores. O artigo a seguir buscou comparar
o uso de diferentes variáveis e algoritmos de classificação para o mapeamento de áreas
cafeeiras. Aproveite a leitura.
Conteúdo interativo disponível na plataforma de ensino!