Prévia do material em texto
UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO
CENTRO UNIVERSITÁRIO NORTE DO ESPÍRITO SANTO
DEPARTAMENTO DE COMPUTAÇÃO E ELETRÔNICA
BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO
Wellerson Prenholato de Jesus
Aplicação do processo de descoberta de
conhecimento nos dados abertos da Polícia
Rodoviária Federal dos anos de 2017 a 2019
São Mateus, ES
2022
Wellerson Prenholato de Jesus
Aplicação do processo de descoberta de conhecimento nos
dados abertos da Polícia Rodoviária Federal dos anos de
2017 a 2019
Monografia apresentada ao Curso de Bacha-
relado em Ciência da Computação do De-
partamento de Computação e Eletrônica do
campus de São Mateus da Universidade Fede-
ral do Espírito Santo, como requisito parcial
para obtenção do Grau de Bacharel em Ciên-
cia da Computação.
Universidade Federal do Espírito Santo – UFES
Centro Universitário Norte do Espírito Santo
Bacharelado em Ciência da Computação
Orientador: Profª. Drª. Luciana Lee
Coorientador: Profª. Drª Silvia das Dores Rissino
São Mateus, ES
2022
Wellerson Prenholato de Jesus
Aplicação do processo de descoberta de conhecimento nos dados abertos da
Polícia Rodoviária Federal dos anos de 2017 a 2019. Wellerson Prenholato de Jesus.
– São Mateus, ES, 2022.
64 p. : il. (algumas color.) ; 30 cm.
Orientador: Profª. Drª. Luciana Lee
Coorientador: Profª. Drª Silvia das Dores Rissino
Monografia (PG) – Universidade Federal do Espírito Santo – UFES
Centro Universitário Norte do Espírito Santo
Bacharelado em Ciência da Computação, 2022.
1. Apriori. 2. KDD. 3. Polícia Rodoviária Federal. 4. Mineração de Dados I.
Universidade Federal do Espírito Santo. IV. Aplicação do processo de descoberta
de conhecimento nos dados abertos da Polícia Rodoviária Federal dos anos de 2017
a 2019
CDU 02:141:005.7
Wellerson Prenholato de Jesus
Aplicação do processo de descoberta de conhecimento nos
dados abertos da Polícia Rodoviária Federal dos anos de
2017 a 2019
Monografia apresentada ao Curso de Bacha-
relado em Ciência da Computação do De-
partamento de Computação e Eletrônica do
campus de São Mateus da Universidade Fede-
ral do Espírito Santo, como requisito parcial
para obtenção do Grau de Bacharel em Ciên-
cia da Computação.
Profª. Drª. Luciana Lee
Orientador - DCEL/UFES
Profª. Drª Silvia das Dores Rissino
Coorientador - DCEL/UFES
Prof. Dr. Oberlan Christo Romão
Convidado 1 - DCEL/UFES
São Mateus, ES
2022
Com muito carinho e gratidão, dedico este trabalho aos meus pais,
Wellington Hilton de Jesus e Juciane Prenholato de Jesus,
cujo empenho em me educar sempre veio em primeiro lugar.
Agradecimentos
Agradeço primeiramente a Deus, por me proporcionar sabedoria e força para
concluir esta pesquisa.
Agradeço também aos meus pais Wellington e Juciane, por todo apoio as minhas
escolhas, todo auxilio e incentivo antes e durante essa jornada, sem eles, tenho certeza
que não teria conseguido. Agradeço ao meu irmão Marlon por todo incentivo, amizade e
companhia.
À minha família por compreender minhas ausências.
À minha orientadora, Luciana Lee, pelo incentivo, paciência e confiança dedicada,
desde o meu início na graduação, especificamente no 2º período, disciplina de Tópicos
Especiais em Programação I conhecida também como (disciplina para treinamento de
maratona de programação). Obrigado por acreditar em meu potencial, por me incentivar
nas competições de programação, por ter me dado oportunidade na iniciação científica e
por todo o conhecimento transmitido.
A todos os meus amigos, pelo apoio, pelos momentos de descontração e pela
compreensão de minhas ausências. Em especial aos camaradas Elyabe, Guilherme, Luiz
Henrique e Hádamo pela amizade e parceria que permitiu reunir três gerações de jovens
do curso de Ciência da Computação, que me acompanharam durante esses anos na
universidade, trabalhando e crescendo juntos. Vocês são sensacionais! Que essa amizade
dure muitos e muitos anos.
Fica aqui minha gratidão a todos que participaram e me ajudaram, direta ou
indiretamente, desta conquista.
“Eu acredito que, às vezes,
são as pessoas que ninguém espera nada
que fazem as coisas que ninguém consegue imaginar.”
(Alan Turing)
Resumo
O objetivo principal deste trabalho é encontrar padrões que levem a regras que ajudem a
encontrar as causas que mais contribuem para os acidentes nas rodovias federais do Espírito
Santo, através dos dados abertos disponibilizados no site do Departamento da Polícia
Rodoviária Federal. Para isso, foram utilizados registros de acidentes ocorridos no estado
entre o dia 1º de janeiro de 2017 e 31 de dezembro de 2019. O processo de descoberta de
conhecimento utiliza regras de associação geradas pelo Algoritmo Apriori quando aplicado
aos dados coletados. Os resultados indicam que há um alto índice de acidentes de trânsito
na BR-101, em plena luz do dia, onde a via tem traçado reto, e a principal causa do acidente
é a falta de atenção do motorista causando colisões traseiras envolvendo pelo menos dois
veículos. Além disso, devido à suspensão dos radares móveis, estáticos e portáteis ocorrida
nas rodovias federais entre 15 de agosto de 2019 e 23 de dezembro de 2019, optou-se por
analisar os dados desse período para verificar se a suspensão influenciou no número de
ocorrências. Ao comparar os dados deste intervalo com o mesmo período nos anos de 2017
e 2018, observou-se que, em 2019, houve um aumento no número de acidentes, mortes e
feridos nas rodovias federais que cortam o estado do Espírito Santo.
Palavras-chaves: Apriori. KDD. Mineração de Dados. Polícia Rodoviária Federal. Dados
abertos. Python. PowerBI.
Abstract
The main objective of this work is to find patterns that lead to rules that help to find the
causes that most contribute to the accidents on federal highways in Espírito Santo, through
open data available on the website of the Federal Highway Police Department. For this,
the records of accidents that occurred in the state of Espírito Santo between January 1,
2017 and December 31, 2019 were used. The knowledge discovery process uses association
rules generated by the Apriori Algorithm when applied to the collected data. The results
indicate that there is a high rate of traffic accidents on the BR-101, in broad daylight,
where the road has straight tracing, and the main cause of the accident is the driver’s
lack of attention causing rear-end collisions involving at least two vehicles. Furthermore,
due to the mobile, static and portable radars suspension Federal Highways that occurred
between August 15th, 2019, and December 23th, 2019, it was decided to analyze the data
of this period to verify if the suspension had influenced the number of occurrences. When
comparing the data of this interval with the same period in the years 2017 and 2018, it
was observed that, in 2019, there has been an increase in the number of accidents, deaths
and injured on the federal highways that cross the state of Espírito Santo.
Key-words: Apriori. KDD. Data mining. Federal Highway Police. Data open. Python.
PowerBI.
Lista de ilustrações
Figura 1 – Os tipos de radares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Figura 2 – Acidentes em rodovias federais entre 16 de agosto e 30 de outubro . . . 16
Figura 3 – Processo do KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Figura 4 – Agrupamento dos dados das ocorrências de acidentes de trânsito . . . . 26
Figura 5 – Ocorrência improvável registrada dentro do mar . . . . . . . . . . . . . 34
Figura 6 – Ocorrência improvável registrada na cidade da Serra distante da rodovia
federal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 7 – Ocorrência improvável registrada na cidade de Aracruz distante da
rodovia federal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 8 – Quantidade de ocorrências de acordo com a hora. . . . . . . . . . . . . 45
Figura 9 – Quantidade de ocorrências de acordo com as rodovias federais. . . . . . 46
Figura 10 – Quantidade de ocorrências de acordo com a causa do acidente. .(’br=101.0’) 0,06059 1 1.39454
3
(’br=101.0’,
’tipo_acidente=
Queda de ocupante
de veículo’,
’veiculos_cat=A’)
(’classific_acidente=
Com Vítimas
Feridas’)
0,05282 0,97841 1,21056
4
(’tipo_acidente=
Saída de leito carroçável’,
’classific_acidente=
Com Vítimas Feridas’)
(’veiculos_cat=A’) 0,05852 0,96375 2,41893
5
(’tipo_acidente=
Colisão transversal’,
’veiculos_cat=B’,
’tipo_pista=Simples’,
’causa_acidente=
Falta de Atenção
à Condução’)
(’classific_acidente=
Com Vítimas
Feridas’)
0,05153 0,92773 1,14785
Continuação da tabela na próxima página.
Capítulo 4. Análise e discussão dos resultados 42
ID Antecedentes Consequentes Suporte Conf. Lift
6
(’tipo_acidente=
Colisão transversal’,
’veiculos_cat=B’,
’causa_acidente=
Desobediência
às normas de
trânsito pelo condutor’)
(’classific_acidente=
Com Vítimas
Feridas’)
0,05736 0,90778 1,12317
7
(’dia_semana=
Sexta-feira’,
’causa_acidente=
Falta de Atenção
à Condução’)
(’classific_acidente=
Com Vítimas
Feridas’)
0,05710 0,882 1,09126
8
(’br=262.0’,
’causa_acidente=
Falta de Atenção
à Condução’)
(’classific_acidente=
Com Vítimas
Feridas’)
0,06875 0,85232 1,05455
9
(’tipo_pista=Dupla’,
’condicao_metereologica=
Céu Claro’,
’classific_acidente=
Com Vítimas Feridas’,
’causa_acidente=
Falta de Atenção
à Condução’)
(’br=101.0’,) 0,05257 0,85115 1,18697
10
(’causa_acidente=
Falta de Atenção
à Condução’,
’municipio=Cariacica’)
(’classific_acidente=
Com Vítimas
Feridas’)
0,05360 0,85010 1,05180
11
(’tipo_acidente=
Colisão traseira’,
’fase_dia=Pleno dia’,
’causa_acidente=
Falta de Atenção
à Condução’)
(’classific_acidente=
Com Vítimas
Feridas’)
0,05244 0,84024 1,03960
Continuação da tabela na próxima página.
Capítulo 4. Análise e discussão dos resultados 43
ID Antecedentes Consequentes Suporte Conf. Lift
12
(’veiculos_cat=B’,
’tipo_acidente=
Colisão traseira’,
’causa_acidente=
Falta de Atenção
à Condução’,
’tracado_via=Reta’)
(’classific_acidente=
Com Vítimas
Feridas’)
0,05036 0,83476 1,03282
Fonte: Próprio autor.
Para a leitura dos dados, (MARKOV; LAROSE, 2007) afirmam que o conhecimento
descoberto é expresso na forma de regras Se... então. Essas regras são representadas
da seguinte forma “Se os atributos preditivos de uma dupla satisfazem as condições no
antecedente da regra, então a dupla tem a classe indicada no consequente da regra”.
Dentre as regras apresentadas na Tabela 7, uma foi selecionada para demonstrar o
formato de leituras utilizando a proposição lógica descrita no parágrafo anterior. A regra
pode ser lida da seguinte forma: "SE Tipo do acidente = Colisão transversal E Número de
veículos envolvidos = 2 E causa do acidente = Desobediência às normas de trânsito pelo
condutor ENTÃO classificação do acidente = Com Vítimas Feridas". Um outro formato
que também pode ser utilizado para a leitura: "SE o acidente tem 2 veículos envolvidos e
foi uma colisão transversal causada por desobediência às normas de trânsito pelo condutor,
ENTÃO há vítimas feridas". A regra em questão possui o grau de confiança de 90%.
A partir das regras geradas pelo algoritmo Apriori, conclui-se que 7.23% das regras
geradas tem o tipo do acidente Colisão transversal como antecedente da regra, seguido de
3.90% do tipo Colisão traseira. 59.48% tem como consequente Com Vítimas Feridas
em pelo menos um item da regra. 18.20% das regras tem como o antecedente a causa do
acidente como a Falta de atenção à condução seguido da causa Desobediência às
normas de trânsito com 2.14%, logo essas são as duas principais causas de acidentes
nas rodovias federais que cortam o estado do Espírito Santo.
O traçado Reta da via e a condição meteorológica Céu claro correspondem
respectivamente em 26.80% e 19.73% no antecedente das regras geradas. O ambiente
Urbano está presente em 25.38% no antecedente das regras, seguido de 8.14% do
ambiente Rural.
O município da Serra aparece em 20% das regras como antecedente, em seguida o
município de Cariacica com 2.14%. Com isso, nota-se que o município da Serra necessita
de uma fiscalização mais assertiva e uma retificação nos padrões de segurança rodoviária,
a fim de reduzir o alto índice de ocorrências de trânsito.
Capítulo 4. Análise e discussão dos resultados 44
Dito isso nos parágrafos supracitados, é notável que o alto número de registros com
determinadas características impactam diretamente o resultado encontrado pelas regras
de associação através do algoritmo Apriori. Por fim, o dashboard do Power BI referente às
regras de associação encontradas com a execução da metodologia apresentada no Capítulo
3 é demonstrado no Apêndice D.
4.2 Análise estatística e comparativa dos dados do período sem
radar
Nesta seção será apresentada uma análise estatística dos dados referente ao período
de 15 de agosto a 23 de dezembro dos anos 2017, 2018 e 2019. Criou-se interesse no período
descrito, porque em 2019 houve a suspensão dos radares nas rodovias federais (como
descrito na Seção 1.1). Desta forma, será possível analisar o impacto da suspensão do uso
de radares móveis, estáticos e portáteis no número de acidentes/ocorrências registradas
nas estradas federais que cortam o estado. Vale ressaltar que os dados utilizados para
alcançar os resultados aqui destacados, passaram pelas etapas de seleção e limpeza, etapas
essas apresentadas no capítulo de metodologia.
E como já foi dito na Seção 3.3 o dashboard do Power BI responsável por apresentar
as análises estatísticas e comparativas dos dados do período em que os radares móveis,
estáticos e portáteis foram suspensos é demonstrado no Apêndice B e logo abaixo nas
próximas seções os gráficos são explicados individualmente.
4.2.1 Análise comparativa por hora
A Figura 8 apresenta o quantitativo de acidentes de trânsito de acordo com a hora
exata, desconsiderando os minutos e os segundos. De acordo com a figura, os horários 18h,
17h e 19h destacam-se dos demais nos 3 anos, pois possuem uma quantidade numérica
significativamente maior. Percebe-se também que no ano de 2019 o horário de 18h teve
um aumento considerável no número de ocorrências quando comparado com os anos de
2017 e 2018, também é notável que dentre os 24 horários existentes nas análises 11 são
superiores no ano de 2019.
4.2.2 Análise comparativa por rodovias federais
A Figura 9 apresenta a distribuição de ocorrências de acordo com as rodovias
federais que cortam o estado do Espírito Santo limitado por suas divisas, monitoradas
pela PRF. Na base de dados foram registradas ocorrências em sete rodovias federais,
destacando-se a BR-101, sendo aproximadamente 71,89% das ocorrências registradas no
ano de 2017, 70,23% no ano de 2018 e 68,76% no ano de 2019. Além disso, o número
Capítulo 4. Análise e discussão dos resultados 45
Figura 8 – Quantidade de ocorrências de acordo com a hora.
Fonte: Próprio autor.
de ocorrências registradas nas rodovias federais: BR-101, BR-259, BR-262, BR-482
e BR-484, são superiores no ano de 2019 quando comparadas aos demais anos. Tem-se
que as estradas federais possuem diferentes comprimentos dentro dos limites do estado do
Espírito Santo, como é apresentado na Tabela 8. Se for realizada uma análise do número
de ocorrências proporcional a extensão de cada rodovia limitado pelas divisas do estado,
obtém-se os dados apresentados na Tabela 9. Com isso, pode-se observar que a proporção
de acidentes por Km na BR-101 é superior nos 3 anos, com destaque para o ano de 2019.
Tabela 8 – Extensão das rodovias federais no estado do Espírito Santo.
Rodovia Federal Extensão
BR-101 460.9 km
BR-259 106.3 km
BR-262 196.3 km
BR-393 75.8 km
BR-447 15.3 km
BR-482 106 km
BR-484 25 km
TOTAL 985.6 km
Fonte: (POR VIAS SEGURAS, 2015)
Capítulo 4. Análise e discussão dos resultados 46
Tabela 9 – Proporção de acidentes por Km.
Ano BR-101 BR-259 BR-262 BR-393 BR-447 BR-482 BR-484
2019 1.5187 0.5362 1.1054 0.1583 0.1960 0.2547 0.08
2018 1.4081 0.4609 1.095 0.1055 0.1307 0.0094 0
2017 1.4254 0.2822 1.0290 0.2242 0.4575 0.0094 0
Fonte: Próprio autor.
Figura 9 – Quantidade de ocorrências de acordo comas rodovias federais.
Fonte: Próprio autor.
4.2.3 Análise comparativa por causa de acidentes
As causas dos acidentes de trânsito podem ser vistas na Figura 10. A falta de
atenção à condução foi a que apresentou o valor mais expressivo nos 3 anos. Em seguida,
as principais causas foram a desobediência às normas de trânsito, velocidade
incompatível e a falta de distância de segurança. Com isso, é evidente que a falta
de atenção e a desobediência às normas de trânsito pelo condutor são os fatores que mais
contribuíram para as ocorrências de acidentes de trânsito nas rodovias federais do estado
do Espírito Santo, além de apresentar um valor numérico de ocorrências consideravelmente
maior no ano de 2019 quando comparado com os anos de 2017 e 2018.
4.2.4 Análise comparativa por município
A Figura 11 ilustra a quantidade de acidentes de trânsito por município. Vale
destacar que a figura mostra somente os 15 municípios com o maior número de ocorrências
nos anos de 2017, 2018 e 2019. Coincidentemente Serra, Cariacica e Linhares destacam-
se por apresentarem os maiores valores de ocorrências registradas nos três anos. Essas três
cidades são responsáveis por aproximadamente 46,38% das ocorrências registradas em
2017, 47,18% em 2018 e 47,15% em 2019, lembrando que o Espírito Santo possui 78
municípios e 43 municípios são cortados por rodovias federais. Percebe-se também que
no ano de 2019 existe uma superioridade quando analisado o número de ocorrências das
quatro primeiras cidades apresentadas na figura. Vale ressaltar que os outros municípios
que não estão presentes na Figura 11 apresentaram valores entre 1 e 46. Nos dados da PRF
não há registro do número de veículos que trafegam em cada rodovia diariamente. Além
disso, tem-se que muitos veículos envolvidos em acidentes podem não ser do município
onde estes ocorreram, inclusive os veículos podem ser de outros estados. Desta forma,
Capítulo 4. Análise e discussão dos resultados 47
Figura 10 – Quantidade de ocorrências de acordo com a causa do acidente.
Fonte: Próprio autor.
não valeria uma análise da proporção do número de acidentes com relação ao número de
habitantes do município.
Figura 11 – Ranking dos 15 municípios com o maior número de ocorrências.
Fonte: Próprio autor.
Capítulo 4. Análise e discussão dos resultados 48
4.2.5 Análise comparativa por tipos de acidentes
Entre os tipos de acidentes, conforme a Figura 12, destacam-se as colisões -
traseira, transversal, lateral e tombamento, possuindo valores numéricos significati-
vamente maiores que os demais tipos. Além disso, podemos notar que no ano de 2019 os
valores foram superiores nestes quatro primeiros tipos de acidentes, quando comparados
com os anos de 2017 e 2018.
Figura 12 – Quantidade de ocorrências de acordo com os tipos de acidentes.
Fonte: Próprio autor.
4.2.6 Análise comparativa por traçado da via
Analisando a variável traçado da via representado pela Figura 13, percebe-se uma
diferença considerável entre o traçado reto da via com os demais traçados, indicando que
cerca de 59,62% das ocorrências que aconteceram no ano de 2017, 56,60% em 2018 e
60,51% em 2019, foram em via reta. Além disso, também é possível notar que quando
comparado com os demais anos, o ano de 2019 foi superior em 3 tipos de traçado, sendo
eles: via reta, curva e no traçado não informado.
4.2.7 Análise comparativa por tipo de pista
Observando a variável tipo da pista, mostrado pela Figura 14, a pista simples
apresentou um valor significativamente maior quando analisado nos três anos. O ano de
2019 quando comparado com os anos de 2017 e 2018, teve uma predominância considerável
no tipo de pista simples e dupla, mas acaba sendo inferior no tipo de pista múltipla.
Capítulo 4. Análise e discussão dos resultados 49
Figura 13 – Quantidade de ocorrências de acordo com o traçado da via.
Fonte: Próprio autor.
Figura 14 – Quantidade de ocorrências de acordo com o tipo da pista.
Fonte: Próprio autor.
4.2.8 Análise comparativa por fase do dia
A Figura 15 apresenta a quantidade de ocorrências de acordo com o estágio do dia,
é evidente a superioridade quantitativa do período do dia e da noite quando comparado
com amanhecer e anoitecer. Analisando e comparando o ano de 2019 com os anos de 2017
e 2018, observa-se que no período em pleno dia houve uma redução quando analisado os
valores de 2017 e comparados com 2018, e logo em seguida um aumento de registros no
ano 2019 quando comparado com o ano 2018, formando um gráfico de curva V. Como
falado anteriormente, o período de plena noite também se destacou nesta análise, apesar
do gráfico ter um comportamento diferente, formou-se um gráfico de escada. Dessa forma,
é constatado que o ano de 2019 possui um quantitativo de ocorrências superior em ambos
os casos.
4.2.9 Análise comparativa por condições meteorológicas
Observando a variável condição meteorológica, a Figura 16 apresenta as 7 variações
meteorológicas existentes nos dados e uma variação definida como ignorado, variação
essa referente ao desconhecimento do policial no momento que o registro da ocorrência
é efetuado. Aproximadamente 49,72% do somatório de ocorrências dos anos 2017, 2018
Capítulo 4. Análise e discussão dos resultados 50
Figura 15 – Quantidade de ocorrências de acordo com a fase do dia.
Fonte: Próprio autor.
e 2019 está ligado à condição de céu claro. Ainda analisando a condição de céu claro,
tem-se um aumento expressivo de 136 ocorrências no ano de 2019 quando comparado com
o ano de 2017 e 100 ocorrências quando comparado com o ano de 2018.
Figura 16 – Quantidade de ocorrências de acordo com as condições meteorológicas.
Fonte: Próprio autor.
4.2.10 Análise comparativa por dia da semana
A Figura 17 apresenta o quantitativo de ocorrências por dia da semana. Através
da figura, podemos destacar o domingo e o sábado como os dias da semana com o maior
número de ocorrências registradas nos 3 anos. Além disso, também é perceptível que o
ano de 2019 foi superior em questão de número de ocorrências em todos os casos.
4.2.11 Análise comparativa por classificação da ocorrência
Diante dos tipos de classificação existentes na base de dados e de acordo com a
Figura 18, é notável a predominância da classificação com vítimas feridas, nos 3 anos
analisados. Além disso, é perceptível também o aumento gradativo da classificação de
com vítimas feridas e com vítimas fatais, nos anos de 2017, 2018 e 2019, formando
um gráfico de degrau.
Capítulo 4. Análise e discussão dos resultados 51
Figura 17 – Quantidade de ocorrências de acordo com o dia da semana.
Fonte: Próprio autor.
Figura 18 – Quantidade de ocorrências de acordo com a classificação da ocorrência.
Fonte: Próprio autor.
52
5 Conclusões
Em relação ao objetivo geral, o trabalho identificou os fatores de contribuíram para
os acidentes rodoviários ocorridos no período de 01 de janeiro de 2017 a 31 de dezembro
de 2019 nas rodovias que cortam o estado do Espírito Santo, com o uso da descoberta
de conhecimento e mineração de dados, por meio de regras de associação geradas pelo
algoritmo Apriori. Além dos resultados já apresentados na Seção 4.1, o estudo também
indicou a existência de um alto índice de acidentes de trânsito na BR-101, em plena luz
do dia, onde a via tem traçado reto, e a principal causa do acidente é a falta de atenção
do motorista causando colisões traseiras envolvendo pelo menos dois veículos.
Na etapa de pré-processamento dos dados foram identificadas algumas inconsistên-
cias nos registros da PRF, como é descrito na Seção 3.2.3. Ficou evidente a necessidade
de uma melhoria na calibração do equipamento utilizado para coletar as informações da
ocorrência, com isso os dados se tornam mais fidedignos e consequentemente trazem mais
qualidade e confiança para os estudos.
No objetivo específico, que está relacionado a análise estatística do período de
130 dias do ano de 2019 que os radares móveis, estáticos e portáteis foram suspensos, foi
identificado neste estudo que, quando comparados aos anos de 2017 e 2018, houveum
aumento no número de acidentes, mortos e feridos nas rodovias federais que cortam o
estado do Espírito Santo. Esse resultado também está de acordo com o que foi comentado
pelo coordenador do SOS Estradas1, (RIZZOTTO, 2021), “efetivamente as mortes e os
feridos estão aumentando nas rodovias federais desde que a política de não fiscalização de
velocidade foi implantada pelo presidente, a partir de abril de 2019”, disse.
Dessa forma, utilizar os dados abertos da PRF para descobrir padrões nos dados
através das regras de associação é uma das formas que os departamentos de tecnologia
e informação da PRF podem usufruir para reduzir e otimizar o tempo de resposta para
situações que envolvem principalmente a fiscalização de trânsito.
Por fim, como proposta para trabalhos futuros alguns caminhos podem ser seguidos:
1. Desenvolver uma aplicação que possa indicar de forma automatizada os outliers
existentes na base de dados da PRF, um exemplo desses outliers que podem ser levados
em consideração, são as ocorrências registradas em locais improváveis como descrito na
Seção 3.2.3.
2. Ampliar este estudo com a aplicação do algoritmo Apriori para mais estados
brasileiros, logo para mais rodovias federais.
1 Disponível em .
https://estradas.com.br/sos-estradas/
Capítulo 5. Conclusões 53
3. Desenvolver a infraestrutura para colocar a aplicação do front-end desenvolvido
com auxílio da biblioteca Streamlit em ambiente de produção, possibilitando o acesso de
qualquer usuário.
4. Utilizar outros algoritmos de mineração de dados para encontrar padrões que
diferem das regras de associação obtidas pelo algoritmo Apriori.
5. Aperfeiçoar a forma que as regras de associação são apresentadas para o usuário
final, uma ideia interessante é plotar as regras de associação diretamente nos mapas
geográficos, levando em consideração os itens antecedentes da regra.
54
Referências
AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining association rules between sets of
items in large databases. SIGMOD Rec., Association for Computing Machinery, New
York, NY, USA, v. 22, n. 2, p. 207–216, jun 1993. ISSN 0163-5808. Disponível em:
. Acesso em: 11 Jan. 2022. Citado na página
37.
BARRY, P. Head first Python: A brain-friendly guide. [S.l.]: O’Reilly Media, Inc., 2016.
v. 2. 624 p. ISBN 9781491919514. Citado na página 24.
BRASIL. O que são dados abertos? Portal Brasileiro de Dados Abertos, 2019. Disponível
em: . Acesso em: 17 Jul. 2022. Citado 2
vezes nas páginas 19 e 20.
CONFEDERAÇÃO NACIONAL DO TRANSPORTE. CNT lança painel sobre acidentes
rodoviários. Agência CNT Transporte Atual, 2019. Disponível em: .
Acesso em: 16 Jul. 2022. Citado na página 14.
COSTA, J.; BERNARDINI, F.; VITERBO, J. A mineração de dados e a qualidade de
conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras. AtoZ:
novas práticas em informação e conhecimento, v. 3, p. 139–157, Dec 2014. Citado na
página 35.
COUTO, M. Para especialistas, suspensão de radares vai aumentar riscos e mortes em
rodovias federais. O Globo, 2020. Disponível em: . Acesso em: 7 Dez. 2021. Citado na página 15.
EAVES, D. The Three Laws of Open Government Data. eaves.ca, 2009. Disponível em:
. Acesso em: 10 Jul.
2022. Citado na página 19.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge
discovery in databases. AI Magazine, v. 17, n. 3, p. 54, Mar. 1996. Disponível em:
. Citado 2 vezes nas
páginas 21 e 22.
FERNANDES, T. Bolsonaro determina suspensão de uso de radares móveis em rodovias fe-
derais. Folha de S.Paulo, 2019. Disponível em: . Acesso em: 20 Dez. 2021. Citado na página 15.
HAN, J.; PEI, J.; KAMBER, M. Data Mining: Concepts and Techniques. 3rd. ed. [S.l.]:
Elsevier, 2011. ISBN 0123814790. Citado 2 vezes nas páginas 37 e 38.
MARKOV, Z.; LAROSE, D. Data Mining the Web: Uncovering Patterns in Web Content,
Structure, and Usage. [S.l.]: John Wiley & Sons, 2007. ISBN 978-0-471-66655-4. Citado
na página 43.
https://doi.org/10.1145/170036.170072
https://dados.gov.br/pagina/dados-abertos
https://www.cnt.org.br/agencia-cnt/cnt-lanca-painel-sobre-acidentes-rodoviarios-veja-principais-dados
https://www.cnt.org.br/agencia-cnt/cnt-lanca-painel-sobre-acidentes-rodoviarios-veja-principais-dados
https://ricardoantunes.com.br/para-especialistas-suspensao-de-radares-vai-aumentar-riscos-e-mortes-em-rodovias-federais/
https://ricardoantunes.com.br/para-especialistas-suspensao-de-radares-vai-aumentar-riscos-e-mortes-em-rodovias-federais/
https://ricardoantunes.com.br/para-especialistas-suspensao-de-radares-vai-aumentar-riscos-e-mortes-em-rodovias-federais/
https://eaves.ca/2009/09/30/three-law-of-open-government-data/
https://ojs.aaai.org/index.php/aimagazine/article/view/1230
https://www1.folha.uol.com.br/cotidiano/2019/08/bolsonaro-determina-suspensao-de-uso-de-radares-moveis-em-rodovias-federais.shtml
https://www1.folha.uol.com.br/cotidiano/2019/08/bolsonaro-determina-suspensao-de-uso-de-radares-moveis-em-rodovias-federais.shtml
https://www1.folha.uol.com.br/cotidiano/2019/08/bolsonaro-determina-suspensao-de-uso-de-radares-moveis-em-rodovias-federais.shtml
Referências 55
MCKINNEY, W. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and
IPython. 2nd. ed. [S.l.]: O’Reilly Media, Inc., 2017. 544 p. ISBN 978-1-4919-5766-0.
Citado na página 24.
MOURA, K. Ciclo de Vida dos dados #1. Medium, 2019. Disponível em:
. Acesso em: 20 Nov. 2021.
Citado na página 22.
NOGUEIRA, F. da S.; LEE, L.; RISSINO, S. das D. Descoberta de conhecimento
na base de dados aberta da Polícia Rodoviária Federal: Identificação de pontos
críticos na rodovia BR-101 no município de São Mateus/ES. Brazilian Journal
of Production Engineering - BJPE, v. 4, p. 70–90, dez. 2018. Disponível em:
. Acesso em: 10 Fev. 2022.
Citado na página 23.
OPEN KNOWLEDGE INTERNATIONAL. The Open Definition. Open Knowledge
Foundation, 2005. Disponível em: . Acesso em: 20 Jun. 2022.
Citado na página 19.
ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE. Segurança no trânsito. Organização
Pan-Americana da Saúde, 2018. Disponível em: . Acesso em: 22 Jul. 2022. Citado na página 14.
PINHEIRO, A. M. Descoberta de conhecimento em banco de dados da Polícia Rodoviária
Federal nos acidentes da BR-316 no estado do Pará utilizando a ferramenta WEKA. 66 p.
Monografia (Trabalho de Conclusão de Curso - Tecnólogo em Geoprocessamento) —
Campus Universitário de Ananindeua, Universidade Federal do Pará, 2019. Disponível em:
. Acesso em: 21 Fev. 2022. Citado
na página 22.
POR VIAS SEGURAS. Acidentes nas rodovias federais do Espírito Santo. Por Vias
Seguras, 2015. Disponível em: . Acesso em: 16 Fev. 2022. Citado
na página 45.
POR VIAS SEGURAS. Pesquisas com base nos dados abertos da PRF. 2019. Disponível
em: . Acesso em: 17 Dez. 2021. Citado na
página 21.
PRF. Acidentes. Polícia Rodoviária Federal, 2020. Disponível em: .
Acesso em: 03 Nov. 2021. Citado 3 vezes naspáginas 16, 20 e 33.
PRF. Dicionário de dados - Acidentes. Polícia Rodoviária Federal, 2020. Dis-
ponível em: . Acesso em: 03 Nov. 2021. Citado 3 vezes nas páginas 20, 21 e 26.
RASCHKA, S. Mlxtend: Providing machine learning and data science utilities
and extensions to python’s scientific computing stack. The Journal of Open
Source Software, The Open Journal, v. 3, n. 24, abr. 2018. Disponível em:
. Acesso em: 06 Nov. 2021. Citado
na página 25.
https://medium.com/@kvmoura/kdd-process-9b8e3062142
https://periodicos.ufes.br/bjpe/article/view/V04N04_04
http://opendefinition.org/
https://www.paho.org/pt/topicos/seguranca-no-transito
https://www.paho.org/pt/topicos/seguranca-no-transito
https://bdm.ufpa.br:8443/jspui/handle/prefix/1013
http://vias-seguras.com/layout/set/print/os_acidentes/estatisticas/estatisticas_estaduais/estatisticas_de_acidentes_no_espirito_santo/acidentes_nas_rodovias_federais_do_espirito_santo
http://vias-seguras.com/layout/set/print/os_acidentes/estatisticas/estatisticas_estaduais/estatisticas_de_acidentes_no_espirito_santo/acidentes_nas_rodovias_federais_do_espirito_santo
http://vias-seguras.com/layout/set/print/os_acidentes/estatisticas/estatisticas_estaduais/estatisticas_de_acidentes_no_espirito_santo/acidentes_nas_rodovias_federais_do_espirito_santo
http://vias-seguras.com/dados_da_prf
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-acidentes
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-acidentes
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dicionario-acidentes
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dicionario-acidentes
http://joss.theoj.org/papers/10.21105/joss.00638
Referências 56
REIS, C. V. R.; SILVA, J. T. M.; MAIA, L. C. G. O uso da descoberta de conhecimento
em banco de dados nos acidentes da BR-381. In: XVI Encontro Nacional de Pesquisa em
Ciência da Informação (XVI ENANCIB). João Pessoa, PB: [s.n.], 2015. GT 4, p. 22. ISSN
2177-3688. Disponível em: .
Acesso em: 14 Fev. 2022. Citado na página 23.
RICHARDS, T. Getting Started with Streamlit for Data Science. 1nd. ed. [S.l.]: Packt
Publishing, 2021. 282 p. ISBN 9781800565500. Citado na página 24.
RIZZOTTO, R. Governo federal desliga radares e mortes nas rodovias federais aumentam!
YouTube, 2021. Disponível em: .
Acesso em: 05 Jul. 2022. Citado na página 52.
SANTOS, I. J. d. O. Mineração de dados em padrões de acidentes de trânsito:
o uso de dados abertos da Polícia Rodoviária Federal no RN. Dissertação (B.S.
thesis) — Universidade Federal do Rio Grande do Norte, 2020. Disponível em:
. Acesso em: 07 Fev. 2022. Citado
na página 23.
SERRA, L. G. N. POWER BI - Do Tratamento de Dados a Criação de Painéis
Inteligentes. [S.l.]: Instituto Alpha Educação à distância e Editora Ltda, 2019. ISBN
978-85-66018-37-x. Citado na página 25.
SOUZA, R. S. S. L. de. Os Acidentes de Trânsito e a Responsabilidade Civil do
Estado. OAB - Ordem dos Advogados do Brasil - 12ª Subseção, 2008. Disponível em:
. Acesso em: 23 Jun. 2022. Citado na
página 14.
SRIKANT, R.; AGRAWAL, R. Mining generalized association rules. Future Generation
Computer Systems, Elsevier, v. 13, n. 2-3, p. 161–180, 1997. Citado na página 37.
VASCONCELOS, L. M. R. de; CARVALHO, C. L. de. Aplicação de regras de associação
para mineração de dados na web. Revista Telfract, v. 1, n. 1, 2018. Citado na página 38.
WORLD HEALTH ORGANIZATION. Global status report on road safety 2018.
World Health Organization, 2018. 403 p. ISBN 9789241565684. Disponível em:
. Acesso em: 30 Jun. 2022.
Citado na página 14.
http://200.20.0.78/repositorios/handle/123456789/2885
https://www.youtube.com/watch?v=uMW6piGNAgs
https://repositorio.ufrn.br/handle/123456789/42844
http://www.oabcampos.org.br/artigo.php?id=17
https://www.who.int/publications/i/item/9789241565684
57
APÊNDICE A – Aplicação desenvolvida com
Streamlit
58
APÊNDICE B – Dashboard Power BI
referente ao período sem radar.
APÊNDICE B. Dashboard Power BI referente ao período sem radar. 59
APÊNDICE B. Dashboard Power BI referente ao período sem radar. 60
61
APÊNDICE C – Dashboard Power BI
referente as ocorrências de 2017 á 2019
APÊNDICE C. Dashboard Power BI referente as ocorrências de 2017 á 2019 62
APÊNDICE C. Dashboard Power BI referente as ocorrências de 2017 á 2019 63
Pow
er BI D
esktop
R
epresentação gráfica das regras de associação
('causa_ac
('br=101.0
('causa_ac
('causa_ac
('causa_ac
('causa_ac
('classifi
('classifi
('classifi
('classifi
('classifi
('classifi
('classifi
('classifi
('classifi
('classifi
('classifi
('classifi
('condicao
('condicao
('condicao
('condicao
('condicao('condicao
('condicao
('condicao
('condicao
('condicao
('condicao
('fase_dia
('fase_dia
('fase_dia
('fase_dia
('fase_dia
('fase_dia
('fase_dia
('fase_dia
('fase_dia
('fase_dia
('m
unicipi
('m
unicipi
('m
unicipi
('m
unicipi
('m
unicipi
('m
unicipi
('m
unicipi
('m
unicipi
('m
unicipi
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('sentido_
('tipo_aci
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis('tipo_pis
('tipo_pis
('tipo_pis ('tipo_pis
('tracado_
('tracado_
('uso_solo
('uso_solo('uso_solo
('uso_solo
('uso_solo
('uso_solo
('uso_solo
('uso_solo
('uso_solo
('uso_solo
('uso_solo
('uso_solo
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('br=101.0
('fase_dia
('br=101.0
('condicao
('veiculos
('condicao
('condicao
('condicao
('condicao
('br=101.0
('classifi
('condicao
('br=101.0
('tipo_aci
('veiculos
('tipo_aci
('tipo_aci
('tipo_aci
('veiculos
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('br=101.0
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci('tipo_aci ('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('br=101.0
('tipo_aci
('tipo_aci
('br=262.0
('tipo_pis
('tipo_aci
('tipo_aci
(''uso_sol
('tipo_aci
('tipo_pis
('tipo_aci
('tipo_aci('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('classifi
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('br=101.0
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('tipo_aci
('br=262.0
('tipo_aci
('veiculos
('uso_solo
('tipo_aci
('tipo_aci
('br=262.0
('veiculos
('tipo_aci
('tipo_aci
('veiculos
('tipo_aci
('tipo_pis
('veiculos
('veiculos ('veiculos
('tipo_pis
('classifi
('tipo_pis ('br=262.0
('tipo_pis
('tipo_aci
('veiculos
('br=262.0
('tipo_aci
('tipo_pis
('tipo_pis
(''uso_sol
('veiculos
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('br=262.0
('tipo_aci
('veiculos
('tipo_pis
('tipo_aci
('tipo_pis
('tipo_pis
('tipo_pis
('veiculos
('tipo_pis
('tipo_pis
('br=101.0
('tipo_pis ('tipo_pis
('veiculos
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_aci
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_aci
('tipo_aci
('tipo_pis
('tipo_pis
('tipo_aci
('tipo_pis
('tipo_pis ('tipo_pis('tipo_pis
('tipo_aci
('tracado_
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_aci
('tipo_aci
('tracado_
('tracado_
('tracado_
('tipo_aci
('tipo_pis
('tipo_pis
('tipo_aci
(''uso_sol
('tracado_
('tipo_aci
('tipo_pis
('tipo_pis
('tipo_pis
('tipo_aci
('tipo_aci('tipo_aci
('tracado_
('tracado_
('veiculos
('tipo_aci
('tracado_
('veiculos
('veiculos
('tipo_pis
('tracado_
('veiculos
('tipo_aci
('tracado_
('veiculos('tracado_
('veiculos
('tracado_
('tipo_aci
('tipo_aci('veiculos
('fase_dia
('veiculos
('br=101.0
('sentido_
('condicao ('causa_ac
('veiculos
('veiculos
('tipo_pis
('veiculos
('fase_dia
('tracado_
('tipo_aci
('veiculos
('tracado_
('tipo_aci
('fase_dia
('tipo_pis
('tipo_pis
('fase_dia
('tipo_aci
('veiculos
('fase_dia
('veiculos
('veiculos
(''uso_sol
('veiculos
('fase_dia
('tipo_aci
('veiculos
('tipo_aci
('veiculos
('fase_dia
('veiculos
('fase_dia
('causa_ac
('uso_solo
('veiculos
('sentido_
('veiculos
('causa_ac
('tipo_pis
('veiculos
('veiculos
('tipo_pis
(''uso_sol
('tracado_
('veiculos
('veiculos
('fase_dia
('fase_dia
('dia_sem
a
('veiculos
('tipo_aci
('veiculos
('fase_dia
('veiculos
('tipo_pis
('br=101.0
('fase_dia
('veiculos
('veiculos
('veiculos
('tipo_aci
('veiculos
('sentido_
('veiculos
('tipo_pis
('veiculos
('classifi
('sentido_
('fase_dia
('veiculos
('causa_ac
('tracado_
('veiculos
('sentido_
('condicao
('fase_dia
('veiculos
('veiculos
('tipo_aci
('tipo_pis
('veiculos
('sentido_
('fase_dia
('veiculos
('veiculos
('sentido_
('fase_dia
('sentido_
('fase_dia
('classifi
('causa_ac
('br=101.0
('sentido_
('veiculos
('br=101.0
('m
unicipi
('fase_dia
('veiculos
('fase_dia
('br=101.0
(''uso_sol
('fase_dia
('fase_dia
('fase_dia
('tracado_ ('condicao
('dia_sem
a
('sentido_
('veiculos
('causa_ac
('veiculos
('veiculos
('dia_sem
a
('fase_dia
('br=101.0
('veiculos
('veiculos
('fase_dia
('veiculos
('br=101.0
(''uso_sol
('veiculos
('sentido_
('veiculos
('tracado_
('sentido_
('veiculos
('veiculos
('veiculos
('condicao
('veiculos
('veiculos
('sentido_
('veiculos
('uso_solo
('veiculos
('br=101.0
('veiculos
('condicao
('veiculos
('fase_dia
('fase_dia
('veiculos
('fase_dia
('veiculos
('fase_dia
('br=101.0
('fase_dia
('veiculos
('veiculos
('sentido_
('veiculos
('fase_dia
('tipo_pis
('veiculos
('br=101.0
('fase_dia
('veiculos
('br=101.0
('condicao
('fase_dia
('fase_dia
('fase_dia
('condicao
('veiculos
('veiculos
('tipo_pis
('br=101.0
('tipo_pis
('tipo_pis
('tracado_
('sentido_
('veiculos
('veiculos
('fase_dia
('veiculos
('br=101.0 ('tipo_pis
('fase_dia
('sentido_
('veiculos
('veiculos
('fase_dia
('veiculos
('uso_solo
('br=101.0
('veiculos
('veiculos
('m
unicipi
('br=101.0
('veiculos
('condicao
('tipo_pis
('veiculos
('fase_dia
('tipo_pis
('veiculos
('fase_dia
('sentido_
('tipo_pis
('veiculos
('fase_dia
('tipo_pis
('sentido_
('tipo_aci
('tipo_aci
('fase_dia
('uso_solo
('br=101.0 ('veiculos
('br=101.0
('veiculos
('br=101.0
('br=101.0 ('veiculos
('br=101.0
('veiculos
('tipo_aci
('sentido_
('veiculos
('m
unicipi
('br=101.0
('tipo_aci
('veiculos
('br=101.0
('veiculos
('tipo_pis
('veiculos
('sentido_
('veiculos
('sentido_
('sentido_
('br=101.0
('tipo_pis
('m
unicipi
('sentido_
('condicao
('veiculos
('fase_dia
('causa_ac
('br=101.0
('sentido_
('veiculos
('condicao
('fase_dia
('veiculos
('br=101.0 ('veiculos
('veiculos
('fase_dia
('br=101.0
('veiculos
('condicao
('br=101.0
('br=101.0
('br=101.0
('condicao
('veiculos
('br=101.0
('br=101.0
('tipo_pis
('dia_sem
a
('tipo_pis
('tipo_aci
('uso_solo
('tipo_pis('veiculos
('causa_ac
('br=101.0
('sentido_
('tipo_pis ('condicao
('condicao
('veiculos ('veiculos ('dia_sem
a
('tracado_
('condicao
('br=101.0 ('tipo_pis
('br=101.0
('veiculos
('fase_dia
('tipo_pis
('causa_ac
('veiculos
('br=101.0
('veiculos
('tipo_pis
('fase_dia
('veiculos
('tipo_pis
('veiculos
('br=101.0
('tipo_pis
('condicao('veiculos
('dia_sem
a
('tracado_
('veiculos
('veiculos
('condicao
('veiculos
('veiculos
('tipo_pis
('veiculos
('dia_sem
a
('veiculos
('fase_dia
('tipo_pis
('br=101.0
('tipo_pis
('br=101.0
('veiculos
('fase_dia
('veiculos
('condicao
('fase_dia
('br=101.0
('veiculos
(''uso_sol
('causa_ac
('veiculos
('br=101.0
('tipo_pis
('condicao
('tipo_pis
('causa_ac
('sentido_
('fase_dia
('br=101.0
('veiculos
('br=101.0
('causa_ac
('dia_sem
a
('uso_solo
('condicao
('fase_dia
('veiculos
('veiculos
('condicao
('condicao
(''uso_sol
('causa_ac
('causa_ac
('uso_solo ('condicao
('sentido_
('tipo_pis
('fase_dia
('veiculos
('veiculos
('veiculos
('dia_sem
a
('uso_solo
('veiculos
('causa_ac
('br=101.0
('br=262.0
('dia_sem
a
('veiculos
('condicao
('veiculos
('tipo_pis
('tipo_pis
('condicao
('sentido_
('sentido_
('fase_dia
('tipo_pis
('fase_dia
('condicao
('br=101.0
('br=101.0
('tipo_pis
('fase_dia
('tipo_pis
('dia_sem
a
('br=262.0
('sentido_
('fase_dia
('fase_dia
('fase_dia
('sentido_ ('br=101.0
('classifi
('br=101.0
('dia_sem
a
('br=101.0
('sentido_
('veiculos
('tipo_pis
(''uso_sol
('tipo_pis
('sentido_
('veiculos
('sentido_
('veiculos
('tipo_pis
('condicao
('veiculos
('br=101.0
('br=101.0('veiculos
('br=101.0
('br=101.0
('br=101.0
('condicao
('veiculos ('dia_sem
a
(''uso_sol
('sentido_
('veiculos
('tracado_
('br=101.0
('veiculos
('veiculos
('condicao
('tipo_pis
('sentido_
('br=101.0 ('tipo_pis
('causa_ac
('tipo_pis
('classifi('fase_dia
('tipo_pis
(''uso_sol
('br=101.0 ('veiculos
('tipo_pis
('sentido_
('veiculos
('causa_ac
('br=101.0 ('br=101.0
('tracado_
('condicao
('tipo_aci
('condicao
('fase_dia
('sentido_
('br=101.0
('br=101.0
('veiculos ('tipo_pis
('tipo_pis
('causa_ac
('uso_solo
('tipo_pis
('sentido_
('dia_sem
a
('br=101.0
('veiculos
('sentido_
('fase_dia
('br=101.0
('sentido_
('sentido_
('veiculos
('tipo_aci
('br=101.0
('br=101.0
('tipo_pis
('sentido_
('condicao
('br=101.0
('dia_sem
a
('veiculos
('condicao
('uso_solo
('veiculos
('uso_solo
('veiculos
('condicao
('sentido_
('veiculos
('condicao
('classifi
('veiculos
('causa_ac
('tipo_pis
('condicao
('br=101.0
('uso_solo
('tipo_pis
('veiculos
('br=101.0
('tipo_pis
('sentido_
('br=101.0
('br=101.0
('veiculos
('br=101.0
('m
unicipi
('tipo_pis
('condicao
('condicao
('dia_sem
a
('uso_solo
('fase_dia
('br=101.0
('sentido_
('br=101.0
('tipo_aci
('br=101.0('veiculos
(''uso_sol
('veiculos
('br=262.0
('fase_dia
('veiculos
('sentido_
('br=101.0
('causa_ac
('causa_ac
('veiculos
('dia_sem
a
('br=262.0
('br=101.0
('veiculos
('tipo_pis
('br=101.0
('causa_ac
('veiculos
(''uso_sol
('br=101.0
('veiculos
('veiculos
(''uso_sol
('condicao
('sentido_
('br=101.0
('veiculos
('fase_dia ('veiculos
('br=101.0
('tipo_pis
('veiculos
('br=101.0
('tipo_pis
('condicao
('br=101.0
('fase_dia
('sentido_
('br=101.0
('causa_ac
('classifi
('sentido_
(''uso_sol
('br=101.0
('br=262.0
('br=101.0
('tipo_pis
('condicao
('veiculos
('tracado_
('condicao ('condicao
('tipo_pis
('br=101.0
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('veiculos
('condicao
('veiculos
('br=101.0
('br=101.0
('uso_solo
(''uso_sol
(''uso_sol
('veiculos
('tipo_pis
('br=101.0
('causa_ac
('condicao
('tipo_pis
('fase_dia
('sentido_
('sentido_
('tipo_aci
('fase_dia
('veiculos
('fase_dia
('classifi
('uso_solo
('veiculos
('tipo_pis
('fase_dia
('br=101.0
('condicao
('veiculos
('veiculos
('tipo_pis
('causa_ac
('condicao
('br=101.0
('veiculos ('tipo_pis
('tracado_
(''uso_sol('br=101.0
('tipo_pis
('veiculos('veiculos
('br=101.0
('veiculos
('veiculos
('veiculos
('fase_dia('br=101.0
('br=101.0
('uso_solo
('tipo_aci
('veiculos
('br=101.0
('tipo_pis
('sentido_
('fase_dia
('condicao
('veiculos
('veiculos
('sentido_
('tipo_pis
('causa_ac('tipo_aci
('veiculos
('tipo_pis
('sentido_
('uso_solo
('uso_solo('br=101.0
('uso_solo
('br=101.0
('tipo_aci
('tipo_pis
('veiculos
('veiculos
('br=101.0
('br=101.0
('tipo_pis
('uso_solo
('uso_solo
('veiculos
('br=101.0
('br=101.0
('veiculos
('sentido_
('br=101.0
('veiculos
('condicao
(''uso_sol
('br=101.0
('veiculos
('tipo_aci
('br=101.0
('dia_sem
a
('tipo_pis
('br=101.0
('br=262.0
('br=101.0
('veiculos
('br=262.0
('br=101.0
('br=101.0
('br=101.0
('tipo_pis
('condicao
('fase_dia
(''uso_sol
('br=262.0
('br=101.0
('veiculos
('tipo_pis
('sentido_
('tipo_aci
('br=262.0
(''uso_sol
('veiculos
('veiculos
('m
unicipi ('br=101.0
('fase_dia
('tipo_pis
('uso_solo
('veiculos
('fase_dia
('tipo_pis
(''uso_sol
('veiculos
('tipo_aci
('condicao
('tipo_pis
('br=101.0 ('veiculos
('br=101.0
('tipo_aci
('veiculos
('veiculos
('condicao
('br=101.0
('tipo_pis
('veiculos
('veiculos
('dia_sem
a
('br=101.0
('tipo_pis('br=101.0
('veiculos
('br=101.0
('tipo_pis
('condicao
('dia_sem
a
('tipo_aci
('condicao
('sentido_
('veiculos
('tipo_pis
('br=101.0
('fase_dia
('sentido_
('tipo_pis
('fase_dia
('br=101.0('br=101.0
('fase_dia
('sentido_
('condicao
('veiculos ('tipo_aci
('dia_sem
a
('tipo_aci
('tipo_pis
('tipo_aci
('uso_solo
(''uso_sol
('br=101.0
('sentido_
('br=101.0
('veiculos
('br=101.0
('condicao
('tipo_aci
('veiculos
('fase_dia
('veiculos
('tipo_aci
('tipo_aci
('sentido_
('br=101.0
('sentido_
('br=101.0
('classifi
('fase_dia
('br=101.0
(''uso_sol
(''uso_sol
('fase_dia
('tipo_pis
('dia_sem
a
('fase_dia
('tipo_pis
('sentido_
('tipo_pis
('tipo_aci
('veiculos
('veiculos
('tipo_aci
('tipo_aci
('br=101.0
('tipo_pis
('tipo_pis
('condicao
('classifi
('br=101.0
('sentido_
('br=101.0
('sentido_
('tipo_pis
('veiculos
('br=262.0
('fase_dia
('veiculos
('veiculos
('fase_dia
('fase_dia('condicao
('fase_dia
('condicao
('br=101.0
('br=101.0
('uso_solo
('br=101.0
('tipo_aci
('fase_dia
('tracado_
('tipo_pis
('classifi
('veiculos
('veiculos
('tipo_pis
('causa_ac
('veiculos
('br=101.0
('br=101.0
('br=101.0
('fase_dia
('tipo_pis
('dia_sem
a
('br=101.0
('condicao
('tipo_pis
('sentido_
('veiculos
('br=101.0
('br=101.0
('sentido_
('fase_dia
('br=262.0
('condicao
('br=101.0
('br=101.0
('br=101.0
('tipo_aci
('sentido_
('br=101.0
('fase_dia
('veiculos
('veiculos
('dia_sem
a
('dia_sem
a
('tipo_pis
('fase_dia
('fase_dia
('br=101.0
('br=262.0
('dia_sem
a
('condicao
('tipo_aci
('condicao
('sentido_
('br=101.0
('tracado_
('sentido_
('condicao
('veiculos
('tipo_pis
('br=101.0
('br=101.0
('dia_sem
a
('tipo_pis
('tipo_aci
('sentido_
('br=101.0
('tracado_
('veiculos
('tipo_pis
('sentido_
('condicao
('tipo_aci
('br=101.0
('br=101.0
('dia_sem
a
('uso_solo
('br=101.0
('fase_dia
('dia_sem
a
('fase_dia
('condicao
('dia_sem
a
('br=101.0
('veiculos
('veiculos
('veiculos
('veiculos
('tipo_pis
('br=101.0
('br=101.0
('classifi
('veiculos
('fase_dia
('veiculos
('condicao
('classifi
('sentido_
(''uso_sol
('tipo_aci
('tipo_aci
('condicao
('tracado_
('br=101.0
('br=101.0
('tipo_aci
('br=262.0
('tracado_
('dia_sem
a
('tipo_pis
('veiculos
('br=101.0
('veiculos
('tipo_aci
('tipo_pis
('tipo_pis
('br=101.0
('condicao
('br=262.0
('veiculos
('tipo_pis
('condicao
('causa_ac
('veiculos
(''uso_sol
('br=101.0
('veiculos
('tipo_pis
('fase_dia
('sentido_
('tipo_aci
('fase_dia
('tipo_aci
('tipo_aci
(''uso_sol
('br=101.0
('veiculos('br=262.0
('causa_ac
('sentido_
('condicao
('veiculos
('causa_ac
('sentido_
('sentido_
('dia_sem
a
('tipo_pis
('tipo_aci
('tipo_aci
('br=101.0
('causa_ac
('dia_sem
a
('sentido_
('tipo_aci
('br=101.0
('br=101.0
('veiculos
('br=101.0
('br=101.0
('veiculos
('fase_dia
('br=101.0
('veiculos
('condicao
('sentido_
('tipo_aci
('uso_solo
('veiculos
('causa_ac
('br=101.0
('veiculos
('sentido_
('br=101.0
('tipo_aci
('br=101.0
('uso_solo
('tipo_aci
('veiculos
('br=101.0
('veiculos
('tipo_aci
('condicao
('br=101.0
('veiculos
('veiculos
('sentido_
('veiculos
('uso_solo
('br=101.0
('condicao
('br=101.0
(''uso_sol
('uso_solo
(''uso_sol
('sentido_
('veiculos
('br=101.0
('tipo_pis
('fase_dia
('br=101.0
(''uso_sol ('fase_dia
('tipo_aci
('tipo_pis('condicao
('classifi
('veiculos
('tipo_pis
('br=262.0
('tipo_pis
('dia_sem
a
('uso_solo
('tipo_aci
('br=101.0
(''uso_sol
('fase_dia
('br=101.0
('uso_solo ('condicao
('sentido_
('tipo_aci
('br=101.0
('veiculos
('classifi
('sentido_
('veiculos
('br=101.0
('dia_sem
a
('br=101.0
('veiculos
('veiculos
('dia_sem
a
('br=101.0('sentido_
(''uso_sol
('br=101.0
('fase_dia
ID
A
ntecedents
C
onsequents
C
onfidence
Support
Lift
Q
td antecedents
Q
td consequents
1
('tipo_pista=M
últipla', 'classificacao_acidente=Com
Vítim
as Feridas', 'm
unicipio=Serra')
('br=101.0')
1,00
0,07
1,39
3
1
2
('uso_solo=Urbano', 'm
unicipio=Linhares')
('br=101.0')
1,00
0,07
1,39
2
1
3
('fase_dia=Pleno dia', 'm
unicipio=Serra')
('br=101.0')
1,00
0,13
1,39
2
1
4
('uso_solo=Urbano', 'fase_dia=Plena N
oite', 'm
unicipio=Serra')
('br=101.0')
1,00
0,06
1,39
3
1
5
('tipo_pista=M
últipla', 'uso_solo=Urbano', 'classificacao_acidente=Com
Vítim
as Feridas',
'm
unicipio=Serra')
('br=101.0')
1,00
0,06
1,39
4
1
6
('sentido_via=Crescente', 'm
unicipio=Linhares')
('br=101.0')
1,00
0,06
1,39
2
1
7
('tipo_pista=Sim
ples', 'm
unicipio=Linhares')
('br=101.0')
1,00
0,05
1,39
2
1
8
('m
unicipio=Linhares', 'tracado_via=Reta')
('br=101.0')
1,00
0,07
1,39
2
1
Item
s antecedentes
('br=101.0')
('br=101.0', 'causa_acidente=Falta de Atenção à C
ondução')
('br=101.0', 'causa_acidente=Falta de Atenção à C
ondução', 'm
unicipio=Serra')
('br=101.0', 'causa_acidente=Falta de Atenção à C
ondução', 'sentido_via=C
rescente')
('br=101.0', 'causa_acidente=Falta de Atenção à C
ondução', 'sentido_via=C
rescente', 'tracado_via=R
eta')
('br=101.0', 'causa_acidente=Falta de Atenção à C
ondução', 'sentido_via=D
ecrescente')
('br=101.0', 'causa_acidente=Falta de Atenção à C
ondução', 'tipo_pista=D
upla')
('br=101.0', 'causa_acidente=Falta de Atenção à C
ondução', 'tracado_via=R
eta')
('br=101.0', 'causa_acidente=Falta de Atenção à C
ondução', 'tracado_via=R
eta', 'm
unicipio=Serra')
('br=101
0'
'causa
acidente=Falta
de
Atenção
à
C
ondução'
'tracado
via=R
eta'
'sentido
via=C
rescente'
'condicao
m
etereologica=C
éu
Item
s consequentes
('br=101.0')
('br=101.0', 'classificacao_acidente=C
om
Vítim
as Feridas')
('br=101.0', 'uso_solo=U
rbano')
('classificacao_acidente=C
om
Vítim
as Feridas')
('classificacao_acidente=C
om
Vítim
as Feridas', 'veiculos_cat=A')
('fase_dia=Pleno dia')
C
onfiança
0,80
1,00
Q
td item
s antecedents
1
5
Suporte
0,05
0,58
Lift
0,99
3,88
A
nálise das regras de associação - A
lgoritm
o A
priori
R
egistros do período de 01 de janeiro de 2017 à 31 de dezem
bro de 2019, regras com
a confiança superior a 80%
.
A
utor: W
ellerson Prenholato de Jesus.
64
APÊNDICE D – Dashboard Power BI
referente as regras de associação. . . . 47
Figura 11 – Ranking dos 15 municípios com o maior número de ocorrências. . . . . 47
Figura 12 – Quantidade de ocorrências de acordo com os tipos de acidentes. . . . . 48
Figura 13 – Quantidade de ocorrências de acordo com o traçado da via. . . . . . . 49
Figura 14 – Quantidade de ocorrências de acordo com o tipo da pista. . . . . . . . 49
Figura 15 – Quantidade de ocorrências de acordo com a fase do dia. . . . . . . . . . 50
Figura 16 – Quantidade de ocorrências de acordo com as condições meteorológicas. 50
Figura 17 – Quantidade de ocorrências de acordo com o dia da semana. . . . . . . . 51
Figura 18 – Quantidade de ocorrências de acordo com a classificação da ocorrência. 51
Lista de tabelas
Tabela 1 – Princípios dos dados abertos . . . . . . . . . . . . . . . . . . . . . . . . 20
Tabela 2 – Número de registros por ano . . . . . . . . . . . . . . . . . . . . . . . . 31
Tabela 3 – Dicionário de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Tabela 4 – Número de linhas removidas na 2ª etapa de limpeza . . . . . . . . . . 36
Tabela 5 – Número de registros referentes ao período sem radar . . . . . . . . . . 39
Tabela 6 – Número de regras geradas por grau de confiança . . . . . . . . . . . . . 40
Tabela 7 – Regras de associação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Tabela 8 – Extensão das rodovias federais no estado do Espírito Santo. . . . . . . 45
Tabela 9 – Proporção de acidentes por Km. . . . . . . . . . . . . . . . . . . . . . 46
Lista de abreviaturas e siglas
ABS Do inglês Antilock Braking System
AGU Advocacia Geral da União
BAT Boletim de Acidente de Trânsito
BSD Do inglês Berkeley Software Distribution
CONTRAN Conselho Nacional de Trânsito
CNT Confederação Nacional do Transporte
CSV Comma-separated values
COVID-19 Novo Coronavírus 2019, do inglês Coronavirus Disease 2019
KDD Descoberta de Conhecimento em Bases de Dados, do inglês Knowledge
Discovery in Databases
PRF Polícia Rodoviária Federal
OMS Organização Mundial da Saúde
OPAS Organização Pan-Americana da Saúde
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Considerações Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Descrição do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . 19
2.1 Dados abertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 PRF - Polícia Rodoviária Federal . . . . . . . . . . . . . . . . . . . . . 20
2.3 KDD - Knowledge Discovery in Databases . . . . . . . . . . . . . . . 21
2.4 Trabalhos Correlatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 DESENVOLVIMENTO E METODOLOGIA . . . . . . . . . . . . . . 24
3.1 Ferramentas de Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.1 Linguagens de programação e bibliotecas . . . . . . . . . . . . . . . . . . 24
3.1.2 Microsoft Power BI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Etapas do KDD aplicadas às bases de dados . . . . . . . . . . . . . . 25
3.2.1 Ambiente e coleta dos dados . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2 Descrição das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2.1 Pessoas envolvidas no acidente . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2.2 Tipos de pista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2.3 Tipos de acidentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2.4 Causas presumíveis dos acidentes . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.3 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.4 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.4.1 Algoritmo Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.5 Pós-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Análises estatísticas dos dados período de 15/08 a 23/12 de 2017,
2018 e 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 ANÁLISE E DISCUSSÃO DOS RESULTADOS . . . . . . . . . . . . 40
4.1 Análise das Regras de Associação do algoritmo Apriori . . . . . . . . 40
4.2 Análise estatística e comparativa dos dados do período sem radar . 44
4.2.1 Análise comparativa por hora . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Análise comparativa por rodovias federais . . . . . . . . . . . . . . . . . . 44
4.2.3 Análise comparativa por causa de acidentes . . . . . . . . . . . . . . . . . 46
4.2.4 Análise comparativa por município . . . . . . . . . . . . . . . . . . . . . . 46
4.2.5 Análise comparativa por tipos de acidentes . . . . . . . . . . . . . . . . . 48
4.2.6 Análise comparativa por traçado da via . . . . . . . . . . . . . . . . . . . 48
4.2.7 Análise comparativa por tipo de pista . . . . . . . . . . . . . . . . . . . . 48
4.2.8 Análise comparativa por fase do dia . . . . . . . . . . . . . . . . . . . . . 49
4.2.9 Análise comparativa por condições meteorológicas . . . . . . . . . . . . . . 49
4.2.10 Análise comparativa por dia da semana . . . . . . . . . . . . . . . . . . . 50
4.2.11 Análise comparativa por classificação da ocorrência . . . . . . . . . . . . . 50
5 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
APÊNDICE A – Aplicação desenvolvida com Streamlit . . . . . . . 57
APÊNDICE B – Dashboard Power BI referente ao período sem
radar. . . . . . . . . . . . . . . . . . . . . . . . . . 58
APÊNDICE C – Dashboard Power BI referente as ocorrências de
2017 á 2019 . . . . . . . . . . . . . . . . . . . . . 61
APÊNDICE D – Dashboard Power BI referente as regras de asso-
ciação . . . . . . . . . . . . . . . . . . . . . . . . . 64
14
1 Introdução
1.1 Considerações Gerais
Um acidente de trânsito pode ser definido como qualquer incidente prejudicial
envolvendo veículos, pessoas e/ou animais em vias públicas. Também pode ser definido
como todos os eventos imprevistos, inevitáveis ou não intencionais que resultem em danos
pessoais ou apenas materiais que ocorrem e afetam a circulação de um ou mais veículos
em via pública (SOUZA, 2008).
Segundo o relatório da (WORLD HEALTH ORGANIZATION, 2018)(OMS), os
acidentes de trânsito foram considerados como a principal causa de morte de pessoas entre
5 e 29 anos e ainda, cerca de 1,35 milhão de vidas são perdidas anualmente no trânsito
mundial. Sendo que ultrapassar o limite de velocidade permitido é apresentado como uma
das principais causas de acidentes no mundo.
De acordo com a (ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE, 2018):
Mais de 90% das mortes no trânsito ocorrem em países de baixa e média
renda. As taxas de mortalidade por lesões no trânsito são mais elevadas
na região africana da OMS. Mesmo em países de alta renda, pessoas
de menor nível socioeconômico são mais propensas a se envolver nesses
eventos.
Conforme apresentado no relatório da (WORLD HEALTH ORGANIZATION,
2018), o Brasil precisa tomar atitudes relevantes visando a redução das fatalidades no
trânsito, como leis mais rígidas. Atualmente, temos como exemplos a Lei Seca, a obriga-
toriedade do uso de cinto de segurança nos veículos e a obrigatoriedade do uso de freios
ABS em todas as motocicletas. Por outro lado, a OMS coloca o país na pior categoria
para limites de velocidade em áreas urbanas. E recomendam que todas as cidades do
mundo adotem uma velocidade máxima de 50 km/h em áreas urbanas e 30 km/h em áreas
residenciais e/ou de alto tráfego.
Segundo o levantamento realizado pela(CONFEDERAÇÃO NACIONAL DO
TRANSPORTE, 2019), em 2018, foram registrados cerca de 69.200 acidentes nas rodovias
federais, com aproximadamente 53.960 vítimas, resultando em 5.269 mortes no ano, uma
média de 14 óbitos a cada dia nas estradas federais do país.
Apesar dos altos índices de acidentes e mortes no trânsito, em 2019, o governo
federal através de despacho1, suspendeu o uso de radares móveis, estáticos e portáteis nas
rodovias federais do Brasil.
1 Disponível em
https://www.in.gov.br/en/web/dou/-/despachos-do-presidente-da-republica-210740855
Capítulo 1. Introdução 15
A Resolução do Conselho Nacional de Trânsito (CONTRAN), que lida com a
fiscalização eletrônica, define quatro tipos de radares, sendo eles: fixos, estáticos, móveis
e portáteis. No despacho presidencial, apenas os radares fixos permaneceram em vigor,
ou seja, não foram afetados com a ordem. O CONTRAN define um radar estático como
aquele que registra uma imagem em um veículo ou em uma estrutura parada. Os portáteis,
por outro lado, são aqueles radares apontados manualmente para o veículo alvo. Por fim,
os radares móveis são descritos pela CONTRAN como radares “instalados em veículos em
movimento podendo realizar medições ao longo da via” (FERNANDES, 2019).
A Figura 1 ilustra os tipos de radares previstos pelo CONTRAN e os tipos de
radares suspensos pela determinação do presidente.
Figura 1 – Os tipos de radares
Fonte: (COUTO, 2020)
Em dezembro de 2019, a Justiça Federal de Brasília revogou a decisão de suspender
o uso de medidores de velocidade estáticos, móveis e portáteis pela PRF. Os números da
PRF mostram que houve um aumento de acidentes nas rodovias federais, uma vez que
o uso dos aparelhos foi suspenso. Entre 16 de agosto e 31 de outubro, foram registrados
14.629 acidentes, 7,2% a mais em relação ao mesmo período de 2018.
Na Figura 2 é possível observar que o número de mortos e vítimas feridas subiram
em relação ao ano de 2018. O número de mortos passou de 1.089 para 1.102, um aumento
de 1,19%. O número de pessoas feridas nos acidentes também aumentou 7,1%, de 15.726
em 2018 para 16.843. Ainda com a análise da Figura 2, é evidente que esse aumento
interrompeu uma série de quatro anos de quedas durante o período apresentado.
Capítulo 1. Introdução 16
Figura 2 – Acidentes em rodovias federais entre 16 de agosto e 30 de outubro
Fonte: (PRF, 2020a)
1.2 Descrição do Problema
Neste trabalho, os estudos são referentes a base de dados abertos da PRF2. Com
intuito de obter informações através de padrões e/ou associações segundo as características
dos acidentes registrados pela PRF, utilizando análises estatísticas e técnicas de mineração
de dados.
O período de análise da base de dados foi restrito ao intervalo de 01 de janeiro de
2017 a 31 de dezembro de 2019. O intervalo escolhido não abrange o ano de 2020 porque,
neste último ano, houve o início da pandemia de COVID-19, e várias ações dos governos
estaduais e municipais foram tomadas para enfrentar a pandemia, o que tornou o ano de
2020 atípico. Tal enfrentamento envolveu o isolamento da população e, em algumas cidades,
a população foi obrigada a fazer lockdown, o que poderia afetar o número de veículos
que trafegam pelas rodovias no país e, consequentemente, afetar o número de ocorrências
registradas pela PRF. Como, até o momento desta pesquisa, não se tem conhecimento
sobre estudos que avaliam o impacto das ações citadas na quantidade de veículos que
2 Disponível em .
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-acidentes
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-acidentes
Capítulo 1. Introdução 17
trafegaram pelas rodovias no período citado, concluiu-se que seria injusto para este estudo
realizar qualquer tipo de comparação dos registros do ano de 2020 com os registros dos
anos anteriores.
Além da mineração de dados realizada para o período de 1.095 dias, citado acima,
como foi visto na Seção 1.1, também houve por 130 dias no ano de 2019 a suspensão
dos radares móveis, estáticos e portáteis. Logo, uma análise estatística e comparativa foi
realizada sobre os dados desse período do ano de 2019, confrontados com os dados dos
anos de 2017 e 2018 do mesmo período. Tal, análise tem como objetivo observar se há
influência dos radares móveis, estáticos e portáteis no número de acidentes registrados nas
rodovias federais.
1.3 Objetivos
1.3.1 Objetivo Geral
Este trabalho tem como objetivo geral, realizar a descoberta de conhecimento sobre
os dados abertos da PRF através de técnicas de mineração de dados e análises estatísticas.
Dados estes referentes às rodovias federais que cortam o estado do Espírito Santo limitado
por suas divisas.
1.3.2 Objetivos Específicos
São objetivos específicos do presente trabalho:
• Levantar e organizar os dados de acidentes de trânsito ocorridos nas rodovias federais
que cortam o estado do Espírito Santo limitado por suas divisas, no período de
janeiro de 2017 a dezembro de 2019, provenientes dos dados abertos da PRF;
• Verificar os padrões de associação de variáveis nos acidentes ocorridos em rodovias
federais no Espírito Santo utilizando o algoritmo Apriori;
• Analisar fatores que contribuíram com os acidentes observados nas rodovias federais
do Espírito Santo a partir do algoritmo de mineração de dados;
• Apresentação por meio de tabelas e gráficos os resultados obtidos na análise estatística
do período que os radares móveis, estáticos e portáteis foram suspensos, período
esse de 15 de agosto de 2019 a 23 de dezembro de 2019, comparando-o com o mesmo
período dos anos de 2017 e 2018.
• Aplicação do Power BI para fornecer graficamente os resultados em uma interface
interativa, acompanhado de recursos de business intelligence.
Capítulo 1. Introdução 18
1.4 Organização do trabalho
Este trabalho foi organizado em cinco capítulos, sendo eles: Introdução, Levanta-
mento Bibliográfico, Metodologia, Resultados e Conclusão. O primeiro capítulo, referente
à introdução, apresenta a problemática estudada, descrição do problema, objetivo geral e
objetivos específicos.
No segundo capítulo é realizado o levantamento bibliográfico necessário para este
trabalho. Neste são abordados assuntos referentes às etapas da Descoberta de Conhecimento
em Bases de Dados (KDD) e mineração de dados em dados abertos. Além disso, é apontado
alguns trabalhos relacionados a este.
No terceiro capítulo, referente à metodologia, é apresentado o passo a passo para a
obtenção dos resultados, expondo as tarefas que foram executadas para alcançar o objetivo
da pesquisa.
No quarto capítulo são exibidos os resultados obtidos após a execução da metodolo-
gia. Inicialmente, é apresentado a análise das regras de associação geradas pelo algoritmo
Apriori referente aos dados do período de 01 de janeiro de 2017 a 31 de dezembro de
2019, em seguida, é realizada uma análise estatística do período do ano de 2019 em que os
radares móveis, estáticos e portáteis foram suspensos, contrastados com os dados no mesmo
período dos anos de 2017 e 2018. Por fim, para realização dessas análises foi utilizado a
linguagem de programação Python e para apresentação dos dados o software Power BI. A
conclusão é apresentada no quinto capítulo junto das sugestões para trabalhos futuros.
19
2 Referencial Teórico
Neste capítulo, será apresentada a fundamentação teórica referente ao que foi
desenvolvido ao longo deste trabalho. Primeiro, na Seção 2.1 é apresentado o conceito de
dados abertos. Em seguida, na Seção 2.2 informações referente a PRF e na Seção 2.3, as
etapas do KDD são descritas e, por fim, alguns trabalhos correlatos são apresentados na
Seção 2.4.
2.1 Dados abertos
O conceito de dados abertos, do inglês open data, segundo a definição de (OPEN
KNOWLEDGE INTERNATIONAL, 2005) (organização internacional sem fins lucrativos
que promoveo compartilhamento de informações e a criação de conhecimento livre), em
suma: "dados são abertos quando qualquer pessoa pode livremente acessá-los, utilizá-los,
modificá-los e compartilhá-los para qualquer finalidade, estando sujeito a, no máximo, a
exigências que visem preservar sua proveniência e sua abertura."
Para que os dados sejam considerados abertos, eles precisam obedecer três leis e
oito princípios. As leis segundo o especialista em políticas públicas e ativista dos dados
abertos (EAVES, 2009), são:
1. Se o dado não pode ser encontrado e indexado na Web, ele não existe;
2. Se não estiver aberto e disponível em formato compreensível por
máquina, ele não pode ser reaproveitado;
3. Se algum dispositivo legal não permitir sua replicação, ele não é útil.
Inicialmente, essas leis foram propostas apenas para dados abertos governamentais,
mas, sem dúvida, também se aplicam a dados abertos de forma geral (BRASIL, 2019).
Em 2007, ativistas do governo aberto se reuniram para definir os princípios dos
Dados Abertos Governamentais, em consenso definiram um conjunto de 8 princípios. Segue
a Tabela 1 com a apresentação dos princípios segundo (BRASIL, 2019).
Dentre os mais diversos órgãos de administração pública do Brasil, que divulgam
e proporcionam a utilização dos dados abertos em diversas áreas utilizando-os de várias
formas, seja pelo próprio governo ou pela sociedade, destaca-se a PRF.
A elaboração do Plano de Dados Abertos da PRF vem ao encontro do
disposto na Lei de Acesso à Informação (LAI)1, na Instrução Normativa
1 Disponível em .
http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm
Capítulo 2. Referencial Teórico 20
Tabela 1 – Princípios dos dados abertos
Princípio Descrição
Completos Todos os dados públicos são
disponibilizados.
Primários Os dados são coletados diretamente
da fonte.
Atuais Os dados são fornecidos o mais rápido
possível para preservar o seu valor.
Acessíveis
Os dados estão disponíveis para todos os
usuários e para a mais
ampla variedade de propósitos.
Processáveis por máquina Os dados estão bem estruturados
para permitir o processamento automatizado.
Acessos não discriminatórios Os dados estão disponíveis para
qualquer pessoa sem registro.
Formatos não proprietários Nenhuma pessoa (Física ou Jurídica)
tem controle exclusivo sobre os dados.
Livres de licenças Os dados não estão sujeitos a
regulamentos de direitos autorais.
Fonte: Autor com base no (BRASIL, 2019)
SLTI nº 4, de 13 de abril de 20122 (que institui a Infraestrutura Nacional
de Dados Abertos), no Decreto nº 8.777, de 11 de maio de 20163 (que
institui a Política de Dados Abertos no Executivo Federal), bem como
dos compromissos assumidos pelo Brasil no âmbito do Plano de Ação
Nacional de Governo Aberto. (PRF, 2020a)
Esses dados são importantes para a população, porque através deles podemos
levantar informações que podem auxiliar na redução de um grande problema que o país
enfrenta com recorrência, os acidentes de trânsito.
2.2 PRF - Polícia Rodoviária Federal
A PRF monitora cerca de 70 mil quilômetros de rodovias federais, buscando sempre
combater a criminalidade, prestando apoio ao cidadão, fiscalizando, autuando e atendendo
as ocorrências de trânsito. Além disso, ela também fornece anualmente os dados completos
de ocorrências de trânsito desde 2007, organizados entre acidentes e infrações de trânsito,
dados estes referentes aos casos ocorridos em todo o país (PRF, 2020b).
Atualmente, as ocorrências são registradas pelo agente policial rodoviário federal
no sistema Boletim de Acidente de Trânsito (BAT), que também realiza o levantamento
e coleta de informações da(s) pessoa(s) envolvida(s) na ocorrência, desde: (identidade,
condição física, verificação se é passageiro ou motorista, etc.), localização, veículo, dinâmica
2 Disponível em .
3 Disponível em .
https://dados.gov.br/pagina/instrucao-normativa-da-inda
http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/D8777.htm
Capítulo 2. Referencial Teórico 21
do acidente, etc. Os dados disponíveis foram registrados nos sistemas BR-Brasil e BAT. O
sistema BR-Brasil foi utilizado em nível nacional de 2007 a 2016, em 2017 o sistema BAT
veio com o propósito de suprir a ausência do BR-Brasil e está ativo até os dias atuais
(PRF, 2020b).
Dispondo de diversas variáveis na base de dados, com o processamento e análise
desses dados é possível realizar uma sondagem estatística das ocorrências, podendo ser
avaliado o maior causador de acidentes em uma determinada rodovia federal, quais são as
rodovias federais que possuem o maior índice de acidentes com vítimas fatais, entre várias
outras perguntas que podem ser respondidas de maneira mais detalhada com esses dados.
Dessa forma, é possível intensificar a fiscalização em uma determinada região que possui
uma alta concentração de ocorrências, podendo assim reduzir o número de acidentes nesses
lugares (POR VIAS SEGURAS, 2019).
2.3 KDD - Knowledge Discovery in Databases
O KDD (Knowledge Discovery in Databases) em português, (Descoberta de Conhe-
cimento em Bases de Dados), que de acordo com, (FAYYAD; PIATETSKY-SHAPIRO;
SMYTH, 1996, p.42) trata-se de “[...] um processo, de várias etapas, não trivial, interativo
e iterativo, para a identificação de padrões compreensíveis, válidos, novos, e potencialmente
úteis a partir de grande conjunto de dados”.
O modelo proposto por (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996), é
composto por cinco etapas, sendo elas: seleção dos dados, pré-processamento dos dados,
transformação dos dados, mineração de dados e interpretação e avaliação dos resultados.
Esse modelo é apresentado na Figura 3.
Figura 3 – Processo do KDD
Fonte: (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996)
Capítulo 2. Referencial Teórico 22
Segundo (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996), as etapas podem
ser descritas da seguinte maneira:
• Seleção - Esta etapa consiste em identificar e selecionar um conjunto de dados ou
subconjunto referente ao domínio do problema que fará parte da análise (MOURA,
2019).
• Pré-processamento - Esta etapa é responsável pelo processo de limpeza, correção,
remoção dos dados inconsistentes, verificação de dados ausentes ou incompletos,
buscando também identificar anomalias (outliers) dentro do conjunto de dados. Esta
etapa é executada com o intuito de garantir a qualidade dos dados selecionados e
consequentemente a qualidade da análise (MOURA, 2019).
• Transformação - Esta etapa é executada após a seleção e o pré-processamento. Ela
é responsável por aplicar técnicas de transformação de dados, com o propósito de
deixar os dados em um formato adequado para aplicação do algoritmo de mineração
(MOURA, 2019).
• Mineração de dados - Esta etapa consiste em aplicar os algoritmos capazes de
extrair conhecimentos a partir dos dados pré-processados.
• Interpretação e avaliação dos dados - Essa etapa é responsável por interpretar e
avaliar os padrões extraídos na etapa de mineração de dados. Tal validação pode ser
feita através de medidas estatísticas ou até mesmo por profissionais da área. Além
disso, com essa análise, novos padrões e relacionamentos podem ser descobertos,
podendo ser utilizados na tomada de decisão ou apenas para exibição dos resultados
(MOURA, 2019).
2.4 Trabalhos Correlatos
Os estudos apresentados nesta seção buscam por informações relevantes utilizando
mineração de dados em bases de dados abertas. Tais trabalhos apresentam conceitos,
técnicas e ferramentas para a descoberta de conhecimento útil nos dados. Todos os estudos
apontados nesta seção utilizaram os dados abertos da PRF para analisar índices de
acidentes de trânsito, identificar padrões de acidentes de trânsito e indicar locais com alto
índice de acidentes com vítimas fatais, podendo assim intensificar a fiscalização nessas
regiões. Contudo, são poucos os trabalhos quetratam quantitativamente dos dados de
acidentes de trânsito de rodovias federais relacionados estritamente ao estado do Espírito
Santo.
Em (PINHEIRO, 2019) tem-se a aplicação da ferramenta Weka no estudo sobre
o KDD aplicado à base de dados abertos da PRF. Nesse trabalho foi feito uma análise
Capítulo 2. Referencial Teórico 23
estatística dos dados dos acidentes de trânsito que estavam ligados à BR-316, no Pará,
no período de janeiro de 2007 a setembro de 2018. Com a aplicação do algoritmo Apriori
na etapa de mineração de dados, os resultados indicaram um alto índice de acidentes de
trânsito nos quilômetros iniciais da rodovia capitão Pedro Teixeira (BR-316), no Pará, e
nos municípios Ananindeua, Marituba e Castanhal.
Em (REIS; SILVA; MAIA, 2015) o processo do KDD foi aplicado sobre os dados
abertos da Polícia Rodoviária Federal, no período de 2008 a 2012, com o objetivo de
identificar os fatores que contribuem para os acidentes rodoviários em segmentos críticos
da rodovia BR-381. Através do software livre Weka e sua implementação do algoritmo
Apriori, foram descobertas associações que permitiram encontrar os principais segmentos
críticos em pista simples e em pista dupla. Além disso, foi possível identificar a similaridade
em associações para condutores dos sexos feminino e masculino, quando os acidentes não
possuíam vítimas e aconteceram tanto em pista simples quanto em pista dupla. Por fim,
alguns resultados apontaram que em pista simples, a cidade de João Monlevade lidera em
quantidade de segmentos críticos, já em pista dupla, a cidade de Betim é a que possui os
segmentos com maior nível de periculosidade.
Em (NOGUEIRA; LEE; RISSINO, 2018), executaram o processo de descoberta de
conhecimento nos dados abertos da Polícia Rodoviária Federal referentes à rodovia BR
101 durante o ano de 2016. O objetivo de tal trabalho foi apresentar os pontos críticos
da rodovia BR-101, no trecho entre o km 55 até o km 90 Norte, do Município de São
Mateus-ES. O Weka foi a ferramenta utilizada no trabalho, junto de sua implementação
do algoritmo Apriori. Analisando os resultados foi possível identificar que a maior parte
dos acidentes aconteceram próximos e durante os finais de semana. Também foi possível
observar que o trecho, do Km 65 ao Km 68, no sentido Norte da BR 101, da cidade de
São Mateus/ES, é considerado o mais crítico.
Em (SANTOS, 2020), a mineração de dados foi aplicada para buscar padrões nas
ocorrências de acidentes de trânsito em rodovias federais do estado do Rio Grande do
Norte. A ferramenta Weka foi utilizada para descobrir os padrões e regras de associação
nos dados, através do algoritmo Apriori. Os dados abertos da PRF do período de janeiro
de 2017 a dezembro de 2019 foram utilizados e uma filtragem dos registros referentes
ao estado do RN foi aplicada. Com isso, os resultados mostraram que nos quilômetros
74 e 110 a probabilidade de haver acidentes no município de Natal-RN era maior e, nos
quilômetros entre 37 e 73, no município de Mossoró-RN.
24
3 Desenvolvimento e Metodologia
Neste capítulo, inicialmente são apresentadas as tecnologias e ferramentas utilizadas
no desenvolvimento deste trabalho, em seguida todas as etapas relacionadas a aplicação
do processo de KDD na base de dados é demonstrada.
3.1 Ferramentas de Trabalho
3.1.1 Linguagens de programação e bibliotecas
O Python1 foi a linguagem de programação utilizada no desenvolvimento deste
trabalho, especialmente nas etapas que constituem o processo de KDD. De acordo com
(BARRY, 2016), é uma linguagem de programação extremamente simples e versátil, com
uma sintaxe moderna e objetiva, projetada com o propósito de diminuir o número de
linhas de código das instruções desenvolvidas por programadores. Atualmente, tem se
tornado uma linguagem muito popular e reconhecida no mundo corporativo devido ao seu
código enxuto, e também à sua facilidade de entendimento. Além disso, possui inúmeras
bibliotecas que facilitam diariamente a vida dos programadores e uma enorme comunidade
de desenvolvedores.
O desenvolvimento da etapa de pré-processamento do KDD foi realizado com auxílio
da biblioteca pandas2. Segundo (MCKINNEY, 2017) essa biblioteca ajudou o Python a
se tornar um ambiente de análise de dados simples e eficiente, fornecendo recursos de
indexação sofisticados que facilitam a formatação, manipulação, agregação e seleção de
subconjuntos de dados. Desde que se tornou um projeto de código aberto em 2010, o
pandas cresceu rapidamente para uma biblioteca famosa e poderosa, sendo aplicada em
um amplo conjunto de casos de uso do mundo real.
Ainda na etapa de pré-processamento do KDD, o framework Streamlit3 é empregado.
Tal framework é de código aberto e é bastante utilizado na construção de aplicações web,
voltadas para a área de ciência de dados e de fácil utilização, considerado um método
bem rápido e prático de criar e compartilhar aplicativos de dados para web (RICHARDS,
2021).
A etapa de mineração de dados do KDD foi desenvolvida com auxílio da biblioteca
MLxtend, uma biblioteca que implementa vários algoritmos e utilitários importantes para
serem aplicados no aprendizado de máquina e na mineração de dados. Além de possuir
1 Documentação disponível em .
2 Documentação disponível em .
3 Documentação disponível em .
https://www.python.org/
https://pandas.pydata.org/
https://streamlit.io/
Capítulo 3. Desenvolvimento e Metodologia 25
compatibilidade com a biblioteca scikit-learn e também com outras bibliotecas famosas
(RASCHKA, 2018).
3.1.2 Microsoft Power BI
O mercado está cada vez mais competitivo e exige que o trabalho seja realizado com
mais confiança e eficiência, por isso a análise de dados é essencial para qualquer negócio.
Ter dados de alta qualidade e bem analisados permite que as empresas identifiquem seus
pontos fortes, fracos e ineficiências, facilitando a tomada de decisões e até mesmo prevendo
cenários futuros (SERRA, 2019).
Com o propósito de facilitar as análises de dados, a Microsoft desenvolveu uma
ferramenta de business intelligence, conhecida como Power BI4. Ainda de acordo com
(SERRA, 2019), o Power BI permite que a análise de dados e a geração de conhecimento
sejam realizadas por meio de dashboards, gerando insights que podem facilitar na tomada de
decisões. Essa ferramenta pode se conectar a diferentes fontes de dados, integrar planilhas,
bancos de dados, informações da web e muito mais para processar e padronizar dados de
forma simples e eficiente. Além disso, ele também pode ser utilizado de pequenos trabalhos
a trabalhos grandes de nível empresarial, podendo ser definida a publicação dos dashboards
em ambiente privado ou público.
3.2 Etapas do KDD aplicadas às bases de dados
Nesta seção é apresentado o desenvolvimento técnico e individual de cada etapa do
KDD, visando descobrir informações relevantes no final de todo o processo.
3.2.1 Ambiente e coleta dos dados
Os dados utilizados neste trabalho foram extraídos do sítio eletrônico da PRF 5,
dados esses publicados em um formato legível por máquina e sem restrições de acesso. Os
dados coletados encontram-se compactados para diminuição do tamanho real e após a
descompactação se transformam em arquivos no formato CSV (comma-separated values).
No sítio eletrônico da PRF é possível encontrar os dados relacionados aos acidentes
e às infrações de trânsito. Sendo assim, os dados utilizados neste trabalho são referentes
aos acidentes de trânsito, conforme é apresentado na Figura 4 esses dados são agrupados
por:
• Por ocorrência;
4 Documentação disponível em .
5 Disponível em .
https://powerbi.microsoft.com/pt-br/
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos
Capítulo 3. Desenvolvimento e Metodologia 26
• Por pessoa;
• Por pessoa - todas as causas e tipos de acidentes;
O agrupamento "por pessoa" e o agrupamento "por pessoa - todas as causas
e tipos deacidentes" são bem parecidos, o que os diferem é a existência da variável
‘causa_principal’ (referente a causa do acidente identificada como principal pelo policial
(PRF, 2020b)) e a variável ‘ordem_tipo_acidente’ (referente ao valor numérico que
identifica a sequência dos eventos sucessivos que ocorreram no acidente) (PRF, 2020b).
Tais variáveis pertencem apenas ao agrupamento "por pessoa - todas as causas e tipos
de acidentes".
Figura 4 – Agrupamento dos dados das ocorrências de acidentes de trânsito
Fonte: (PRF, 2020b)
Dito isso, os dados dos anos de 2017, 2018 e 2019 agrupados por ocorrência foram
selecionadas para este trabalho.
3.2.2 Descrição das variáveis
As definições apresentadas nesta seção, foram retiradas do anuário do ano de
2020 disponibilizado na seção de dados abertos da PRF6 e não sofreram nenhum tipo de
alteração ou correção ortográfica.
3.2.2.1 Pessoas envolvidas no acidente
• Ileso: pessoa que não apresenta nenhuma queixa de dor, sinal ou sintoma de lesões
provenientes do acidente, mesmo que apresenta alterações psicológicas ou que seja
encaminhada para atendimento hospitalar.
6 Disponível em .
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/anuario-2020.html
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/anuario-2020.html
Capítulo 3. Desenvolvimento e Metodologia 27
• Ferido leve: pessoa que, por consequência do acidente, apresenta ao menos um
sinal ou sintoma da lista:
– Queixa de dores em geral, relacionadas à dinâmica do acidente;
– Pequenos cortes, contusões e escoriações (inclusive as provocadas por cinto de
segurança);
– Queimaduras de 1º grau (até 10% da superfície corporal);
– Fraturas dos dentes;
– Pequenas hemorragias externas;
– Luxações e/ou fraturas fechadas e/ou abertas dos dedos.
• Ferido grave: pessoa que, por consequência do acidente, não foi classificada como
leve ou não tenha como resultado o óbito.
• Morto: pessoa em óbito no local (com sinais evidentes de morte ou com a condição
de morto constatada por profissional legalmente habilitado) em consequência de
acidente de trânsito. A vítima que venha a morrer após a remoção do sítio do
acidente, será classificada de acordo com as lesões apresentadas antes do transporte.
• Ignorado: quando não há informações a respeito do estado físico do envolvido não
localizado.
3.2.2.2 Tipos de pista
• Pista dupla: possuem duas faixas de rolamento em cada direção, além de uma
barreira física central separando as faixas em sentidos opostos.
• Pista múltipla: possuem três ou mais faixas de rolamento em cada direção.
• Pista simples: possuem apenas um pavimento asfáltico, com duas faixas em sentidos
opostos.
3.2.2.3 Tipos de acidentes
• Atropelamento de animal: impacto entre veículo em movimento e um ou mais
animais, sejam eles conduzidos, montados, arrebanhados ou soltos.
• Atropelamento de pedestre: impacto entre veículo em movimento e uma ou mais
pessoas.
• Capotamento: evento em que o veículo dá um giro sobre si, no sentido longitudinal
ou transversal, em um ângulo igual ou superior a 180°, imobilizando-se em qualquer
posição.
Capítulo 3. Desenvolvimento e Metodologia 28
• Colisão com objeto em movimento: impacto envolvendo objeto em movimento
e veículo.
• Colisão com objeto estático: impacto de um veículo em movimento contra
qualquer obstáculo fixo, estático, ou contra outro veículo. O impacto em um veículo
com imobilização temporária não configura colisão com objeto estático.
• Colisão frontal: impacto entre veículos que transitavam em sentidos opostos e na
mesma direção (ou praticamente idênticas), resultando em alteração substancial e
imediata da velocidade de pelo menos um dos veículos. A interação entre os veículos
pode ocorrer em quaisquer de suas partes em razão de particularidades relativas à
dinâmica do acidente.
• Colisão lateral: impacto entre veículos que transitavam no mesmo sentido ou em
sentidos opostos, e na mesma direção (ou praticamente idênticas), não resultando
em alteração substancial e imediata da velocidade. A interação entre os veículos
pode ocorrer em quaisquer de suas partes em razão de particularidades relativas à
dinâmica do acidente.
• Colisão transversal: impacto transversal, entre veículos que transitavam em dire-
ções que se cruzam, ortogonal ou obliquamente.
• Colisão traseira: impacto entre dois veículos que transitavam na mesma direção,
ou praticamente idênticas, e no mesmo sentido. Considerando que o veículo que
vinha à retaguarda atinge o veículo da frente.
• Danos eventuais: eventos que envolvam situações atípicas, isto é, não enquadrados
em nenhuma das tipificações específicas.
• Derramamento de carga: queda ou derramamento da carga do veículo.
• Engavetamento: colisão traseira entre três ou mais veículos. Trata-se a combinação
de veículos como sendo um só veículo.
• Incêndio: evento que o veículo se incendeia involuntariamente.
• Queda de ocupante de veículo: queda de ocupante que estava em determinado
veículo. Em casos, por exemplo, de tombamento ou capotamento de veículos (princi-
palmente os de duas ou três rodas) a queda dos ocupantes é um evento sucessivo.
• Saída de leito carroçável: evento no qual o veículo sai totalmente do leito
carroçável.
• Tombamento: evento que que o veículo gira sobre si, no sentido longitudinal ou
transversal, em um ângulo menor que 180°, imobilizando-se em qualquer posição.
Capítulo 3. Desenvolvimento e Metodologia 29
3.2.2.4 Causas presumíveis dos acidentes
• Agressão externa: presunção que uma ação deliberada de terceiros (dolosa),
contribuiu para a ocorrência do acidente.
• Animais na pista: presunção que a presença ou comportamento de animal na via
contribuiu para a ocorrência do acidente, tendo sido atropelado ou não.
• Avarias e/ou desgaste excessivo no pneu: presunção que pelo menos uma das
seguintes: estouro, esvaziamento, descolamento e/ou desgaste na banda de rolagem,
entre outras; contribuiu para a ocorrência do acidente.
• Carga excessiva e/ou mal acondicionada: presunção que o excesso de peso, de
dimensões e/ou o mau acondicionamento da carga contribuiu para a ocorrência do
acidente.
• Condutor Dormindo: presunção baseada na análise da dinâmica do acidente, que
esse comportamento do condutor contribuiu para a ocorrência do acidente.
• Defeito Mecânico no Veículo: presunção que uma falha no veículo contribuiu para
a ocorrência do acidente. Excetuam-se desta classificação os danos aos pneumáticos e
a deficiência do sistema de iluminação/sinalização, por haver opção mais específica.
• Defeito na via: presunção que pelo menos um aspecto relacionado ao estado de
conservação da via, a sua estrutura, às obras de arte, entre outros, contribuiu para
a ocorrência do acidente. Excetuam-se desta classificação os aspectos relativos à
sinalização da via, à perda de aderência entre o veículo e o pavimento e à visibilidade,
por haver opção mais específica.
• Deficiência ou não acionamento do sistema de iluminação/sinalização do
veículo: presunção que fatores relacionados ao sistema de iluminação/sinalização do
veículo contribuíram para a ocorrência do acidente.
• Desobediência às normas de trânsito pelo condutor: presunção que a desobe-
diência pelo condutor às normas de trânsito contribuiu para a ocorrência do acidente.
Excetuam-se desta classificação as ultrapassagens indevidas ou questões relativas à
velocidade, por haver opção mais específica.
• Desobediência às normas de trânsito pelo pedestre: presunção que a de-
sobediência pelo pedestre às normas de trânsito contribuiu para a ocorrência do
acidente.
• Falta de atenção à condução: presunção que o comportamento desatento do
condutor contribuiu para a ocorrência do acidente.
Capítulo 3. Desenvolvimento e Metodologia 30
• Falta de atenção do pedestre: presunção que o comportamento desatento do
pedestre contribuiu para a ocorrência do acidente.
• Fenômenos da natureza: presunção que pelo menos um fenômeno natural contri-buiu para a ocorrência do acidente. Excetuam-se aqueles que interferem especifica-
mente na visibilidade, por haver opção mais específica.
• Ingestão de álcool: presunção que a ingestão de álcool pelo condutor contribuiu
para a ocorrência do acidente. Independentemente da lavratura de auto de infração
de alcoolemia.
• Ingestão de álcool e/ou substâncias psicoativas pelo pedestre: presunção
que a ingestão de álcool ou de substâncias psicoativas pelo pedestre contribuiu para
a ocorrência do acidente.
• Ingestão de substâncias psicoativas: presunção que a ingestão de substâncias
psicoativas pelo condutor contribuiu para a ocorrência do acidente.
• Mal súbito: presunção que problemas de saúde do condutor contribuíram para a
ocorrência do acidente.
• Não guardar distância de segurança: presunção, baseada na análise da dinâmica
do acidente, que os condutores não guardaram distância de segurança lateral e/ou
frontal entre o seu e os demais veículos, ou em relação ao bordo do leito carroçável,
contribuindo para a ocorrência do acidente.
• Objeto estático sobre o leito carroçável: presunção que a existência de objeto
estático sobre o leito carroçável contribuiu para a ocorrência do acidente. Consideram-
se também, para os efeitos desta definição, veículos que não estejam em imobilização
temporária.
• Pista escorregadia: presunção que a perda de aderência entre o veículo e o
pavimento contribuiu para a ocorrência do acidente.
• Restrição de visibilidade: presunção que tal condição contribuiu para a ocorrência
do acidente.
• Sinalização da via insuficiente ou inadequada: presunção que a sinalização
da via, ou a sua falta, contribuiu para a ocorrência do acidente, estando ela em
desacordo com a regulamentação e/ou insuficiente/inadequadamente implantada.
• Ultrapassagem indevida: presunção que o condutor realizava manobra de ul-
trapassagem em desacordo com as normas de circulação e conduta previstas na
legislação vigente, contribuindo para a ocorrência do acidente.
Capítulo 3. Desenvolvimento e Metodologia 31
• Velocidade incompatível: presunção que o veículo desenvolvia velocidade ina-
dequada, mesmo dentro dos limites permitidos por lei, mas incompatível com as
condições meteorológicas, do local, do tráfego, do próprio veículo e da sua carga,
contribuindo para a ocorrência do acidente.
3.2.3 Pré-processamento
Após realizar a coleta dos dados dos anos de 2017, 2018 e 2019, tem-se um total de
226.304 registros e 30 variáveis. Sendo, 89.563 registros no ano de 2017, 69.295 registros no
ano de 2018 e 67.446 registros no ano de 2019. Conforme foi explicado, foram selecionados
apenas registros que envolvessem o estado do Espírito Santo, resultando em 3.003 registros
no ano de 2017, 2.640 registros no ano de 2018 e 2.842 registros no ano de 2019. Conforme
apresentado na Tabela 2.
Tabela 2 – Número de registros por ano
Ano Nº de registros do país Nº de registros apenas do estado do ES
2017 89.563 3.003
2018 69.295 2.640
2019 67.446 2.842
TOTAL 226.304 8.485
Fonte: Próprio autor.
Um conjunto de dados pode conter diversos tipos de ruídos e/ou imperfeições. Por
exemplo, campos com informações nulas e/ou vazias. Com a existência de tais campos nulos
e/ou vazios na base de dados, os resultados no final do processo de KDD possivelmente
seriam afetados. Dessa forma, uma verificação foi realizada com o objetivo de remover tais
ruídos. Apenas 2 registros foram considerados inconsistentes na base de dados do ano de
2018 e, por isso, foram removidos. O script Python responsável por realizar tais ações
descritas acima consta no GitHub7
Após realizar a seleção dos registros as variáveis UF (Identificação da Unidade
Federativa do Brasil), REGIONAL (Superintendência Regional do Espírito Santo),
DELEGACIA (Identificação da delegacia envolvida na ocorrência) e UOP (Identificação
da Unidade Operacional de Policiamento envolvida na ocorrência) foram removidas, pois
não eram consideradas relevantes para as análises propostas neste trabalho. Resultando a
tabela abaixo.
7 Disponível em .
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Filter/Filter_ES.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Filter/Filter_ES.ipynb
Capítulo 3. Desenvolvimento e Metodologia 32
Tabela 3 – Dicionário de dados
Variável Tipo Descrição
ID Numérico
Variável com valores numéricos,
representando o identificador do
acidente.
data_inversa Data
Data da ocorrência no formato
dd/mm/aaaa.
dia_semana String
Dia da semana da ocorrência.
Ex: Segunda, terça, etc.
horario String
Horário da ocorrência no
formato hh:mm:ss.
br Numérico
Variável com valores numéricos,
representando o identificador
da BR do acidente.
km Numérico
Identificação do quilômetro onde
ocorreu o acidente, com valor
mínimo de 0.1 km e com a casa
decimal separada por ponto.
municipio String
Nome do município de
ocorrência do acidente
causa_acidente String
Identificação da causa
principal do acidente.
tipo_acidente String
Identificação do tipo de acidente.
Ex.:Colisão frontal, Saída de pista, etc.
classificacao_acidente String
Classificação quanto à gravidade
do acidente. Ex: Sem Vítimas,
Com Vítimas Feridas,
Com Vítimas Fatais e Ignorado.
fase_dia String
Fase do dia no momento do acidente.
Ex.Amanhecer, Pleno dia, etc.
sentido_via String
Sentido da via considerando o
ponto de colisão.
Ex: Crescente e decrescente.
condicao_meteorologica String
Condição meteorológica no momento
do acidente.
Ex: Céu claro,chuva,vento,etc.
Continuação da tabela na próxima página.
Capítulo 3. Desenvolvimento e Metodologia 33
Variável Tipo Descrição
tipo_pista String
Tipo da pista considerando
a quantidade de faixas.
Ex: Dupla, simples ou múltipla.
tracado_via String Descrição do traçado da via.
uso_solo String
Descrição sobre as características
do local do acidente.
Ex: Urbano=Sim; Rural=Não.
veiculos Numérico
Total de veículos envolvidos
na ocorrência.
pessoas Numérico
Total de pessoas envolvidas
na ocorrência.
mortos Numérico
Total de pessoas mortas
envolvidas na ocorrência.
feridos_leves Numérico
Total de pessoas com ferimentos
leves envolvidos na ocorrência.
feridos_graves Numérico
Total de pessoas com ferimentos
graves envolvidos na ocorrência.
feridos Numérico
Total de pessoas feridas
envolvidas na ocorrência.
ilesos Numérico
Total de pessoas ilesas
envolvidas na ocorrência.
ignorados Numérico
Total de pessoas envolvidas
na ocorrência e que não
se soube o estado físico.
latitude Numérico
Latitude do local do acidente
em formato geodésico decimal.
longitude Numérico
Longitude do local do acidente
em formato geodésico decimal.
Fonte: (PRF, 2020a)
Inicialmente o pré-processamento foi dividido em duas etapas: a primeira etapa
constitui-se em realizar a remoção de registros com campos nulos e/ou vazios, junto
da remoção de variáveis irrelevantes para o estudo, como foi apresentado anteriormente.
A segunda etapa consiste em executar uma limpeza refinada e delicada, levando em
consideração a latitude e longitude de cada registro.
Com o auxílio do Python e do framework Streamlit já citados na Seção 3.1.1, foi de-
senvolvida uma aplicação que possibilitou realizar a plotagem dos registros das ocorrências
em um mapa, considerando a latitude e longitude de cada registro. Analisando o mapa,
Capítulo 3. Desenvolvimento e Metodologia 34
notamos que alguns registros estavam posicionados em locais considerados improváveis
para uma ocorrência, consequentemente esses registros foram removidos. Tem-se como
exemplo de ocorrência improvável, um registro mapeado dentro mar, a Figura 5 ilustra
essa situação.
Figura 5 – Ocorrência improvável registrada dentro do mar
Fonte: Próprio autor.
Ainda na segunda etapa de pré-processamento, grande parte dos registros foram
analisados individualmente enfatizando as variáveis br, latitude e longitude. Com a
plotagem no mapa, também é notável que algumas ocorrências eram incoerentes quandoos valores dos registros ligados às variáveis eram observados. A título de exemplo, temos
registros que estavam posicionados no mapa sobre a BR-262, mas nos dados era identificado
como BR-101, nestes casos a variável BR foi atualizada, considerando as informações
observadas no mapa.
Por último, já mencionado anteriormente, como os registros trabalhados são refe-
rentes às rodovias federais, registros apresentados no mapa afastados das rodovias federais,
como é ilustrado nas Figuras 6 e 7, também foram removidos. A falta de calibração dos
equipamentos utilizados pelos agentes no registro das ocorrências é uma provável causa
para tal inconsistência nos dados.
Com a execução da segunda etapa da limpeza, um total de 762 registros foram
removidos por algum dos motivos mencionados acima. Isto posto, tem-se 2.669 registros
para o ano de 2017, 2.318 registros para o ano de 2018 e 2.736 registros para o ano de
2019, como apresentado na Tabela 4.
Na etapa de transformação de dados, a variável responsável por registrar o número
de veículos envolvido(s) na ocorrência foi categorizada em:
• A: Para ocorrências com 1 veículo envolvido.
• B: Para ocorrências com 2 veículos envolvidos.
Capítulo 3. Desenvolvimento e Metodologia 35
Figura 6 – Ocorrência improvável registrada na cidade da Serra distante da rodovia federal
Fonte: Próprio autor.
Figura 7 – Ocorrência improvável registrada na cidade de Aracruz distante da rodovia
federal
Fonte: Próprio autor.
• C: Para ocorrências com 3 ou mais veículos envolvidos.
Ainda na etapa de transformação, algumas variáveis foram removidas para a devida
execução do algoritmo. Segundo (COSTA; BERNARDINI; VITERBO, 2014, p. 142),
“o apriori espera que cada atributo de descrição do domínio possua itens para serem
relacionados, é necessário que o domínio de cada atributo seja discreto, ou seja, possua
um número limitado de valores possíveis”.
Capítulo 3. Desenvolvimento e Metodologia 36
Tabela 4 – Número de linhas removidas na 2ª etapa de limpeza
Ano Nº de linhas removidas Nº de linhas após limpeza
2017 334 2.669
2018 322 2.318
2019 106 2.736
TOTAL 762 7.723
Fonte: Próprio autor.
Em vista disso, as variáveis abaixo foram removidas devido os respectivos motivos:
• ’id’, ’data_inversa’ - As variáveis em questão foram removidas da análise, por se
tratarem de variáveis quantitativas do tipo contínua inadequadas para aplicação do
algoritmo Apriori.
• ’horario’ - Essa variável foi removida da análise por se tratar também de uma
variável quantitativa do tipo contínua, mesmo com remoção dessa variável o estudo
pode substituído com a variável ’fase_dia’ que também está relacionada ao período
do dia que a ocorrência foi registrada.
• ’pessoas’, ’mortos’, ’feridos_leves’, ’feridos_graves’, ’feridos’, ’ilesos’,
’ignorados’ - A variável ‘classificacao_acidente’ também presente na base de
dados é responsável por classificar o acidente quanto à gravidade, entre: sem vítimas,
com vítimas feridas e com vítimas fatais. Portanto, essa variável engloba todas as
variáveis mencionadas em questão, por isso com o intuito de evitar o reprocessamento
e a descoberta de conhecimento redundante, as variáveis apontadas foram removidas
da análise.
• ’km’, ‘latitude’, ‘longitude’ - Além de também serem variáveis quantitativas
do tipo contínua, a variável ’municipio’ fornece o nome do município que a
ocorrência foi registrada, informação geoespacial essencial e suficiente para este
trabalho, sobrepondo assim as variáveis em questão.
3.2.4 Mineração de Dados
Nesta parte do trabalho, o algoritmo Apriori foi aplicado com o auxílio da biblioteca
MLxtend8, biblioteca essa de código aberto e desenvolvida em Python. Vale ressaltar
que os dados utilizados aqui foram pré-processados na etapa anterior.
8 Documentação disponível em .
http://rasbt.github.io/mlxtend/
Capítulo 3. Desenvolvimento e Metodologia 37
3.2.4.1 Algoritmo Apriori
Neste trabalho as seguintes nomenclaturas utilizadas em (AGRAWAL; IMIELINSKI;
SWAMI, 1993) serão empregadas. A representação do conjunto de itens será dado pelo
conjunto I = {i1, i2, i3, . . . , in} com n representando o número de elementos distintos. A
base de dados, denotada por D, é formada por transações, onde cada transação T equivale
a um conjunto de itens, denominado de itemset, tal que T ⊆ I.
Ainda segundo (SRIKANT; AGRAWAL, 1997, p. 164), "uma regra de associação é
uma implicação da forma X ⇒ Y , onde X ⊆ I, Y ⊆ I, X ≠ ∅, Y ̸= ∅, X ∩Y ̸= ∅". Onde
X é denominado o conjunto de item(s) antecedente e Y o conjunto de item(s) consequente
da regra.
Neste trabalho, utilizaremos três métricas que quantificam e classificam as regras,
conhecidas como: suporte, confiança e lift, elas são descritas a seguir. Diante das informações
anteriores, após realizar as etapas de pré-processamento e transformação dos dados, o
algoritmo Apriori foi executado sobre a base de dados resultante, gerando um conjunto de
regras de associação.
Para o algoritmo ser executado da forma apropriada ele necessita de alguns valores
de parâmetro para funcionar. O primeiro parâmetro é a lista de listas de onde as regras
serão extraídas. O segundo parâmetro é o min_support, este parâmetro é responsável
por filtrar os itens com valores de suporte maiores que o valor definido no parâmetro,
dessa forma é possível filtrar o número de regras geradas com base na variável support. O
parâmetro min_confidence realiza a filtragem das regras que possuem a confiança maior
que o limite de confiança especificado pelo parâmetro, tanto o parâmetro min_support
quanto o min_confidence podem ser utilizados de forma opcional. O código do algoritmo
Apriori executado encontra-se no GitHub9.
As regras geradas pelo algoritmo foram salvas em um arquivo CSV, com as
seguintes colunas:
• antecedents - Referente ao conjunto de itens antecessores da regra.
• consequents - Referente ao conjunto de itens sucessores da regra.
• Suporte - Do inglês support, esse número é definido pelo número de vezes que um
item ou um conjunto de itens aparecem em uma transação dividido pelo número
total de transações do conjunto de dados (HAN; PEI; KAMBER, 2011). É dado
pela seguinte fórmula:
Suporte(X → Y ) = Frequência de X e Y
Total de T
(3.1)
9 Disponível em 1 existe uma relação entre as
características da ocorrência, ou seja, X e Y acontecem mais frequentemente juntos
do que o esperado, isso significa que a ocorrência de X tem um efeito relevante sobre
a ocorrência de Y. Caso o valor seja Lift(x → y) ≤ 1 émuito provável que não
exista uma relação evidente das características da ocorrência no dataset.
3.2.5 Pós-processamento
Após ter conhecimento das regras de associação geradas pelo algoritmo Apriori. A
planilha eletrônica com esses resultados foi carregada no Power BI com intuito de propor-
cionar visualizações gráficas interativas, facilitando a análise e avaliação do conhecimento
descoberto na etapa de mineração de dados. O dashboard do Power BI em questão é
apresentado no Apêndice B.
apriori_mlxtend.ipynb>.
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Apriori/apriori_mlxtend.ipynb
Capítulo 3. Desenvolvimento e Metodologia 39
3.3 Análises estatísticas dos dados período de 15/08 a 23/12 de
2017, 2018 e 2019
Os dados utilizados na análise estatística do período sem radar são provenientes
do procedimento descrito na seção 3.2.3, um script desenvolvido em Python (constado
no GitHub10) foi executado sobre os dados, filtrando apenas registros que estivessem no
intervalo de 15 de agosto a 23 de dezembro do seu respectivo ano, período este referente a
suspensão dos radares móveis, estáticos e portáteis ocorrido no ano de 2019. O período
de 15 de agosto de 2017 a 23 de dezembro de 2017 resultou em 914 registros, o mesmo
período no ano de 2018 resultou em 924 registros e no ano de 2019 foram 1.018 registros,
totalizando 2.856 registros, como apresentado na Tabela 5.
Tabela 5 – Número de registros referentes ao período sem radar
Ano Nº de registros selecionados
2017 914
2018 924
2019 1.018
TOTAL 2.856
Fonte: Próprio autor.
Para esse objetivo específico, o Power BI foi aplicado com o propósito de apresentar
dashboards interessantes e interativos que facilitam a análise e comparação dos dados. Além
disso, a aplicação desenvolvida com Streamlit supracitado na Seção 3.1.1, também tem a
finalidade de facilitar a visualização e a comparação dos dados através de mapas.
Inicialmente a aplicação do algoritmo Apriori sobre os dados do período sem radar
também foi planejada, mas devido ao baixo volume de registros, a aplicação do algoritmo
tornou-se inviável. Por fim, uma imagem da aplicação do Streamlit é demonstrada no
Apêndice A e também uma imagem do dashboard do Power BI é apresentado no Apêndice
B.
10 Disponível em .
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Filter/Filter_Data.ipynb
https://github.com/WellersonPrenholato/analyze-dataset-prf/blob/main/Filter/Filter_Data.ipynb
40
4 Análise e discussão dos resultados
Neste capítulo, são apresentados os resultados deste trabalho. Inicialmente, as regras
de associação são apresentadas e posteriormente, as análises estatísticas e comparativas
do período sem radar são expostas através de gráficos e tabelas.
4.1 Análise das Regras de Associação do algoritmo Apriori
O algoritmo Apriori foi executado duas vezes no conjunto de dados, com a variação
do parâmetro suporte mínimo na 1ª execução com 0.1 e na 2ª execução com 0.01, tomando
esses valores como base de outras pesquisas já referenciadas neste estudo. Com parâmetro
suporte mínimo em 0.1 foram geradas 337 regras, quando comparadas com as 1.769
regras de associação geradas com o parâmetro 0.01 foi possível notar que as regras geradas
na 2ª execução eram mais interessantes e relevantes para a pesquisa.
Por se tratar de um número elevado de regras de associação a análise de todas as
regras se torna inviável, dessa forma, a análise foi limitada para as regras que possuíam
um valor de confiança superior a 80%. Por outro lado, aumentando o valor de confiança
para 100%, 122 regras foram geradas. Vale ressaltar, nesse caso o suporte mínimo utilizado
foi de 0.01.
Diante disso, a Tabela 6 foi criada com o propósito de apresentar o número de
regras geradas com base no grau de confiança, organizadas em 3 segmentos: regras com a
confiança igual a 100%, maiores ou iguais a 90% e menores que 100% e por fim, regras
com a confiança maior ou igual a 80% e menor que 90%.
Tabela 6 – Número de regras geradas por grau de confiança
Confiança das regras Nº de regras geradas
Igual a 100% 122
Maior ou igual a 90% e menor que 100% 204
Maior ou igual a 80% e menor que 90% 1.443
TOTAL 1.769
Fonte: Próprio autor.
Diante das informações descritas na Seção 3.2.4.1, essas variáveis são responsáveis
por mensurar a relevância das regras de associação geradas pelo algoritmo Apriori. A
Tabela 7 representa uma amostra das regras de associação geradas.
Capítulo 4. Análise e discussão dos resultados 41
Tabela 7 – Regras de associação
ID Antecedentes Consequentes Suporte Conf. Lift
1
(’classific_acidente=
Com Vítimas Feridas’,
’municipio=Serra’,
’uso_solo=Sim’,
’tracado_via=Reta’,
’condicao_metereologica=
Céu Claro’)
(’br=101.0’) 0,05101 1 1.39454
2
(’causa_acidente=
Falta de Atenção
à Condução’,
’classific_acidente=
Com Vítimas Feridas’,
’tracado_via=Reta’,
’municipio=Serra’)