Redes Neurais Artivicias (Aplicação reconhecedor de Voz)

Redes Neurais I

•

UNEMAT

Romanti-Ezer da silva

01/12/2017

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 3 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Redes Neurais I

282 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Reconhecimento de voz por rede neural artificial
Speech recognition by artificial neural network
Jhorgenes Rodrigues da Cruz1, Romanti-Ezer da Silva1.
Resumo: A tecnologia vem crescendo a um nivel consideravelmente rapido, e nos dias de hoje, um dos meios muito ultilizado são as redes neurais artificiais (RNAs) que podem ser aplicadas em diversas aréas, sendo uma delas o reconhecimento de voz automatico. Podendo ser ultilizados em diversos ramos, como na telefonia, Robótica, automação e diversas interfaces para computador. O objetivo do reconhecimento de voz é reconhecer a fala e realizar certa tarefa programada, que pode ser desde fazer com que um robô execute ações por comandos de voz até a transcrição de fala em texto. Neste artigo é apresentado um sistema que faz o reconhecimento de duas palavras, parar e frente, utilizando uma rede neural artificial do tipo Feed Forward Backprop de multiplas camadas modulada e treinada no matlab.
Palavras-chave: Reconhecimento automático de voz, Redes neurais artificiais, Processamento digital de sinais de audio, Redes de Multiplas Camadas.
Abstract: Technology has been growing at a fairly rapid level, and nowadays one of the most used means is artificial neural networks (ANNs) that can be applied in several areas, one of which is automatic speech recognition. They can be used in various branches, such as telephony, robotics, automation and various computer interfaces. The purpose of voice recognition is to recognize speech and perform a certain scheduled task, which can range from having a robot perform actions by voice commands to text-to-speech transcription. In this article we present a system that recognizes two words, stop and forward, using an artificial neural network of Feed Forward Backprop of multiple layers modulated and trained in matlab.
Keywords: Automatic voice recognition, Artificial neural networks, Digital audio signal processing, Multi Layer Networks.
Introdução
A tecnologia vem crescendo a um nivel consideravelmente rapido, e nos dias de hoje, um dos meios muito ultilizado são as redes neurais artificiais (RNAs) que podem ser aplicadas em diversas aréas, sendo uma delas o reconhecimento de voz automatico. Podendo ser ultilizados em diversos ramos, como na telefonia, Robótica, automação e diversas interfaces para computador. O objetivo do reconhecimento de voz é reconhecer a fala e realizar certa tarefa programada, que pode ser desde fazer com que um robô execute ações por comandos de voz até a transcrição de fala em texto. Neste artigo é apresentado um sistema que faz o reconhecimento de duas palavras, parar e frente, utilizando uma rede neural artificial do tipo Feed Forward Backprop de multiplas camadas modulada e treinada no matlab. Pode-se fazer uma analogia entre o sistema desenvolvido e o mecanismo de interpretação de sons do corpo humano. Assim o projeto pode ser dividido em duas partes: o cérebro e o ouvido. O ouvido é responsável por captar sons e transformá-los de maneira adequada a facilitar o reconhecimento. O cérebro é o órgão que efetivamente realiza o reconhecimento, aprendendo ao longo da vida como distinguir padrões diferentes. O reconhecimento de voz não é uma tarefa simples,pois á um número muito grande de parâmetros envolvidos em um sinal de voz, por exemplo: timbre, cadência, duração, volume além de variações intencionais da pronúncia. A mesma palavra nunca é pronunciada exatamente igual duas vezes. A variação existente entre duas amostras é ainda maior entre locutores distintos. Isso torna o reconhecimento impossível de determinar distinção de palavras, vamos então ver os processos ultilizados para tornar isso possivel.
Processamento da Voz
A voz humana é percebida como variações da pressão sonora, e deve ser convertida em sinal elétrico por meio de um transdutor eletroacústico, como o microfone integrado do notebook, é feita a gravação da voz apartir de software da microsoft, que gera um arquivo em formato .wav.
Processamento do Arquivo de Audio no Matlab
Ultilizando o software matlab, é possivel fazer a leitura do arquivo gravado em formato wav, com a função audioread que armazena as informações em duas variaveis, [y,Fy], onde y guarda o sinal da voz, e Fy a frequência. Fazendo um grafico do sinal em função do tempo podemos visualizar as varições da voz.
Palavra parar
1Alunos do Curso de Engenharia Elétrica da UNEMAT, email: jhocruz.s2.gs@gmail.com, romanti430@gmail.com.
Palavra frente
Janelamento do Sinal
Para reduzir a variação do sinal da voz, é usado um metodo muito ultilizado para extrair valores significativos de um gráfico, que consistem em analizar partes da função e a somatória de todos os valores da região analizada é tomado como valor efetivo. A divisão do sinal é feita em partes iguais, onde em cada quadro ou janela é aplicado a fft. O sinal é dividido em 128 quadros.
2.3. FFT
A transformada rápida de Fourier (FFT) é aplicada ao sinal, utilizando 128 pontos, e considerando frequência de amostragem de 12KHz. A resolução em frequência é 46,9 Hz.
Ultimo quadro da palavra parar após ser aplicado a fft
Ultimo quadro da palavra frente após ser aplicado a fft
Extração das Características
O valor final que sera usado como base é extraido do sinal usando uma função abs específica do matlab, que é nada mais que o valor absoluto de cada janela, ou seja, como os valores resultantes da transformada de fourier é dado na mairoia em numeros complexos a função abs calcula o modulo do valor, assim teremos uma numero real.
Normalização dos Dados
Um dos utimos procedimentos no processamento da voz é normalição dos valores para treinamento da rede e validações, que consistem por todos os valores de entrada em 0 e 1, como codificação binaria nosso valor desejado deve estar entre 0 e 1. Uma forma muito eficaz de fazer isso é dividir todos os valores pelo maior valor, com isso temos os valores para entrada da rede.
Rede Neural MLP
É utilizado uma rede perceptron multicamadas treinada no matlab, utilizando a função do seu toolbox para redes neurais, os dados de entrada são os obtidos pelo processamento da voz, são 32 amostras para cada palavra,são utilizados 12 locutores, e lançado na entrada da rede 12 entradas de cada palavra, sendo cada dado de entrada a pronuncia de um locutor. São feitos varios teste para definir a quantidade de camadas e o numero de neurônios, a rede que obteve o maior numero de acertos, com 3 camadas, duas camadas ocultas com dois neurônios cada e uma camada de saida.
Para a palavra parar, as saidas desejadas são [0,0], e para palavra frente as saidas desejadas são [0,1].
Variação das entradas
Tabela 1. Redes MLP testes
Camadas
Neurônios
por camadas
Acertos
Em %
5
10-10-5-5
62,5
5
10-5-5-2
37,5
3
10-5
50
3
2-2
66,66
Equações
As equações devem ser centralizadas e numeradas, sendo que esta numeração deve ser feita entre parênteses. Editar as equações usando o Microsoft Equation 3.0 (ou compatível). Todas as variáveis envolvidas nas equações,bem como a unidade do parâmetro calculado devem ser explicitadas ao longo do texto ou logo em seguida à apresentação da equação. As equações devem ser feitas na mesma fonte do textode forma que se mantenha a proporcionalidade, com os índices de 3 pontos abaixo, como o exemplo seguinte:

(1)
Unidades SI e símbolos convencionais devem ser usados. Os símbolos devem utilizar fonte Times New Roman.
Agradecimentos
Esta seção não é numerada. O corpo do texto tem a mesma formatação das seções anteriores.
Referências
Esta seção não é numerada e deve ser apresentada em Arial, tamanho 09. O texto deve ser justificado apenas à esquerda da coluna.
Os títulos de livros, dissertações, teses, revistas e anais de eventos devem aparecer em itálico. Quando a referência citada estiver disponível apenas em CD-ROM, acrescentar ao final da descrição da mesma a expressão “CD-ROM”. No caso de citações de material da internet, a referênciadeve incluir a instituição, empresa, ou autor responsável pela informação, o endereço eletrônico e a data de acesso.
Os trabalhos citados no texto devem ser listados nas referências em ordem alfabética, nas formas exemplificadas abaixo:
INGOLD, T.S.; MILLER, K.S. Drained axisymmetric loading of reinforced clay, Journal of Geotechnical Engineering, ASCE, Vol. 109, p. 883-898, 1983.
LESHCHINSKY, D.; PERRY, E.B. A design procedure for geotextile reinforced walls, Geosynthetics'87, IFAI, New Orleans, LA, Vol. 1, p. 95-107, 1987.
NLA - NATIONAL LIME ASSOCIATION. Lime-treated soil construction manual: lime stabilization & lime modification. 42 p., 2004. Download de (http://www.lime.org/Construct104.pdf) em setembro de 2011.
SILVA, A.R.L. Análise de estabilidade de aterros reforçados sobre solos moles, Brasília, DF: Unb, 1995, 183 p.(Dissertação de Mestrado).
TERZAGHI, K.; PECK, R.B. Soil mechanics in engineering practice, 2nd ed., New York, NY: McGraw Hill, 1987, 685 p.