[bibshow file=ref2.bib]

Criação da base de falas emotivas do Biochaves

Uma emoção básica é um paradigma universal de comportamento que se manifesta, entre outros meios, pela voz [bibcite key=pittermann2010handling]. Quatro emoções são mais propostas como emoções básicas, elas são: felicidade, tristeza, raiva e medo [bibcite key=Devillers02annotationand]. Dessa forma, provavelmente elas são as emoções básicas mais fáceis de distinguir entre si. Essa hipótese motivou a criação de uma base com falas dessas quatro emoções.

As falas emotivas captadas para estudo podem ser divididas por abordagem, em geral, de três maneiras: naturais, induzidas e atuadas [bibcite key=douglas2003emotional]. As falas emotivas naturais são falas emotivas que apareceram naturalmente durante uma conversa sendo gravada, por exemplo, em entrevistas de rádio ou televisão [bibcite key=douglas2000new]. Essa abordagem possui dois problemas principais: a falta de ética de gravar uma pessoa sem a permissão dela e a dificuldade de conseguir uma quantidade igual de expressões de cada emoção [bibcite key=koolagudi2012emotion]. Esses problemas podem ser solucionados com a abordagem de falas emotivas induzidas, nela as falas são obtidas em um ambiente controlado onde o responsável pelo estudo tenta induzir respostas emotivas influenciando o voluntário através de músicas, filmes ou informações pessoais [bibcite key=gerrards1994experimental]. No entanto, ela também tem um problema, a reação ao estímulo pode não ser direta, um mesmo estímulo pode levar pessoas a terem reações emotivas diferentes [bibcite key=ferro2017speech]. Apesar desses problemas específicos de cada uma, essas duas abordagens são as melhores formas desenvolvidas pelos pesquisadores para capturar falas emotivas mais naturais, onde eles abrem mão do controle sobre o que é falado e quando vai ser falado para obter expressões emotivas espontâneas [bibcite key=schroder2004speech].

No caminho contrário, a terceira abordagem de falas emotivas atuadas abre mão da espontaneidade para oferecer controle tanto do momento que a emoção vai ser expressa quanto do conteúdo fonético e textual, ou seja, uma mesma sentença pode ser falada com diferentes emoções o que permite a comparação direta entre as características da fala presente em cada uma. A captação de fala emotiva através de atores é o método mais utilizado justamente por oferecer essas simplicidades [bibcite key=schroder2004speech]. O grande problema dela é que o ator pode dramatizar a emoção de uma forma estereotipada não refletindo como uma pessoa a expressaria no cotidiano [bibcite key=vogt2005comparing]. No entanto, esse problema pode ser amenizado por técnicas de auto-indução, em que o ator busca entrar em um estado emotivo através da memória, imaginação ou gestos [bibcite key=banse1996acoustic].

A base de falas emotivas do Biochaves possui falas atuadas e foi criada usando as informações técnicas da base alemã EmoDB, que está disponível no site http://www.emodb.bilderbar.info/download/, uma base muito popular com falas emotivas atuadas [bibcite key=zaidan2015review]. As falas dela foram captadas com 16 kHz para manter a mesma faixa de conteúdo espectral conservada que a EmoDB e utilizaram nove frases obtidas em uma tradução livre de nove frases da EmoDB. O único interesse na tradução dessas frases foi que as frases ficassem cotidianas e emocionalmente neutras para facilitar a expressão homogênea de cada emoção e o processo de auto-indução dos voluntários, o conteúdo linguístico delas foi ignorado e por esse motivo a frase Das schwarze Stück Papier befindet sich da oben neben dem Holzstück da EmoDB foi removida pois em apenas uma tradução simples ela não forneceu uma frase cotidiana. Assim, as nove frases retidas na base são:

Frase 1  “O pano está na porta da geladeira.”
Frase 2  “Ela vai entregar na quarta-feira.”
Frase 3  “Hoje a noite eu falo com ele.”
Frase 4  “Estará pronto em sete horas.”
Frase 5  “O que são esses sacos debaixo da mesa?”
Frase 6 “Eles acabaram de subir e já estão descendo novamente.”
Frase 7 “Eu estou indo para casa todo final de semana.”
Frase 8  “Eu só quero me livrar disso e ir beber.”
Frase 9 “Sempre vai estar onde você deixou.”

Essas frases foram gravadas por voluntários, sem nenhuma experiência de atuação, apenas com a recomendação de utilizarem auto-indução, a utilização de memórias, imaginação e gestos para dar mais naturalidade as expressões, com uma leitura neutra e expressando as quatro emoções mais propostas como emoções básicas: medo, felicidade, raiva e tristeza.

A proposta da base é captar a noção de expressão emotiva cotidiana de cada voluntário da base através da gravação das mesmas frases com expressões de emoções diferentes. Para isso, cada voluntário pôde fazer cada expressão quantas vezes quisesse. Após gravar todas as expressões, os próprios voluntários as escutaram para indicar ao organizador da base em quais instantes das gravações estavam as expressões que eles julgaram mais apropriadas. Esse procedimento foi adotado para evitar constrangimento dos voluntários, para eles ficarem a vontade, cada voluntário foi deixado sozinho no instante da gravação e apenas ele ouviu as próprias gravações, assim, o organizador da base não ouviu e nem avaliou nenhuma das expressões durante a gravação, apenas o próprio voluntário que as gravou.

Como a proposta da base é captar a noção cotidiana de expressão de emoções dos voluntários, a prioridade foi conseguir captar expressões que satisfizessem o voluntário e ter expressões de mais voluntários. Dessa forma, cada voluntário só falou as cinco expressões, uma neutra e quatro emotivas, com três frases por voluntário, para reduzir a duração das sessões de gravação mas permitir que o voluntário conseguisse expressar e escutar as falas. No entanto, para o resultado das análises usando a base não estar atrelado a frases especificas que já estão com seu conteúdo linguístico sendo ignorado de qualquer forma, os voluntários alternaram as frases utilizadas por eles: um voluntário falou as frases de 1 a 3, o próximo de 4 a 6, o próximo de 7 a 9, o próximo retorna para as frases de 1 a 3 e assim por diante.

As sessões de gravação ocorreram em um mesmo ambiente, no auditório do Departamento de Engenharia Elétrica da Universidade Federal de Sergipe, com um ruído ambiente de 30dB, um nível silencioso, para ter uma boa qualidade da captura do áudio e evitar que o voluntário se distraísse durante as gravações. Além disso, com o intuito de também evitar que o voluntário fosse distraído ou influenciado, ele foi deixado sozinho na sala em uma marcação a 50cm da parede e avisado para não se deslocar dessa marcação, essa distância evitou a saturação da voz pelo celular da Samsung modelo “GT-I8200L” que foi utilizado nas gravações e estava fixado na parede com um suporte. Após as falas serem gravadas, o voluntário ouviu as gravações no celular com os fones de ouvido da Multilaser modelo “Headset Giant P2” para indicar os instantes da gravação com as falas que foram guardadas na base. Todas as gravações das interpretações foram realizadas com o uso do aplicativo gratuito “Gravador de Voz Fácil” e o ruído presente no ambiente foi monitorado com o aplicativo gratuito “Decibelímetro”.

Ao todo a base tem 240 falas de 16 voluntários, em que cada voluntário contribuiu com 15 falas, uma fala para cada uma das 3 frases do voluntário sendo expressada de 5 formas diferentes, em uma interpretação neutra e nas quatro emoções da base. Ela está disponível para download no link: https://mega.nz/#!oeAx2KAL!SaBQOyGnV-Wrkq7NtLeZem42hCOiyjZEwmFtYRJRmLs.

O nome de cada arquivo está organizado para indicar qual voluntário está falando, que frase está sendo dita e com qual emoção. A primeira numeração nos nomes dos arquivos, depois de ‘EC’, representa um dos 16 voluntários, a segunda numeração, depois de ‘F’, indica qual das frases da base está sendo dita e a terceira numeração, depois de ‘E’, indica qual emoção está sendo expressada. No Quadro 1 está quais frases foram faladas por cada um dos voluntários, juntamente com as informações do sexo e idade dos voluntários, fatores que alteram a voz do voluntário. Cada uma dessas frases foi usada para expressar as seguintes emoções: 01-Neutro, 02-Medo, 03-Tristeza, 04-Felicidade e 05-Raiva.

Quadro 1 – Informações de cada voluntário da base

Avaliação das expressões da base

A qualidade das falas emotivas presentes na base foram avaliadas através de testes de percepção. Esses testes de percepção são importantes porque utilizam um número maior de pessoas para avaliar a capacidade de reconhecimento humano das expressões emotivas contidas na base. Neles, cada voluntário ouvinte escutou, nos fones de ouvido, as noves frases da base faladas por um voluntário diferente e com uma emoção aleatória, das quatro emoções da base. Após escutar cada uma das frases, o voluntário ouvinte avaliou qual das quatro emoções ele achava que estava presente na frase.

O nível de confiança do resultado de N avaliações pode ser estabelecido pelo teste da hipótese nula [bibcite key=fisher1936design]. A hipótese nula é que não há nenhuma informação emocional nas expressões e as N avaliações foram feitas de forma aleatória. Neste caso, a quantidade k de avaliações corretas é estabelecida por mero acaso e a probabilidade dela pode ser obtida pela contagem de possibilidades das N avaliações terem gerado k acertos. Por exemplo, se uma avaliação é a escolha de um voluntário por uma entre quatro opções de emoção para uma fala. Neste exemplo, as N avaliações podem ter 4^N resultados diferentes e as (N-k) avaliações erradas podem ser descritas de 3^{(N-k)} formas diferentes. Além disso, por simples permutação, já que a troca de ordem das avaliações não altera o resultado, o resultado dessas avaliações pode ser organizado de \frac{N!}{k!(N-k)!} formas diferentes. Assim, a probabilidade P(k) desses k acertos é determinada pela variável aleatória binomial

(1)   \begin{equation*} P(k) = \frac{N!}{k!(N-k)!}\frac{1^k}{4^k}\frac{3^{N-k}}{4^{N-k}} \end{equation*}

obtida pela combinação de N ensaios independentes de uma variável aleatória de Bernoulli [bibcite key=Ross:2006:SFE:1197255].

O cálculo de P(k) pode ser complicado, se N for um número grande, devido ao uso da operação fatorial. No entanto, como essa variável aleatória é composta pela soma de N ensaios independentes de uma variável de Bernoulli, a probabilidade dela pode ser descrita pela convolução das N distribuições de Bernoulli e como a convolução de um número grande de funções é aproximadamente uma Gaussiana [bibcite key=papoulis2002probability], pelo teorema do limite central P(k) pode ser aproximada por uma Gaussiana G(k) que é descrita pela equação

(2)   \begin{equation*} G(k) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{k - \mu}{\sigma})^2}, \end{equation*}

em que \mu=\frac{N}{4} e \sigma^2=N\times(\frac{1}{4})\times(\frac{3}{4}) [bibcite key=Ross:2006:SFE:1197255].

O teste de percepção teve 72 voluntários que avaliaram 9 falas da base cada um. Assim foi possível avaliar todas as 192 falas emotivas da base pelo menos 3 vezes. Dessas 648 avaliações, os ouvintes indicaram perceber a mesma emoção que o voluntário que gravou em 378 avaliações, o que totaliza 58,33\% de acertos, em que considera-se um acerto quando a emoção percebida pelo ouvinte é igual à intencionada pelo orador. A confiança nesse resultado pode ser avaliada pelo teste da hipótese nula com G(k) possuindo \mu = \frac{648}{4}=162 e \sigma^2=648\times\frac{1}{4}\times\frac{3}{4}=121,5 que está ilustrado na Figura 1.

 

Figura 1 – Densidade de probabilidade da hipótese nula

 

Assim, a probabilidade de se obter uma quantidade maior ou igual a 378 avaliações corretas, sob a hipótese nula, ou seja, através de chutes aleatórios é praticamente nula. Esse resultado sugere fortemente, com um nível de confiança estatístico maior que 99\%, que os avaliadores humanos percebem parcialmente as intenções de emoções nos registros de fala da base.

 

A matriz com os resultados das avaliações está no arquivo .txt que pode ser baixado no link: https://mega.nz/#!hDBjVagQ!hQM-Ocn-MFjFtpUfth5ccePWQnKsi3NYHd9eigyWmMU. No total, os 72 voluntários forneceram 3 vezes o resultado de 216 avaliações diferentes. O Quadro 2 contém a descrição do que representa cada coluna da matriz.

Quadro 2 – Descrições da matriz com o resultado das avaliações

 

 

[/bibshow]

Sobre o Autor

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

pt_BRPortuguês do Brasil