Fundo
A computação afetiva desempenha um papel cada vez mais importante, especialmente na period da Inteligência Emocional1,2. Embora esses conjuntos de dados existentes promovam grandemente a pesquisa do reconhecimento de emoções, eles se concentram na classificação discreta de emoções ou na classificação de emoções no espaço de excitação de valência (VA). As emoções mistas são um tópico importante na análise emocional e têm recebido cada vez mais atenção3,4,5e é urgente estabelecer um conjunto de dados para pesquisas sobre emoções mistas. Neste artigo, estabelecemos o conjunto de dados multimodal que contém dados fisiológicos e de vídeo facial de 73 participantes. Até onde sabemos, o conjunto de dados proposto é atualmente o único conjunto de dados disponível para reconhecimento de emoções mistas e pode ajudar a avançar na pesquisa em análise de emoções mistas. O conjunto de dados proposto está disponível em Zenodo6 a pedido.
Métodos
Todos os participantes receberam consentimento informado por escrito na chegada e foram solicitados a lê-lo e assiná-lo voluntariamente. Em seguida, foram informados sobre o conteúdo do experimento, protocolo do experimento, significado das escalas afetivas e instruções para preenchimento do formulário de autoavaliação. Após colocar e verificar os sensores, o experimentador executou o programa principal e primeiro foi apresentado na tela um formulário para coletar nome, idade, sexo e outras informações básicas dos participantes. Em seguida, o experimento começou com o participante pressionando o botão ‘OK’.
O procedimento experimental consistiu principalmente em um estágio de prática, um estágio de registro de linha de base e 4 blocos. A Figura 1 mostra o diagrama de tempo do experimento, que começou com uma etapa prática contendo uma única tentativa prática para familiarizar os participantes com o procedimento de uma tentativa. Após a prática, o participante foi solicitado a olhar para a tela preta e permanecer relaxado para coletar uma gravação de três minutos do estado de repouso. Em seguida, foram apresentados 32 trechos de filmes em 4 blocos, cada um contendo 8 tentativas com um videoclipe em cada tentativa. Observe que os clipes de filme foram divididos em 4 blocos de acordo com seus rótulos emocionais originais (ou seja, positivo, negativo, misto) para tornar os rótulos dos clipes de filme iguais em cada bloco. Um conjunto de operações aritméticas e um intervalo de 1 minuto foram organizados entre dois blocos consecutivos para eliminar o efeito do bloco anterior. A ordem de apresentação dos blocos seguiu o desenho do quadrado latino para eliminar qualquer possível influência que a ordem de apresentação dos blocos pudesse ter. Cada teste consistiu nas seguintes etapas concretas:
- A exibição de um videoclipe por cerca de 20 a 30 segundos.
- Autorrelato para os adjetivos emocionais (cronogramas curtos de afeto positivo (PA) e afeto negativo (NA) de 10 itens (PANAS)7).
- Autorrelato de excitação, valência e dominância.
- Autorrelato para duas emoções distintas, nomeadamente diversão e repulsa. Coletamos as pontuações de autoavaliação dessas duas emoções, uma vez que as emoções positivas e negativas na filmoteca de Stanford8 referem-se principalmente a diversão e repulsa.
- Uma pausa de 5 segundos antes da próxima tentativa.
Validação Técnica
Para verificar a viabilidade da classificação de emoções mistas a partir de sinais fisiológicos e vídeos faciais, conduzimos experimentos usando dois classificadores típicos (isto é, máquina de vetores de suporte (SVM) e floresta aleatória (RF)) para classificação de emoções positivas, negativas e mistas. Validamos o desempenho da classificação em um protocolo dependente do participante. Os sinais fisiológicos e o vídeo facial de cada tentativa foram divididos em duas partes de acordo com a proporção 4:1, e a primeira e a segunda partes de todas as tentativas formaram os dados originais do conjunto de trem e do conjunto de teste, respectivamente.
Os resultados experimentais são apresentados na Fig. 2. Testamos sete combinações de recursos, incluindo quatro recursos de modalidade única (ou seja, EEG, GSR, PPG, Vídeo) e três recursos de modalidades múltiplas (ou seja, GSR+PPG, GSR+PPG+EEG, GSR+PPG+EEG+ Vídeo). Resultados na Fig. 2 mostram que o SVM e todos os recursos (isto é, EEG+GSR+PPG+Video) obtiveram a melhor precisão. Além disso, o EEG tem um desempenho melhor do que outros sinais fisiológicos: alcança não apenas maior precisão de classificação, mas também um desvio padrão menor.

Referência
1. Salovey, P., Mayer, J. & Caruso, D. Inteligência emocional: teoria, descobertas e implicações. Investigação psicológica 15197–215 (2004).
2. Seyitoğlu, F. & Ivanov, S. Robôs e inteligência emocional: Uma análise temática. Tecnologia na Sociedade 77102512 (2024).
3. Larsen, JT & McGraw, AP Mais evidências de emoções confusas. Jornal de personalidade e psicologia social 1001095 (2011).
4. Oh, VY & Tong, EM Especificidade no estudo das emoções mistas: Um enquadramento teórico. Revisão de Personalidade e Psicologia Social 26283–314 (2022).
5. Zhou, Ok., Sisman, B., Rana, R., Schuller, BW & Li, H. Síntese de fala com emoções mistas. Transações IEEE em Computação Afetiva (2022).
6.Yang, P. e outros. Um conjunto de dados multimodal para reconhecimento de emoções mistas. Zenodo https://doi.org/10.5281/zenodo.8002281 (2022).
7. Mackinnon, A. e outros. Uma forma resumida do cronograma de afetos positivos e negativos: Avaliação da validade fatorial e invariância entre variáveis demográficas em uma amostra comunitária. Personalidade e diferenças individuais 27405–416 (1999).
8. Samson, AC, Kreibig, SD, Soderstrom, B., Wade, AA & Gross, JJ Elicitando estados emocionais positivos, negativos e mistos: Uma filmoteca para cientistas afetivos. Cognição e emoção 30827–856 (2016).