PhD Dissertation

Dimitrios Ververidis, "Digital Speech Processing Techniques for Emotion Recognition Application on children in VR environments for training during earthquake simulation," PhD dissertation, 2008, ([pdf], Greek). Artificial Intelligence and Information Analysis Laboratory, Computer Science Department, Aristotle University of Thessaloniki (AUTH).

Supervisor: Associate Professor Constantine Kotropoulos, 


Εισαγωγή

To αντικείμενο της διατριβής αυτής είναι η αναγνώριση συναισθημάτων μέσω της ομιλίας. Η έρευνα ξεκίνησε με μία ανασκόπηση των μεθόδων εξαγωγής ακουστικών χαρακτηριστικών και των τεχνικών κατηγοριοποίησης της ομιλίας σε συναισθηματικές καταστάσεις. Η τεχνική που υιοθετήθηκε για την αναγνώριση συναισθημάτων έχει ως εξής. Πρώτα εξάγονται τα στατιστικά χαρακτηριστικά των καμπύλων της θεμελιώδους συχνότητας, των ενεργειών σε διάφορες ζώνες συχνοτήτων, και των ιδιοσυχνοτήτων του φωνητικού σωλήνα. Μετά, για τη κατηγοριοποίηση της ομιλίας βάσει των προαναφερθέντων χαρακτηριστικών χρησιμοποιήθηκε ο ταξινομητής Bayes όπου η συνάρτηση πυκνότητας πιθανότητας (σ.π.π.) κάθε χαρακτηριστικού μοντελοποιήθηκε ως μία Γκαουσιανή ή ως μίγμα Γκαουσιανών. Στις δοκιμές χρησιμοποιήθηκαν δύο βάσεις δεδομένων ομιλίας, μία από ηθοποιούς στη Δανική γλώσσα και μία στρατιωτικού προσωπικού στην Αμερικάνικη γλώσσα. Προτάθηκε ένας αλγόριθμος για την εύρεση των συσχετισμένων ακουστικών χαρακτηριστικών, που βασίζεται στο συντελεστή πολλαπλής συσχέτισης (multiple correlation coefficient). Το πλεονέκτημα της προτεινόμενης μεθόδου είναι ο ακριβής εντοπισμός των διαστημάτων εμπιστοσύνης του συντελεστή πολλαπλής συσχέτισης. Η μη-γραμμική μέθοδος (Newton-Raphson) εφαρμόσθηκε δύο φορές, μία για να αντιστραφεί η σ.π.π. του συντελεστή πολλαπλής συσχέτισης, και μία για να βρεθεί ο σωστός αριθμός παραγόντων που απαιτούνται για τη σύγκλιση μίας υπεργεωμετρικής συνάρτησης που εμπλέκεται στον υπολογισμό της σ.π.π. του συντελεστή πολλαπλής συσχέτισης.

Ο αμερόληπτος εκτιμητής του λάθους πρόβλεψης που υπολογίζεται με τη μέθοδο διασταυρωμένης επικύρωσης (cross-validation) συχνά χρησιμοποιείται ως το κύριο κριτήριο αξιολόγησης μιάς μεθόδου κατηγοριοποίησης σε συναισθηματικές καταστάσεις. Ο εκτιμητής αυτός παρουσιάζει μεγάλη διασπορά, και γι’ αυτό χρησιμοποιήθηκε μία μέθοδος που αυξάνει τον αριθμό των επαναλήψεων διασταυρωμένης επικύρωσης, έτσι ώστε βάσει του κεντρικού οριακού θεωρήματος, να μειωθεί η διασπορά της μέσης τιμής του λάθους πρόβλεψης. Προτάθηκε μία μέθοδος που μπορεί να προβλέψει τη διασπορά του λάθους πρόβλεψης. Η μέθοδος αυτή βασίζεται στο γεγονός ότι κάθε πρόβλημα αναγνώρισης προτύπων με C κλάσεις μπορεί να θεωρηθεί ως ένα πρόβλημα 2 κλάσεων, όπου η μία κλάση είναι η σωστή κατηγοριοποίηση και η άλλη κλάση είναι η λανθασμένη κατηγοριοποίηση. Έτσι, ο αριθμός των λανθασμένα κατηγοριοποιημένων προτύπων μπορεί να θεωρηθεί ως μία διακριτή τυχαία μεταβλητή που ακολουθεί τη διωνυμική κατανομή. Ο προτεινόμενος εκτιμητής της διασποράς του λάθους πρόβλεψης χρησιμοποιείται για την επιλογή ενός υποσυνόλου χαρακτηριστικών που επιτυγχάνει το μικρότερο λάθος πρόβλεψης σε ένα διάστημα εμπιστοσύνης που επιλέγεται από τον χρήστη βάσει των διαθέσιμων υπολογιστικών δυνατοτήτων. Προτάθηκε ένα ακόμη στατιστικό τεστ για την απόρριψη ενός υποσυνόλου χαρακτηριστικών σε ένα μικρό αριθμό επαναλήψεων διασταυρωμένης επικύρωσης, έτσι ώστε να αποφευχθούν οι άσκοπες επαναλήψεις.

 Ένα πρόβλημα που αντιμετωπίσαμε ήταν η μοντελοποιήση μίας σ.π.π. μέ ένα μίγμα Γκαουσιανών. Ο αλγόριθμος μεγιστοποίησης αναμενόμενης τιμής (Expectation Maximization) για την εύρεση των παραμέτρων ενός μίγματος Γκαουσιανών βελτιώθηκε με την ενσωμάτωση ενός κριτηρίου πολυδιάστατης κανονικότητας. Πρόκειται για ένα κριτήριο που βασίζεται στη κατανομή του αριθμού των δειγμάτων διανυσματικών μετρήσεων στο εσωτερικό μιάς ισοπίθανης έλλειψης. Το κριτήριο αυτό έχει σημαντική θεωρητική αξία, διότι βασίζεται στις γνωστές κατανομές Wishart και Hotelling. Έπειτα, ο αλγόριθμος κατηγοριοποίησης συναισθημάτων εφαρμόσθηκε στη βάση δεδομένων ομιλίας παιδιών τα οποία εκπαιδεύονται ένα εικονικό περιβάλλον σεισμού. Ο αλγόριθμος κατηγοριοποίησε την ομιλία κυρίως στην συναισθηματική κατάσταση του φόβου και στην ουδέτερη κατάσταση. Τα σήματα που μας απασχόλησαν, εκτός της ομιλίας, ήταν η εφίδρωση και οι παλμοί καρδιάς των παιδιών. Τα βιοσήματα αποτελούν ένα αντικείμενο μελλοντικής έρευνας.

Download pdf of Dissertation here


 Ακολουθεί η περίληψη της διατριβής στα Αγγλικά.

 Abstract

Τhe subject of this thesis is the recognition of emotions from speech. The investigation began with a review of methods that extract acoustic characteristics and methods for classifying speech into emotional states. The technique adopted for recognizing emotions is as follows. First, statistics are estimated on curves of acoustical characteristics, such as the fundamental frequency, the various frequency band energies, and the formants of the vocal tube. Then, for the classification of speech using the aforementioned characteristics, the Bayes classifier is used, where the probability density function (pdf) each characteristic was modeled as a Gaussian or as a mixture Gaussians. In the experiments, we used two speech databases, one of actors in the Danish language and one of military personnel in the American language. An algorithm for finding the highly correlated acoustic characteristics is proposed, based on the multiple correlation coefficient. The advantage of the proposed method is the exact calculation of confidence intervals of the cross-correlation coefficient. The non-linear Newton-Raphson method is applied twice, one to reverse the pdf of the cross-correlation coefficient, and one for finding the correct number of factors required for the convergence of a hypergeometric function involved in the calculation of pdf of the cross-correlation coefficient.

The unbiased estimator of the prediction error calculated by the method of cross-validation is often used as the main criterion for evaluating the performance a method that classifies speech into emotional states. This estimator of prediction error shows large variance. We propose to increase the number of cross-validation repetitions, so that under the central limit theorem, to reduce the dispersion of the average value of prediction error. Furthermore, we proposed an estimator of the variance of the prediction error. The proposed estimator of the variance is based on the fact that each problem pattern recognition with C classes can be seen as a problem 2 classes, where class one is the correct classification and class two is the wrong classification. Thus, the number of incorrectly classified patterns can be viewed as a discrete random variable following hypergeometric distribution. The proposed estimator of the variance of prediction error is used for selecting a subset of features that achieves the smallest prediction error, with a confidence interval chosen by the user based on available computing capabilities. We proposed another statistical test for rejecting a subset of features with a small number of cross-validation repetitions, so as to avoid unnecessary repetitions.

We treated the problem of the modeling of a pdf with a mixture of Gaussians. The maximum-expectation algorithm for finding the parameters of a mixture of Gaussians was improved by incorporating a multi-dimensional normality criterion. This criterion is based on the number of samples vector measurements in the internal of an equiprobable ellipsis. This criterion has important theoretical value, because it is based on the well known Wishart and Hotelling distributions. Finally, the algorithm for emotion recognition was applied to a database that consists of speech from students, that are trained in a virtual earthquake environment. The algorithm classified speech mainly into the emotional state of fear and the neutral state. The signals were employed, except the speech, was sweating and heart pulses. These bio-signals are a subject of future research.

Download pdf of Dissertation here

Stackoverflow profile

profile for jimver04 at Stack Overflow, Q&A for professional and enthusiast programmers

Stackoverflow Reputation curve

Google scholar citations per year

Google scholar citations per year
Click image for more details

Total Blog Pageviews