Theoretische muziek-mood modellen Bij muziek heeft men de voorkeur om een mood toe te kennen i.p.v. een emotie. “It is human who has emotion. Music does not have emotion, but it can carry a certain mood.” [1] Bij het onderzoek naar het categoriseren van muziek volgens moods werd er reeds gebruik gemaakt van theoretische modellen. Zoals bijvoorbeeld “Hevner’s adjective cycle” en “Thayer’s twodimensional valence-arousal space” (afgeleid van Russell’s emotie model) [1, 3, 5, 8, 9 ,13] Deze psychologische modellen zijn al tamelijk oud. Xiao Hu onderzocht of deze de dag van vandaag nog altijd representatief zijn. “Theoretical models in psychology were designed from laboratory settings and may not be suitable for today’s reality of music listening. By deriving a set of mood categories from social tags and comparing it to the two most representative mood models in psychology, this study finds out there are common grounds between theoretical models and categories derived from empirical music listening data in the real life.” [1] De modellen kunnen dus nog gebruikt worden men moet wel rekening houden met een aantal factoren:
Ander taalgebruik (Nu meer synoniemen) De muziek is anders dan toen de modellen zijn opgesteld Deze theoretische mood modellen zijn beperkter dan de mood categorieën in de realiteit.
Interessante onderzoeksresultaten i.v.m. moods & muziek
Niet alle moods/emoties worden evenveel opgewekt bij muziek Bv. moods die veel voorkomen zijn verdriet, vreugde, vrede en verlangen. Bv. Disgust één van de 6 basisemoties van Ekman wordt niet vaak geassocieerd met muziek Er bestaat een soort van uniforme toekenning (mensen herkennen vaak dezelfde mood in een liedje) Bepaalde moods zijn eenvoudiger te herkennen dan anderen Bv. vreugde, amusement, verdriet, opwinding, boosheid Er is een overeenkomst te vinden tussen de mood die men haalt uit de features van een liedje en de mood die mensen toekennen (via tags)
Parameters Uit de onderzochte papers haal ik twee parametergroepen die reeds onderzocht/gebruikt werden bij het toekennen van moods aan muziek namelijk:
Parameters die men kan halen uit de muziek Sociale parameters, zoals bijvoorbeeld mood bepalen met behulp van social tags
Muziek parameters Er zijn veel parameters die men uit de muziek kan halen [1,2,3,5,11,12,13], zoals bijvoorbeeld:
Basisparameters: artiest, album, nummer, duur, genre Deze worden meegeven in de meeste digitale audioplayers (I tunes, Windows Media Player, RealOne…)
“In general people use catalogue metadata: artist-name, song-name and album-name, when available. Although these metadata are often the only ones used in music players such as Windows MediaPlayer or MusicMatch, people tend to use entirely different terms and expressions to describe the music they want to hear. These descriptions are mostly related to the style, the mood and the genre of the music, or the situation at hand.” [2,7]
Audioparameters die men kan extraheren uit de muziek (met behulp van algoritmes) Tempo, ritme, timbre, pitch, mode, harmony, tonen,…
Lyrics
“Psychological studies have shown that part of the semantic information of songs resides exclusively in the lyrics. This means that lyrics can contain relevant emotional information that is not included in the audio.” [3] De nauwkeurigheid van de technieken die audio parameters gebruiken om een mood toe te kennen aan muziek is al vrij goed. Door gebruik te maken van lyrics kan deze nauwkeurigheid nog een wat verhogen. Deze informatie uit lyrics geeft niet bij alle mood categorieën een meerwaarde. Angry en rustige liedjes kan men eigenlijk al goed herkennen door de audiofeatures alleen. Deze zijn wel handiger om mood categorieën zoals bijvoorbeeld happy en sad te herkennen. [5] “Logan et al. have investigated the properties of lyrics using Latent Semantic Analysis. They discovered natural genre clusters and their conclusion was also that lyrics are useful for artist similarity searches but the results were still inferior to those achieved using acoustic similarity techniques. However, they also suggested that both systems could profitably be combined as the errors of each one were different.” Relevante audio parameters “It was indicated that mode, intensity, timbre and rhythm are of great significance in arousing different music moods.”[9] “The attributes mood, genre, year and tempo label important positions on the map in order to provide context.”[2] Volgens de onderoekers Lu, Liu and Zhang zijn intensiteit, ritme en timbre gelinkt aan Thayler’s mood model. Zo zou de intensiteit van de muziek de arousel (hoeveelheid energie) bepalen, deze wordt bepaald met behulp van amplitude metingen. Het ritme en de timbre van de muziek zijn gelinkt met de valance (positieve of negatieve emotie) waarde van het model. Uit het onderzoek bleek ook dat het accurater is om eerst op te delen via intensiteit, en daarna het ritme en de klankkleur (timbre) te controleren.
“In order to classify the music from acoustical information, we first extracted audio features of different kinds: timbral (for instance MFCC, spectral centroid), rhythmic (for example tempo, onset rate), tonal (like Harmonic Pitch Class Profiles) and temporal descriptors. All these descriptors are standard and derived from state-of-the-art research in Music Information Retrieval.” [5,12]
De onderzoeker Schubert [8,13] heeft theorieën van verschillende onderzoekers geanalyseerd en kwam tot volgende conclusie: Muziek parameters die gerelateerd zijn met arousal Luidheid (hoe groter de luidheid, hoe groter de arousal) Toonhoogte (hoge toonhoogte, hoge arousal) Melodic dimension Tempo (beats per minute hoog tempo, hoge arousal) Dynamiek Muziek parameters die gerelateerd zijn met valance Toonaard/toonsoort (hoge valance staccato noten van elkaar gespeeld) (lage valance legato noten aan elkaar gespeeld, vloeiend overlopen) Articulation (vorm van het geluid) Toonhoogte (grote pitch, hoge valance) Factoren zoals timbre (klankkleur, bv scherp en helder, of donker en zacht), harmonie en ritme zijn volgens hem echter te complex om te linken aan het Thayer’s arousal en valance model.
Social tags “There are many problems in the field of music information retrieval that are not only difficult for machines to solve, but that do not have well-defined answers. In labeling and detecting emotions within music, this lack of specificity makes it difficult to train systems that rely on quantified labels for supervised machine learning.” [3] Het grote voordeel van het gebruiken van tags is dat deze toegevoegd zijn door mensen waardoor men reële input heeft. Met behulp van filters en algoritmes worden de “mood tags” die personen aan liedjes hebben toegekend op online audiospelers (zoals bijvoorbeeld Last.fm) geselecteerd en gegroepeerd in mood categorieën. Zo zitten de artiesten of liedjes die gerelateerd zijn aan elkaar in één bepaalde categorie. [1] Dit systeem heeft echter nog nadelen/onzekerheden:
Oncontroleerbaar (veel “junk tags”) Tags kunnen een dubbelzinnige betekenis hebben Niet alle nummers hebben een tag Heel veel synoniemen (niet iedereen gebruikt hetzelfde woord om een mood te beschrijven)
Onderzoekers van Drexel University hebben MoodSwings ontwikkeld. Hier moeten mensen in spelvorm moods toekennen aan liedjes, er wordt hierbij gebruik gemaakt van het “Thayer’s twodimensional valence-arousal space”. [3] Zowel het systeem van het extraheren van moodtags uit bestaande audiobibliotheken als een eigen systeem waarmee mensen tags toekennen(bv. MoodSwings) hebben volgens mij hun voordelen en nadelen. De moodtags van Last.fm zijn er grotendeels, men moet wel genoeg energie steken in het filteren van deze data. Bij MoodSwings moeten de data nog verkregen worden, de moods die toegekend worden zijn wel eenduidiger. Moodlabels gebruiken is goed maar ze moeten consistent en eenvoudig zijn (gemakkelijk te herkennen). Janto Skowronek, Martin F. McKinney en Steven van de Par deden hierover een onderzoek en kwamen zo tot een aantal “goede labels” voor de gebruiker. [11] Interesting candidates for a mood classification system are those which belong to the “most consistent group” and which were assessed at least as “important” and at least as “easy to use”. We found that such labels exist, they were: tender/soft, powerful/strong, loving/romantic, carefree/ lighthearted, emotional/passionate, touching/moving, angry/furious/aggressive, sad.[11] In een onderzoek van Xiao Hu, Mert Bay en J. Stephen Downie kwamen ze tot de volgende goed te onderscheiden/ populaire mood cathegorieen: Zacht/kalm, vrolijk/optimistisch, agressief/boos, sad, … [4]
Bestaande systemen die helpen bij het automatisch catalogiseren [10]
Support Vector Machines (accuraatheid 50 %) Muziek op basis van timbre, ritme en pitch opdelen in 13 mood categorieën ( Fransworth emotie groepen). Lu, Liu & Zhang [9] (accuraatheid 85 %) Muziek op basis van intensiteit, timbre en ritme indelen in de 4 Mood kwadranten van Thayer’s door gebruik te maken van algoritmes zoals Gausian Mixture Models. MIREX [4] (accuraatheid van 60 %)
Social tags gebruiken van AMG, Last.fm om 3 mood clusters te vormen.
Moodlogic, Moody plug-in van iTunes (Commerciële audiospelers waar men werkt met mood labels).
“The former MoodLogic service used questionnaires given to their users to collect mood metadata. The data from these services is, sadly, not available to the public. Other commercial tools allow users to tag their own collections, such as the Moody plug-in for iTunes, which uses a quantized 4x4 valence-arousal grid.” [3] “More recently, online services that allow users to input free-form (unconstrained) tags, such as
Last.fm , have collected myriad tags (some of which represent mood labels) across very large music collections. The accessibility of this data has led to a recent trend towards using such free-form tags as the basis for mood labeling by aggregating results from many users.” [3]
Bronnen [1] Hu,X. Music and Mood: Where Theory and Reality [2] Vignoli, F., van Gulik, R.,van de Wetering,H. Mapping music in the palm of your hand, explore and discover your collection [3] Kim, Y., Schmidt, E., and Emelle, L. 2008. Moodswings: A collaborative game for music mood label collection. In Proceedings of ISMIR’08. Philadelphia, USA. [4] Hu, X., Bay, M., Downie, J.S. Creating a simplified music mood classification ground truth set. [5] Laurier, C., Grivolla, J. and Herrera, P. 2008. Multimodal music mood classification using audio and lyrics. In Proceedings of the 7th International Conference on Machine Learning and Applications ( ICMLA' 08). December 2008, San Diego, California. [6] Hu, X., Downie, J.S. Improving Mood Classification in Music Digital Libraries by Combining Lyrics and Audio. [7] Vignoli, F. Digital music interaction concepts: a user study. Philips Research Laboratories, Eindhoven. [8] Paul, R.C. Conveying emotion through music, Generating affective background music using cellular automata [9] Lu, L., Liu, D. and Zhang, H. Automatic Mood Detection from Acoustic Music Data [10] Pohle, T., Pampalk, E. and Widmer, G. 2005. Evaluation of frequently used audio features for classification of music into perceptual categories. In Proceedings of the 4th International Workshop on Content-Based Multimedia Indexing. June, 2005, Riga, Latvia. [11] Skowronek, J., McKinney, M.F., van de Par,S. Ground truth for automatic music mood classification
[12]O. Lartillot and P. Toiviainen. Mir in matlab (ii): A toolbox for musical feature extraction from audio. In Proceedings of the International Conference on Music Information Retrieval, Vienna, Austria, 2007. [13] E. Schubert. Measurement and time series analysis of emotion in music. PhD thesis, School of Music & Music Education, University of New South Wales, Sydney, Australia, 1999.