Music Structure Analysis - · • Sequenz wird mit sich selbst verglichen mittels...

Music Structure Analysis

Proseminar Computer und Musik WS 2017/2018

Imke Haverkämper

Agenda

1. Begriffsklärung und Vorgehensweise

2. Segmentierung

3. Self-Similarity Matrizen

4. Fitness Measure

5. Audio Thumbnailing

Was ist überhaupt diese Music Structure?

• Musik hierarchisch aufgebaut

• niedrigstes Level: einzelne Note

• nächst höheres Level: Motive, Sätze, Teilstücke

• höchstes Level (Music Structure) : Kombinationen von Motiven und

Sätzen

• je nach Musikrichtung variiert Struktur

• z.B. Popmusik: Intro, Refrain, Vers, evtl. Outro

Wie wollen wir sie Analysieren?

• Erforschen, welcher Abschnitt einer Aufnahme welcher Strukturellen

Einheit entspricht

• Verschiedene Methoden: repetition-based, homogeneity-based und

novelty-based

• Folgend Fokus auf repetition-based und homogeneity-based

Kurze Begriffsklärung

• Repräsentation ist eine Audioaufnahme

• Part ist ein Teil eines Stücks im abstrakten Sinne

• Segment ist zeitlicher Abschnitt einer Aufnahme

• Sequenz kann sowohl Part, als auch Segment sein

• Sequenzen meist mit Buchstaben und Indizes bezeichnet

Beispiel:

Bildquelle: Meinard Müller, Fundamentals of Music Processing, S.168

Segmentierung

• Kann auf jedem Level der Struktur stattfinden

• Wir Segmentieren auf gröbstem Level

• Notwendig, um Relationen zwischen den einzelnen Parts zu erkennen

• Wonach Segmentiert wird muss auf Grundlage des Stückes und der

Repräsentation entschieden werden

• Wie bereits erwähnt im folgenden Fokus auf repetition-based und

homogeneity-based

Was ist Self-Similarity?

• Zuerst muss eine Aufnahme in eine verwendbare Feature

Repräsentation umgewandelt werden

• Features können Instrumentation, Timbre, Tempo, Rhythmus, etc. sein

• Wir werden im folgenden mit Chroma Features arbeiten

• Hierbei wird jedes Element einer Sequenz mit jedem anderen darin

liegenden Verglichen und in Relation gesetzt

• Damit beschreibt der höchste Self-Similarity-Wert(=1) die Beziehung

einer Sequenz zu sich selbst

• Damit erstellt man Self-Similarity Matrizen (SSM)

Chroma Feature

• Mensch erkennt Töne als

„gleichfarbig“, wenn diese

genau eine Oktave

auseinander liegen

• Wir erhalten einen

Chroma-Wert für jede

Tonhöhe

• Die Tonhöhe wird hier

anhand der

Farbintensität in Relation

zur Y-Achse signalisiert

Bildquelle:

https://en.wikipedia.org/wiki/Chroma_feature

Self-Similarity Matrizen (SSM)

• Sequenz wird mit sich selbst verglichen mittels Similarity-Measure

• Chroma-Wert signalisiert hier nicht Tonhöhe, sondern Similarity-

Wert (zwischen 0 und 1) bezüglich einer beliebigen Eigenschaft

• Pfad- und Blockstrukturen werden erkennbar

• Pfade stehen für Wiederholungen (Problem: selten exakt)

• Blöcke stehen für hohe Homogenität in diesem Bereich

Wie sieht eine ideale SSM aus?

Bildquelle: Meinard Müller, Fundamentals of Music Processing, S.180

Nochmal zusammengefasst:

• NxN – Matrix

• Segment ist Set α = [s:t] (s= Start, t= Ende)

• Induziertes Segment π1

• π2 entspricht α

• Pfade stehen für Wiederholungen

• Blöcke stehen für Homogenität

• Pfade und Blöcke haben Score, der die Summe ihrer Similarity-Werte

darstellt

Welchen Nutzen hat so eine SSM?

• Segmentierungsalgorithmen profitieren von der vorhandenen Pfad-

und Blockstruktur

• Typische Schritte so eines Alorithmus´ sind:

1. Audiosignal in eine Feature Repräsentation umformen

2. SSM berechnen

3. Pfad- und Blockstruktur extrahieren

4. Gruppen ähnlicher Segmente mittels Clustering erstellen

In Wirklichkeit sehen sie aber leider meist so aus…

Bildquelle: Meinard Müller, Fundamentals of Music Processing, S. 185

Verbesserung mittels passender Feature Repräsentation

• Zwei Parameter:

l = Längenparameter (in Frames)

d = Downsampling-Parameter

• Variieren dieser Parameter glättet die SSM

• Blockstruktur wird hervorgehoben, rücken näher aneinander

• Problem: Pfade und andere kleine, aber wichtige Details können

verschwinden

Beispiel:

Verbesserung mittels Path Smoothing

• Pfade für Menschen leicht erkennbar

• Automatisiertes Erkennen erschwert (Wiederholungen nur selten

exakt)

• Nutzung von Bildbearbeitungstechniken

• Anwendung eines Averaging-Filters (Low-Pass-Filter) entlang der

Diagonalen

Averaging-Filter

• Geglättete SSM :

SL (n,m) :=1

𝐿σ𝑙=0𝐿−1 𝑆(𝑛 + 𝑙,𝑚 + 𝑙) n,m ϵ [1: N-L+1]

• Mittelt die Similarity-Werte von zwei Untersequenzen der Länge L

durch das Strecken der Werte der Ursprünglichen SSM

• Angewandt entlang der Diagonalen werden Pfade hervorgehoben, die

exakt parallel zu ihr verlaufen

• Wiederholungen nur selten exakt (Tempovariation wirkt sich auf

Steigung des Pfads aus), deshalb problematisch

Multiple-Filtering-Ansatz

• Averaging-Filter in einer festgelegten Umgebung der Diagonalen

angewandt

• Dazu wird ein Set Θ definiert, das alle Steigungsparameter enthält,

entlang denen geglättet wird

• Jede Richtungsvariation bildet neue SSM

• „ausbluten“ des Pfades nach hinten durch vorwärtsanwenden wird

behoben durch zusätzliches rückwärtsanwenden

• Endgültige SSM entsteht dann zellenweise durch wählen des

Maximums aller Matrizen

• Praktisch sind Tempo unterschiede über 50% selten, guter Richtwert

für die Grenzen des Sets Θ

Beispiel:

Verbesserung mittels Thresholding

• Reduziert Auswirkungen weniger relevanter Störgeräusche,

schwache, wichtige Informationen gehen verloren

• Hohe Auswirkungen auf Endergebnis der Analyse

• Global Thresholding: alle Werte über einem Schwellenwert bleiben

bei, alle anderen werden auf 0 gesetzt

• Local Thresholding: Wert wird beibehalten wenn er in oberem

Wertebereich der Zeile und Spalte liegt

Fitness Measure

• Wird anhand von SSMs berechnet

• Findet Anwendung im Audio-Thumbnailing, dazu später mehr

• Berücksichtigt alle Relationen zwischen einem Segment und seinen

Wiederholungen

• Damit mit Fitness Measure gearbeitet werden kann, muss die SSM

Werte zwischen 0 und 1 enthalten, wobei 1 maximale Ähnlichkeit

bedeutet

• Gibt an wie gut ein Segment ein Stück repräsentiert und welche

Zeiteinheit von Wiederholungen dieses Segments abgedeckt wird

Einschub: Pfadfamilien

• P = Set von Relationen(in diesem Fall Wdh.) von Segment α zu anderen

Segmenten, Segmente müssen paarweise disjunkt sein

• Auch Pfadfamilie hat einen Score

• Dann existiert auch eine optimale Pfadfamilie (P*) mit maximalem Score,

wie man diese berechnet sparen wir uns aus Zeitgründen

• Coverage: σ𝑘=1𝐾 |α𝑘| gibt an, wie groß die Zeiteinheit ist, die von der

Pfadfamilie abgedeckt wird

Beispiel:

Fitness Measure

• Kandidat wäre der Score der optimalen Pfadfamilie, erfüllt allerdings

nicht alle gewünschten Eigenschaften

• Score ist abhängig von der Länge der Pfade und enthält überflüssige

Selbsterklärungen

• Also müssen wir den Score normalisieren wie folgt: σ := σ 𝑃∗ −|α|

σ𝑘=1𝐾 𝐿

• Kombinieren von Score und Coverage, um repräsentatives Ergebnis

zu erhalten, hier kann man zum Beispiel das Harmonische Mittel

wählen, das bei gleich hohem Score die kürzere Sequenz leicht

präferiert

Thumbnailing

• genutzt, um in großen Mengen von Musikstücken schneller

auswählen zu können

• Nutzt Fitness, d.h. Segment mit höchster Fitness wird als Thumbnail

gewählt

• evtl. auch hier sinnvoll, eine Mindestlänge zu wählen

Vielen Dank für die Aufmerksamkeit!

Music Structure Analysis - · • Sequenz wird mit sich selbst verglichen mittels...

Documents

Transcript of Music Structure Analysis - · • Sequenz wird mit sich selbst verglichen mittels...

Die richtigen Instrumente für meine Ansprüche! · aus Standard- und Spezialfarben für die Außen- und Innenseite besteht. Aufgrund der Balance zwischen Farbnuance, Chroma, Helligkeit

Computing Coupled Similarity - coupledsim.bbisping.de · Abstract Coupledsimilarity isanotionofequivalenceforsystemswithinternalactions. Ithas itsapplicationsincontextswhereinternalchoicesmusttransparentlybedistributed

Grundbegriffe der Informatikgbi13.ira.uka.de/vorlesungen/u-09-speicher-folien.pdf · Adresse 1 Wert 1 Adresse 2 Wert 2 Adresse 3 Wert 3 Adresse 4 Wert 4::::: Adresse n Wert n Halbleiterspeicher

Musikalische Begabung und ihre Diagnostik - testzentrale.de · l Melody discrimination test ... Non-verbal Intelligence Musical Listening: Melodic Memory Beat Perception Sound Similarity

AUSSERDEM BEI PANINI ERHÄLTLICH · „Star Wars: The Old Republic – Revan“ by Drew Karpyshyn, A Del Rey ® Book, published by The Random House Publishing Group. No similarity

Wert über Gebühr

Contextual Residual Aggregation for Ultra High-Resolution ... · tours. These techniques are effective when they ﬁnd an ex-ample image with sufﬁcient visual similarity to the

Artikeltext Zusatztext ArtNr CINr SchulzNr CASNr Gefahrgut ......Chroma-Produkte – untergliedert in Farbstoffe, Farbstofflösungen, Indikatoren und Hilfsmittel Hämatoxylin, puriss

Farbbasierte Stanzmaskenerzeugung für die Fernsehproduktion · UIL student Lars Hörchens has inve stigated alternatives to the conventional chroma key technique in his diploma thesis.

Der wahre Wert

Chroma Keying für Fotografen - Picture Instruments...Chroma Key Technik und dem Freistellen mit Blitz. Während die Maske bei einem Gegenlicht-Freisteller etwas feiner ist, als beim

GESPRACHS- •• STOFF FARBE - GBVDerek Jarman Zitate aus: Chroma. Ein Buch der Farben 6 17 Created Date 3/22/2018 10:06:23 AM ...

U-Wert-Berechnung und Bauteilekatalog Neubauten...U-Wert-Berechnung und Bauteilekatalog Neubauten Der Wärmedurchgangskoeffizient U – vereinfacht U-Wert und früher k-Wert genannt

DAS ZENOSTAR KONZEPT - Wieland Dental€¦ · Translucent sun und sun chroma verwenden. Die Zenostar Zr Translucent Blanks in den Farben sun und sun chroma zeichnen sich durch einen

Chroma Meter CS-200 Die nächste Generation der präzisen Leuchtdichte- und Farbmessung von Lichtquellen.

Chapter 6 Similarity Stand 20.12.00. - 2 - (c) 2000 Dr. Ralph Bergmann and Prof. Dr. Michael M. Richter, Universität Kaiserslautern Recommended References.

Augmented Reality 3D Wahrnehmung + perspektivische … · Punkt (im Gegensatz zu der Euklidischen Geometrie). ... Affin 6dof Similarity 4dof Euklidisch 3dof 2D: ein Quadrat transformiert

A Framework for Semantic Similarity Measures to enhance ...

Efficient Entity Disambiguation via Similarity Hashing

pH-Wert - · PDF filepH-Fibel Seite 1 von 32 pH-Wert Grundlagen Für den pH-Wert gibt es zwei Definitionen. Einerseits die theoretische Definition, die den pH-Wert als