VocalSet

Average cosine similarity over 100 random draws for each singer

PCA

T-SNE

CONT-VC

CONT-VC was the best performing model on singer similarity for the VocalSet, followed by BYOL

female2

female2_excerpts_f2_dona_straight_0_4_4s.wav

female3

female3_excerpts_f3_dona_straight_4_8_4s.wav

female4

female4_excerpts_f4_dona_straight_0_4_4s.wav

female7

female7_excerpts_f7_dona_straight_0_4_4s.wav

female8

female8_excerpts_f8_dona_straight_0_4_4s.wav

female9

female9_excerpts_f9_dona_straight_0_4_4s.wav

male1

male1_excerpts_m1_dona_straight_0_4_4s.wav

male3

male3_excerpts_m3_dona_straight_0_4_4s.wav

male4

male4_excerpts_m4_dona_straight_0_4_4s.wav

male6

male6_excerpts_m6_dona_straight_0_4_4s.wav

male8

male8_excerpts_m8_dona_straight_0_4_4s.wav

male9

male9_excerpts_m9_dona_straight_0_4_4s.wav

Most models can very easily distinguishing male/female voices. However, within male/female groups, the task is much harder.
Female4 has a lower pitched voice than most other female voices on the dataset. This is captured by all our trained models.
There is an overall higher similarity between female voices than between male voices in the VocalSet (it is harder for the models to distinguish beween female voices than male voices).
This could be explained by the fact that there is more diversity of voice types on male voices.

BYOL

H/SAP (pre-trained baseline)

CONT

UNIF

VICReg

Wav2Vec-base

XLSR-53

Google Sites

Report abuse