W związku ze stosowanymi w naszej pracowni środkami mającymi na celu jak najlepsze prezentowanie bodźców dźwiękowych, w szczególności słów, przygotowaliśmy poradnik, w jaki sposób dostosować posiadane bodźce dźwiękowe, aby były możliwie dobrze prezentowane osobom badanym.
Do obróbki plików audio wykorzystujemy darmowy program Audacity Poradnik powstał na podstawie wersji 3.7.7.
Podstawowe funkcje używane w trakcie dostosowania bodźców
Ctrl + a - zaznaczenie wszystkich ścieżek
Precyzyjnego zaznaczenie fragmentu pliku można dokonać poprzez poprzez wpisanie wartości początkowej i kończowej w polu "Selection" (zdjęcie)
Aby zaznaczyć dany fragment we wszystkich ścieżkach należy przy pomocy menu wybrać: Select > Tracks > In All Tracks
Etap I - przygotowanie plików
Aby ograniczyć straty jakości podczas obróbki plików zalecamy resampling i zmianę kodowania na co najmniej 48000Hz (sampling rate) i 32 bit-float (Encoding). Aby to zrobić należy:
(Zaznaczyć wszystkie ścieżki [ctrl + a] ) > File > Export Audio.
Aby Zapisać wszystkie pliki należy zaznaczyć w oknie Export Audio
Export Range - Multiple Files
Name files - Using Label/Track Name
Etap II - Mastering
Mastering składa się w kilku kroków, których efektem powinny być pliki audio charakteryzujące się spójną, wysoką głośnością, z minimalnymi różnicami między różnymi bodźcami. Proces ten jest szczególnie istotny w przypadku nagrań ludzkiej mowy, nie plików wygenerowanych (wtedy można zastosować uproszczoną procedurę) czy profejonalnie zrealizowanych nagań - w tym przypadku konieczne może być tylko znormalizowanie głośności do -3dBFS.
1 Usunięcie przesunięcia DC
Ścieżka audio jest centrowana względem 0. Zmniejsza ryzyko klików na początku i końcu nagrania i poprawia działanie dalszych kroków. Ten etap nie zmienia percepcji dźwięku
Effect > Volume And Compression > Normalize… >
Remove DC offset - TAK
Normalize peak amplitude - NIE
Normalize Stereo… - NIE
2 Filtracja górnoprzepustowa
Usuwa bardzo niskie częstotliwości i przydźwięki mikrofonowe, które nie są w stanie być wygenerowane przez słuchawki, a mogą wpływać na dalsze etapy, takie jak normalizacja LUFS. Ten etap nie zmienia percepcji dźwięku (ograniczenia sprzętowe)
Effect > Dominic Mazzoni > High-Pass Filter >
Frequency (Hz): 30
Roll-off: 12 dB
3 Zgłośnienie na początku i wyciszenie na końcu
Eliminuje „kliki” powstające na początku i końcu pliku, które powstają, kiedy poziom sygnału na początku lub końcu pliku nie jest równy 0
Okres zgłośnienia/wyciszenia powinien trwać od 1 do 3 ms.
Zaznacz precyzyjnie fragment do zgłośnienia we wszystkich ścieżkach (0-3ms)
Effects > Fading > Fade In
Zaznacz precyzyjnie fragment do wyciszenia we wszystkich ścieżkach (3 ms od końca)
Effects > Fading > Fade Out
Jeśli wciąż występują kliki między kolejnymi plikami konieczne może być dodanie 5 ms ciszy na końcu każdego pliku:
Zaznacz koniec wszystkich plików
Generate > Silence…
W przypadku bodźców typu szumy, które są używane jako warunek kontrolny, ustawienie 50ms Fade In sprawia, że jest on postrzegany jako cichszy i w mniejszym stopniu wywołuje Startle Effect
4 Kompresja
Kompresja wyrównuje głośność głośnych i cichych fragmentów nagrania (np. głośne wybuchowe spółgłoski i cichsze inne fragmenty słów). Jest to bardzo ważny etap w przypadku poprawy zrozumiałości nagranej mowy.
Effect > Volume And Compression > Compressor… >
Dla słów:
Compression curve
Threshold (dB): −20
Make-up gain (dB): 5
Knee width (dB): 5
Ratio: 4
Smoothing
Lookahead (ms): 1
Attack (ms): 5
Release (ms): 80
5 Korekcja EQ (dla mowy)
Jest to krok bardzo indywidualny, który powinien być dostosowywany do głosu lektora. Nie są to zmiany kluczowe, ale mogą poprawić klarowność oraz naturalność odtwarzanego głosu.
Jako podstawy można użyć tego presetu.
6 Normalizacja
Istnieją 2 główne metody normalizacji:
Peak - ustala najnośniejszy fragment nagrania na takim samym poziomie dla wszystkich plików i proporcjonalnie zmienia głośność reszty nagrania dla każdego pliku.
RMS/LUFS - mierzy średni poziom głośności dla danego nagrania i wyrównuje go dla wszystkich nagrań. RMS oparty jest na modelu matematycznym, a LUFS (perceived loudness) na funkcji zmodyfikowanej o czułość ludzkiego słuchu dla różnych częstotliwości.
W wyniku testów, wartość -15 LUFS dobrze się sprawdza dla mowy. W przypadku szumów, czy bodźców bardzo gęstych częstotliwościowo sugerujemy wartości -18 lub -19 LUFS.
W przypadku normalizacji Peak prosimy o ustawienie jej na poziomie -3 dBFS.
Normalizacji RMS nie polecamy.
Normalizacja LUFS
Effect > Volume And Compression > Loundess Normalization…
Normalize - perceived loudness to -15 LUFS
Normalize stereo channels independely - NIE (w przypadku, kiedy istotne jest pozycjonowanie dźwięków, w innym przypadku zalecamy użycie bodźców mono)
Treat mono as dual-mono - NIE
Normalizacja Peak
Effect > Volume And Compression > Normalize…
Remove DC offset - NIE
Normalize peak amplitude to -3 dB - TAK
Normalize stereo channels independently - NIE (jw.)
7 Limiter (konieczny przy normalizacji LUFS, zbędny przy normalizacji Peak)
Limiter nie pozwala, aby siła sygnału przekraczała ustalony próg, bez ingerencji w resztę pliku dźwiekowego. W przypadku plików dźwiękowych maksimum jest 0 dB i sygnał wykraczający poza tą wartość jest ucinany, co generuje przestery. W przypadku naszego zestawu górnym limitem jest -3dB.
Effect > Volume And Compression > Limiter…
Ustawienia:
Threshold (dB) −3
Make-up target (dB) −3
Knee width (dB) 0 dB
Lookahead (ms): 1
Release (ms): 50
8 Ponowne usunięcie przesunięcia DC
Ponowne centrowanie względem 0, po zmianach które mogła wywołać normalizacja i limiter.
Effect > Volume And Compression > Normalize… >
Remove DC offset - TAK
Normalize peak amplitude - NIE
Normalize Stereo… - NIE
9 Eksport końcowy
(Zaznaczyć wszystkie ścieżki [ctrl + a] ) > File > Export Audio.
Format - WAV (Microsoft)
Sample Rate - 44100 Hz
Encoding - signed 16-bit PCM
Export Range - Multiple Files
Name files - Using Label/Track Name