Dopóki odbiorcami napisów będą ludzie, człowiek ma pewne zajęcie

Plansza - praktyczne aspekty przekładu audiowizualnego

O napisach tworzonych metodą respeakingu z tłumaczem i respeakerem Łukaszem Dutką rozmawia Monika Szczygielska. Wywiad pochodzi z publikacji „Dostępne multimedia”.

Łukasz Dutka

Tłumacz konferencyjny i audiowizualny języka angielskiego i hiszpańskiego. Autor napisów (w tym dla niesłyszących) i list dialogowych do programów telewizyjnych. Opracowuje napisy na żywo do spektakli teatralnych. Jako respeaker i moderator zespołu Dostępni.eu pracował przy napisach na żywo do licznych wydarzeń, m.in. mszy kanonizacyjnej Jana Pawła II. Studiował lingwistykę stosowaną i filologię polską na Uniwersytecie Warszawskim. W Instytucie Lingwistyki Stosowanej UW przygotowuje rozprawę doktorską o napisach na żywo i respeakingu. Członek Laboratorium Przekładu Audiowizualnego, Stowarzyszenia Tłumaczy Audiowizualnych oraz European Society for Translation Studies.

Łukasz Dutka

Na świecie napisy na żywo poza telewizją stosowane są także podczas eventów. Czym napisy wyświetlane na sali konferencyjnej, czy w transmisji online z wydarzenia, różnią się od napisów, które oglądamy w telewizji?

Przede wszystkim formą prezentacji. Napisy telewizyjne wyświetlane są zwykle w dwóch (maksymalnie trzech) liniach, tak by zasłaniać jak najmniej obrazu. Ze względów technicznych liczba znaków w linii jest ograniczona do około 38. Napisy na żywo pojawiają się z nieznacznym opóźnieniem. Odbiorcy, czyli telewidzowie, nie mają wpływu na wygląd napisów.

W przypadku transmisji w Internecie napisy mogą pojawiać się na obrazie wideo, ale też pod nim lub obok niego. Nie ma ograniczeń technicznych, jeśli chodzi o liczbę linii lub znaków w linii. Jeśli dostawca streamingu pozwoli na to, odbiorcy mogą dopasować krój czcionki, wielkość liter, kolor tekstu i tła do swoich indywidualnych potrzeb, co znacznie poprawia komfort czytania napisów. W zależności od stosowanej technologii, transmisję można stosunkowo łatwo opóźnić o kilka sekund, by zniwelować opóźnienie napisów. Przy zachowaniu standardów osoby z wadą wzroku mogą wykorzystać programy czytające i odsłuchać napisy przy pomocy syntezatora mowy.

Podczas wydarzeń na żywo napisy wyświetlane są na miejscu na ekranie lub ekranach, tak by były widoczne dla wszystkich uczestników. Tekst jest zwykle prezentowany na kontrastowym tle (na przykład żółty tekst na czarnym tle), co ułatwia korzystanie z napisów osobom słabowidzącym. Tekst może zajmować cały ekran i być wyświetlany zdanie po zdaniu lub fraza po frazie. Napisy mogą też przypominać te telewizyjne i być prezentowane na ekranie wraz z widokiem prezentacji lub obrazem z kamery. Nieuniknione jest opóźnienie napisów. Jeśli jednak napisy są przygotowane profesjonalnie, opóźnienie jest niewielkie i nie utrudnia ich odbioru.

Jakie dodatkowe zastosowania mają napisy na żywo?

Po wydarzeniu pozostaje plik tekstowy lub tekst ze znacznikami czasowymi, czyli informacjami, kiedy dany napis powinien zostać wyświetlony i jak długo ma być prezentowany. Materiał ten może posłużyć jako transkrypcja wydarzenia albo być podstawą do opracowania protokołu spotkania lub stenogramu obrad. Zapis wideo z wydarzenia można udostępnić wraz z napisami, a cofnięcie napisów o kilka sekund to prosty technicznie zabieg, który poprawi ich synchronizację, jeśli były opóźnione. Napisy umożliwiają też przeszukiwanie nagrań po słowach-kluczach.

W Polsce napisy na żywo są tworzone metodą respeakingu z wykorzystaniem oprogramowania do rozpoznawania i przekładu mowy na tekst. Czy proces ten nie mógłby odbywać się automatycznie, bez udziału człowieka?

Dziś komputer całkiem dobrze radzi sobie z rozpoznawaniem mowy konkretnej osoby, która wypowiada się w równomiernym tempie i stara się mówić wyraźnie. Urządzenie, z którego korzystamy, analizuje głos i uczy się go „rozumieć” coraz lepiej, tworzy „profil głosowy”. Jeżeli jednocześnie dyskutowałoby 10 osób, komputer potrzebowałby 10 indywidualnych profili głosowych, musiałby także rozróżniać, kto mówi w danym momencie. Na scenę wkracza więc respeaker. Staje się on głosem innych osób, pośrednikiem, dzięki któremu system rozpoznawania mowy może bardzo dokładnie zapisać wypowiedzi wielu osób, także gdy mówią bardzo szybko, niewyraźnie lub z obcym akcentem.

Istnieją już systemy zaprojektowane do rozpoznawania wielu głosów, ale sprawdzają się one najlepiej w sytuacjach, gdy słowa i wyrażenia, które mogą być użyte przez mówców, są łatwe do przewidzenia, na przykład przy ograniczonej liczbie komend głosowych, które system ma rozpoznawać.

Czy więc w przyszłości dobrej jakości napisy będą powstawały w sposób w pełni automatyczny?

I tak, i nie. Każdy, kto miał problemy ze zrozumieniem tekstu piosenki z radia, zgodzi się, że rozumienie mowy ludzkiej nie jest łatwe. Choć systemy rozpoznawania mowy będą coraz lepsze, to w najbliższej przyszłości nie osiągną 100-procentowej dokładności. Nieodłączną cechą napisów powstających w ten sposób będzie pewna liczba błędów, a więc źle rozpoznanych słów. W niektórych zastosowaniach napisy automatyczne będą użyteczne nawet mimo tych błędów, w innych sytuacjach potrzebna będzie korekta. W obu wypadkach – dopóki odbiorcami napisów będą ludzie – będzie potrzebny człowiek, który czuwa nad powstawaniem napisów.

Dokładność przekazu i opóźnienie to podstawowe parametry, według których ocenia się napisy. Co powinien wiedzieć odbiorca napisów, by nie był rozczarowany?

Między chwilą, gdy mówca wypowiada słowo a momentem, kiedy pojawia się ono na ekranie, zachodzi cały łańcuch zdarzeń. Dlatego w napisach na żywo naturalne jest niewielkie opóźnienie. Potrzebna jest chwila, by respeaker wysłuchał fragmentu zdania i powtórzył go do mikrofonu. System komputerowy potrzebuje kolejnego ułamka sekundy, by przetworzyć mowę na tekst i przekazać dalej, a moderator musi w mgnieniu oka sprawdzić, czy tekst jest zrozumiały i czy nie zawiera rażących błędów. Jeśli niezbędna jest interwencja moderatora, kolejna sekunda mija na wprowadzaniu poprawki.

Respeakerów i moderatorów szkoli się, by reagowali niezwykle szybko, co umożliwia powstawanie napisów z nieznacznym opóźnieniem, około 6 sekund. Opóźnienie może być nieco większe. Dopóki wynosi około 10 sekund, nie przeszkadza w odbiorze wydarzenia. Pamiętajmy, że opóźnienie napisów na żywo jest ich nieodłączną cechą i samo w sobie nie stanowi problemu. O jakości napisów świadczy to, czy opóźnienie jest kontrolowane i czy nie przekracza wspomnianych wcześniej wartości.

Jak wiemy, niektórzy mówcy mają tendencję do tworzenia niekończących się zdań albo wręcz przeciwnie – co chwilę przerywają swoje wypowiedzi i nie kończą rozpoczętych myśli. Napisy na żywo mają być wiernym zapisem wypowiedzi mówcy, co nie znaczy, że muszą zawierać każdą wypowiedzianą głoskę, powtórzenie, zawahanie czy przejęzyczenie. Trzeba pamiętać o tym, by napisy służyły jak najlepiej odbiorcom, a więc żeby można było je odczytać szybko i w miarę łatwo zrozumieć. Z tego powodu respeaker stara się przekazywać wypowiedzi mówcy w komunikatywny sposób, czasem upraszczając składnię, dzieląc długie zdania na krótsze, eliminując powtórzenia i zawahania.

Dlaczego podczas tworzenia napisów na żywo potrzebna jest moderacja?

Po pierwsze, nieodłączną częścią technologii rozpoznawania mowy są błędy, czyli źle rozpoznane słowa. Żaden system nie osiąga 100-procentowej dokładności. Po drugie, komputery potrafią przełożyć mowę na tekst, ale nie są w stanie rozumieć tekstu tak jak rozumieją go ludzie. Czy rozpoznany tekst ma sens? To ocenić może tylko człowiek i w pierwszej kolejności robi to moderator. Jego zadaniem jest błyskawiczna analiza tekstu i zidentyfikowanie błędnie rozpoznanych wyrazów oraz ich korekta. W pierwszej kolejności poprawia się te błędy, które zmieniają znaczenie tekstu, wprowadzają odbiorców w błąd lub mogłyby wywołać efekt śmieszności. Większość błędów, szczególnie w języku polskim, to źle rozpoznane końcówki słów, które nie przeszkadzają w zrozumieniu tekstu.

Na świecie uważa się, że bardzo dobre napisy na żywo to takie, które osiągają dokładność powyżej 98 procent. Oznacza to, że na 100 słów dwa lub jedno zostały błędnie rozpoznane. Taki wynik dla języka polskiego można osiągnąć tylko dzięki moderacji.

Respeaking przeważnie prowadzony jest w ojczystym języku. Czy każdy może być respeakerem? Jakie trzeba mieć predyspozycje?

Respeaker może też tłumaczyć z języka obcego, a napisy na żywo mogą być również formą tłumaczenia. Niezależnie od tego, w ilu językach pracuje respeaker, bardzo ważna jest umiejętność głębokiej koncentracji i podzielność uwagi. Niezbędna jest także umiejętność radzenia sobie ze stresem i pracowania pod dużą presją czasu, bo w respeakingu liczy się każda sekunda. W rezultacie nie jest to zajęcie dla każdego. Najlepiej radzą sobie osoby o wysokich kwalifikacjach językowych, które jednocześnie wypracowały umiejętność dzielenia uwagi. Świetnymi respeakerami są tłumacze ustni, ponieważ ich praca wymaga podobnych umiejętności. Dobrze radzą sobie też osoby, które w swojej wcześniej pracy zawodowej pracowały głosem (jedną z polskich respeakerek jest aktorka) lub mają dobry słuch (np. osoby z wykształceniem muzycznym). Bez wątpienia respeaking wymaga szkolenia i wielu godzin ćwiczeń.

Fot. Magda Pawluczuk. Zdjęcie pochodzi z publikacji „Dostępne multimedia”.

Przydatne linki

Możliwość komentowania jest wyłączona