Dziękujemy za wsparcie

PARP Logo

Imitator głosu - DEEPFAKE. Synteza mowy w języku polskim przy pomocy konwolucyjnych sieci neuronowych

Program pozwala na generowanie (imitację) mowy wybranej osoby (spersonalizowany syntezator mowy). System bazuje na głębokich splotowych sieci neuronowych (CNN), zajmujących się przetwarzaniem sekwencyjnych danych w postaci mowy. Synteza sekwencji oparta na CNN jest znacznie szybsza niż synteza oparta na rekurencyjnych sieciach neuronowych. Do wyszkolenia sieci przygotowano polskojęzyczną bazę ponad 12 tysięcy par tekst - dźwięk, o łącznym czasie trwania prawie 20 godzin. Posłużyło to do wytrenowania sieci neuronowej - program nauczył się brzmienia mojego głosu i może posłużyć do wypowiadania dowolnych kwestii dowolnym głosem. Wygenerowany głos jest następnie przetwarzany przez filtry cyfrowe. Uzyskany efekt jest bardziej naturalny niż w przypadku syntezatorów mowy typu Ivona.

Okazało się, że dość dobre wyniki możemy uzyskać już przy łącznie 2-3h nagranej mowy. System zostanie zaimplementowany w projekcie syntezatora osób zmarłych i posłuży w przyszłości do wizualizacji tych osób na podstawie nagrań pochodzących np. z kaset VHS.

  • Imitator głosu - DEEPFAKE. Synteza mowy w języku polskim przy pomocy konwolucyjnych sieci neuronowych