VALL-E – Microsoft zaprezentował projekt, który wypowie Twoim głosem cokolwiek. Mając zaledwie kilkusekundowe nagranie Twojego głosu. Zobacz demo.

12 stycznia 2023, 10:48 | W biegu | komentarzy 11

Jeśli chcecie zobaczyć demo – zapraszam tutaj. W pierwszej kolumnie macie nagranie paru sekund głosu prawdziwej osoby (losowa wypowiedziana fraza). W kolumnie VALL-E jest wpisana z klawiatury fraza, którą wypowiada AI – głosem nagranej osoby:

Z ciekawostek, system potrafi też wygenerować głos nacechowany pewnymi emocjami / cechami: np. złość, zdegustowanie, rozbawienie, zaspanie (badacze określają to jako „zachowanie w wymowie emocji mówcy”).

TLDR projektu:

Na etapie przedtreningowym umieszczamy w AI dane treningowe – do 60 000 godzin angielskiej mowy, czyli setki razy więcej niż istniejące systemy. VALL-E (…) może być używany do syntezy wysokiej jakości spersonalizowanej mowy z zaledwie 3-sekundowym zarejestrowanym nagraniem mówcy. Wyniki eksperymentów pokazują, że VALL-E znacznie przewyższa najnowocześniejsze systemy tego typu, pod względem naturalności mowy i podobieństwa mówców. Ponadto stwierdziliśmy, że VALL-E może zachować w syntezie emocje mówcy oraz środowisko akustyczne.

During the pre-training stage, we scale up the TTS training data to 60K hours of English speech which is hundreds of times larger than existing systems. VALL-E emerges in-context learning capabilities and can be used to synthesize high-quality personalized speech with only a 3-second enrolled recording of an unseen speaker as an acoustic prompt. Experiment results show that VALL-E significantly outperforms the state-of-the-art zero-shot TTS system in terms of speech naturalness and speaker similarity. In addition, we find VALL-E could preserve the speaker’s emotion and acoustic environment of the acoustic prompt in synthesis.

Wskazane są też zastrzeżenia natury etycznej:

Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agree to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model.

Rzeczywiście, istnieje możliwość wykorzystania tego typu narzędzi np. do ataków głosowych – choćby podszywających się pod głos prezesa: Sklonowali głos prezesa (deep fake). I przekonali pracowników żeby zlecili przelewy na równowartość przeszło 100 milionów PLN

~Michał Sajdak

Komentarze

wgu

12 stycznia, 2023 | 11:00 am

Sami Chinczycy sa autorami.. niedobrze

Odpowiedz
Tym

12 stycznia, 2023 | 3:17 pm

Od jakiegoś czasu odbierając telefony z nieznanych mi wcześniej numerów najpierw czekam aż ktoś się odezwie zanim odezwe się ja – jeśli w ogóle ;)
To teraz wystarczy jakaś baza z danymi i numerami telefonów + bot dzwoniący pod nie i mamy piękna bazę ludzkich głosów… Także tego 😄

Odpowiedz
M.

12 stycznia, 2023 | 7:33 pm

Będą ataki „na wnuczka” z głosem wnuczka.

Odpowiedz
yeti

12 stycznia, 2023 | 11:05 pm

czasem trudno uwierzyć w to, co się widzi , odtąd już nigdy nie będzie można uwierzyć w to co się słyszy

Odpowiedz
Arkadio

13 stycznia, 2023 | 6:13 am

No to teraz Makaron zadzwoni do dudusia i nasze służby się nie połapią i duduś poodwala jakieś super wtopy.

Odpowiedz
qq

13 stycznia, 2023 | 7:38 am

psia d*pa…i wszystkie podsłuchy można między bajki włożyć ;)

Odpowiedz
Krzysztof

13 stycznia, 2023 | 9:14 am

Zastanawia mnie dlaczego te wszystkie opublikowane próbki są tak niskiej jakości.
Czyżby przy wyższej jakości było słychać większe różnice między oryginałem a wygenerowanym głosem i dlatego to jeszcze ukrywają?

Odpowiedz
- wk
  
  13 stycznia, 2023 | 11:48 am
  
  @Krzysztof
  
  Nawet na pewno, kompresja ścina niektóre cechy dźwięku i da się zatrzeć różnice
  
  Odpowiedz
Luss

13 stycznia, 2023 | 11:20 am

Fatalna wiadomość, 90% użycia tego narzędzia to będą nadużycia.
Strach wyobrażać sobie konsekwencje czegoś takiego. Gdyby to działało po polsku to od razu mamy trolli „przebierających” się za osoby np z rządu , wypowiadających się w kontrowersyjny sposób.

Odpowiedz
Planowanie Imprez

14 stycznia, 2023 | 8:51 am

Fajne rozwiązanie, które będziemy mogli wykorzystać w firmie. Z jednej strony duże możliwości, a z drugiej ryzyko użycia głosu w nieautoryzowany sposób.

Odpowiedz
Michał

14 stycznia, 2023 | 1:04 pm

Przypomina się od razu Kevin McCalister jak zamawiał hotel w NYC udając swojego ojca :)

Odpowiedz

Jak działa skuteczny SOC?

VALL-E – Microsoft zaprezentował projekt, który wypowie Twoim głosem cokolwiek. Mając zaledwie kilkusekundowe nagranie Twojego głosu. Zobacz demo.

Spodobał Ci się wpis? Podziel się nim ze znajomymi:

Komentarze

Odpowiedz