Preorder drugiego tomu książki sekuraka: Wprowadzenie do bezpieczeństwa IT. -15% z kodem: sekurak-book

VALL-E – Microsoft zaprezentował projekt, który wypowie Twoim głosem cokolwiek. Mając zaledwie kilkusekundowe nagranie Twojego głosu. Zobacz demo.

12 stycznia 2023, 10:48 | W biegu | komentarzy 11

Jeśli chcecie zobaczyć demo – zapraszam tutaj. W pierwszej kolumnie macie nagranie paru sekund głosu prawdziwej osoby (losowa wypowiedziana fraza). W kolumnie VALL-E jest wpisana z klawiatury fraza, którą wypowiada AI – głosem nagranej osoby:

Z ciekawostek, system potrafi też wygenerować głos nacechowany pewnymi emocjami / cechami: np. złość, zdegustowanie, rozbawienie, zaspanie (badacze określają to jako „zachowanie w wymowie emocji mówcy”).

TLDR projektu:

Na etapie przedtreningowym umieszczamy w AI dane treningowe – do 60 000 godzin angielskiej mowy, czyli setki razy więcej niż istniejące systemy. VALL-E (…) może być używany do syntezy wysokiej jakości spersonalizowanej mowy z zaledwie 3-sekundowym zarejestrowanym nagraniem mówcy. Wyniki eksperymentów pokazują, że VALL-E znacznie przewyższa najnowocześniejsze systemy tego typu, pod względem naturalności mowy i podobieństwa mówców. Ponadto stwierdziliśmy, że VALL-E może zachować w syntezie emocje mówcy oraz środowisko akustyczne.

During the pre-training stage, we scale up the TTS training data to 60K hours of English speech which is hundreds of times larger than existing systems. VALL-E emerges in-context learning capabilities and can be used to synthesize high-quality personalized speech with only a 3-second enrolled recording of an unseen speaker as an acoustic prompt. Experiment results show that VALL-E significantly outperforms the state-of-the-art zero-shot TTS system in terms of speech naturalness and speaker similarity. In addition, we find VALL-E could preserve the speaker’s emotion and acoustic environment of the acoustic prompt in synthesis.

Wskazane są też zastrzeżenia natury etycznej:

Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agree to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model.

Rzeczywiście, istnieje możliwość wykorzystania tego typu narzędzi np. do ataków głosowych – choćby podszywających się pod głos prezesa: Sklonowali głos prezesa (deep fake). I przekonali pracowników żeby zlecili przelewy na równowartość przeszło 100 milionów PLN

~Michał Sajdak

Spodobał Ci się wpis? Podziel się nim ze znajomymi:



Komentarze

  1. wgu

    Sami Chinczycy sa autorami.. niedobrze

    Odpowiedz
  2. Tym

    Od jakiegoś czasu odbierając telefony z nieznanych mi wcześniej numerów najpierw czekam aż ktoś się odezwie zanim odezwe się ja – jeśli w ogóle ;)
    To teraz wystarczy jakaś baza z danymi i numerami telefonów + bot dzwoniący pod nie i mamy piękna bazę ludzkich głosów… Także tego 😄

    Odpowiedz
  3. M.

    Będą ataki „na wnuczka” z głosem wnuczka.

    Odpowiedz
  4. yeti

    czasem trudno uwierzyć w to, co się widzi , odtąd już nigdy nie będzie można uwierzyć w to co się słyszy

    Odpowiedz
  5. Arkadio

    No to teraz Makaron zadzwoni do dudusia i nasze służby się nie połapią i duduś poodwala jakieś super wtopy.

    Odpowiedz
  6. qq

    psia d*pa…i wszystkie podsłuchy można między bajki włożyć ;)

    Odpowiedz
  7. Krzysztof

    Zastanawia mnie dlaczego te wszystkie opublikowane próbki są tak niskiej jakości.
    Czyżby przy wyższej jakości było słychać większe różnice między oryginałem a wygenerowanym głosem i dlatego to jeszcze ukrywają?

    Odpowiedz
    • wk

      @Krzysztof

      Nawet na pewno, kompresja ścina niektóre cechy dźwięku i da się zatrzeć różnice

      Odpowiedz
  8. Luss

    Fatalna wiadomość, 90% użycia tego narzędzia to będą nadużycia.
    Strach wyobrażać sobie konsekwencje czegoś takiego. Gdyby to działało po polsku to od razu mamy trolli „przebierających” się za osoby np z rządu , wypowiadających się w kontrowersyjny sposób.

    Odpowiedz
  9. Fajne rozwiązanie, które będziemy mogli wykorzystać w firmie. Z jednej strony duże możliwości, a z drugiej ryzyko użycia głosu w nieautoryzowany sposób.

    Odpowiedz
  10. Przypomina się od razu Kevin McCalister jak zamawiał hotel w NYC udając swojego ojca :)

    Odpowiedz

Odpowiedz