誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

2020/09/14 19:43

nikutaiha

声変換,voice

2020/09/14 21:09

gameshop-aki

山寺宏一が全部やってるんでしょ知ってる

2020/09/14 21:20

misomico

リアルタイム変換できるようになるかな

2020/09/14 22:23

asakura-t

これで『名探偵コナン』の変声機実用化に一歩前進。

2020/09/14 23:00

anmin7

回答したら「あるあるあるあるー」って観客が言ってくれるクイズ番組再現システムかな？

2020/09/15 00:08

auto_chan

マグロナ選手が可変ピッチシフト＋地声の発声で頑張っているなか（ www.youtube.com ）深層学習がゴボーヌキしていくのは「……テクノロジーッッ！！」って気持ちになる。

2020/09/15 00:16

tasknow

養成所のド新人ももはやモブ役さえなくなる日が…

2020/09/15 00:17

ScarecrowBone

急にボイスチェンジャーの特異点が来た。デモ（seiren-voice.dmv.nico

2020/09/15 01:17

kuzumimizuku

ワクワク感がヤバい。来たぜ未来！って感じがする(語彙力)

2020/09/15 01:23

maiani

近づいてきてる！！あともう一歩！って感じ。まだまだボイチェン適性高い人のバ美肉さんたちぐらいには慣れない…！

2020/09/15 01:29

wordi

「おめでとう」を変換して一人エヴァ最終回出来るやん

2020/09/15 02:41

englishmaninNY

сот

2020/09/15 02:44

soyokazeZZ

声優に対する侮辱を感じます。極めて不愉快ですね

2020/09/15 03:16

pascal256

凄いなこれ！　リアルタイム性は無いみたいだけど後で試してみよう

2020/09/15 03:17

gendou

リアルタイムならすりガラスの向こうの人遊びができたのに…（期待

2020/09/15 03:19

nakag0711

題名から連想したものとちょっと違った

2020/09/15 03:44

natu3kan

リアルタイム処理を犠牲にしたら結構違和感なくボイチェンって出来るんだな。演技力あるなら、一人の声優で男性から女性までやれるし、機械学習で口調やアクセントを学習させたら、全部サンプリングの時代が来そう。

2020/09/15 04:42

anigoka

生配信はできないけど撮り溜めならできるのね

2020/09/15 04:43

mn_kun

100人の壊れちゃーう

2020/09/15 04:53

miyaken2582

これでようやく一人でもゲームが作れるな…

2020/09/15 05:25

djsouchou

これは凄い

2020/09/15 05:55

kuzumaji

これはやゔぁい

2020/09/15 06:11

Vorspiel

面白い。反面、こういう技術が発展するとディープフェイクの問題が深刻化するんだろうな

2020/09/15 06:36

sawaglico

フェイクニュースに使われそう…

2020/09/15 06:39

bonsobito

やばいなこれ。ここまできたらリアルタイム性なんてそう遠くないだろ。声優の業界に確実にパラダイムシフト起こる

2020/09/15 06:41

Sediment

あとで

2020/09/15 06:56

pero_pero

めも/すごすぎるわ…

2020/09/15 06:57

shoot_c_na

ゆっくりボイスとか、終焉なの？あ、皆口さんの声データがほしいです

2020/09/15 07:02

t0ng

身バレが嫌で発信してなかったYouTuberが増えそうだな

2020/09/15 07:05

kijtra

オラでも野沢雅子さんになれんのか？

2020/09/15 07:28

norinorisan42

コナンくんか

2020/09/15 07:32

misarine3

なんでいっぺんに100人が喋るバカコーラスを想像したんだろう

2020/09/15 07:34

aox

他人の声になるのとボイチェンはまた別では

2020/09/15 07:43

iuhya

大塚芳忠さんの声になれるなら使ってみたい。

2020/09/15 07:51

unsoluble_sugar

すげぇ…

2020/09/15 07:54

aobon700

歌は無理っぽいのかな…

2020/09/15 07:55

otihateten3510

おーめっちゃ滑らか。リアルタイム性は一回捨てた方がいいよね。／問題は地声と乖離が大きい声への変換

2020/09/15 08:04

dame_maru

これ面白かった

2020/09/15 08:04

and_hyphen

全然関係ないのに「クイズ100人に聞きました」が浮かんでしまった

2020/09/15 08:24

k-noto3

気になる

2020/09/15 08:33

go_kuma

１人の声を１００人分に増やせるなら「ガヤ」の仕事がいらなくなるな、と思ったらそういうことじゃなかった。

2020/09/15 08:39

modal_soul

Udemy、これ搭載してほしい

2020/09/15 08:45

Helfard

この技術が発展すれば、ボイチャにまつわる多くのトラブルが避けられるようになるだろうか。

2020/09/15 08:46

ozomatli

やっと阿笠博士に近づいたか

2020/09/15 08:49

quick_past

声を分離するのが一番難しそう。

2020/09/15 09:05

bigburn

話者ごとに機械学習させると時間かかるので音素と音高だけ取り出す(個性を切り捨てる）アプローチ面白いな。しかし千葉繁氏のハイテンションは再現できなさそう

2020/09/15 09:31

mm4383

声質変換、なんとなく頭打ちになってるなーと思ってたら急に一歩前進した…ドワンゴが水面下で色々やってたのかな？

2020/09/15 09:38

blueboy

　音素の抽出をしているなら、ついでに、文字に変換すればいいのに。　音声を文字に変換する高精度なシステムができる。今の変換ソフトは、YouTube の字幕を見ても精度が低いんだから、何とかしてくれ。TV にも使える。

2020/09/15 09:48

OkadaHiroshi

素晴らしい技術だが犯罪に利用されやすそうだ。この技術を制限するのは不可能だと思うので、こういう技術があるという事を周知し起こりうる犯罪に対する注意喚起をすることが重用だ。

2020/09/15 09:49

k2wanko

hihoさんじゃん。配信でリアルタイム変換もやってたしライブでの活用も全然ありそうだ

2020/09/15 09:59

napsucks

大山ドラを復活させるニーズは・・・もうないか。10年遅かったんだ。

2020/09/15 10:12

nekotetumamori

どこが作ったのかと思ったらドワンゴか。

2020/09/15 10:20

field_combat

VSTとかにならんかな

2020/09/15 10:25

kenta555

色んな所に活用できるだどうけど、同時にディープフェイクもまた一層進化するな。映像の方もそうと言われなければ気付かないレベルまで本物ぽく作れるし。

2020/09/15 10:26

kotaponx

声紋にステガノグラフィーで電子署名を混ぜ込んどくとかすれば、権利保護や盗窃や犯罪対策になるかもね。いずれにせよ、すぐ近い将来にヒトと区別がつかないどころかヒト以上の成果物が出来るのは間違いない

2020/09/15 10:29

akahigeg

スゲーと思って自分でデモためしたら機械音声ぽくなってイマイチだった。マイクなのか声質なのか

2020/09/15 10:58

punychan

声は変わるが滑舌が変わんねー。自分の声だけど滑舌がよくなるような変換ってできないもんかねー

2020/09/15 11:08

Cryolite

映像と（声質変換した）音声をずらして latency を揃えたディレイ配信をするシステムになれば VTuber 垂涎の技術になると思っている．変換した声を実時間で自分自身にフィードバックできないので多少やりにくいけれど．

2020/09/15 11:12

vlxst1224

最終的にはイケボという概念が消失していくんだろうな。いくらいい地声を持っていてもどうせボイチェンでしょってなる。それはそれで寂しい。声「だけ」はいいというのが拙僧のアイデンティティだったのだが

2020/09/15 11:14

everybodyelse

しゅごい…えっちなやつ…作り放題やん…

2020/09/15 11:30

Ingunial

さすがに自分でエロボイス録音して使うのは抵抗があるな。。。

2020/09/15 11:48

hapilaki

しかーも、これで30年ほど前のクレアラシル・フェイスウォッシュのCMを一人でモノマネできるな。

2020/09/15 12:04

fukken

下田麻美ならひとりでできる www.nicovideo.jp

2020/09/15 12:08

maname

凄いなコレ使ってみたい

2020/09/15 12:27

sase

すごそう

2020/09/15 12:42

love0hate

事前定義の声への変換なのでVとかで使うと同じ声の人問題が発生する(それはそれで面白いかもだが)。バリエーションを増やせば一定解決するが、元の声に合わせた出力声質変化機能みたいなのがあるのが理想かもな。

2020/09/15 12:47

gcyn

すごいのねえ。

2020/09/15 13:00

sangping

n=1の街頭インタビューを「市民の声」に変換するニュースやワイドショーの話ではなかった。

2020/09/15 13:01

binbocchama

音声の証拠が偽造か否かの問題が深刻になりそうだなぁ。

2020/09/15 13:03

nakoton

声変換ぼく「あっ、あっ」

2020/09/15 13:16

mikuti2

自作でゲーム作る人が簡単にボイスつけやすくなる個人利用と、亡くなった声優の代役とかに使われるかとの商業利用と、詐欺などの犯罪利用が思い浮かんだ。

2020/09/15 13:20

kamanobe

コーラスになるのかと思ったら違った。

2020/09/15 13:26

maninthemiddle

技術的には画像にピカソ風とかのスタイル変換してたこの辺りの音声版なのかしら qiita.com

2020/09/15 13:31

iyochoo

朗読に使えそう

2020/09/15 13:33

ornith

さすがに肉声そのままとは言えないものの（だったらすごい）、想像以上に自然な「喋り」のまま変換されててすっげー！！これがリアルタイムでできるようになる日も遠くない……？

2020/09/15 13:34

spark7

フォルマントいじるよりちょっと自然になったレベルにしか思えない。これ系はみんな一緒に聞こえるな。

2020/09/15 13:36

yujimi-daifuku-2222

電脳空間のジェンダーレス化がもう一段階進みそうですね。夢のリアルタイム変換まであと少し。/女性も男性のイケボを自由に楽しめる。良いことづくめですね。

2020/09/15 13:50

nebos

おもしろーーい。中年男性だからか中年女性に変えた音声がすごく自然だった。

2020/09/15 13:53

raebchen

トーシロなのでトンチンカンなんだが、いまの時代、しゃべったことをリアルタイムに文字にできるんだから、その文字をリアルタイムに合成音声に流して変換する、ってのはダメなのか？😳

2020/09/15 14:53

knok

画像と比べると音声をクライアントサイドでリアルタイムにやるにはやっぱりまだ重いね…でもすごい

2020/09/15 16:57

karukaru7

一首百人

2020/09/15 17:34

rti7743

誰でもアニメ声を出せるようになったら楽しそう。

2020/09/15 18:08

srng

ボイスチェンジャーではなく音声認識→音声生成なので限界はある。大きな演技や歌などは不可能

2020/09/15 18:25

FlowerLounge

イナバ物置CMのアテレコをひとりで出来るね

2020/09/15 18:47

misshiki

“誰の声でも100人の声に変えられる声変換システム”Seiren Voice（AIボイスチェンジャー）の公式説明。WaveRNN

2020/09/15 19:14

MCBYND

一人で百人の複数アカウントってこと？

2020/09/15 19:27

hkanemat

声優の商売上がったりか？

2020/09/15 20:10

ayumun

ぼっちでも合唱ができる

2020/09/15 20:31

nilab

「Optunaを用いて、GPUを12枚使った実験を3ヶ月（GPU稼働時間は合計約26,000時間）行うことで、満足のいく結果を出すパラメータを見つけました」「学習率、音声長、層の数、チャンネル数、重みの初期化関数など」

2020/09/15 21:32

avictor

ボイチェンで変更した声での公衆送信は、同じ声の持ち主からの申し出があった場合は、作成時の善意悪意とわずその人から許諾を得ることを義務化しないといけない。商業利用はほぼ不可能になるが制限が必要と思う。

2020/09/15 23:37

NAT

声から声に直接変換しようとすると、変換元の声も学習する必要があるのがネック。そこで、変換元の声から音素と音高を抽出し、深層学習モデルを使って変換先の声に音声合成するという所がポイントらしい。

2020/09/16 13:55

richard_raw

やっぱり名探偵コナンを連想しますよね。

2020/09/16 15:03

quwachy

id:hkanemat 打ち込みで生演奏の需要がなくなるかと思ったけどそんなことはなかった。ただニュースの読み上げみたいなのはこれで十分だからアナウンサーの仕事はなくなるだろうね。