読唇AI
「映像の世紀」結構小さい頃に見てました。なんとなく好きな番組。
「バタフライエフェクト」になってからも見続けてます。若干マンネリしてきた感もあるけど、興味深い。
先日のテーマは「映像の世紀 X AI」と題して、ヒトラーの日常を映像で追う。
残されたフィルムや動画に映る人物をAI(真偽判定)でトレースして、ヒトラーの周辺にいた人々の関与を洗い出していくのは、技術的にはまあできるわな、と思っていましたが、なるほど!と感じたのは読唇。
あの時代ですからね、動画があっても音声がなかったりする。
読唇術の専門家が読み取れる部分もあるけど、全部は無理、という点に対して、AI(機械学習)を使って解析にトライしていました。
ヒトラーの演説や会話だけだと学習材料が限られるので、ドイツ語を話している他の動画も使ったり、ヒトラーの演説原稿を学ばせて特徴を理解させたり。それでも足りないからと、他の人のドイツ語発声も材料にしていました。「学習させる」の意味がよく理解できます。
解析対象である会話の中のヒトラー全てが正面を向いているわけではないので、現時点、まだ精度は低いようですが、こりゃすごい研究だ。
音が取れなくても分かるわけですからね。相手に気づかれず会話を探るスパイ活動や犯罪防止とかはありそうだし、周囲に関係なく会話できるという意味で、騒音の中や声出しちゃいけないところでのコミュニケーションの形も変わったりして。
読唇回避で腹話術とかが流行!とか・・。
なにより、この技術を研究しているのが北九大ってところが素晴らしい!地元として応援します。