インタビュー

活動支援生インタビュー Vol.56 木村 直紀「口パクの動きでコンピュータと対話する、無声発話インタフェースが未来を変える」

クマ財団では、プロジェクトベースの助成金「活動支援事業」を通じて多種多様な若手クリエイターへの継続支援・応援に努めています。このインタビューシリーズでは、その活動支援生がどんな想いやメッセージを持って創作活動に打ち込んでいるのか。不透明な時代の中でも、実直に向き合う若きクリエイターの姿を伝えます。

活動支援生インタビューシリーズについての記事はこちらから。
活動支援生インタビュー、はじめます!


Naoki Kimura |木村 直紀

従来コンピュータの文字入力は、キーボードやタッチパネルを使うものだったが、近年は音声入力や手に装着したモーションセンサーによる入力など、物理的な制約のない入力方法の開発が進んでいる。これは単純に便利になるだけでなく、人間とコンピュータの垣根を取り払う試みとは言えないだろうか。ヒューマン・コンピュータ・インタラクションを専門とする木村直紀が研究するのは、まさに言語モデルAIに最速でアクセスするための未来の入力方法だ。口パクからワードを認識するサイレントスピーチ・インタフェースとは?

インタビュアー・ライター:大寺 明

口パクから言葉を認識する未来のインタフェース

――2018年から口パクの動きでワードを認識する「サイレントスピーチ・インタフェース」を研究されていますが、超音波エコー映像を用いたアイデアで論文を発表されています。どんな発想から生まれたものなんでしょうか?

木村:私がサイレントスピーチを入力手法として思いついたのは、スマホの入力にフラストレーションを感じていたからです。ポケットからスマホを出して認証し、アプリを開いてやっと入力できるわけですが、思いついてから実行するまで15秒くらいかかります。それがすごく面倒に感じていて、日常の動作を妨げずに常にアクセスできる方法を考えていったところ、サイレントスピーチに至りました。

――2018年に論文を発表した『SottoVoce』は、超音波エコー映像を用いたサイレントスピーチのアイデアでしたが、他にはどんなアイデアがあったのですか?

木村:最初は手を動かしてキーボード入力するのではなく、手を力ませるだけで入力する方法を考えていました。力む時に筋肉から発せられる電気信号を読み取るというもので、試しに耳を動かす筋肉、耳介筋で作ってみました。私は耳を左右別々に動かせるので、それで4入力できます。しかし耳を動かせない人は、どれだけ訓練しても動かせないことがわかり、ピボットしました。

その次は、友人の医者に聞いて括約筋インタフェースなんかも考えました。括約筋は肛門の開け閉めなどに使われる筋肉ですが、人間の多くの日常動作とバッティングしませんよね。トイレ以外は……。結局括約筋の電気信号だけを取得する方法が思いあたらずこれもピボットしました。この様に、いろいろ模索しているうちに超音波エコー映像+サイレントスピーチに行きつきました。

――超音波エコー映像を用いた『SottoVoce』の仕組みを教えてください。

木村:超音波エコー映像は、妊婦さんの胎内の赤ちゃんを見る検査などで使われるもので、非侵襲ながら安全に体内の様子がかなり詳細に見えるという特性があります。超音波エコーを顎から口蓋に向かって当てることで、舌の動きを含む、口腔内の調音運動を取得できます。その情報から発話内容を認識してスピーカーから音声が流れる様にしたのが、『SottoVoce』です。

――それが実用化されたら、どんなことが可能になりますか?

木村:声によるコミュニケーションは、様々な問題が発生します。工事現場のようなうるさい場所だと声が届きにくく、逆に静かな場所で声を出すと周りの迷惑になってしまう。それがプライバシーに関することであれば、迷惑だけでなくセキュリティの問題になります。サイレントスピーチの場合、うるさい場所でもコミュニケーションが取れるので安全対策になりますし、静かな場所でも安心して意図を伝えることができます。

私が最も達成したいことは、これをインタフェースとして使い、コンピュータへのアクセス時間を限りなく短くすることです。例えばChatGPTにアクセスしようと思ったら、ポケットからスマホを出して、ChatGPTを開くまでに15秒ほどかかりますが、あらかじめChatGPTに話しかける様に予約しておけば、一瞬でアクセスできる様になります。

――それが実現したら、誰にもさとられずにChatGPTに答えを聞けますね。

木村:ど忘れしたことを思い出すにしても、暗算するにしても10秒くらいかかるものですが、サイレントスピーチ・インタフェースと言語モデルがあれば、自分の脳にアクセスするのと同じくらいの速さでコンピュータにアクセスできると考えています。自分の脳に言語モデルを外付けするようなイメージです。

――人とのコミュニケーションで使うとしたら、どんな使用法が考えられますか?

木村:対人コミュニケーションは、すごく楽になると思います。サイレントスピーチは「デジタルボイス」なので、自由に加工ができます。普通の声の場合、音量を調整するくらいしかできませんが、DiscordやZoomでは音声がデジタル情報になっているので、特定の人の声をミュートにしたり、ボリュームを上げたりできますよね。それと同じ様に自由に音を調整して伝達することができると思います。

サイレントスピーチは直後に文字に起こされるので、文字で伝達することもできますが、イヤホンで音声を聞くほうが現実的だと思っています。再生される音声は、自分っぽい声でも良いですし、自分が理想とする声に変換して再生しても良いと思います。

――手術で声帯を失った人や高齢で声を出しにくい人の声としても活用できそうですね。

木村:実際、展示するたびにそうした使い方のお問い合わせがよくあるので、一番社会実装に近いニーズかもしれません。

――どの程度、口パクからワードを認識できるものなんでしょうか?

木村:『SottoVoce』に関しては、10フレーズくらいです。言葉として認識するには、機械学習がベースになるので、まず学習用のデータセットを用意する必要があります。例えば、「今日は良い天気ですね」「今日は良い天気ですね」という風に同じフレーズを大量に録音したデータセットをコンピュータに学習させると、10~20くらいまでは分類できます。しかし、語彙ををそれ以上増やすと、途端に分類が難しくなってしまいました。

同時期に出された他のサイレントスピーチの研究も同程度の認識数でした。認識できる語彙数と精度が足りないことが、サイレントスピーチ研究のボトルネックなんです。

言語モデルに最速でアクセスする方法とは

――2018年から現在に至るまで、一貫してサイレントスピーチの研究を続けていますが、ターニングポイントになるような出来事はありましたか?

木村:東京大学大学院の暦本研究室に在籍していた時に『SottoVoce』を研究していたのですが、その時は後期博士課程に進むかは決めていませんでした。

『SottoVoce』の論文を深夜まで執筆してCHI2019(競争率が高く通すのが難しい学会)に投稿し終えた時、なぜか通るという確信と、「これは影響力のある論文になる」と感じて進学を決めました。今思えば連日の深夜作業でハイになっていたんですね。

その後は、特に理由もなくアメリカで研究してみたい、ちょっと気分を変えたいというのもあり、暦本先生と交流があったジョージア工科大学の研究室でサイレントスピーチを研究することにしました。

――アメリカでの研究というのは、もしやクリエイター奨学生の第3期生だった頃ですか?

木村:そうです。なんとかしてアメリカで研究がしたかったのですが、奨学金は比較的自由度のある資金で研究にも生活にも大きな助けになりました。

――ジョージア工科大学では、どんな研究をされていましたか?

木村:もともとジョージア工科大学の研究室でもサイレントスピーチの研究をしていて、発音の矯正に使われるマウスピース型センサを応用した実験的プロジェクトがありました。私がそれを引き継ぎ、より強力なシステムに発展させる研究をしていました

それが、今も研究を続けている『SilentSpeller』です。

 

 

――超音波エコー映像を使った『SottoVoce』とは違い、『SilentSpeller』はマウスピース型センサーを口に入れる方法ですが、どちらの方が精度が高いですか?

木村:『SilentSpeller』の方が高いです。超音波エコー映像の方が情報としてはリッチなので『SottoVoce』の方が上手くいきそうなものですが、超音波エコー映像にはセッションの依存性が強く出ます。

顎の下から超音波プローブを当てる時、なるべく同じ位置に設定したいのですが、付け外しするたびに少しずつズレます。また、顎の下は皮下脂肪がつく場所なので、時間と共に自然とデータの特性が変わります。それに対し、マウスピース型センサは自分の歯型をもとに作るので、どれだけ付け外しをしても常にフィットします。私が使っているセンサーは4年ほど経ちますが、データの特性はほぼ変わりません。

大量のボキャブラリーを認識するには、大きなデータセットが必要になり、データの分布が変わらないことは重要です。結果的にデータが変わらない『SilentSpeller』の方が精度は高くなります。認識対象が違うので単純比較はできませんが『SottoVoce』が10フレーズほどだったのに対し、『SilentSpeller』は1164ワードの認識が可能になっています。

――1164ワードの認識できると、どんな使い方が可能になるんでしょうか?

木村:例えばAlexaやSiriに入力するフレーズはある程度って決まってますよね。大量のコマンドを含めても1164ワードには届かないので、固有名詞以外はある程度カバーできそうです。ただし、言語モデルや人とコミュニケーションを取るには、まったく足りません。

――現在は『SilentSpeller』のどういった点を改善していますか?

木村:ジョージア工科大学での研究としては、2022年に『SilentSpeller』の論文を出版したところで終了しました。現在の焦点は『SilentSpeller』をサイレントスピーチに適したデザインに改良することを考えています。現状では、口から大量の電線が出ている状態なので、実際に使うには受け入れがたいですから。

――サイレントスピーチを研究するにおいて、他にはどんな課題がありますか?

木村:技術的な課題はたくさんあるのですが、それ以上にサイレントスピーチを研究する場自体が限られていることが課題です。

例えばこれが核融合の研究だったら、国の安全保障・経済成長に直結すると誰が見てもわかりやすいので、支援も得られやすい(それはそれで違う性格の戦いがあります)。しかし、サイレントスピーチ・インタフェースは、ドラえもんの道具のようなもので、「あったらいいな」と思われますが、「ないと死ぬ」といった類いのものでもない。フロンティア領域の研究や、奨学金で支援されているアートは共通して、「なくても死なないけど、あったら嬉しい」ものをやり続けられる場を確保できるかという戦いを共有しているのではないでしょうか。

――最後にヒューマン・コンピュータ・インタラクションの専門家として、どんな未来像を思い描いていますか?

木村:大規模言語モデルを中心としたコンピューティングになっていくと個人的には思います。ということは言語がその中心に来るのであり、キーボードやスマホに変わって言語を高速で入力する手段が生産性に直結するということになります。

それはサイレントスピーチ・インタフェースかもしれないし、手に装着したモーションセンサで、どこでもタイピングできる入力方法かもしれません。あるいは、言語による入力方法ですらないのかもしれない。例えば、目の動きをセンサーが読み取る方法かもしれないし、脳にチップを埋め込む方法かもしれないですよね。

私自身もサイレントスピーチ・インタフェースより最適な方法が見つかったら、研究対象を変更する可能性があります。でも、今のところ口以外に最適な方法はないと思っています。

――本日はありがとうございました。『SilentSpeller』が実現される日を楽しみにしています!


木村 直紀
リサーチャー。 専門はHCI(ヒューマン・コンピュータ・インタラクション)。サイレントスピーチインタフェース開発により、コンピュータへのアクセスを限りなく容易にし、人工知能による人間の知的能力拡張を目指す。
X (旧 twitter) | https://twitter.com/kiiim_

ご質問は下記のフォームより
お問い合わせください。