音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた

こんにちは。最近個人の趣味ブログを初めた西浦です。
新型コロナウイルス感染症の影響で急激にテレワーク需要が増えており、当社もテレワークで業務を行う機会が増えました。

遠隔でのコミュニケーション手段としてZoomやJitsiといったWEB会議システムをよく利用しているのですが、環境によっては声が聞き取りづらい場面もあり、音声を字幕表示する方法を探したところ「Speech to Text Webcam Overlay」というツールに出会いました。

今回は音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」を利用し、Zoomで字幕を表示させる手順を紹介します。

Speech to Text Webcam Overlayとは

Web Speech APIの音声認識を利用してリアルタイムに文字起こしした結果をWEBカメラに表示させることが可能です。
その映像をZoom等のWEB会議システムで画面共有するか、OBS Studioの仮想カメラで表示を切り替えることにより、字幕付きでWEB会議へ参加することができます。

Speech to Text Webcam OverlayはGitHubにApache License 2.0で公開されており、gitでcloneしてWEBサーバに公開して利用する方法もありますが、今回はより簡単に試せるよう、開発元デモサイトを使った方法で解説します。

1.Speech to Text Webcam Overlay設定

1-1.Google Chromeで以下のサイトへアクセス
※Chrome以外だと利用できません。
https://1heisuzuki.github.io/speech-to-text-webcam-overlay/

1-2.文字の調整
文字の大きさや位置、フォント、認識する言語や翻訳する言語の設定を行います。

1-3.音声認識の確認
適当にマイクに向かって喋ってみて認識するかどうか確認します。
翻訳する言語を設定している場合は、自動的の翻訳された結果が表示されます。
また、下へスクロールすると認識結果のログが表示されているので、ログをダウンロードすることもできます。

1-4.全画面表示
映像右下に全画面表示ボタンがあるので、クリックして全画面になることを確認します。

ボタンがない場合は、少し下に「全画面化ボタン 表示/非表示」のボタンがあるのでクリックすると表示されると思います。
※以後画面共有やOBSでの配信の際は全画面表示を推奨。

2.ZoomでChromeを画面共有

Zoomの画面共有機能を利用し、Google Chromeのウィンドウを共有することで字幕付きの映像を見せることができます。

画面共有は最も簡単な方法ですが、使いたくないシーンもあるので、その場合は次項で紹介するOBS Studio+プラグインの仮想カメラを使うことでWEBカメラと入れ替えることが可能です。

※多少PCのマシンリソースを食うのでご注意ください。

3.OBS Studioセットアップ

3-1.OBS Studioをダウンロードしてインストール
執筆時のバージョンは25.0.8
以下のサイトからOBS Studioをダウンロードしてインストールします。
https://obsproject.com/

3-2.OBS VirtualCamをダウンロードしてインストール
執筆時のバージョンは2.0.5
こちらのサイトからOBS VirtualCamをダウンロードしてインストールします。
https://github.com/Fenrirthviti/obs-virtual-cam/releases

3-3.OBS Studioを起動してchromeをウィンドウキャプチャする
「ソース」>「+」>「ウィンドウキャプチャ」を選択。

ソースを新規作成します。

「ウィンドウ」にて「chrome.exe」を選択し、「OK」

3-4.仮想カメラを起動
「ツール」>「VirtualCam」を起動。

「Start」を実行。

これで準備が整いました。

4. ZoomでOBSの仮想カメラを使う

Zoomを起動し、カメラデバイスの選択から「OBS-Camera」を選択するだけ。

マイクに向かって喋った言葉がリアルタイムに表示されることを確認しましょう。

まとめ

今回は音声認識によるリアルタイム字幕&翻訳が可能な『Speech to Text Webcam Overlay』を利用し、Zoomで字幕を表示させる手順を紹介しました。

OBS仮想カメラはPCリソースを食いますが、WEBカメラが使えるWEB会議システムであればデバイスを変更するだけで簡単に使えるのでおすすめです。
稀にわけのわからない誤変換が起きますが、それはそれで場を和ませてくれます。
字幕は視覚的にわかりやすいだけでなく翻訳までできてしまうので、色んな使いみちがありそうですね。

お試しあれ!

返信を残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA