目次
ごあいさつ
こんばんは。ひっそりSAAを取ったもに倉(自慢げ)です。
SAAってなに? という方はこちら↓
【激ムズ...?】AWS認定資格の概要
今回は、Internet surfingしているときに偶然見つけた 音声をテキストに
自動的に変換してくれるAWSのサービス、Amazon Transcribeを触ってみた感想記事です。
Amazon Transcribeってどんなの?
Amazon Transcribe を使用すると、デベロッパーは音声をテキストに変換する機能をアプリケーションに簡単に追加できます。
Amazon Transcribe は、自動音声認識 (ASR、automatic speech recognition) と呼ばれる深層学習プロセスを使って迅速かつ高精度に音声をテキストに変換します。
つまり、音声をテキストに自動で変換してくれるサービスということですね。
ファイル形式はMP3、MP4、Ogg、WebM、AMR、またはWAV
長さは4時間未満、サイズは2GB未満
上記の形式であればOKで、動画ファイルをわざわざ音声ファイルにしなくてもいいのがお手軽です。
二年ほど前に日本語対応したらしく、「試してみた」系のブログがちょこちょこありました。
見たところ、「若干精度は低いけど使えないほどでもない」みたいな感想多め。
もに倉の所感
ここまで調べて私は思いました。
「うわ! 超面白そうじゃん!」
「……でも、なにに使うんだ?」
想像力の足りないもに倉には、あまり使い道が思いつきません!
遊びにならかなり使えそうな気がしましたが、
なにかの効率化とか……、かっこいい使い方……
すぐ見つかった
※弊社のリクルート用サイトの中の「先輩の声」ページ
使い方……
※上記ページ内の「ITゼミナール 2.IT業界の業種や職種」
こ、これだ……。
YouTubeの自動生成字幕って、微妙ですよね。
でも、自分で字幕を入れるのも面倒くさい。
なら、「若干精度は低いけど使えないほどでもない」らしいAmazon Transcribeに
音声(または動画)から文字起こししてもらったものを手直しする形で字幕を作れば楽ができるのでは?
多分、YouTubeの自動生成よりも精度は高いだろうし、※知らんけど
そういうかんじでとりあえず触ってみよう!
これが上手くいったらリクルート関係の動画に字幕を付けるのを提案してもいいかもしれないし!
実際に使用してみる
そうと決まったら善は急げです。
さっそく同期のおくはる(上記動画の人)に「ITゼミナール 2.IT業界の業種や職種」の
録画風景の動画を譲っていただき、まずS3にぶち込みます。
Amazon Transcribeは、S3に保存してある音声・動画ファイルを読み込んで文字起こししてくれるみたいです。
(リアルタイム文字起こしもできて、そっちはS3を使いません)
続けて、Amazon Transcribeでjobを作成します。
残念ながらコンソール画面は日本語対応しておらず……。
英語がまったくわからない私ですが、基本的にはデフォルト設定で問題ないらしいとの
ことだったので、デフォルト設定で駆け抜けます。Languageを日本語にするのだけは忘れずに!
これが
↓
こうなればOKです。
動画の尺が大体11分で、文字起こしが完了するまでが2分くらいだったので、めちゃくちゃはやいですね。
ばっちりできています。
冒頭は小声の雑談が入っているのでとんでもないことになっていますが……。
こんなかんじになりました(一部抜粋)
すっぴん↓
次に 職種 を 紹介 し、 ます あい 業界 の 職種 は この よう に 多岐 に 渡り ます 先 ほど の 図 の の エッセイ 業界 が 情報 産業 の 中心 と なり ます ので ここ で 中心 と なる 相手 スキル として は プログラミング スキル が ベース に なり ます ここ に インターネット 関連 に 必要 と なる ウェブ 関連 の スキル また 通信 関連 の ネットワ キング スキル が 付随 し て くる 形 が 基本 に なる の か な と 思い ます なので プログラマ が 一番 潰し が 聞く の は 事実 です ちなみに 私 は 営業 志望 ながら インフラ エンジニア の 部門 に 属し て い て 営業 ノウハウ のみ なら ず エンジニア スキル も 合わせ て 学ん で い! ます 先輩 営業 も 他 の 業界 と 違っ て エンジニア ガレ の 営業 さん が 結構 い ます なので 特に 和 の トレンド 情報 や 実態 について 幅広い 知見 を 持っ た 方 が 多い ので エンジニア より も 愛 と 知識 を 豊富 な 営業 さん も いっぱい い ます
すっぴんの状態では尋常でない数の半角スペースが入っているので、
それを取り除いて、いいかんじに改行だけしたもの↓
次に職種を紹介し、ますあい業界の職種はこのように多岐に渡ります
先ほどの図ののエッセイ業界が情報産業の中心となりますのでここで中心となる相手スキルとしては
プログラミングスキルがベースになりますここにインターネット関連に必要となるウェブ関連のスキル
また通信関連のネットワキングスキルが付随してくる形が基本になるのかなと思います
なのでプログラマが一番潰しが聞くのは事実です
ちなみに私は営業志望ながらインフラエンジニアの部門に属していて
営業ノウハウのみならずエンジニアスキルも合わせて学んでい!ます
先輩営業も他の業界と違ってエンジニアガレの営業さんが結構います
なので特に和のトレンド情報や実態について幅広い知見を持った方が多いので
エンジニアよりも愛と知識を豊富な営業さんもいっぱいいます
↑をもとに、動画を聞いて人力で手直ししたもの↓
次に、職種を紹介します。IT業界の職種はこのように多岐に渡ります。
先ほどの図のCのSI業界が情報産業の中心となりますので、ここで中心となるITスキルとしては、
プログラミングスキルがベースになります。ここにインターネット関連に必要となるウェブ関連のスキル、
また通信関連のネットワーキングスキルが付随してくる形が基本になるのかなと思います。
なので、プログラマが一番潰しが聞くのは事実です。
ちなみに、私は営業志望ながらインフラエンジニアの部門に属していて、
営業ノウハウのみならずエンジニアスキルも合わせて学んでいます。
先輩営業も他の業界と違って、エンジニアあがりの営業さんが結構います。
なので、特にITのトレンド情報や実態について幅広い知見を持った方が多いので、
エンジニアよりもIT知識の豊富な営業さんもいっぱいいます。
手直し作業について
私は思いました。すごくない……? と。
上記以外の部分も結構正確で、手直しする部分は思っている以上に少なかったです。
以下は手直しが必要だったところ↓
ぼそぼそ話しているところ
これはどんな自動文字起こしツールでもダメになるところですね。
今回使用した動画は、はきはきとした発声で原稿を読んでいる箇所と
日常会話チックな箇所の2パターンあり、日常会話パートは壊滅的な出来栄えでした。
ただ、できてなくはない……というかんじなので、もしかしたら
ぼそぼそ会話も読み取れる日が来るかもしれませんね。
句読点
こればっかりは仕方がないとは思いますが、句読点は9割人力入力となります。
たま~に自動で入っているのですが、
次に職種を紹介し、ます ←「ます」で文節切ってるのかな?
合わせて学んでい!ます ←この「!」マークはなに?
こんなかんじなので使い物になりません。
伸ばし棒(ー)
なぜだか「サービス」が「サビス」になっていることが多々。
AIが噛んでいるなら気を利かせて「サービス」にしてくれてもいいのに……。
アルファベット
例えば、「A(エー)」とか「B(ビー)」、それから、この動画に頻出する「IT(アイティー)」などは、
ほとんどがそもそも認識されておらずその部分がすっぽり抜けていたり、
不思議な読み取られ方をしていたりします。
以下一例
正しい文章 | Transcribeの文章 |
---|---|
SaaS(エスエーエーエス)、サーズをご覧ください | え?すえすさ図をご覧ください |
IoTなど先端的なサービスが | 秋穂など先端的なサービスが |
ITスキルとしては | 相手スキルとしては |
システムエンジニア、いわゆるSEや | システムエンジニアいわゆるや |
感想
思っている以上に精度が高い。
感想はこれに尽きます。変になっているところも、大体パッと見たらなにと間違っているかわかります。
ちょっとS3にファイルを保存してちょっとボタンを押すだけでできる手軽さもGOODです。
しかし……
面白すぎる
誤変換、聞き間違い……全部面白すぎるのが難点です。
エンジニアよりも愛と知識を豊富な営業さんもいっぱいいます
(正:エンジニアよりもIT知識の豊富な営業さんもいっぱいいます)
次回は現在の愛業界の就職事情についてお話しいたします
(正:次回は現在のIT業界の就職事情についてお話しいたします)
とか、もうダメ。愛業界、気になりすぎる。自分のツボが浅いのもありますが。
手直し作業中は思いがけないところで横から殴られ続けます。
これのせいで手直しには若干時間がかかりました。
結論
原稿を読みながらはきはきしゃべっている音声を文字起こししたい! ということなら、
まずまずの精度・迅速に文字起こししてくれる・安い
という利点があるので、Amazon Transcribeを使うのは大いにアリだと感じました。
興味がある方はちょろっとでも試しに触ってみてください!
たまごのひび割れから身が見え始めたエンジニア。