映像や音声を寝ている間にテキスト化する方法

  • このエントリーをはてなブックマークに追加

From:小野裕史

先日、仕事内容の話をしている時の一幕でこんなやり取りがありました。

「音声や映像の文字起こしって思いのほか時間がかかりますよね」

文字起こしとは音声や映像をテキストにする事を指しますが、確かに文字起こしって地味なうえに時間がかかるもの。

5分の音声だから、作業も5分という訳にはいかず・・・。慣れていない人だと5分の音声を30分や1時間かけて文字起こしするという事も珍しくありません。

そんな文字起こしをどうにか出来ないかと考え、ふと思ったのが「最近はAIも発達しているし、音声や映像をそのままテキストに出来るんじゃない?」ということ。

スライムひなたからの「映像や音声を流すだけで文字起こし出来ますよ」という素敵なアドバイスを基に、自分が他の作業をしている時間や寝ている間も、パソコンが勝手に文字起こしに励んでくれる方法を紹介したいと思います。

お客様の声を文字にする必要がある時や、打合せを録音していてサッと見直すために文字にしておきたい方。セミナーや対談などをコンテンツにする必要がある方はお役に立てるのではないでしょうか。

今回の検証ではMacとWinどちらでも無料で今すぐ自動入力が出来る方法を紹介していますので、文字起こしをする機会がある方は参考にしてみて下さいね。

 全自動入力ツールの精度を3つ検証

まず最初にお伝えすべき点が2つほどあります。1つは音声がクリアでないと文字にすらならない可能性があるということです。雑音や声が遠い場合などは認識をしてくれないかもしれません。

もう1つは普通に音声を流しながら音声入力しても、自動入力にはならないということ。どうすれば良いかというと「スピーカーから出る予定の出力音声をマイクの入力音声に直接流す」ことで手を動かすことなく文字起こしをすることが出来るようになります。

Macではソフトをインストールする必要があり、Winではソフトを入れることなく設定を変えることで出力音声を直接パソコン内部の入力音声に流せます。どちらも簡単に出来るのでMacWinそれぞれのやり方は最後にお伝えしますね。

ちなみにMacやWinに標準でついている音声認識は今回の方法では上手く自動入力は出来ませんでした。そのため、このやり方で出来る自動音声入力を、いくつかの自動入力ツールを使いながら検証してみました。

今回試したツールはこちらの3

IBM Watson Speech to Text
Dictanote
Google docs

そして使った映像は「楠瀬健之」公式サイトの中から比較的時間の短いこちら(時間は2分14秒)

まずは「IBM Watson Speech to Text」から見てみましょう。どの程度の精度なのかを実感して頂くためにも、ぜひ音声を聞きながら精度を確かめてみて下さい。

今回は無料で今すぐに使い始めることが出来る方法ということで、アカウントに登録をすることもなくデモ版を使用しています。そのためアカウントを登録したり、有料版ではもっと精度が高いのかもしれません。

続いて「Dictanote」はいかがでしょうか。こちらについてもアップグレードはありますが、無料でアカウント登録も必要なく使うことが出来ます。

句読点がなく読み難いですが、無料で登録も必要ないことを考えるとかなり精度は高いという印象です。映像と同じ時間で、ここまで出来るのであれば句読点を入れて整えれば割とサクッとコンテンツが出来てしまうかもしれないですね。

そして最後に個人的に本命の「Google docs」です。

こちらも句読点はありませんが、今回の無料で今すぐ使えるテストだけの個人的な印象としては「Ditcanote」よりは少し精度が高く、正確さで言えば一番ではないでしょうか。ちなみに調べるうちに分かったのは、「Dictanote」と「Google docs」はどちらもGoogleで使うことが出来ます。違いは「Dictanote」はGoole Chromeの拡張機能からのみ使用可能ということでしょうか。

せっかくなので「Google docs」から原稿を整えたのがこちら。

原稿に整えるために要した時間は20分でした。句読点をつけたり、3回聞き直しをしていることを含めると割と早く仕上がったのかなという印象です

 まとめ

今回試してみて感じたのは、無料で使うにはさすがに原稿を整える必要があるということ。あとは「Google docs」を長時間の映像や音声で使う場合、句読点がないために聞き直しながら整えるのが大変かもしれないということです。

無料で今すぐに使えるツールだけで言えば、正直なところ入力が早い人であれば映像や音声を聞きながら入力をした方が早く仕上がる可能性が高いと思います。しかし、タイピングが苦手で時間がかかってしまう人や入力は出来るだけやりたくないという人は一度使ってみる価値は十分にあるかもしれないですね。

自分の声もテキスト化することが可能なため、LPやセールスレターを自分の声からライティングする、なんてことも出来てしまうので気になった方はぜひ試してみて下さい。

PS 他にも、セールスライターの職業病を解決した記事がこちら

PPS MacとWinの出力音声を入力音声へ流す方法
Macはこちら
Winはこちら

コメントを残す