Google音声認識を試してみたら、なかなか実力が素晴らしい

2019/05/05

知人からGoogleの音声認識はかなり使えると聞いたので試してみました。
実際やってみたら、なかなか凄かったのでご紹介します。

題材として、ホリエモンロケットの打ち上げ成功のニュースを取り上げてみます。
こちらの新聞記事(以下写真)をマイクに向かってを読み上げてみました。

 

さてその結果は?

まず結果から先にご紹介いたします。
以下がGoogleが音声認識してくれた文章です(全文は長いので冒頭の数ブロックだけにしました)。
【日本経済新聞 令和元年5月5日朝刊より】

ロケット開発スタートアップのインターステラテクノロジーズは4日小型の観測ロケット MOMO 3号機の打ち上げに成功した。日本で民間企業が単独開発したロケットが宇宙空間に達するのは初めてでこれまで国主導で進めてきた。日本のロケット開発に風穴を開けたただ民間開発は米中税が先行しており国内勢による商用化には開発や資金面の課題がある。

ist は同日午前5時45分に北海道大樹町の発車はから打ち上げた4分後に最高速度113 km の宇宙空間に届き計画通り太平洋沖に落下した。ロケットの全長は10 M で重さは約1と16などを測定するに10 kg の実験機器をのせている。同社は実業家の堀江貴文らが出資し2013年に設立し約20人でロケット開発を進めてきた。17年に MOMO 初号機18年には同2号機を打ち上げたが失敗した。今回も不具合が見つかり当社の予定日だった4月30日は発射を延期し強風での見送りも続いた。

 

句読点や改行は音声入力できないようなので、見みやすさのため、そこだけ編集を加えました。
それ以外の校正箇所は、あえてそのままにしています(と言っても2箇所くらい)。

さて凄いと思うのは、固有名詞がしっかり文字変換されている点です。
「MOMO三号機」とか、ホリエモンさんの本名の「堀江貴文」さんとか。
また地名の「北海道大樹町」も正確に変換されていました。

読み上げるスピードも特段速度を落としたつもりはありません。
文字変換で考えているせいか、若干タイムラグが出ますが、最後まで変換してくれるので、普通に話してOKという印象です。
おそらく後ろほうではAIが頑張っているのではないかと思われます。

Googleは検索では誰もが知る企業ですが、今後の検索語句はキーボードからの文字ではなく、マイクから音声で入ってくる機会が増えてくることを見越して音声認識にかなり投資しているのでしょう。
その成果として音声入力テキスト変換にもこんな形で利便性を提供しているのです。

 

実は超簡単だった音声入力テキスト変換の方法

さて、今回私が試した方法ですが、Google ドキュメントの音声入力テキスト変換という機能を使っています。
まずGoogleのアカウントでログインして以下のページを開きます。
(参考:URL https://docs.google.com/document/

 

 

ドキュメントのホームに入ったら、新規ドキュメントを選びます。
次にメニューバーから、ツールを選び、さらに音声入力を選びます。

 

 

そうすると、左側にマイクのマークが出現します。

 

 

マイクのアイコンを押すと、赤色に変わり、音声認識モードに切り替わったことが示されます。
あとはマイクに向かって話すだけです。

 

 

ご覧のとおり句読点や改行は入りません。これが普通にできれば最高の音声入力環境ですね。

ちなみに今回はマイク内蔵のノート型パソコンを使っていますが、アプリをインストールしてスマホでやるのが一番いいやり方になるでしょう。
用途としてはミーティングあるいはインタビュー記録はもちろん、今まで文字起こしが必要であった作業のかなりの部分を肩代わりできるのではと思います。

少しでも参考になれば幸いです。

この記事を書いた人について

谷尾 薫
谷尾 薫
オーシャン・アンド・パートナーズ株式会社 代表取締役
協同組合シー・ソフトウェア(全省庁統一資格Aランク)代表理事

富士通、日本オラクル、フューチャーアーキテクト、独立系ベンチャーを経てオーシャン・アンド・パートナーズ株式会社を設立。2010年中小企業基盤整備機構「創業・ベンチャーフォーラム」にてチャレンジ事例100に選出。