MENU
search icon
media
Beyond magazineでは
ニュースレターを配信しています
検索
Tags
  1. TOP/
  2. エンタメ/
  3. 総理大臣の会見で試す、音声認識技術の精度
エンタメ

文字起こしテクノロジーの理想と現実

総理大臣の会見で試す、音声認識技術の精度

author: 小口 覺date: 2021/06/24

ソースネクストの「AutoMemo(オートメモ)」は、録音した音声を自動でテキストデータに変換するボイスレコーダー。同社の翻訳機「POCKETALK(ポケトーク)」で培った音声認識技術を応用したというが、その実用度はいかに? 音声認識の機能は、録音された環境やしゃべり方、その内容によって結果に大きな違いが出る。そこで、皆が知ってるあの人の声で試してみた。

ソースネクスト
AutoMemo(オートメモ)

1万9800円

ストレージ容量は8GBで
最大約5.5時間の連続録音が可能

およそボイスレコーダーらしくない外観

 AutoMemoの外観は、一般的なボイスレコーダーとは全く異なる。フラットでボタンの数も少なく、電源ボタン、録音ボタン、ブックマークボタンの3つだけ。何よりも違うのは、ディスプレイがない。さらに、スピーカーも内蔵しないので、録音したデータを単体で再生することはできない。Wi-Fiでインターネットに接続されると、データがクラウドに自動で転送され、その結果(テキストデータ)がスマホに転送されてくる。音声データは、スマホのアプリ上で再生が可能で、その際テキスト文字と音声がリンクされているため、目的の場所を聞き直すことが容易だ。

マイクの出っぱりもないので、ICレコーダー感は薄い
背面もフラットでスッキリしている

 使い方は非常にシンプルだ。電源を入れて録音ボタンを押せば録音開始。もう一度押せば終了。Wi-Fiのある環境なら自動的にデータがアップロードされ、テキスト化されるとスマホに通知が来る。テキスト化にかかる時間はスピーディで、だいたい録音時間の半分程度だ。かつて別のサービスでは、1時間のデータを処理するのに数時間以上かかったので、技術の進化を感じさせる。

 月額制の料金プランは2種類。無料のベーシックプランでは毎月1時間まで、980円のプレミアムプランは、毎月30時間までの音声データがテキスト化される。それ以上使うのであれば、1回1480円で10時間分チャージができる。チャージして余った時間は、翌月以降に繰り越すことが可能だ。月に5時間程度なら、無料プランにチャージを組み合わせると無駄がないだろう。

認識精度を左右するのは環境と話し方

 音声をテキスト化するにあたり、認識精度に大きく影響するのは、録音する場所の環境と話し方だ。環境でもっとも大事なのは、周囲が静かかどうか。話者の人数も影響してくる。発言者が多くなれば、声の大きさにも差が出るし、音声が重なってしまうからだ。また、スピーカーで再生した音声を録音しても、認識精度は低くなる傾向がある。

 しかし昨今は、オンライン会議など、スピーカーを挟んで録音する機会も多い。そこで、パソコンから出した音声をAutoMemoでどの程度認識するかを試してみた。まずは、YouTubeの「内閣府防災」チャンネルを、パソコン(iMac)で再生した。

 こちらが、その結果。おそらくプロのアナウンサーか司会者による音声なので、ほぼ100%正確にテキスト化された。話し方が明瞭であれば、スピーカー越しでの録音でも問題ないようだ。

 ちなみに、AutoMemoはマイクジャックを搭載しており、オーディオケーブル(抵抗入り3極ステレオミニプラグ)で別のボイスレコーダーやスマホ、パソコンなどと接続し、直接音声を取り込める。講演であれば胸元に取り付けるピンマイクの利用も考えられる。

内閣総理大臣の記者会見で検証

 さて、2番目の要素は、話し方だ。ボソボソと話すような声では認識精度は低くなる。使われる単語も、特殊な言葉、専門的であるほど、認識が難しくなるだろう。

 今回、記事化にあたって最適な話し手は誰かを考えてみた。誰もが声や話し方を知っていて、さほど滑舌は良くない人物。かつ記事で紹介するに当たって、発言内容に著作権のないもので思いついたのが、総理大臣の記者会見だ。

 首相官邸ホームページから、令和3年5月7日の菅内閣総理大臣記者会見その冒頭部分を再生し、認識精度を検証した。

●原文

 先ほど新型コロナ対策本部を開催し、緊急事態宣言の対象地域に愛知県、福岡県を追加するとともに、5月31日まで延長することを決定いたしました。また、まん延防止等重点措置について、北海道、岐阜県、三重県を追加し5月31日まで延長すること、また、宮城県については5月11日に終了することを決定いたしました。

 今回、ゴールデンウィークという大型連休に合わせ、国民の皆様に短期集中の措置をお願いしました。家族での旅行や帰省、友人同士の買い物や行楽などの外出が一斉に増える大型連休という特別の時期には、人流を抑える強い措置が必要と考え、幅広い要請を行いました。皆様の御協力によって、東京や大阪の人流は、4月初めと比較し、夜間は6~7割、昼間は4~5割程度減少しております。

 しかしながら、新規感染者数は東京、大阪共にステージ4を大きく超える水準にあり、それぞれの圏域の中心である愛知や福岡においてもステージ4を超えております。大阪では病床のひっ迫状況を改善するために一定の期間を要すると考えられます。感染力が強いとされる変異株も拡大を続けています。このため、今般、緊急事態宣言を延長し、ウイルスに対する強い警戒を維持し、改めて対策が必要である。そのように判断いたしました。

 これまで、外出を控えるなど御協力いただいた国民の皆様、休業要請などに応じていただいた事業者の皆さん、医療、介護の現場で懸命の御尽力を頂いております関係者の皆様に心から感謝を申し上げます。また、今回の延長により、引き続き御負担をおかけします皆様に深くおわびを申し上げます。

●AutoMemoの認識結果
改行やスペースは見やすいよう調整しています

 先ほど。新型コロナ対策本部を開催を。事態宣言の対象地域に愛知県福岡県を追加するとともに、31日まで延長することを決定をいたしました。また、大変ご馳走、商店、土地について 北海道、岐阜県三重県吹田市 31日まで延長する。形見分けについては5月11日に終了することを決定をいたしました。

 雲海 ゴールデンウィークという大型連休に合わせ、 国民の皆様に。短期集中の措置をお願いを。家族での旅行や帰省、友人通しての買い物や行楽などの解説が一切に増える大型連休と言う。特別の時期には、飲料サイズ 広い土地が必要と考える。幅広い要請を行いました。皆様のご協力によって、 東京や大阪の神宮は、 2月初めと比較。夜間は6時では 車が一ノ割程度。懸賞をしてもいい。

 新規感染者数は、東京共にステージ4を大きく超える水準にあり、トヨタにも。政治の中心であるあいちや福岡においてもステージ4を 超えております。大阪では、病床の逼迫状況を改善するために、一定の期間を要すると考えられます。感染力が強いとされる変換を拡大を続けています。このため、根本緊急事態宣言を延長し、 ウイルスに対する脅威警戒を改めて。大殺界視聴者このようにアンダーを出しました。

 これまで。海藻控えるなど。ご協力を頂いた国民の皆様、休業要請などに応じていただいた事業者の皆さん。医療介護の現場で件名のご尽力を頂いております関係者の皆様に心から感謝を。また、今回の延長による通知。 ボタンをおかけします皆様に深くお詫びを申し上げます。

 いかがだろうか。まだ全然ダメだと思う人もいるだろうが、元の内容を知っていれば、概ね理解できるレベルではないだろうか。4月を2月と認識するなど、数字の間違いもあるので、自分用のメモではなく他者と共有するなら、聞き直しての修正は必要になるだろう。このぐらい認識していてくれれば、文字起こしの作業もゼロから行うよりは楽になる。

今回のオモシロ誤認識を5つピックアップしてみた。

まん延防止等重点措置
 
「大変ご馳走、商店、土地」

噛みそうになる単語なので致し方なしか。もう1回試してみたところ、「大変ご馳走、終点とちんちん」と、より面白みが増してしまった。

三重県を追加し
 
「三重県吹田市」

地名つながりでこうなったのかもしれないが、吹田市は大阪府である。再度の挑戦では、「三重県鈴鹿市」となった。

人流を抑える強い措置
 
「飲料サイズ 広い土地」

 それっぽいつながりになっているが、全然違う。

それぞれの圏域の中心である
愛知や福岡
 
「トヨタにも。政治の中心で
あるあいちや福岡」

愛知と福岡が政治の中心に……。

対策が必要である。そのように
判断いたしました
 
「大殺界視聴者このように
アンダーを出しました」

六星占術に頼りたくなったか新型コロナウイルス対策(笑)。


 記者会見なので、管総理本人はハッキリ話しているつもりだろうが、やはり言葉が明瞭でなくなると、おかしな言葉に置き換わってしまう。

 会議で使うとしても、雑談のように緊張感のない話し方になるほど認識精度は下がると推測される。録音データのテキスト化が毎回求められる会社であれば、上司から、「きちんとテキストに変換されるよう、ハッキリしゃべりたまえ」と指導されるかもしれない。逆に、講演などで自分がスピーカーになる場合、リハーサルで使えば、より伝わりやすい話し方に矯正できる可能性もあるだろう。  以上、まだまだ話し方に左右されるという結論でした。管総理より明瞭に話せる自信があるなら、この程度の認識精度は確保できるはずだ。

製品貸与:ソースネクスト

author's articles
author's articles

author
https://d3n24rcbvpcz6k.cloudfront.net/wp-content/uploads/2021/04/023.jpg

ライター・コラムニスト
小口 覺

雑誌、Webメディア、単行本の企画・執筆などを手がけるライター・コラムニスト。自慢できる家電「ドヤ家電」(日経MJ「2016年上期ヒット商品番付」前頭に選定)の生みの親。近年はトレンドやマーケティングをテーマに取材を重ねる。著書に「ちょいバカ戦略: 意識低い系マーケティングのすすめ」(新潮社刊)など。エンタメテックを主軸としたコンサルティングも務める。
more article
media
新宿からわずか90分で行ける釣りビギナーの楽園 
エンタメ
date 2024/11/30