会話の音声を自動的に文字化する「魔法のボイスレコーダー」

アップルのポータブルオーディオプレーヤー「iPod」にも少し似ている、ソースネクストのボイスレコーダー「AutoMemo S」。これからお届けするのは、音声を自動的にテキストデータに変換してくれる魔法のようなガジェットが、あるひとりのライターを幸せにした物語です。

辛かった文字起こし。幸せを運んだボイスレコーダー

ライターである私にとって、様々な分野に深い見識を持つ方々からお話を聞ける「インタビュー」は最もやりがいある仕事のひとつです。

反面、忙しくなると、インタビューの時にお聞きした話を原稿にアウトプットする作業がおっくうに感じられてしまいます。特に辛い段階は文字起こし。会話の要点はメモに残していても、取材を受けていただいた方の発言は慎重、かつ正確に記載しなければならないため、音声の聞き直しは避けて通れません。

ITのチカラを使って、文字起こしの働き方改革をしたいと考えていたところに、ソースネクストから「AutoMemo S」という理想のスマートデバイスが発売されました。

AutoMemo Sは会話の音声を録音しながら、同時に文字に起こしてくれる画期的なボイスレコーダーです。本体はタバコの箱ほどのサイズで重さは約88g。

私が本稿を執筆している2月中旬時点で、文字起こしができる言語は、日本語のほかに英語、中国語などを含む合計72言語です。

AutoMemo S本体は片手に心地よく収まるサイズ。2.83インチのタッチ液晶の下にあるボタンをタップして録音のスタート・停止を操作します。

音声とテキストのデータはクラウドに保存。うっかり削除の心配なし

録音が済んだ音声はWi-Fiを経由してクラウドに送られて、各言語に対応する音声認識/文字変換のエンジンにより自動的にテキストデータ化されます。変換にかかる時間の目安は元の録音時間の3分の1程度になります。

変換が完了したテキストデータはクラウドからAutoMemo Sの本体と、ユーザーが登録したメールアドレス、およびクラウドストレージサービス（OneDrive/Google Drive/Dropboxが選択可能）にそれぞれ送信されます。

音声とテキストデータはクラウドとメールにバックアップが残るので、ボイスレコーダーに保存していたファイルを「うっかり削除」して冷や汗をかくこともありません。

タッチ操作にも対応する2.83インチのディスプレイにテキストを表示しながら、聞きたい箇所をタップで選択すると、テキストを目で追いかけながら音声の内容をチェックすることもできます。インタビューの中で話題に上った数字やテクニカルタームの固有名詞など、後から念押しで確認したい箇所だけをピンポイントで聞き直せるので、テープ起こしにかかる時間を賢くセーブできます。

文字に起こした会話からAutoMemo S単体でキーワード検索が行えます。任意の箇所にブックマークを差し込むことも可能。

そもそも、インタビューの会話をAutoMemo Sが全部メモしてくれている安心感があるので、私の場合はもうキーボードをタイピングする手を止めて、話を聞くことに集中できるようになりました。

気になる文字起こしの精度は？

気になる文字起こしの「正確さ」はどうなのでしょうか。日本語・英語ともに実際の会話を一字一句間違うことなくパーフェクトに起こせる状態を「100点満点」としたら、あくまで私の手応えですが「60点前後」ぐらいだと思います。日本語の場合、漢字変換のミスが生じることは大目に見たとして、それよりも「うーん」「えー」「はい」など会話の節々に入る相づちも拾ってしまうため、テキストが読みづらくなることが解決すべき課題だと感じました。

また私と会話の相手との声を識別して、テキストは段落を分けたり文字を色分けして記録する機能もないため、ひとつの文が長く地続きのテキストになることも気になります。結果、AutoMemo Sが生成するテキストをそのまま記事に載せることは難しいので、あとから丁寧に成形する作業は残ります。

文字起こしの内容はiOS/Android対応のAutoMemoモバイルアプリからもチェックできます。「はい」や「うーん」のように会話に挟まれる相づちも文字化してしまうところが現状の課題と言えるかもしれません。

ただ、私の場合は現場で会話に気を奪われながら必死にタイピングした文字が誤字脱字の嵐だったり、重要なパートが抜けまくっていることもあるので、AutoMemo Sを使うようになってから、インタビューの仕事の負担は明らかに軽くなっています。

私のように人に話を聞いて、何らかの形に記録を残す作業が仕事に含まれている方には、AutoMemo Sがとても役に立つスマートデバイスだと思います。大学の講義メモとして活用したり、外国語学習のディクテーションをサポートしてくれる良い“デジタル文具”にもなり得るでしょう。

話題のスマホの自動文字起こしアプリと比較

ひとつ忘れずに指摘しておくべきことがあります。AutoMemo Sは音声の記録は無料で使えるボイスレコーダーですが、文字起こし機能は毎月1時間以上使うと有料になります。

有料プランの料金形態には、毎月30時間までの文字起こしができる月額980円の「プレミアムプラン」、または1回1,480円の「10時間チャージ」があります。私のように、文字起こしが必要になる仕事が不定期に入る場合、余った分は翌月以降に繰り越せる10時間チャージが合っていると思います。いずれにせよ、学生の方々には少々負担に感じられる金額だと思います。ソースネクストには安価な「学生プラン」の追加をリクエストしたいと思います。

昨年の秋にグーグルが発売したスマホ「Google Pixel 6シリーズ」には、音声録音用の「レコーダー」アプリがプリインストールされています。このアプリには日本語対応の文字起こし機能もあります。私はこの機能も仕事で使っています。AutoMemo Sと比較すると、文字起こしの精度はさほど変わりませんが、Pixel 6の場合は音声と文字起こしの機能の両方が無料で使えるので魅力的です。ただし、AutoMemo Sが24,800円（税込）で買えるのに対して、Google Pixel 6は74,800円（税込）からの初期導入費用がかかります。

Google Pixel 6 Proにも搭載されているレコーダーアプリの文字起こし機能。日本語の認識・変換にも対応しています。スマホを手に入れれば無料で使えるところが魅力です。

AutoMemo Sは専用のボイスレコーダーなので録音と文字起こしに集中して使えます。対してGoogle Pixelの場合は、レコーダーの使用中に電話がかかってくることもありました。一方ではいつも持ち歩くスマホなので、とっさに音声記録や文字起こしが必要になる時にも、手元から素速く取り出せる安心感があります。これから自動文字起こしに対応するボイスレコーダーは単体のデバイスとして、あるいはスマホアプリとしてそれぞれの進化を競い合うのでしょうか。長年このようなサービスを待ち望んできた者の一人として、今後も注目したいと考えています。

製品提供：ソースネクスト

.css-1jzq2ff{font-size:2.0rem;line-height:2.4rem;font-weight:bold;}.css-1rzchee{font-size:14px;font-weight:bold;font-size:2.0rem;line-height:2.4rem;font-weight:bold;}ライターを幸せにするガジェット

.css-sz6onw{font-size:3.0rem;line-height:3.6rem;font-weight:bold;}.css-62i9a{font-size:14px;font-weight:bold;font-size:3.0rem;line-height:3.6rem;font-weight:bold;}会話の音声を自動的に文字化する「魔法のボイスレコーダー」

.css-9iwhs5 a{-webkit-text-decoration:underline;text-decoration:underline;}.css-9iwhs5 a:hover{-webkit-text-decoration:none;text-decoration:none;opacity:0.6;}辛かった文字起こし。幸せを運んだボイスレコーダー

音声とテキストのデータはクラウドに保存。うっかり削除の心配なし

気になる文字起こしの精度は？

話題のスマホの自動文字起こしアプリと比較

ライターを幸せにするガジェット

会話の音声を自動的に文字化する「魔法のボイスレコーダー」

辛かった文字起こし。幸せを運んだボイスレコーダー