Spresense - エッジコンピューティングを低消費電力で

Spresense で乾電池でも動く本格的なエッジコンピューティングを体験してみませんか?

最新情報はこちら

AI音声認識・音声処理とは何か?仕組みや活用方法を解説

2021年現在、iPhoneのSiriやGoogleアシスタントをはじめとするスマートスピーカーなどの音声認識システムは、生活の一部に欠かせない身近な存在になりつつあります。この記事では、音声認識システムについてくわしく知りたい人に向けて、音声認識システムの歴史や仕組み、具体的な活用例などについて解説します。

目次

AI音声認識・音声処理とは

AIの音声認識システムは、テキストデータではなく人が発した声で情報を認識し、電源のオン、オフや音量の調整などのさまざまな操作を行う技術です。代表的なものとしては、SiriやGoogleアシスタントなどがあります。音声認識や音声処理の精度は高まっていて、人間が会話のために音声を聞き取るのと同じくらいの精度まで進化していっています。

AI音声認識・音声処理の歴史

AIを活用した音声認識システムがどのような歴史を歩んできたのかを確認しておきましょう。

音声認識の研究は1960年ごろから始まった

日本では、1960年に京都大学で単音節による1文字単位で音声を認識するシステムについての論文が発表されました。1970年代に入ると、アメリカ国防高等研究計画局が音声認識の研究を開始しています。1975年には、アメリカのIBMが本格的な音声認識の研究に着手しました。

日本やアメリカのほかにも、世界中で音声認識の技術に注目が集まり、各国で研究が開始されるようになりました。しかし当時は、音声認識に有効とされる音響などの研究が中心だったため、現在の音声認識システムが開発されるまでは、一般に普及することはありませんでした。

そして、1990年ごろに、2021年現在に普及している音声認識や音声処理などのシステムの原型が完成できたといわれています。

※参考:音声認識技術の現状と将来展望|京都大学 河原達也

音声認識ツールの商品化

1995年に「スピーチツール」という音声認識ツールが搭載されたWindows95が発売されました。音声認識が商品化されたことは、音声認識の歴史においても重要な出来事として知られています。ただし、スピーチツールの精度は低く、正しく人の声を聞きとれるほどの完成度には達していませんでした。

音声認識システムが一般に普及したきっかけは、2011年に発売されたiPhoneにSiriが搭載されたことです。Siriによって、「機械と人が会話できる」という音声認識システムが一般に広まりました。2014年にはMicrosoftが「Cortana」を開発したことで、パソコンが音声で操作できるようになりました。

2021年現在スマートスピーカーが当たりまえの存在になる

2021年現在、「Googleアシスタント」や「アレクサ」などのスマートスピーカーが、一般家庭に普及するようになりました。音声でスマートスピーカーと会話をするだけでなく、テレビやエアコン、照明などの家電の操作も行えます。このように一般家庭にも浸透したことで、音声認識や音声処理の技術は身近な存在となりました。

AI音声認識・音声処理は自然言語処理の活用により威力を発揮する

スマートスピーカーなどの一般の人が活用している音声認識・処理システムは、自然言語処理の技術とセットで活用されています。自然言語処理とは、人が発した言葉を機械が読み取り、文章や言葉の意味を正しく認識し処理する技術をいいます。混同されやすいですが、音声認識と自然言語処理は別のものです。

スマートスピーカーなどは、音声認識により発言内容を認知し、自然言語処理により発言内容が何なのかを分析します。

AI音声認識・音声処理の仕組み

音声認識や音声処理の仕組みは、大きく4つの段階に分かれています。各段階について解説します。

音声をデータに変換

人が発した音声をマイクで読み取る際、さまざまなデータを収集しています。たとえば、声の強弱や音の間隔、空気の振動などです。集めたデータのままでは機械で処理できないため、機械が読み取れる波型のデジタルデータに置き換えられます。このような音声認識で抽出されたデータのことを「特徴量」と呼びます。

さらに、周囲のノイズなどの不要な音を取り除き、単音節ごとに機械に認識させます。この工程が音声をデータに変換するという最初のステップです。

特徴量と学習パターンを照らしあわせる

次に、抽出した特徴量と学習パターンを照合させ、1音ずつ似ている音素を見つけ出します。この際、学習パターンとの整合率を導き出す作業のことを「音響モデル」といいます。ここでいう学習パターンとは、あらかじめ数千人の音声、数千時間分をAIに機械学習させたものです。

この段階は、学習パターンと特徴量を比較し、人の音声をより正しく認識するための重要な作業になります。

単語の意味を予測する

音響モデルが完了すると、次は「言語モデル」と呼ばれる作業に移ります。言語モデルは、単語別の意味を予測し、正確な文章にするために重要な作業です。一般的に活用されている方法は「隠れマルコフモデル」です。

このモデルは、文字や単語の後に出現しやすい文字列や単語の割合を数値化します。これにより、次にどの文字列がつながるのかを統計的に予測できるため、正しい文脈の文章として成立しやすくなります。

単語として認識する

言語モデルの段階が完了すると、認識した言語モデルと音が組み合わさる最終段階に入ります。具体的には、「発音辞書」と呼ばれる音の組み合わせの中から単語となるものを抽出するための作業です。発音辞書とは、音響モデルの段階の音素と単語を照合するための辞書のような役割があります。

言語モデルの段階で1音ずつ認識された音素が音と組み合わさり、1つの単語として認識されます。

AI音声認識・音声処理を活用している例

音声認識や音声処理は、どのようなビジネスシーンで活用されているのか、具体例を紹介します。

音声操作

接触を避け音声を使った機器の操作などが増えてきました。クラウドを使った音声操作だけでなく、エッジコンピューティングでの「キーワード検出」による操作や「トリガーワード検出」による省電力待ち受けなどがあります。

「再生開始」、「次の曲へスキップ」などの特定の単語や短い文章を検出することで

音楽の視聴の操作などをクラウドに繋ぐことなく行うことなどが該当します。これにより、通信状況に依存せず、省電力で素早い操作の応答が実現できます。また、特定のトリガーワードを待ち受けるて、必要な音声のみクラウドで認識することで、クラウドへの通信コスト・電力コストを削減できます。

文字起こし

インタビューや会議などで音声を文章に置き換える「文字起こし」が活用されています。音声認識や音声処理システムを活用すれば、議事録をつける担当者をつけなくても自動でテキスト化できます。クラウド型の文字起こしであれば、場所を選ばずに文字起こしができます。

ただし、セキュリティ面の安全性を考慮するのであれば、オンプレミス型のエッジデバイスがおすすめです。

自動応答サービス

自動応答サービスとは、音声認識と自然言語処理の技術を組み合わせたもので、電話で音声を自動で読み取り、自然言語処理の技術で文章として認識できるサービスです。コールセンターや飲食店の電話予約などで活用されています。

リアルタイム翻訳

お互いの言語がわからない人同士での会話が必要なシーンにも活かせます。たとえば、英語が話せない人でも、音声認識付きの翻訳システムを利用すれば、自分が話した言葉をその場ですぐに英語に翻訳できます。出力は音声だけでなく、テキストでの表示も可能です。インバウンド需要に対応するために重要な機能でしょう。

AI音声認識・音声処理のこれから

音声認識の研究が注目されるようになった1970年代に比べ、2021年現在では技術レベルは飛躍的に向上しました。スマートフォンやスマートスピーカーをはじめとした音声認識システムを日常生活で活用している人も多いです。ただし、地方ごとのなまりやスラングへの対応、機械では理解が難しいとされる情緒的な面などをどう解決していくかが課題として残っています。

また、現状では、騒音やノイズなどで音声の聞き取りがしづらい環境での音声認識はできません。マイクの指向性を向上させて、特定の声や音だけを読み取るといった認識率を高める必要性があります。そのためには、音声フロント処理が重要になります。

まとめ

音声認識や音声処理の技術は、すでに私たちの日常生活に欠かせないものになっています。改良すべき課題も残されていますが、今後さらに認識の精度が高まっていくことが予測されます。

ソニーセミコンダクタソリューションズ株式会社の「Spresense」は、センサーとGPS、強力なプロセッサーを搭載したボードコンピュータです。消費電力が非常に少ない点や、拡張性の高さが強みです。エッジAIの活用を検討している企業や、AIを体験したい人におすすめです。

詳細な技術ドキュメントはこちら

Spresense」にも搭載可能な、東芝デジタルソリューションズ株式会社の「RECAIUS(リカイアス)」は、東芝が長年取り組んできたコミュニケーションAIです。音声や映像から人の発話や行動の意図・状況を理解でき、「声で操作できる機器」や「自然な声で話す機器」を実現しています。

また、音声認識、音声合成、対話、翻訳、画像認識(顔・人物画像認識)、意図理解などのメディアインテリジェンス技術を融合しています。コミュニケーションAIに興味がある人は、ぜひお問い合わせください。

東芝デジタルソリューションズ株式会社のRECAIUSについてはこちら