AIマイクが描く店舗ビジネスの未来 ―― 技術詳細編

IdeinのAIマイクブログ第三部の表紙

こんにちは、IdeinでAIマイク "Phonoscape（読み：フォノスケープ）" の開発を担当している三根（みね）です。

これまでの2回のブログでは、AIマイクで収集したデータの活用方法とDXの実現方法をご紹介しました。
（過去のブログはこちら👉 第１部、第２部）

今回は連載の最後となる第３部として、AIマイクの技術的な側面にスポットライトを当てながら、当社独自の取り組みであるAIマイクの特徴についてご紹介します。

是非、最後までお付き合いください。

コールセンターでの当たり前を、リアル店舗の現場にも
リアル店舗は雑音だらけ
「誰が喋っているのか」を特定する難しさ
今以上に店員の負担は増やせない
独自技術でイニシャルコストを軽減
全国展開をしている企業でも利用できるスケーラビリティ、セキュリティ
将来的には「エッジでの音声認識」が可能に？
Phonoscapeという製品名に込めた思い
お問い合わせ先

コールセンターでの当たり前を、リアル店舗の現場にも

3_sub-1

前回の記事で、コールセンターにおける接客録音システムの普及率が9割を超えている事実についてご紹介しました。

「接客音声の録音」「録音データの利活用」

コールセンター業界で認められた技術を、リアル店舗にも適用することで様々な課題を解決したい、そんな思いで生まれたのが『接客サポートAIマイク ~Phonoscape~』（読み：フォノスケープ）です。

しかし電話口での会話音声を録音することと、リアル店舗での接客音声を録音することでは、技術的な難易度が大きく異なります。

その課題を「Phonoscape」ではどのように解決したのかについてご説明します。

リアル店舗は雑音だらけ

3_sub-2

電話口の音声録音と異なり、リアル店舗ではBGMが流れていたり、すぐ隣で別の接客が行われていたりと、単純にマイクを設置するだけでは雑音だらけの音声データになってしまいます。

「Phonoscape」では安価で小型なAI搭載マイクを各接客カウンターに配置して利用します。マイクのパラメータ制御、方向推定を行う独自ノウハウによって、周囲の雑音を低減しつつ、そのカウンター内部で行われた会話だけを高品質に録音することができます。

「誰が喋っているのか」を特定する難しさ

電話口の音声は話者が必ず二人であることが前提であり、また音声データを各話者ごとに分離して保存することが容易に実現できます。

特に店員・顧客ごとの音声データが取得できることは、後に音声認識によって会話音声をテキスト化し、データを活用することを考えると非常に重要です。

「Phonoscape」では、デバイスに「マイクアレイ」という技術を採用しており、これによって話者がデバイスに対してどの方向から話しているかを検知することで、店員・顧客それぞれの発話音声として別々のデータとして保存することができます。

今以上に店員の負担は増やせない

3_sub-3

マイクデバイスを各店舗のカウンターに設置することになったとしても、そのデバイスを接客の度に録音開始・停止等の「操作」をする必要があった場合、従業員の方にとって余計な仕事を増やしてしまい、本末転倒なことになってしまいます。

「Phonoscape」では、マイクデバイス上で「発話認識」のAI処理を行うことで、マイクが人間の会話音声を識別し、録音の開始・停止を全自動で実行します。

デバイスをコンセントに繋ぐだけで、あとは何の操作も必要ありません。

一般にこのような高度なAI処理を安価なデバイス上で動作させるのは困難なのですが、Idein独自のハードウェアアクセラレーション技術により、これを実現しています。

独自技術でイニシャルコストを軽減

3_sub-4

コールセンターへの音声録音システム導入は、IP電話が普及した現代ではクラウドサービスへの連携構築を行うだけですぐに利用開始でき、多くのサービスはサブスクリプションで提供されているため、イニシャルコストを低く抑えて導入可能です。

リアル店舗でも「1．AIマイクの設置」「2．AIマイクのネットワーク接続」「3．システムの基本設定」を行えば、導入は可能です。では、なぜこれまで普及してこなかったのでしょうか？それは「マイクデバイスの価格」と「AI開発の難易度の高さ」が最大の理由でした。

リアル店舗での録音の場合、上述したように技術的にクリアしなければならない課題が高度なため、これまでの技術では高性能かつ高価なデバイスが必要でした。その結果、導入のコストメリットに見合わないという問題があったのです。

「Phonoscape」では、Raspberry Piという世界で最も普及しているシングルボードコンピューターを内蔵したマイクを採用することで導入コストの壁を打破しています。

$100以下の安価なデバイスですが、産業利用の例も多くある信頼性の高いデバイスです。他の高価なデバイスに比べると処理能力はそこまで高くはありませんが、Ideinの独自技術によってデバイスのポテンシャルを最大限に引き出すことにより、一般的には動作させることが困難な、高度なAI処理をRaspberry Pi上で動作させることが可能です。

このような安価な汎用デバイスを採用することでハードウェアの価格を大幅に抑えることに成功しました。さらに初期投資を小さく抑えたいと考える企業様向けには、リースでの提供も実施しております。

全国展開をしている企業でも利用できるスケーラビリティ、セキュリティ

「Phonoscape」を使って集められる接客データは、大規模かつ多店舗に展開していればしているほど、ビッグデータとしての価値が高まります。

「Phonoscape」でも活用している、当社の運営するエッジAIプラットフォーム"Actcast"は、全国に散らばった約16,000台のデバイスを毎日安定運用している実績があり、最も大きなお客様では全国約2,700店舗、総数8,000台のデバイスを運用し、日々膨大なデータを収集・活用されています。

また大企業の厳しいセキュリティ要件をクリアできる機能も数多く取り揃えています。当社では個人情報保護法の社内勉強会を定期開催しており、エンドユーザー様から預かった大切な個人情報を安心安全に取り扱うことができるサービスの開発に努めています。

将来的には「エッジでの音声認識」が可能に？

一般的に、音声認識処理（=会話音声データの文字起こし）は非常に高度な計算処理であるため、クラウドの強力なサーバーの処理性能が必要とされます。普段我々が利用することの多いSiriやGoogle Assistant、Alexaといった音声アシスタントも、音声認識処理は端末上ではなくクラウド上で行われており、「Phonoscape」も現状は同じ方式を採用しています。

当社はイスラエルのAI半導体ベンチャー企業であるHailo（ヘイロ）社と協業し、Raspberry PiをベースとしたデバイスのAI処理性能をさらに強化することができるエッジAI処理チップ「Hailo-8（ヘイロ-エイト）」を活用したソフトウェア開発も推進しています。Hailo-8を採用することで、現在当社が利用しているデバイスの100倍以上の演算能力を、比較的安価に獲得することが可能です。

Hailo-8のパワフルな演算能力があれば、将来的にはマイクデバイス単体で音声認識処理の実行が可能なAIマイクを実現できると考えています。

エッジでの音声認識ができれば、さらなる大幅なコスト削減、より強力な話者のプライバシー保護、リアルタイムフィードバック機能の実装など、実に多くのメリットが期待できます。