JAWS-UG主催の「Alexa Day 2018」というイベントが神戸の三宮で開催されていたので参加してきました。
JAWS-UGとは、AWS (Amazon Web Services) が提供するクラウドコンピューティングを利用する人々のコミュニティで、普段はフロントエンド実装ばかりでインフラを触ることがほとんど無いため、今までイベントに参加したことはなかったのですが、今回はAlexaがメインのイベントということで、スマートスピーカーはずっと興味のある分野だったので参加してみました。

参加したセッションは以下のセッションです。

  • 今日から始めるAlexaデバイスのプロトタイプ開発
  • Alexa Skills Kitでプロダクトの可能性を広げる
  • “アレクサ、パルコ をひらいて” 〜ショッピングセンターのAlexa活用のねらい〜
  • ハードウェアビジネス側から見た音声認識家電の現状とこれから
  • パルコ様事例にみるAlexaとデジタルサイネージを連携する方法
  • “アレクサ、うるのんを開いて” ~お客様の生活に欠かせない存在を目指して~
  • Alexa Skill Contest

非常に充実したセッションでした。

特に面白いと思ったのは、

  • “アレクサ、パルコ をひらいて” 〜ショッピングセンターのAlexa活用のねらい〜
  • パルコ様事例にみるAlexaとデジタルサイネージを連携する方法でした。

パルコの事例、プロダクトオーナーであるパルコの林さんがスピーカーとして前半のセッションにお話をされ、後半のセッションでプロダクトを開発したクラスメソッドの清野さんがスピーカーとしてお話をされました。
どちらも実際の事例に基づいたセッション内容だったし、前半でプロジェクトの概要説明、後半でどのように問題解決したかというような内容だったため、すんなり内容を理解することができました。
意外に驚いたのが、Amazon Echoは主に家庭用で使うことを想定して作られたデバイスであるため、公共のスペースで不特定多数の人に使ってもらうというケースは、Amazon側でもあまり事例がなかったということでしょうか。
今後、Amazon Echoが普及してきたら、家庭内だけではなく、公共の場所でも使われることはあると思うので、この事例はすごく今後の参考になる事例になると思いました。

以下はセッションメモです。
後半疲れてたのであんまりメモれてません。
あと、図での説明がメインだったところは聞くのが精一杯だったのであんまりメモれてないかもです。
登壇資料とかは余裕があったらまとめたいと思います。


今日から始めるAlexaデバイスのプロトタイプ開発

音声対話システムの歩み

第1世代

  • 単一マイク
  • 対話は一方通行
  • 常時起動

第2世代

  • プッシュトーク
  • 内蔵スピーカー
    • トランシーバーなど

第3世代

  • 音声起動
  • ノイズキャンセル

第4世代

360度マイクカバレッジ

そして、アマゾンエコーの登場

  • CESではAlexaとのコラボレーションを意識したプロダクトが爆発的に増加
    大半はAlexaを使っていた
  • Apple、Googleの音声認識デバイスを使っていたのはごくわずか。

Alexaは関西弁も理解できる。

Alexaの仕組み

インタラクションモデルとオーディオフロントエンド

3つのインタラクションモデル

  • タッチ操作
    • モバイルアプリなど
    • タッチして発話
  • ハンズフリー
    • 声によるアクティベーション
    • 近距離
  • ファーフィールド
    • 遠くからのアクティベーション
    • 騒がしい場所など

3つのポイント

  • オーディオアルゴリズム
  • マイクの配置
  • マイクの数

オーディオアルゴリズム

  • ノイズリダクションアルゴリズム
  • オートゲインコントロール
    • オーディオ入力のリニア処理/ノンリニア処理

リニア処理

小さい音でも大きいと音と同様に設定した値を増幅する仕組み

ビームフォーミング

音源定位:音源の位置(角度)を計測すること
Echoの場合、音声角を15度の角度で話しかけると精度が向上する

Amazon AVS開発キット

Alexa搭載製品を作るために必要な要素が全て揃ったリファレンスソリューション

提供されているもの

  • ハンズフリー
  • ファーフィールド

Alexa Skills Kitでプロダクトの可能性を広げる

スキルの種類

  • カスタム対話モデル
  • スマートホームスキル
  • フラッシュブリーフィングスキル

フラッシュブリーフィング

HTTPオーディオデータを含むことができる
エコ~ショウのようにモニタがあるデバイスであれば動画も再生できる

スマートホームスキル

呼び出しが不要なので自然な発話でスマートホームの操作が可能

カスタム対話モデル

開始フレーズを使ってアプリを起動する

呼び出し名=アプリ名みたいな感じ
呼び出し名を言うことでどのスキルを使うかが決まる

スロット

変数みたいなもので、事前に期待している言葉を定義する
ビルトインタイプ
– AMAZON.DATEなど

カスタムタイプ
– 自分で定義する変数

サンプル発話


“アレクサ、パルコ をひらいて” 〜ショッピングセンターのAlexa活用のねらい〜

パルコのAWS活用

  • webサービス
    • 店舗サイト
    • スマホアプリ
  • 店舗のデジタル化
    • デジタルサイネージのデータ供給
    • フリーwifiのログ
    • 各種センサーデータの活用
  • 顧客マーケティング/接客オムニチャネル

店舗案内に特化したAlexaスキルを開発

  • 池袋パルコの店舗の案内
  • 池袋周辺の施設情報を検索可能
  • よくある質問を中心に600種類を超えるバリエーションの質問に応答可能
  • 店舗での利用を想定したスキルを開発した。(非家庭用)

コミュニケーション手段の変化により、即時性のあるコミュニケーションを求められた
労働力も減少している

対面の接客よりもロボットによる接客の方が問い合わせ件数が多かった。

ペッパーやロボットなどを開発し、導入を進めていたが、やはりコスト面が高くなる傾向になっていった。

そこで、Alexaを活用した店舗の案内のスキルを開発
(Amazon Echo + デジタルサイネージ)

開発で苦労した話

  • Alexaがショップ名をうまく発話してくれない
  • ユーザーによって別の言い回しで使われるワードが存在
    • ゆらぎとなるワードを洗い出し、カスタムスロットにひたすら辞書登録
  • 家庭ではなく公共空間への設置を前提とした設計が必要
    • 盗難対策  →盗難防止を施した専用什器を開発予定
    • 雑音の中で正常に動作するか
    • 他のスキルを起動されてしまう恐れ→Echoだけでは制御できず、別のハードの開発が必要
    • 設置フロアによって案内の内容が変わる→Echoの端末設定で住所を分けて個別に設定する
  • ショップが入れ替わった際のメンテナンス
    • WEBサイトで持っているshップデータを流用して自動更新を目指す

ハードウェアビジネス側から見た音声認識家電の現状とこれから

2018年のCESではスマート洗面台の展示が多かった。(5,6社くらい)

洗面台を買い換えたいと思うきっかけとは?
– まだ●●じゃないの?
– まだ音声対応のやつじゃないの?
– 今後これがきっかけで買い替え需要が増えるかもしれない。

2016年代までは「スマホで全部操作できます!」が主流だったが、2017、2018年は「音声で全部操作できます!」が多かった。

何でASK対応家電がこんなにバーっときたのか?

従来型家電→スマート家電→Alexa家電(ASK家電)

  • 従来型からスマート家電への移行はハードルが高かった。
    • セキュリティ対応
    • wifi対応など
  • スマート家電からAlexa家電に移行するときにはハードルが殆どなかった。
    • Alexaはライセンスとか特にいらない
    • 従来のスマート家電の環境からAlexaの環境へのつなぎこみだけを行えばいいだけ
  • 低価格のWifiモジュールの普及
  • ジェネリック家電ODMベンダの台頭
  • ビビってた大手も徐々に腰を上げ始めた

今後は普段身につけるようなものは従来型家電。
操作盤まで距離があるようなもの(部屋の電灯とか)は音声認識家電に変わっていくのではないか。


パルコ様事例にみるAlexaとデジタルサイネージを連携する方法

パルコ様のスキル

パルコの館内を案内してくれるスキル

  • ショップ案内
  • 館内設備案内
  • プレゼントレコメンド
  • 靴レコメンド
  • レストランレコメンド

開発中の課題と解決方法

  • 店舗名の複雑さ
    • アルファベット・記号が多い→日本人は平板化する
  • 略語・通称で発話
  • イントネーションが悪い
  • レスポンステキストをより人間っぽく

解決方法

Tokenizarに優しいスロットを作る

  • 英単語はすべてカタカナにする→日本語の単語モデルだから
  • 単語区切りにスペースを入れる→単語の区切りをめいかくに、Lambdaでマッチングロジックを作る
  • ※トリム処理も(ATM→”A T M”)
  • イントネーション→SSML職人化
  • レスポンステキストをより人間ぽく→実際の受付係の方に覆面調査

どうしようもできないこと
– 音声だけでは実際の場所にたどり着けない
– フロア自体が広い→案内図が必要
– 複数ある施設が使いにくい

所在地分岐要件

  • Echoデバイスの配置場所によってトイレを指し示す文言が変わる
  • Echoは別店舗に移動する可能性がある。