Google Developers ML Summit 2019 9月に参加してきました

人工知能についての世間の関心はまだまだ旺盛ですね!
機械学習・AIの開発、活用について先端をいく組織であるGoogle@六本木のイベントに参加してきました。


今回のイベントは、People + AIチームを中心とした”Human-Centered AI Products”についての話題でした。様々な地域や専門分野の方が講演者として来ており、Googleの人材層の厚さは感じました。

元々アメリカで開催されたGoogle I/O 2019にて下のようなガイドブックを出していて、それを元にした内容のようです。
 People + AI Guidebook
  https://pair.withgoogle.com/
 有志の方が日本語訳してくれたもの
  http://storywriter.jp/pair/

今回の発表者は、AI, Machine Learningの活用において、ユーザーがそのプロダクトをどのように感じ、使うかを想定・測定することの重要性を述べていました。
Googleも基本としては、AIによる完全オートメーションで人不在のシステムを目指すのでなく、ユーザーの使用シーンを想定し、期待値をコントロールして受け入れられるように情報の出し方、見せ方を設計したプロダクトを提供するほうがメインであると思われます。世の中で取り上げられるアルファ碁のような目立つ例はありますが、膨大なデータ(棋譜)・計算リソース、優秀な研究者たちが集まったうえで、盤面問題として現実問題と違ってノイズがのることがないことなどが揃って初めて実現しているので、このような成果を一足飛びに狙うのは無理でしょうね。
AI、Machine Learningにおいてデータがとても重要ですが、関係者の多様性が小さいと自分でも意識せずバイアスがかかってしまう問題もあります。日本だと、意識しないとユーザーを日本人と想定してしまいがちです。例えば、2020年オリンピック向けにリリースと言っていても海外の多様なユーザーを想定しておらずに、ギャップが生まれてしまうことも考えられます。

 

ここから個別のテーマについての内容紹介です。

ワークショップ“Designing Human-Centered AI Products”

重要メッセージ:ユーザーニーズとともに始めよ

Google Flightsを例にしてのブレーンストーミング&ディスカッションをしました。
Google Flightsは航空券を購入するときに、今後価格が上がるか下がるかを予測し、ユーザーに提示する機能があるそうです。(搭乗予定の日までで安くなるタイミングで購入したい。)
ここで完璧な予測というのはできませんが、ユーザーの役に立つ情報を提示するプロダクトはリリースしたいです。。下のようなConfusion Matrixで機械学習の予測モデルの精度が示されるが、青の矢印方向のPrecision(=TP/ (TP+FP))と赤の矢印方向のRecall(=TP/(TP+FN))のどちらを重視して予測モデルとするのがよいかという問いがありました。

_ _ _ AIによる予測
_ _ _ ↓Precision _
_ _ 価格が上がる 価格が上がらない
実際 Recall→ 価格が上がる True Positive (TP) False Negative (FN)
_ 価格が上がらない False Positive (FP) True Negative (TN)


今回の問題では、ユーザーの受け取りかたとしては”価格が上がらない”と知らされていたのに、実際は上がってしまった場合が、コストのダメージを受けるため悪い印象を受けます。そのため、Recallが高くなるモデルを採用する方向になります。

また、価格が上がる、上がらないという最終結果以外の情報-例えば、確信度やそれらの数値を上中下などのカテゴリ化したもの -を示すかについて、その情報がユーザーが意味や信頼性があると感じるか予測して決めたり、テストします。Google Flightsでは、確信度などの数字は示さず、価格の幅を示しました。
また、メンタルモデルを考慮してユーザーのAIシステムに対する期待値を適切に調整すること(Calibration Trust appropriately)も必要な要素と述べていました。プロダクトをリリースしてもその後、データのアップデート、アルゴリズムのアップデート、ユーザーの反応などで、数値の出し方やユーザーインターフェースなどの情報の見せ方を含めて調整していくそうです。
参加者からGoogleが直接物売りをしているお店そのものでないから、ある意味無責任な立ち位置で(悪い意味だけでなく第3者的立場から)情報を出すことができているという発言を聞いて、それも一理あると思いました。
参加者との話し合いで、顧客からの問い合わせ対応にチャットボットを導入したという話がありました。既存のコールセンターの業務負荷軽減になるかと想定したそうですが、そうならなかったと言います。チャットボットが使われなかったわけでなく、ユーザーが違っているようだということです。これまでコールセンターに問い合わせていたお客様はそのままコールセンターに電話をかけるが、新しいテクノロジーやチャット形式に慣れている人たちはチャットボットを活用しているそうです。会社としては、コールセンターの人員削減にはならないが、顧客とのタッチポイントが増えるという効果はあったと言っていました。こういうところからもAIが人の仕事を置き換える視点よりも、お客やユーザーに新たな価値を生み出す可能性を考えて、ワークフローやユーザーシーンを描くといったグランドデザインをしていったほうがよいがビジネスとしても成り立つと思いました。
また、AIへの期待値を適切に調整するということについて、昨今のAIブームによる過剰な期待をGoogleとしても考慮していると思いました。例えば、予測ということでかなり長い歴史をもつ天気予報について人々が抱いている期待はそれほど極端でないです。時代に応じて使うデータや分析も変わり、精度も上がっていっているが、絶対に外さないわけでないし、外れたからといって、人々は暴動を起こしたりせず、まあしかたないと受け入れています。

 

別の話題として、AIなどテクノロジーの高度化により透明性や説明可能性がなくなったり、差別などを助長するバイアスが生まれないか、マイノリティー・ハンディキャップ・貧富などで不平等性が生じないかという話題もありました。People + AIチームが示す原則が下のページに記されています。
 Artificial Intelligence at Google: Our Principles
  https://ai.google/principles/

透明性、バイアス、不平等性の問題について社会からの期待や力をもちすぎるのでないかという声もありますが、様々な専門領域の人材がいたり、そういう議論を真剣にしたりする点に、Googleの人材の多様さや層の厚さを感じました。すぐにすっきりした解答が得られる問題ではないのだろうが、多様なバックグラウンドをもつ人たちで視点が偏らないように問題提起していくというのは大切なのだと思います。


Socially Responsible AI: Practical Challenges and Lessons Learned
Speaker: Andrew Zeldivar

新しいテクノロジーを使うときに、ユーザーに対するバイアスは古くからあります。以下のような例が紹介されました。

  • フィルム時代の写真において、肌をきれい見せるようなカラーキャリブレーションパターンにおいて、Lighter colorの人を暗黙の対象としていて、Darker colorの人はそれを使うと、より沈んだ色になってしまっていた。そのため、Darker colorの人は、チョコレートや木製家具向けのカラーキャリブレーションパターンを適用していた。
  • デジカメ時代の顔画像認識においても、Dark colorの人と白いマスクの置物を並べると白いマスクの置物のほうを人の顔として認識される。
  • 画像認識による犯罪性推定において、鼻から口の両端への角度が小さいと犯罪性が高いなど本来関係ない特性から推定される。
  • ネパールの石鹸は正しく推定できないがイギリスの石鹸はディスペンサーに入った液体のものでも正しく推定できる。

開発者が悪意を持っているわけでないが、使用するデータなどに意識せずバイアスがかかっていることが結構あります。

PM Fairness and Explainability in ML
Speaker: Kaz Sato


技術開発で意識せずバイアスが生まれている例として、自動車の安全テストで使われるダミー人形が男性型のみだったので、女性が事故に巻き込まれたときにケガをする率が47%高いというレポートがありました。
GoogleでQuick Drawというユーザーが描いているイラストからリアルタイムで何を描こうとしているか推定するプロダクトを開発したとき、スニーカーのイラストは靴と認識できたが、ハイヒールを描いても靴と認識されませんでした。教師データとする靴を書いてくださいといったときにほとんどの人がスニーカー形状を描いていたからです。
Machine Learningを使ったプロダクトを開発するときに、データは生ものであり、常にデータが変化・成長し、学習しなおす必要があると考えておく必要があります。
また、不平等なプロダクトとされないためには、target populationを把握しておく必要があります、すべてをカバーできない場合でもminorityとして対象から外れるところを客から言われる前に把握しておき、説明できるようにしておくべきです。
Googleが公開しているデータセットOpen ImagesでExtendedバージョンを出しています。どの地域から得ているデータかということも示し、これまで少なかった地域からのデータを含めています。


データのバイアスを測るツールとしてGoogleではWtat-If toolを出しています。
What-If tool
https://pair-code.github.io/what-if-tool/
What-If toolの参考情報ページ
https://webbigdata.jp/ai/post-1739

 

PM ML Kit x Material Design: Design Patterns for Mobile Machine Learning
Speaker: Kunal Patel

UI/UXデザイナーとして、Machine Learningを使ったプロダクトのリリースに携わりました。
スマートフォンにおいて、カメラで得たデータから植物の種類を識別するアプリを作るときにDetect Object -> Classify -> Show Resultの各ステップにおいて、インタフェースを通したユーザー行動の促しやUser Experienceの向上を目指しました。
シャッターを押す前のDetect Objectの段階でもセンシングしていて、カメラを動かし、対象を中心に写るようにすることが重要であることをユーザーに直感的に伝わるように画面中心に波紋のようにアニメーションする円を配置します。対象となる物体を検出したらその物体を囲むバウンディングボックスを表示します。ユーザーがシャッターを押したら、focusの円がぐるぐる回るアニメーションにし、処理中であることを示します。正しく認識できたらclipした画像サムネイルを隅に表示し、その植物についての情報(育て方など)を画面下に表示します。認識の結果が低い信頼性の場合は「これかも?」という候補をリスト(その植物の代表画像付き)で出し選択可能とするとともに、もう一度撮影することを促すメッセージを表示します。
プロダクトをリリースするにあたり、Machine Learning EngineerとともにUser Experienceに関しディスカッションし、様々なデザインパターンのプロトタイプを提案するサイクルを回し、使ってみた受けた印象のフィードバックを得て作っていきました。