イベント / EVENT
平成29年度 第3回 Q&A
第3回 2017年9月12日(火)
ビッグデータから見える社会
-Web/Wi-Fiビッグデータの活用-
講演当日に頂いたご質問への回答(全25件)
※回答が可能な質問のみ掲載しています。
人の動きを正確に推計することで、何かできるのでしょうか?
例えばサービス業においては、今来ている顧客は1時間前にはどこにいた可能性が高いか?ライバル店にいった可能性は?といった、顧客のタイプに関する気づきを得ることができます。
活用(消防署管轄の最適化、宿泊施設の予約傾向など)が面白く感じました。詳しく知りたいのですが、こういった活用例に関してはインターネット上に情報があるのでしょうか?
すでに民間企業で活用しているケース、サービスが見受けられます。 もしざっくりとした活用例で良ければ、総務省のHPを確認することで多様な情報を得ることができます。また内閣府の「Society 5.0」についても、併せて確認いただければと思います。
今後、自治体がビッグデータを活用する際の課題はなんでしょうか?これまでの事例などがあれば合わせて紹介して頂きたいです。
自治体とビッグデータという点では、昨年度に発表された長崎県のビッグデータ分析を目標とした官民クラウド(長崎クラウド)が事例として挙げられます。
一方で法令順守と人材の不足による課題を考えており、こうした課題については地元大学による協力が必要不可欠であると考えております。
例えば今回の講義でご紹介いただいた例では、データの活用をする際に、
1.いろんなデータの集まりからテーマや様々な分析・検討をしようと考える
2.1とは逆に何か目的があってデータを集めていく
これはどちらもありなのでしょうか?
ありだと考えます。どちらも同じ規模の苦労があるため、どちらの方向が良いかは判断できません。
集めたデータが多すぎて処理しきれないということはあるのでしょうか?その時の対処法は?
あります。通常のシステムであれば、中間ファイルの数をカウントするだけでも数日かかる場合があります。
ただしそのような課題があれば、解決するための方策を検討することができるため、研究者としては一番楽しい瞬間です。
「データが多すぎて」という内容であれば、そのデータは全て必要か?という問題から検討するようにしています。
災害時や事故時のリアルタイムの避難誘導システムは構築できそうなのでしょうか?その際、アクセスポイントは保護できるのでしょうか?
アクセスポイント(さらには通信網)の系がダメージを受けることも想定する必要があります。これらはセンサーネットワークやシステム制御の領域で研究が進んでいます。
災害時の避難誘導システムについては産官学をまたいで研究開発が行われており、富士山でもBeaconを用いた遭難対策などの実験が行われています。
ドローンによるアクセスポイントはあるのでしょうか?
ドローンのWi-Fiアクセスポイントであれば、大学での研究として開発されているものを見学したことがあります。
報道されているものであれば、通信キャリアよりドローン基地局を用いた防災訓練なども存在しております。
Wifiという言葉はドコモやauなどにも普遍的に使われる名詞なのでしょうか?それともWifiという独立した固有名詞なのですか?ごちゃごちゃしていてよく分かりません。そもそもWifiってなんのことですか?
「Wi-Fi Alliance」という業界団体によって、規格を使用した端末間の相互接続が認められているものを指します。各企業が同団体より認められているため、同じように「Wi-Fi」という言葉を使用しています。そうでない企業は、「無線LAN」などの言葉を用いるでしょう。
市中で、野良Wifiを利用することがあります。セキュリティが心配で野良Wifiから自前のVPNへつなぎインターネットを利用したりしているのですが、この形でも私の諸データが流出する可能性はあるのでしょうか・・・?
VPNを利用していることそのものは検出されますが、VPNの性質上その可能性は小さくなります。暗号化されていない公衆LANを利用する場合は、セキュリティ・プライバシーの観点からVPNの利用が推奨されています。
リアルタイムにデータを収集する際、エラーデータや怪しいデータをどう排除するとよいのでしょうか?
あるデータを精査する際に、そのデータに制約を与えるような情報を用いて検討しています。
たとえばWi-Fiアクセスポイント(AP)の情報を用いた動態の把握を考えるに際して、いかなる交通網を検討しても実現できない移動のパターンが見受けられる場合があります。
このようなケースに対してエラーデータであると判定します。原因を調べてみると「管理者の方が、Wi-Fi APを自宅に持って帰ってしまっていた」などの理由でした。
標本の数と母集団の数値の倍率がわからないのに、どのようにWi-Fi検出数からデータの確からしさを検定できるのでしょうか?その推定は信頼できるのでしょうか?
各郵便番号区に対する推定についてのご指摘だと考えております。ご指摘のとおり任意の区に対する精度としては、まだまだ荒削りの状態であります。
今の研究段階としては、時刻毎の実際の数値が得られる区(e.g. 空港, 駅改札など)についてのデータとWi-Fi検出数を用いた推定を行なっており、そのような区が交通網という制約条件のもとで接続された系について、実際のデータ収集と精度の向上につとめています。
外国人観光客の訪日リピーターの嗜好(どのエリアに何回行き、何をしたかなど)行動から、クラスター分析、主成分/因子分析などを行い、観光客の満足度向上や訪日をさらに促進するためのコース設計を、主成分回帰分析などを使って行うことは有効でしょうか?
有効であり、そのようなアプローチが広く活用されるよう努めております。大手民泊系サービスでは、民泊だけでなく体験のマッチングも行うようになりましたので、そのようなアプローチは大変有意義だと考えます。
ただし良いコースの設計だけでなく、プロモーションやコース中の体験、旅程全体による影響も検討する余地があり、トータルでの設計と運用も検討したいところです。
データがデータを産むデータマイニングについて、事例があればお教えいただけますでしょうか。
データに対して知識が伴う視点から観察することで新たなデータが産まれます。またデータを観察することで得られた知見から、さらに別のデータが必要になることもあります。
ただし「データがデータを産むデータマイニング」については、データマイニングが何らかの価値を生み出しており、これに伴ってデータが蓄積される様子だと考えます。
申し訳ございませんが、的確な事例をお示しできません。
Free Wifi passportによるTrackingは、iphoneユーザは追跡されないのですか?
同サービスはAssociationログデータを使用しています。Probeは認証を行なってない変化するMACアドレスにより追跡できませんが。
郵便番号単位に丸められているとのことですが、元データはどうなっているのでしょうか?郡単位ではわかるとのご説明でしたが、監視カメラのように、テロ事件が起きた時の犯人追跡に使えるのですか?
実際にはアクセスポイントごとのログデータが記録されています。このため粒度は、比較的高いように考えられます。 問題発生時にWi-Fi接続を行いながら移動するという状況が考えられれば有効な手段ですが、ご指摘のような状態であればより良い代替手段が検討できるように考えます。
Free Wifi passport以外(例えばdocomo、au、SB)のWifiデータは未だ活用されていないのですか?
活用が始まっています。自治体が動線分析を行う場合の根拠や、店舗が広告を行なった場合のコンバージョン分析など、Wi-Fiデータを活用したサービスが存在しています。
SIMの場合、オン、オフによって変化するのはIPアドレスです。MACアドレスはスマホ購入時にハード的に決まっているアドレスだと思っていたのですが、Wifiのオンオフにより、MACアドレスは変化するのでしょうか?
変化します。MACアドレスを用いた追跡(Tracking)に対して、プライバシー保護の観点から、表層的な(Wi-Fi接続時のProbe Requestレベルでの)MACアドレスのランダマイズを行う端末が販売されています。
法的に、Wifiの位置情報の取り扱いは決められてプライバシーは保護されているのでしょうか?Softbankは郵便番号を1時間ごとに匿名加工しているそうですが、一般的にスマホにダウンロードされるアプリから収集されるWifi位置情報、MACメール、電話番号などの外部ログ情報は個人情報保護法や盗聴法などで保護されているのでしょうか?
改正個人情報保護法により多くは保護されます。アプリやサービスの利用規約・プライバシーポリシーにおいて、使用用途や範囲、定義など明記されていることと思います。 海外の調査では公衆Wi-Fiのアクセスポイントを利用する際に、規約を読んで利用しているユーザーの割合が極端に低いとの結果も報告されています。
行政も民間企業も一部コンプライアンス的な観点としてプライバシー保護に努めていますが、一方で悪意のあるサービス・アプリが存在していることにも注意していただきたいと考えております。
公共的データであれば収集、活用は問題ないと思いますが、個々の宿泊施設を対象にした場合、Webに出ている情報とは言え入り込みすぎることにならないのでしょうか?その宿泊施設のためのマーケティングに活用するならよいですが、他の利用者のために情報を改めて開示することは個人情報の扱い上問題にならないのでしょうか?
ご指摘のとおりです。更には特定の宿泊施設(民間企業)のマーケティングで活用されることについても十分な注意が必要です。
そのため、我々はあくまで社会活動の現象をWebデータから捉える・方法論の検討といった学術的な観点に視座を置く必要があると考えております。
個人情報保護の対策については議論が続いているとおっしゃいましたが、技術の進歩に対して、倫理に対する議論が追い付かなくなるのを避けるためには、どういったことが必要だと考えますか?
「技術」との継続的な対話が常に必要だと考えます。国立情報学研究所での研究期間では、分析・新しい事実を可視化を行なっては「この内容・手段は個人情報保護の上ではどう考えるべきか?」などと日々、研究室内での議論が続いていました。
研究室内だけでなく、所内の広報チームや民間企業、学会関係者、弁護士の方々とのやり取りを通じて、データが活用されることによる恩恵とプライバシーに関するリスクについての考えを共有することができました。
補正データに使うデータなどのアイデアはどのようにして考え出しているのでしょうか?専門家の方がいらっしゃるのでしょうか?
基本的には個人的に色々なオープンデータや公的統計、調査データなどの情報を日々調査しています。ある課題があるときに使えそうなデータは無いか、常に意識して生活しています。
定期的にクロールしていると、相手にブロックされることはありませんか?
実のところブロックされた経験はないのですが、お話は伺っております。そのような周期でクロールを行わないことが大切ですし、またサービス提供者側の規約を遵守することが非常に重要です。
現在就職活動中のものです。ビッグデータの取り扱いに必要とされる知識、求められる人材像をぜひ教えていただけますでしょうか。
市民講座では一般的な内容での回答とさせていただきました。民間企業の現場レベルであれば、ビッグデータの取扱いによく利用される言語・各種データベースに関する知識などを前提とすることが多いです。
個人的には「ビッグデータ」と聞いて、とりあえず乱数でも良いのでビッグなデータ(一つの記憶媒体に収まらない程度)を作ってみて、課題を発見して、解決策を考えられるような方が人材として心強いです。
講師殿が属する情報・システム研究機構とはどんなものですか?(研究目的/組織構成/、成果など)
国立情報学研究所、統計数理研究所、国立遺伝学研究所、国立極地研究所、ライフサイエンス統合データベースセンター、データサイエンス共同利用基盤施設からなる大学共同利用機関です。 特に小出が属する「データサイエンス共同利用基盤施設」では、データサイエンスの観点から、大学等の多様な分野の研究者に対し、大規模データ共有支援事業およびデータ解析支援事業と人材育成を行なっています。
公務員とベンチャー社員との二足の草鞋は許されるのですか?利益相反はないのでしょうか?
常勤職員でない短時間勤務のため可能です。