最近, いろいろなログ分析サービスが出現しており, 私が直接知っている方が関わっているものも2つある.

  • soleami
  • Treasure Data
    • ログ分析サービスというわけではないが, 現在の主な用途はログ分析だと思われる.

これらのサービスに, 顧客のIPアドレスやユーザエージェント, 携帯電話の契約者Idを渡すのは好ましくない. サービス側による個人の特定や名寄せ, もしくはサービス側から情報が漏れた場合に第三者による特定や名寄せが行なわれる可能性がある.

これは Google Analyticsなどでも同様であるが, 情報の扱いについてのヘルプがあり, これに同意して導入者が情報を提供している. また『Google Analytics の使用を完全に開示するプライバシー ポリシーを用意する必要があります。』 となっており, プライバシーへの配慮が見られる.

しかし, 前述の2つのサービスではそこまでの配慮は見られない.

soleamiの利用規約では

第7条(利用者のデータの統計処理活用)

ロンウイットは、データ解析のために、利用者がアップロードしたファイルを自由に利用することができるものとします。

ロンウイットは、利用者が特定されない方法によって、統計処理された解析データを本サービス以外でも利用することができるものとします。

と書かれている. ここでの利用者はログ提供者であってログ提供者のサービス利用者ではない.

Terms of Service | Treasure Data では,

3.1 Use of Collected Data. You represent and warrant that (a) you have the right to provide to us the Collected Data and we have the right to use such Collected Data in the manner described in these Terms; (b) your use and transmission of Collected Data is and will be in compliance with these Terms, and all applicable laws, regulations, and ordinances, including relevant data privacy laws; and (c) you have provided all necessary notices and obtained all necessary consents related to the collection and use of such Collected Data in the manner described in these Terms. We reserve the right to review and/or remove any Customer Data if we suspect that it is in violation of these Terms and/or applicable laws. We will only access and use the Collected Data to the extent it is necessary to provide the Service to you. Notwithstanding the foregoing, we may use the Collected Data for the purpose of generally maintaining and improving the Service as well as for developing and distributing general benchmarks or statistics pertaining to the Service, provided the Collected Data is used in the aggregate and is in anonymized form.

と書かれている. 制限事項はあるが明快とはいえない.

とはいえ, これらのサービスは便利であり利用したい人も多いだろう. その場合は, 個人を特定したり名寄せできる情報を送らないようにしてしまうのが無難である.

  • soleami の場合は Solr が直接インターネットからのアクセスを受け付けない構成になっているサービスが多いと思われ(Webサーバがインターネットからのアクセスを受け, Solrに転送する), この場合はサービス利用者の情報は検索クエリだけに限定されるので問題とはならないだろう.
  • Treasure Data では, すでに IPアドレスやUserAgent, さらには携帯の契約者Idの単なるSHA1値を転送している例がある.
    • 携帯の契約者Id については Fluentd meetup #2 32ページ
      • 携帯の契約者Id の部分的なリストの入手は携帯向けサービスを行なえば容易であり, SHA1 だけでは名寄せや逆引きを防げない.
  • 参考: プライバシーとIPアドレス によると IPアドレスだけでも個人情報となる国がある. 利用者のIPアドレスをクラウドベースのサービスに提供するのは慎重になったほうがよいだろう.
  • 個人を特定したり名寄せできる情報ベースでの分析を行ないたい場合は, 直接のその値を用いず外部から推測できない別のIdに変換してから送ればよい. ただし 前述の契約者IdのSHA1値のような結局特定/名寄せ可能な方式ではだめだ.