面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ

転職して丁度2年がたちました。

現在はWebベンチャーで統計屋しています。大変楽しい毎日です。
なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1
このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。
あと現職の解決しがたい不満についても書いています。
糞長くなってしまったので要約すると
「今糞面白いけど超えられない壁あるので誰か助けて」
です。


現職面白い理由5個。

1.データが面白い*2

私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした
行動経済学テキストマイニングをやっていました。
そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、
それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。
ですが今はSNSソーシャルゲームや広告のデータを自由に扱えるため、
毎日放っておいても社会実験用のデータ入ってくるような状況。
面白データ見てたらお金が貰える仕事、完全に未来感ある。

ゲームのデータの面白さの一例を挙げると、文字/画像情報しかないSNSと違い、MMOでは空間データも取得できます。
これを見ていると凄い面白いのが、親密な相手には近い位置に立って会話し、
初対面の相手では遠い位置で会話をしているという事実。
現実でも似たようなものですね。
そのデータから親密な人同士の距離がどの範囲かを知る事が出来ます。
さらに、親密な人がいるプレーヤーは継続して遊んでくれるプレーヤーになるというデータも得られました
これもまぁ実感的な話ですね。
それらのデータから生まれたのが、あるエリアの広場に椅子を置くというアイデアです。
だだっ広いエリアで目立つように置かれた椅子。ゲーム内と言えども座りたくなりますよね。
そして椅子と椅子との距離を「親密な人同士が会話する距離」に設定しました。
広場の端と端にいれば、中々会話は始まりません。
しかしごく近い位置にいるとどうでしょう?
例えば会社によくある喫煙室のような狭い部屋で顔を突き合わせていると、
相手を無視するのも気まずいので、会話が発生しやすくなります。
すると、普段は全然絡みの無い全く違う部署の方と会話が弾んで意外な情報を得たり友好関係を結んだりすることがあります。
物理的な近さは思いの外親密度に繋がります。
無理やり近くにプレーヤーを配置するわけにはいかないため、
自発的にかつ必然的に近づいて話しかけやすい環境を整えました。

面白いデータと統計学を用い、
椅子を近い距離に配置して会話を発生しやすくするというアイデアを生むこと、
イデアを実践すべく、親近感を覚えつつパーソナルスペースを侵害しない距離がどの程度なのか掴むこと、
椅子を設置することで実際に会話が誘発出来たか厳密に検証すること、
これらを実現することが出来ます。
特に最後の検証については、
(1) 会話が誘発できたかどうかをどのような指標を用いて評価するか、
(2) 会話を誘発することによって継続率へ実際に貢献したと言えるような根拠があるのか
など難しい問題もありました。ここについては後でちょっと語ります。

MMOはさらに身振り手振り表情、会話の内容だけではなく「会話の間」まで含めたデータ取れるため、
もう凄まじく面白いです。

数人人程度の社会実験に参加したことはありますが、データの収集が本当に大変でした。
カメラを四方八方に用意するのも非現実的で
(資金的にも設置的にも難しいし、カメラに囲まれた状態で普通の人は平常の行動しない)
人の表情見ても、笑ってるのか口空けてぼうっとしてるだけなのかの判別も難しいです。
また、観察してみると人間の行動は実に無駄な動きが多く、
重要な実験反応なのか単に頬が痒くて掻いたのかの判別も難しいです。
ひたすら動画を見て、被験者の瞬きの回数をカウントするとか、もう、もうほんまあかん、
何回カウントしなおしても、わいはがさつやから回数が一致せえへんねん、ほんまあかん、あかんねや!
インターネット最高!Webシステム最高!自動化最高!データ最高!

2.インフラや開発チームが整ってる

このビッグデータ時代、統計やるにもやれ並列分散処理システムのHadoopやら
色んなサーバからデータを滞りなく取ってくるシステムのfluentdやら、
とにかく色々システム関連の事もやらないといけません。
毎日TB級のデータが飛んでくるため、Excelでしこしこ手作業で集計なんてしてられません。
しかし私は統計がやりたいのであってHadoopのチューニングだとか安定運用だとかはとてつもなく不得手だし、
どう考えてもそれらを私にやらせるのコスパ悪いです。私の好きな経済学用語は比較優位*3です。
しかしビッグデータは扱いたい!
統計学的に正しいサンプリングするの結構骨のある作業なので、悉皆調査してしまいたい!
そんなわがままを叶えるべく、弊社は専門のインフラ部隊が存在するため、
私は何も考えることなくHiveというHadoopから簡単にデータ取ってこれるシステムに
「こういうデータ欲しいから、下さい!!」
ってクエリぶっこむとなんか良い感じにして出してくれる、すげー楽。
やったー、ポケベルを常に胸に入れていつ鳴るか怯えるような生活しなくていい!!
ありがとうインフラ部隊、ありがとうインフラ部隊!!

また、日々様々なKPIを把握したいのですが、
基本的なデータの集計や可視化は完全に定型処理なので、
一々手作業するのはダルイです、昭和かよって感じです。
なのでBIツールが欲しいです。
昼に出社したら、売上とかアクティブなユーザー数とかどのアイテムがどの程度売れたのかとか、
はたまた課金額レンジ毎の平均レベル差はどうなってるんだろうかとか、
そういうレポートが全自動で用意されてて
ブラウザからBIツール見たら全て把握できると昭和感が無くなります。
しかしBIツール作るとなると、サーバサイドもフロントエンドも作りこまねばなりません。
だるい…。
のでそこらへんの開発もやってくれるチームがあるととてつもなく便利です。
私はひたすら「こういう分析がしたいからこういうデータからこういう指標作ってくれ」
ってぐだぐだ注文を投げまくってたらなんか良い感じのBIツールが出来てた。凄い。
けど私の注文はまだ止まらない、Excelを開いたりキーボードを叩いたりすることなく、
全てマウスポチポチしてるだけで、いや、アニメーションとかで見るべき指標とか勝手に切り替わってくれ、
寝転んでるだけで重要情報が流れ込むようにしてくれって願ってる。
その期待に応えてくれるチームがある。大感謝である。
が、ここも後で言いたいことがある。

3.上司がやばい

転職して一番想像と違っててやばかったのが上司がやばいことで、今の上司が本当にヤバい。
上司は元プロデューサーで、完全にシステムや統計のことはわからない。
わからないので無茶な注文をすることもたまにある。
そんな時どうするか?
あんちべ「それ統計の原理的に無理です」
上司「お前が無理だと言うなら無理なんだろう、やめた」
で話が終わる。
マジで!?
やりたいことがあれば
あんちべ「こういうことやるべきだと思うんでやりたいです」
上司「お前がやりたいんならやる価値あるんだろ、やってみろ」
で話が終わる。
マジで!?
まぁ一言で言うと上司物分かり良過ぎ、裁量権与えてくれ過ぎ。二言になった。
そして何より大抵の依頼がすげー冴えてる。
私はなんだかんだ言ってゲーマーだったり広告マンだったりではないので、
根本からゲーマーの心に響く施策のアイデアなどを生み出したりすることは出来てない。
強いファシリテーション能力とアイデア
両方を持ちつつそれでいワンマンにならないって中々出来ない。
データが面白いとかインフラ部隊が強いというのは入社前から知ってたけど、
さて上司がどうなるかは完全に未知数だったので、そこだけが懸念というか運任せだった。
ここまで上司に恵まれるとは想定外。
上司への依頼も大体通る、一点除いて。
これも後で話す。

4.フィードバックが得られる

分析するじゃん、施策出すじゃん、やるじゃん。
「受けました、売上アップです!!」
「全然受けなかった…売り上げダウンだ…」
どっちでもすぐに、そして明確なフィードバックが返ってくる。
これくっそ面白い。
これは研究室にいたら体験できなかったことだ。
統計学が金になるのやばい。

5.自分で何でもできる

これは人によると思うけど、私はデータの設計から何から自分でしたい。
「こういうデータがあれば分析できるのに~」とか言いたくない。
転職する時、受託じゃなくて自社サービス持ってる企業に対象を絞った。
んで今はデータの設計から分析から何から何までできる。
統計の父と呼ばれる超有名な統計学者フィッシャーの言葉で
「実験が終わってしまった後で統計学者に相談をするのは、検死解剖をどのように行なえばよいかを尋ねるようなもの」
というのがあります。
よーするに、
「なんか降ってきたデータをあれこれかき回してお便利ツール叩いてぽんっとなんとか値とか出す」
というのは統計屋の仕事ではないってことです、それはツールのオペレータさんです。
どのような目的で
どのようなデータを設計・収集し
どのような定義と評価指標で
どのような分析手法を用いて
どのように結果を相手に渡すか?
それら全部適切に設計・実践して初めて統計屋だという話です。
私は統計学に対し、溢れない才能の限りを尽くして真摯に学び適切に活用したいと思います。
データの整備から分析まで全部やります、全部だ。
うちはチーム体制を取ってはいるので、分業するのはいい。
しかしチームとして全部賄わなければならない、必ずだ。



長くなってきたので疲れた、日付も変わってしまった。
最後に言いたいことがあります。
うち来て一緒に働きませんか?
上の方で書いてた不満、それはもう突き詰めると単純に人手不足の一言に尽きます。
BIツール、さっき書いたようにまだまだ拡充したい。
だからエンジニアに来てほしい。インフラもフロントエンドもミドルウェアも全然足りない。
また、弊社はサービスいっぱいあるのに分析担当者が少なすぎる、マジ全然いねぇ!
そのため分析するサービスを本当に売れ筋の奴だけとか新規立ち上げの時だけとかに絞らざるを得ない。
無念だ、手つかずのデータが転がってる、コレ活用しないの統計に携わる者として本当に悪だ。
料理人が食材を腐らせたまま放置させてるようなもんだ。
情報には鮮度がある、腐らせてはいけない
だから統計学機械学習自然言語処理出来る人に来てほしい。
さらに、分析結果だけじゃ施策に落とし込めない。
私は正直アイデアマンじゃないし、ゲームや広告のことは全然知らない、
ユーザの心に刺さるアイデアなんて出せない。
だからプランナーにも来てほしい。
っていうか全体的に人が足りない、全然足りない。
優秀な学生さんの採用活動などに携わったり中途採用の面談したりしてるけど、
もう足りないの目に完全に見えてる。



具体的にやりたいけどやれないことを一つ挙げたい。
私はテキストマイニングやら自然言語処理やらにも片足突っ込んできたけど、
そんな程度じゃ全く歯が立たない問題がある。
談話解析だ。
MMOは空間・時系列データを取れる。ハッピーだ、取れるのは素晴らしいことだ。
会話データはハッピーの産物だ、
プレーヤーの飽き具合やら熱中要因やらそのプレーヤーの関心のあることなど色々含まれてる。
会話するには相手が必要だ、私は時々壁に向かって話すけどね。
で、メールの場合は誰と誰がいつどのターンで話しているか明確だ。
だけど、MMOは全くそうじゃない。
広い空間に沢山の人がいて、皆吹き出しのようなものにテキストを表示している。
twitterみたいに誰宛かを示すような@マークは無い。
一体誰と誰が話しているのかなっかなか分からないんだ!
MMOをやればわかるけれど、単に同時刻同じ場所に居れば会話参加者かと言えば全くそうではない。
かといって、一言も発しない人が会話に混ざってないかどうかというとそうとも言い切れない。
聞き役に徹していることもある。
また、会話参加者は自由に増えたり減ったりする。
となりの会話グループと混ざったり離れたりもする。
会話じゃなくて独り言をつぶやきあってる人がたまたま近くにいる場合もある。
会話じゃなくて野次を飛ばしてる場合もある。
っていうかそもそも会話参加者の定義とは何だ?
正直に言おう、今はクリアに「これは会話のデータだ!」とわかるものだけしか分析してない!
上手いこと空間/時間/テキスト内容のデータから誰と誰がどの程度会話しているかなどが知れないものか?
色々試したけど、ずっとこいつにぶつかってうーんうーんと唸ってる。
私の付け焼刃の自然言語処理スキルでは太刀打ちできそうにない。
リアルでの社会実験はそもそも参加者数が少なかったし、誰か一人が話せばまぁ普通他の人は聞く側に回る。
というか実験参加者全員が普通会話参加者になるからこんな苦労は無かった。
さぁ、こいつをどうしてくれようか?今のところ手が無い。




というわけで本当にぐだぐだ書いたけど、誰か一緒に働きませんか。
前例のない規模での社会実験してみませんか。
毎日面白おかしいです。
twitterやリアルで私の言動知ってる人ならわかると思いますが、
私が許容される程度なのでそうとう無茶の利く会社です。
ここで弊社の良い所をばんばん挙げてアッピールとかすればいいと思うけど、
まぁそういうのは人によって受け取り方それぞれだし私がそんなん言っても信用されないだろう。
そもそも私がここに入社した理由はデータが面白そうだったからであって
「社員みんな仲良しで充実した業務内容です!」とかに惹かれたわけでは全くない。
っていうかそんなの正直どうでもいい。
で、実際データが面白いことに関しては保証します、これだけは信用して欲しい、
私の統計に費やした決して短くない年月に賭けて誓います。
助けてくれ、やりたいこといっぱいあるんだけどやるだけのリソースが無いんだ、一緒にやって下さい。


あと何で急にこんな一緒に働こうぜとか言い出したかというと、
採用活動ひと段落したけどやっぱ全然人が足りねーじゃんという感じで青ざめた、プラス、
人事・上司に「何人か採用して下さいって言ったら通ります?」って聞いたら「全然通る」って話になったからだ。
人手が足りないのわかってる+採用OKと言われた、じゃありくる~てぃんぐするしかない。

ちなみにりくるーてぃんぐするしかないと言っておきながら、
色々事情があって氏名/所属先を一般公開することは出来ない
(本当に申し訳ないけど、九州から東京までメンヘラさんに特攻された経験があるので…)。
勤務地は研究するなら基本渋谷、あとはエンジニアの方でしたら大阪とか九州とか。
こんな文章ですが、もし興味を持って頂けたなら、
twitter: @antibayesianまでご連絡ください。
氏名や個人情報は不要で、どういうことがやりたくてどういうスキルがあるか教えて頂けるとスムーズです。
あと経歴とか研究業績とか
ご連絡頂けたら社名と事業内容について説明させて頂きます。

これで上手いこといい人採用できたら人事は私に何かくれるべきだとも思う。
まぁとにかく不甲斐無い思いでいっぱいだけど、楽しくやってるよ。
もしよかったら一緒に働いてくれる人がいてくれるとハッピーだなって思ってる。
博士大歓迎!!博士じゃない人はみんなD進しよう!

こんな長文読んでくれてサンクス、機会あれば飯行きましょう。



追伸
https://twitter.com/todesking/status/407550502629437440
リスプ


追記
「連絡したいけど何を伝えればいいのかわからない」とのご意見頂きましたので追記しました。
何やりたいか、どういうスキルをお持ちかの2点をお伝え頂けましたら、
弊社の概要と頂いた興味関心にマッチする業務内容があればそれをご紹介させて頂きたいと思います。
よろしくお願いします!


■追伸
大変申し訳ありませんが2014/02/11時点で一旦採用活動終了(新卒対応せにゃ)致します。
拝承

*1:https://twitter.com/todesking/status/407552404616249344

*2:統計屋にとって一番重要、私の主な転職理由

*3:ググれ