2/27 TokyoWebMining 3分間で出来るテキストマイニング 発表内容

「3分間で出来るテキストマイニング」はテキストをJavaScriptで読み込んで拡大表示するというプレゼンスタイルで挑んだため、発表スライドは御座いません。
発表時に用いたテキストを当ブログに貼り付けておきますので、宜しければ御覧下さい。
一画面で表示する文は----で区切っております。

      • -

3分間で出来るテキストマイニング

      • -

皆様!

      • -

帰る支度を
しながら
聞くか

      • -

帰りましょう

      • -

自己紹介!

      • -

twitterID:AntiBayesianです

      • -

AntiBayesianです

      • -

Anti
Bayesian

      • -

Anti:反対の、異議がある

      • -

Bayesian:ベイズ統計学する人

      • -

お客様の中で
ベイジアンな方は
いらっしゃいますでしょうか?

      • -

カモン
便所裏

      • -

ご安心下さい

      • -

7割くらいは
冗談です

      • -

今回の目的

      • -

テキストマイニング
利用者を増やす

      • -

そのために
「ざっくり」
分析する手法を
ご紹介

      • -

テキストマイニングとは

      • -

テキストに対する
マイニングである

      • -

そのまんまやんけ…

      • -

テキストマイニング
その利点とは!

      • -

1.全テキストを
分析対象に出来る

      • -

2.ブログや
twitterから
生の声が得られる

      • -

SU☆GO☆I

      • -

圧倒的ではないか
テキストマイニングは!

      • -

やってみるしかない!

      • -

やってみるべや!

      • -

・・・

      • -

あれ・・・?

      • -

あれあれれ・・・?

      • -

すげー精度低い

      • -

マイニングなのに
面白い発見がない!

      • -

そう

      • -

そうなんです・・・

      • -

テキストマイニング
実は前処理が大変!

      • -

テキスト数値化後は
データマイニング
とほぼ同じ処理

      • -

「テキスト数値化後」

      • -

テキスト数値化
難しい!!!

      • -

一通りではないし
ゴミが沢山ある

      • -

薄皮を積み上げるが如き
テキストクリーニング
が必要

      • -

TA☆I☆HE☆N

      • -

辞書の整備

      • -

ツールの構築

      • -

スタッフの育成

      • -

初期投資が高い

      • -

辞書
随時更新
必須だから

      • -

ランニングコスト
も結構高い

      • -

お試し程度の
注力では
成果は出ない

      • -

???
どうすればいいの
???

      • -

回答

      • -

「大企業が
大予算を掛けて
専門のスタッフを用意して
じっくり時間を掛ければ
いいよ!!!」

      • -

orz

      • -

「もっとざっくり
出来ないの!?」

      • -

そもそも、統計も
データマイニング
いきなり分析するわけじゃない

      • -

ざっくり散布図や
ヒストグラム描いたり

      • -

決定木作ったり
コレスポンデンス分析したり

      • -

色々あるよね

      • -

テキストマイニング用の
ざっくり分析、無いの!?

      • -

会場の皆様!

      • -

何すれば良いと
思いますか!?

      • -

ぴこーん!

      • -

頻度を取ってみる
といいんじゃね!

      • -

悪くないし、
実際よくやるけど
効果は薄い…

      • -

理由(1)
ゴミばっか上位にくる

      • -

理由(2)
どのテキストも
同じような単語が上位にくる

      • -

サッカーブログを
テキストマイニング
にかけてみた

      • -

サッカー用語ばかり
上位に来ました

      • -

・・・

      • -

あたりまえ
やんけ

      • -

「サッカーに
興味がある人は
『意外と』○○にも
興味がある」

      • -

こんな結果を出さなきゃ
駄目でしょう

      • -

・・・

      • -

打つ手は
無いのか

      • -

・・・

      • -

ございます!!!

      • -

ございますとも!!!

      • -

その名は!

      • -

【共起ネットワーク】

      • -

単語の出現頻度と
共起関係を
ネットワーク化

      • -

綺麗

      • -

簡単

      • -

気持ちいい!

      • -

説明!

      • -

共起とは

      • -

tsubosaka
先生に聞け

      • -

Jaccard係数とは

      • -

nokuno
先生に聞け

      • -

説明終了!

      • -

皆様
完全理解
ですね

      • -

共起ネットワーク

      • -

実践しよう!

      • -

利用ツール

      • -

KH Corder

      • -

無料

      • -

全自動
前処理機能
搭載

      • -

GUI
ボタンぽちぽち
マイニング

      • -

分析だけではなく
視覚化まで!

      • -

中身は
MySQL

R

      • -

もう一回言います

      • -

無料

      • -

大事なことなので
2回言いました

      • -

与太話は終わりだ

      • -

実践します!

      • -

夏目漱石
こころ

      • -

不朽の
文学作品で
テキストマイニング

      • -

あ・・・

      • -

皆様?

      • -

こころ
読んだよね?

      • -

高校の
教科書にも
載ってる

      • -

っていうか
日本文学
メジャーどころ

      • -

押さえてて
当然ですよね

      • -

読んでない人

      • -

挙手

      • -

一行でわかる
こころ

      • -

「親友から寝取った」

      • -

以上

      • -

やるぽあ!

      • -

嬉しい点

      • -

結果を見ながら
クリーニング出来る

      • -

ネットワーク図見て
明らかに要らない語
削除していこう

      • -

ご覧頂いたように

      • -

重要語
関連語

      • -

簡単に
把握可能

      • -

これを軸として
様々な分析に
着手出来る

      • -

テキスト
マイニング

      • -

難しくて

      • -

面倒くさくて

      • -

ツールもなくて

      • -

どこから
手を付ければ
いいかわかんない

      • -

そんな
昨日までと
おさらばやで!

      • -

勉強して
終わり

      • -

意味無し

      • -

実践
あるべし

      • -

あなたは
ツールも
手法も
手に入れた

      • -

テキストマイニング
あなたも出来る
気がしてきましたか!

      • -

もしかして:気のせい

      • -

☆おしまい☆

      • -