2/27 TokyoWebMining 3分間で出来るテキストマイニング 発表内容
「3分間で出来るテキストマイニング」はテキストをJavaScriptで読み込んで拡大表示するというプレゼンスタイルで挑んだため、発表スライドは御座いません。
発表時に用いたテキストを当ブログに貼り付けておきますので、宜しければ御覧下さい。
一画面で表示する文は----で区切っております。
-
-
- -
-
3分間で出来るテキストマイニング
-
-
- -
-
皆様!
-
-
- -
-
帰る支度を
しながら
聞くか
-
-
- -
-
帰りましょう
-
-
- -
-
自己紹介!
-
-
- -
-
twitterID:AntiBayesianです
-
-
- -
-
AntiBayesianです
-
-
- -
-
Anti
Bayesian
-
-
- -
-
Anti:反対の、異議がある
-
-
- -
-
-
-
- -
-
お客様の中で
ベイジアンな方は
いらっしゃいますでしょうか?
-
-
- -
-
カモン
便所裏
-
-
- -
-
ご安心下さい
-
-
- -
-
7割くらいは
冗談です
-
-
- -
-
今回の目的
-
-
- -
-
テキストマイニング
利用者を増やす
-
-
- -
-
そのために
「ざっくり」
分析する手法を
ご紹介
-
-
- -
-
-
-
- -
-
テキストに対する
マイニングである
-
-
- -
-
そのまんまやんけ…
-
-
- -
-
テキストマイニング
その利点とは!
-
-
- -
-
1.全テキストを
分析対象に出来る
-
-
- -
-
2.ブログや
twitterから
生の声が得られる
-
-
- -
-
SU☆GO☆I
-
-
- -
-
圧倒的ではないか
テキストマイニングは!
-
-
- -
-
やってみるしかない!
-
-
- -
-
やってみるべや!
-
-
- -
-
・・・
-
-
- -
-
あれ・・・?
-
-
- -
-
あれあれれ・・・?
-
-
- -
-
すげー精度低い
-
-
- -
-
マイニングなのに
面白い発見がない!
-
-
- -
-
そう
-
-
- -
-
そうなんです・・・
-
-
- -
-
テキストマイニング
実は前処理が大変!
-
-
- -
-
テキスト数値化後は
データマイニング
とほぼ同じ処理
-
-
- -
-
「テキスト数値化後」
-
-
- -
-
テキスト数値化
難しい!!!
-
-
- -
-
一通りではないし
ゴミが沢山ある
-
-
- -
-
薄皮を積み上げるが如き
テキストクリーニング
が必要
-
-
- -
-
TA☆I☆HE☆N
-
-
- -
-
辞書の整備
-
-
- -
-
ツールの構築
-
-
- -
-
スタッフの育成
-
-
- -
-
初期投資が高い
-
-
- -
-
辞書
随時更新
必須だから
-
-
- -
-
ランニングコスト
も結構高い
-
-
- -
-
お試し程度の
注力では
成果は出ない
-
-
- -
-
???
どうすればいいの
???
-
-
- -
-
回答
-
-
- -
-
「大企業が
大予算を掛けて
専門のスタッフを用意して
じっくり時間を掛ければ
いいよ!!!」
-
-
- -
-
orz
-
-
- -
-
「もっとざっくり
出来ないの!?」
-
-
- -
-
そもそも、統計も
データマイニングも
いきなり分析するわけじゃない
-
-
- -
-
ざっくり散布図や
ヒストグラム描いたり
-
-
- -
-
決定木作ったり
コレスポンデンス分析したり
-
-
- -
-
色々あるよね
-
-
- -
-
テキストマイニング用の
ざっくり分析、無いの!?
-
-
- -
-
会場の皆様!
-
-
- -
-
何すれば良いと
思いますか!?
-
-
- -
-
ぴこーん!
-
-
- -
-
頻度を取ってみる
といいんじゃね!
-
-
- -
-
悪くないし、
実際よくやるけど
効果は薄い…
-
-
- -
-
理由(1)
ゴミばっか上位にくる
-
-
- -
-
理由(2)
どのテキストも
同じような単語が上位にくる
-
-
- -
-
サッカーブログを
テキストマイニング
にかけてみた
-
-
- -
-
サッカー用語ばかり
上位に来ました
-
-
- -
-
・・・
-
-
- -
-
あたりまえ
やんけ
-
-
- -
-
「サッカーに
興味がある人は
『意外と』○○にも
興味がある」
-
-
- -
-
こんな結果を出さなきゃ
駄目でしょう
-
-
- -
-
・・・
-
-
- -
-
打つ手は
無いのか
-
-
- -
-
・・・
-
-
- -
-
ございます!!!
-
-
- -
-
ございますとも!!!
-
-
- -
-
その名は!
-
-
- -
-
【共起ネットワーク】
-
-
- -
-
単語の出現頻度と
共起関係を
ネットワーク化
-
-
- -
-
綺麗
-
-
- -
-
簡単
-
-
- -
-
気持ちいい!
-
-
- -
-
説明!
-
-
- -
-
共起とは
-
-
- -
-
tsubosaka
先生に聞け
-
-
- -
-
Jaccard係数とは
-
-
- -
-
nokuno
先生に聞け
-
-
- -
-
説明終了!
-
-
- -
-
皆様
完全理解
ですね
-
-
- -
-
共起ネットワーク
-
-
- -
-
実践しよう!
-
-
- -
-
利用ツール
-
-
- -
-
KH Corder
-
-
- -
-
無料
-
-
- -
-
全自動
前処理機能
搭載
-
-
- -
-
GUIで
ボタンぽちぽち
マイニング
-
-
- -
-
分析だけではなく
視覚化まで!
-
-
- -
-
中身は
MySQL
+
R
-
-
- -
-
もう一回言います
-
-
- -
-
無料
-
-
- -
-
大事なことなので
2回言いました
-
-
- -
-
与太話は終わりだ
-
-
- -
-
実践します!
-
-
- -
-
夏目漱石
こころ
-
-
- -
-
不朽の
文学作品で
テキストマイニング
-
-
- -
-
あ・・・
-
-
- -
-
皆様?
-
-
- -
-
こころ
読んだよね?
-
-
- -
-
高校の
教科書にも
載ってる
-
-
- -
-
っていうか
日本文学
メジャーどころ
-
-
- -
-
押さえてて
当然ですよね
-
-
- -
-
読んでない人
-
-
- -
-
挙手
-
-
- -
-
一行でわかる
こころ
-
-
- -
-
「親友から寝取った」
-
-
- -
-
以上
-
-
- -
-
やるぽあ!
-
-
- -
-
嬉しい点
-
-
- -
-
結果を見ながら
クリーニング出来る
-
-
- -
-
ネットワーク図見て
明らかに要らない語
削除していこう
-
-
- -
-
ご覧頂いたように
-
-
- -
-
重要語
関連語
-
-
- -
-
簡単に
把握可能
-
-
- -
-
これを軸として
様々な分析に
着手出来る
-
-
- -
-
テキスト
マイニング
-
-
- -
-
難しくて
-
-
- -
-
面倒くさくて
-
-
- -
-
ツールもなくて
-
-
- -
-
どこから
手を付ければ
いいかわかんない
-
-
- -
-
そんな
昨日までと
おさらばやで!
-
-
- -
-
勉強して
終わり
-
-
- -
-
意味無し
-
-
- -
-
実践
あるべし
-
-
- -
-
あなたは
ツールも
手法も
手に入れた
-
-
- -
-
テキストマイニング
あなたも出来る
気がしてきましたか!
-
-
- -
-
もしかして:気のせい
-
-
- -
-
☆おしまい☆
-
-
- -
-