この本すごくわかりやすくてためになる。
![]() |
テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法 那須川 哲哉 東京電機大学出版局 2006-11 |
以下、読書メモ(かなりの部分が本書からの抜粋です)。
p.p1 {margin: 0.0px 0.0px 0.0px 0px; font-size: 15.0px} p.p2 {margin: 0.0px 0.0px 0.0px 10.0px; font-size: 14.0px} p.p3 {margin: 0.0px 0.0px 0.0px 20.0px; font-size: 13.0px} p.p4 {margin: 0.0px 0.0px 0.0px 30.0px; font-size: 12.0px} p.p5 {margin: 0.0px 0.0px 0.0px 40.0px; font-size: 11.0px} p.p6 {margin: 0.0px 0.0px 0.0px 50.0px; font-size: 10.0px} p.p7 {margin: 0.0px 0.0px 0.0px 60.0px; font-size: 9.0px} span.s1 {font-size: 12.0px} span.s4 {font-size: 11.0px} span.s3 {font-size: 10.0px} span.s2 {font-size: 9.0px}テキストマイニング
テキストマイニングとは
複数の文章の内容を分析する技術
注意点
分析そのものを機械化するのがテキストマイニングではない
あくまで人間が膨大な文書データを有効活用するためのツールであり、データ内容を解釈して判断を下すのは人間である
テキストマイニングによる分析
テキストの分析で機械的に確実な判断が可能なのは「どのような文字列を含んでいるか」というレベルに過ぎない
しかし、「ある文字列からなる表現を含むデータが何件あるか」といった分析なら、ある程度信頼性の高い分析が望める
例えば次のような分析が可能になる
読書関連表現を含むデータは、10年前と比べて増えているか減っているか
どのような年代や地域で読書関連表現を含むデータが増減しているか
作家や作品およびそのジャンルの出現数がどう推移しているか
注意点
どのような知見を抽出し、それをどう役立てるかは分析者のアイデア次第であり、テキストマイニングの成果はこの活用方法に関するアイデアに大きく依存する
テキストマイニングの仕組み
主な技術的課題
文章中に記述された内容をいかにして統計的に分析可能な状態にするか
文章中に記述されている内容に対して、どのような統計的分析が可能か
処理の流れ
自然言語処理 → マイニング処理
自然言語処理
形態素解析
構文解析
マイニング処理
相関ルール抽出(バスケット分析)
サポート(支持度)
特定の組み合わせが一緒に存在するデータの件数
「オムツ + ビール」の数
コンフィデンス(確信度)
「オムツ」全件に対する「オムツ + ビール」の割合
自然言語処理の難しさ
曖昧性の問題
絶対値が上がる
赤い紐の靴
プログラマーをしている
誤りの問題
文法的な誤り
誤字脱字
テキストマイニングにおけるマイニング処理の難しさ
相関ルール抽出を行うにしても、どういうデータを食わせるかで結果が全然違ってくる
アプリケーションCD、英語版、など
なぜなら、対象とする文字列データの意味が曖昧だったり、粒度がまちまちだったりするので
そのため、分析目的の設定とそれに応じたデータの構造化が必要になってくる
明確な分析目的を設定せずに同じ文章中に出現しやすい表現の組み合わせを抽出しても、雑多な相関ルールの山が得られるのみで役に立つ結果につながらないのはいわば当然である。(引用)
絶対的な件数に価値を求める危険性
概念の抽出が100%の制度で実現できたとしても、それにより得られたデータの絶対的件数をそのまま利用するのは危険
なぜなら、記述されていないデータがあるかもしれないから
相対的な件数や比較に意味を見い出すほうが健全
テキストマイニングの価値は、基本的には比較による特徴の抽出にある
各々の絶対的な件数には意味がない
ピザを食べた人の方が寿司を食べた人よりも実際に多いかどうかを確認するには、また別の調査が必要
しかし、ピザを食べた人の年齢の分布と寿司を食べた人の年齢の分布を比較したり、ピザを食べた時間帯と寿司を食べた時間帯の分布を比較したりすることには意味がある
また、同じ抽出条件で5年前や5年後のデータにおける件数の割合を比較することにも意味があるかもしれない
適合率と再現率
やっぱりここでもこの二つはトレードオフの関係
テキストマイニングにおいては、適合率を優先して上げる方が効果的で効率が良い
なぜなら、膨大なテキストデータの中から抽出対象とすべき残りのデータを探し出すには大変な努力が必要となるので





