行ってきました

言語処理学会第14回年次大会(NLP2008) というのに行ってきました。
なかなかおもしろいですね、こういうの。
何がおもしろいって、質疑応答の時のあの微妙な緊張感。
建設的な質問もあれば、細かいところに突っ込みを入れたがるというか重箱の隅をつつきたがるような感じの質問も。
まあ、いろんな視点があるというのを知れて良いですね。

Web 上のデータから

Web 上のデータからどのように意味のある情報を抽出するか、というような話題が結構多かったように思います。
総じてどの研究も大した成果は出せてない印象を受けました。
というか、まだまだ全然模索段階なんですよね、こういう分野って。
結果の数値を見ても「はあ、そうですか」みたいな、それが何を意味するのか理解しにくいものが多い。
例えば、この理論を応用してこういうことをしてみたらなんと!こんな結果が出ましたー!!、みたいな感じだとわかりやすくて良いんだけどなぁ。
それは期待しすぎか。

ケーススタディとして

それぞれの研究は、結果はともかく、ケーススタディとして非常に価値があると思います。
例えば、機械学習をやろうとしたとき、そのために必要な学習データは人間が作るわけなんですが、その際にもいろんな問題が発生するそうです。
作成する学習データの質に個人間でばらつきが出たりとか、そもそもデータとしてどういうものが正しいのかがよくわからないケースがあったりだとか。
そういう問題って、実際にやってみないとわからないことが多々あると思うんですよね。

評判分析の手法とか

Web 上のデータ、特に CGM と呼ばれるようなコンテンツのデータを用いた評判分析の手法とかをいろいろ考えてる人がいるみたいですけど、あれは相当難しいですよ。
今の技術じゃまともな解析結果・意味のある解析結果なんてほとんど出せないと思います。
あと、これが一番重要なことだと思うんですけど、もし仮に Web 上のデータから意図した情報・意味のある情報を取り出すことに成功したとしても、それを用いて有用なアプリケーションが作れるとは限らないと思います。
つまり二段階の難しさがあるわけです。
で、現状、一段階目でかなり豪快につまづいているように見えます。

つーか、こういう Web マイニング的な分野の研究って混沌としてるなぁ。
何がしたいのかよくわからないものが多い。
意図がよくわからなくてもおもしろいものはおもしろいんだけど、おもしろければいいってもんでもないしなぁ。

形態素解析とか

形態素解析とかの話の方が研究としては純粋な感じで良い印象を受けた。
みんな本当に頭を使って研究しているなぁ、と感じた。
純粋に理論で勝負しないといけない世界だからなぁ。
知らない単語がたくさん出てきた。

本当は

ていうか、言語を理解する・文章の意味がわかるというのはどういうことなのか、というような話を本当は聞きたいんですけど、そういうのはやってないですね。

あさっても行きまーす。