NLP 若手の会第4回シンポジウム

先週の半ばに、京大で表題のようなシンポジウムが開催されていましたのでのぞいてきました。

NLP若手の会(YANS) Web Site - 第4回シンポジウム (2009年)

全体的な雰囲気としては、趣旨にもある通り、若手研究者の交流ということで、私と近い年齢(とおぼしき)研究者の方が大半で、ポスターセッション中心でフランクな感じでした。また、企業の方も数名来られており、私のようないわゆる研究者ではない人間が紛れ込んでいても特に違和感はなかったです。ただ勿論、一線の研究者が集う場所なので、前提としている「言葉」とか結果に対する「感覚」がやっぱり普段の技術者の集いとは違いました。例えば SVM やそれに対する評価量といったことなど当たり前のモノとして話されてましたし。普段使わない言葉が飛び交っている環境はやっぱりプレッシャー感じますが、刺激にもなりますデス。

と、そんな訳で、大きくばっくりどんな研究がされていて、どんな所が面白いのか、といった粒度で話を聞いたり、ポスター見たりしてきました。ざっとメモ。(今回は門外漢度高いので、怪しい所あります)

Wikipediaからの意外性のある情報の抽出

オープンコーラが例にあげられていたのですが、例えばオープンソースで検索した場合に、このオープンコーラがあたるような「意外性の関連の抽出」をしてみようという試み。

Wikipedia のカテゴリからグラフを作り、各ノードに対して幾つかの前提条件を設定して SVM で意外度を機械学習させ、それをもって検索結果を出してみたとのこと。結果としては一番聞くのは共通の子要素の数であったようですが、「意外性」の精度としてはまだ課題が残るようです。

確率モデルを利用したWeb文書からの見出し抽出

HTML 文書から DOM 構造ではなく、言語的な特徴から見出し語を抽出するという試み。またそれを独自のレイアウト構造ととらえ、別文書間でのレイアウト交換といったこともデモされてました。

DOM ではなく言語的な特徴 (例えば「名前 : 山田太郎」という構造における「名前」など)を利用するので、クラシックな HTML や、また Microformats などを用いていないようなページからでも見出し抽出してくる事が出来る、とのこと。

仕組みについては、言語構造を最初にモデル化しておき、対象文書に対して確率的にそのモデルの各構造の適応可否を判断して抽出する、といった形という理解。ただ詳細については、トピックモデルや Pachinko Allocation の事が分からず無念。

pingpong: 新しいデザインのための行為抽出エンジン

NLP をわかりやすく (?!) というコンセプトの元、UI やデザインにも相当に気を使って、Twitter のつぶやきから「行為」を抽出して、それを 3D 空間にマッピングするというこころみ。単純に面白かったです。

ちなみに、Twitter については、日本語で行為を正しく抽出出来るデータはほとんどなかったとのこと。(逆に抽出、出来た場合の精度は高かったとのこと)。確かに「天一なう」とかつぶやきますもんね。。。

二段階クラスタリングを用いた人物検索における同姓同名問題の解消

予稿あり。

人名検索において、名詞などを利用したクラスタリングを行うと適合率の高いクラスタリングが出来るが、そのような素性は疎なため、再現率が下がるとのこと。それを解消するために、一段階目で適合率の高いクラスタリングを行った後、それを拡張するような二段階のクラスタリングを半教師有りの手法を用いて再現率をあげた、とのこと。

語義注釈システムの単語クリックログからの言語能力情報の抽出

モノは以下で公開されてます。(Google Account 要)。そして資料も見つけてしまいました。

上記の後者を Google ログイン後ひらけば分かりますが、英単語毎に、ユーザが知っていそうなものについてはそのまま、知らなさそうなものについては和訳をあわせて表示してくれます。(初期は平均的なモノをベースに出すとのこと) もしその予測が外れている場合 (知っているのに、訳が出る、その逆も然り) に、その単語をクリックすることで学習する仕組みです。

面白かったのは、単純なニ値の機械学習だけではなく、単語の難易度判定に項目応答理論のモデルに、単語の難易度の素性追加と、オンライン学習を追加することにより精度向上を図っているとのこと。

こちらに、行ったり来たりする簡単なブックマークレットを作っておいてみました。

感情表現の可能な汎用対話システムエンジンToMoCha

感情表現の要素として、自己開示(嗜好など) を行うことで、より豊かな感情表現が出来る対話システムの仕組みを考案したとのこと。仕組みとしてはユーザの入力文から名詞をピックアップし、それをトピックとして、適当な形容詞を抽出した後、それに対して嗜好を表す言葉を加えて返答するという流れ。まだ仕組みとしては、意味の通らない文章を返してしまったり、過去の発言は覚えていないといったことがあるので、その辺りを加えて行く事により、より高度な対話が出来るようにしたいとのことでした。

記事間の差異に着目したニュース閲覧システム

同一のニュースに対し、複数の記事があった場合にその共通部分と差異の部分を抽出することにより、効率のより情報収集の実現を図りたいとのこと。アプローチとしては、文章構造の違いなどを吸収するために、段落、複文、単文といった単位で段階的に類似度を判別し、その結果から共通部分と差異部分を抽出するとのこと。

実データに対するテキストマイニング

NLP を実際に企業内で利用する時に、全て機械で行うのではなく、人手を少し加えるだけで、現実的な時間である程度精度良いものを出せることがある、というお話。実際に自由文のアンケートから、アンケート結果を抽出した手法のお話をされていました。こういうアプローチが大事だと思うのは、私も社会人になったということでしょうか。

ベイズ全域木モデルによる文書クラスタリング

文書のクラスタリングの手法として、有向木を用いて、ある文書からある文書が生起される確立を類似度としてモデル化する、というアプローチ。最終的には、その演算がかなり高速に実行出来るとの事。アプローチとしては、この辺りは学生時代の研究室が確率確率していたので、詳細な計算過程などはさすがに分かりませんでしたが、考え方としては好きな感じでした。

高速な類似文字列検索アルゴリズムと自然言語処理への応用

似たような文字列の揺らぎを吸収するための、類似文字列の検索手法として、文字列そのものを n-gram の文字断片の集合ととらえ、類似度の近いもの (例えば cosine 類似度) を取得する方法のお話。科学技術用語など微妙な言い回しの違いや、略語の表記の違いなどを吸収できるとのこと。

イメージ判定によるオノマトペ表現の創作支援システム

オノマトペという言葉を初めて聞きましたが、擬音語、擬態語といったもののよう。例えば「ガキーン」といったオノマトペがどんな成分を持っているか、といった要素を定性的な側面と、定量的な側面から解析するシステムを作ったとのこと。荒木飛呂彦漫画を解析してみたいですね、と言ってみました。