プロジェクト & テクノロジー

Outline

  • [ 背景・目的 ]
     東京大学知の構造化センターでは、日々蓄積される大量の知識を、様々な構造化技術を用いて、知的発見やイノベーション、問題解決、意思決定、人材育成に役立てるための方法論を研究開発し、その成果を社会的に実装することを目的に研究開発を進めています。2007年に学内に設置され、2008年度から本格稼働をはじめ、2010年度まで約3年間特別研究費により活動をしてきました。そのなかで、様々なプロジェクトが大きな成果を出しています。ここでは、その成果をまとめ、残り2年間の活動をさらに加速していくべく、その方向性を共有し、議論していきたいと思っております。
     「知の構造化」とは、コンピュータを使って大量の情報を処理し、各要素の間の関係性を明らかにし、利用可能にすることです。これによって、大量の情報を様々な用途に活用することができます。検索エンジンは、大量の情報を活用する手段として最も一般的です。検索エンジンは大量の情報の中から、必要な情報を選び出してくれるわけですが、人々の知的活動を支援する方法は検索だけではありません。知の構造化技術は情報を提示するだけではなく、情報と情報の関係性を提示することにより、情報の全体像の把握、知識の構造的な理解、知的な発見やアイディアの発想を支援することができます。そのために、知の構造化センターでは、自然言語処理、人工知能、ウェブ工学の最先端技術を活用した「知の構造化技術」と、それを役立てるための方法論の研究開発を行っています。
     特に、重要なことは、知の構造化技術をツールとして使うことによって、人間の認知や世界の捉え方、その歴史的変化、アイディアが生まれる状況、人間同士、また環境と人間のインタラクションなど、様々な現象の理解を深めることができることです。これは、よりよい観測装置によって科学が進化してきたことと同じであり、大量のデータを構造化することで、対象をより適切に観測する手段を得、それによって新たな洞察が得られることが期待されます。こうしたプロセスが、各プロジェクトごとに実際に起こり始めており、それが知の構造化の核心的な理論、技術として昇華されていくことを目指しています。
     知の構造化センターでは、そうした一連のプロセスを通じ、知の構造化が、文学・教育・産業・医療・デザインといったさまざまな領域で、新たな価値を生むことを目指しています。研究成果を社会的に実装する活動を通じて、知の構造化が、知的発見やイノベーション、問題解決、意思決定、人材育成に役立つことを実践的に検証します。今後、社会においてはますます大量の知識が蓄積され、それをいかに使いこなすかが、組織として、産業として、また国としての競争力になっていくでしょう。その際、蓄積された知識を活かす知識基盤が社会全体として必要とされ、知の構造化は、社会におけるインフラとしての知識基盤の構築にむけ、最も重要な役割を果たしていきたいと考えています。

Projects

  • 主要プロジェクト一覧

    プロジェクト名 大量の情報 価値創造 社会への実装
    「思想」の構造化 岩波「思想」数十年分 新たな知識の発見 文科系教員を招いての
    ワークショップ
    進化する教科書 講義ノート・講義録 教育 東京大学での講義での利用
    産業技術の構造化 論文、特許、新聞記事、
    ウェブ情報
    産学連携、企業の
    情報能力向上
    ウェブサイトでのサービス
    提供、企業での活用
    医療情報の構造化 診療情報(カルテ) 新たな診療知識の
    発見
    東大病院での利用
    i.school 社会変化・イノベーションに
    関する情報
    イノベーション
    教育、デザイン力
    向上
    東京大学 i.schoolでの活用
    空間デザイン支援 デザイン情報、画像 デザイン教育、
    デザイン力の向上
    i.schoolや大学等での活用
    集合知の構造化 Wikipedia記事、
    ソーシャルネットワーク
    社会的知識の提供 ウェブサイトでのサービス
    提供

Technologies

  • [ 研究開発 ]
    知の構造化センターでは、さまざまなプロジェクトの基盤となる技術をさらに強化するため、自然言語処理、人工知能、ウェブ工学の研究を中心として、研究開発を積極的に進めています。コンピュータを用いて、「知」を構造化し、社会における知識インフラを構築するために、テキストで書かれている膨大な情報からキーとなる要素とその関係性を取り出し、知識として抽象化した形に加工する必要があります。知の構造化センターでは、そのために重要な次の 6つの技術の研究開発を行っています。
     
    (1) 固有表現抽出
     固有表現抽出とは、自然言語処理技術の重要な技術の 1つで、固有表現(人名、企業名、地名、製品名、技術名など)、さらに、日付、時間表現などを抽出する技術です。新聞記事やウェブデータなど現在、私たちの周りにはアクセスできる大量のテキストデータがあります。そして、それらのテキストには大量の固有表現が含まれており、この固有表現はあらゆる抽象化としての概念の抽出の基礎となりますが、人手で抽出することはとても大変です。そこで、コンピュータによって大量のテキストから自動的に固有表現を抽出する技術を開発しています。
     知の構造化センターでは、さまざまなデータがある中で、特に新しい知識ベースとして注目を集めているWikipediaの研究を通じて得られる固有表現抽出手法などを開発しています。固有表現抽出は、コンピュータがデータを区別して扱うために必要不可欠な技術として知の構造化センターで進めている多くのプロジェクトにおいて活用されています。これまでの研究で、Wikipediaにおける固有表現を適切に抽出し、また分類する技術が構築されています。固有表現の出現パターンや特徴を同定することで、固有表現抽出の精度が上がります。また、医療情報の構造化プロジェクトでは、症例名等を取り出す技術が構築されています。
     
    (2) 属性抽出
     属性とは、固有表現に備わっている特徴や性質を指します。例えば、人という固有表現に関する属性は、性別、年齢、職業、学歴、出身地などが代表的な属性として挙げられます。大量のテキストから、さまざまな固有表現の属性を自動的に抽出する技術の開発を行っています。属性抽出技術により、ウェブページのサイトから、例えば、ある技術に関係するあらゆる属性を抽出したり、異なる属性の表記方法を吸収することができるようになります。 知の構造化センターで進めている医療知識の構造化プロジェクトでは、カルテ情報から、ある患者に対して、いつ、どこで、どのような症状に対して、どのような治療を施したのか、といった属性情報を抽出し、表形式のデータとして整理する技術として活用しています。また、産業技術の構造化プロジェクトでは、各技術の属性情報を取得する研究が行われています。
     
    (3) 関係抽出
     人や会社といった固有表現は、他の固有表現とさまざまな関係を持っています。例えば、人であれば、他の人たちと、同僚、友人や家族といった関係を持っていることが考えられます。関係抽出の技術を使うと、新聞記事やウェブ上の情報から、固有表現間のさまざまな関係を抽出することができます。例えば、産業技術の構造化プロジェクトでは、1つの産業技術と学術論文、特許、会社、人、製品といった固有表現との関係をウェブ上の情報から抽出する技術を開発しています。このような関係を抽出することにより、「ある技術に関する最新の学術論文は何か?」、「最も重要な特許は何か?」、さらには、「どのような製品に使われているのか?」といった情報を簡単に調べることが可能になります。
     i.schoolでは、Wikipediaマイニングとウェブマイニングを融合することにより、関係抽出の精度・網羅性向上を図りました。その結果、未来予測支援システムにおける新聞記事の関連度がより正確に把握することができるようになりました。さらに、英語・日本語の対応概念の抽出手法を高度化することが可能になっています。また、医療情報の構造化プロジェクトでは、医療テキストにおける代表的な因果関係の 1つである薬剤と副作用の関係の抽出を行っています。
     
    (4) 表記の同定技術
     ウェブデータのように、さまざまなユーザによって自由に記載された文章には、スペルミス・表記ゆれ・誤った用法など同じ実体を指す言葉について、異なる文字表記が使われることがよく起こります。例えば、「スパゲッティ」、「スパゲティ」、「スパゲッティー」といったものです。知の構造化センターでは、自由記載される表現の表記ゆれを吸収したり、異なる表記が、同一概念を指すことを判定したりする技術(表記の同定技術と呼ぶ)を開発しています。このような自由記載された表現を同定する技術は、サイトごとに表記が異なる属性情報を整理したり、検索結果がヒットしにくい問題に対応する際に重要な技術です。
     
    (5) 高度なテキスト検索技術
     固有表現抽出、属性抽出、関連抽出などの技術を通じて、さまざまな情報が付加された(タグアノテーション)テキストを最大限に利用するためには、これらの情報を有効に用いる新しい検索技術が必要です。知の構造化で開発している高度なテキスト検索技術を用いることにより、例えば、文の表層上の主語 -述語といった関係だけではなく、意味上の動作主 -動作 -対象の関係を持った文やフレーズを検索することが可能になります。さらに、否定文の検索、病名や遺伝子名を利用した検索、「対象に遺伝子が存在する文」といった意味カテゴリを利用した検索、あらかじめ構築されたオントロジーを利用した同義語を考慮した検索など、さまざまな高機能な検索を行うことが可能です。
     
    (6) 可視化技術
     進化する教科書、「思想」の構造化プロジェクトでは、これらの技術を実際の大量のテキストに適用し、実運用するためにさまざまな研究を行っています。例えば、タグアノテーション用のデータベースのモジュール化、アルゴリズムの改良等により、1テラバイトを超えるアノテーションデータに対しても、リアルタイムにインタラクティブなデータの付与や削除が可能となっています。また、さまざまな分野や時勢を越えたテキストを対象とするため、多分野、多言語、多時代に対応したテキストの処理も重要となります。さらに、視点を考慮したテキストマイニングの研究により、同一データに対し異なった視点からのマイニング・可視化を行おうとしています。例えば、「思想」の構造化プロジェクトでは、「大和民族」のような表現に対し、主義・主張や時代背景のようなさまざまな異なる視点により、その意味づけや人物の関連性の違いを「見える化」しようとしています。