-
[ 背景・目的 ]
東京大学の知の構造化センターでは, 日々蓄積される大量の知識を,様々な構造化技術を用いて, 意思決定とイノベーションに役立てるための「知の構造化」の研究開発 を進めています. 学問の分野では,日々量の知識が生産されています.ところが, あまり学問が細分化されすぎて,専門家でも専門外のことが分からなく なっています.私たちの日常生活でも,検索エンジンでたくさんの情報 を調べることができます.しかし,役に立つ情報を得るには とても時間がかかります.構造化とは,コンピュータを使って大量の 情報を調べ,各要素の間の関係性を明らかにし,利用可能にすることです. 例えば,各学問分野の関係性を自動的に発見し,専門家同士のコミュニケーションを 促したり,文章同士の関係性を自動的に発見することで,役に立つ情報を 素早く見つけることができます.そのために,自然言語処理,人工知能, Web工学の最先端技術を活用します.大量の情報を構造化することで, 知の全体像を把握し,意思決定に役立てることができます.さらに, 意外な分野間の関連を発見したり,たくさんの人が全体像を議論することによって イノベーションの創造につなげ,社会的,経済的,文化的価値を創出します.
このような目的のもと,知の構造化センターでは,研究開発を通じて, 以下に述べるような5つのプロジェクトを行っています.
-
○岩波「思想」の構造化
岩波書店が1921年に創刊した日本を代表する思想・哲学ジャーナル 「思想」のデジタル化とその知の構造化を行っています.20世紀の日本の 人文知の歴史的な変化を構造化し,可視化します.
○進化する教科書
各教官の講義ノートを東大独自のWikiシステム上に実装し MIMAサーチとの統合を通じて,教科の繋がりの可視化,研究成果等の迅速な反映, 様々な知識要素の合成による新たな教科書の作成等が可能なハイパー教科書の実現を目指しています.
○産業情報の構造化
製造業や情報通信業など,技術主体の産業において,経営戦略の構築や 市場分析などを行うためには,研究や技術開発で日々生まれている多様な技術や特許, そして製品の間の関係を把握し,全体像を理解することが必要不可欠です. 産業技術の構造化では,技術間の関係,企業間の関係,さらには,技術と企業,そして 製品の関係など,産業を構成する要素の間の関係を抽出し,俯瞰を行える システムの開発を行っています.
○医療知識の構造化
現在,日本では急速に電子カルテが普及し,その結果,大量の臨床データが 電子化された状態でストックされつつあります.このデータを十分に利用できれば, 過去に類をみない大規模な統計的な臨床研究が実現可能であり, 大きな期待が寄せられています.知の構造化センターでは,自然言語処理を 用いることにより,カルテ文章から臨床情報を抽出/可視化する手法の研究, 開発を進めています.大量の情報を構造化することで,新たな医療知識の発見や 臨床の現場での活用につながることが期待できます.
○i.school
i.schoolは,既成観念にとらわれることなく,新しい価値を 発見し,拡大・実現できる人材の育成を目的とした教育プログラムを 提供することを目指し,現在カリキュラム作成を行っています. 知の構造化センターで行われている未来予測ワークショップや, デザインにおける知の構造化(pingpong)に関する 研究を通じて開発されている様々なツールを用い, 重要な事実の発見,またそれら相互の関係性の理解に役立てます.
-
[ 研究開発 ]
これらさまざまなプロジェクトの基盤となる技術を,自然言語処理,人工知能, Web工学の研究を中心として,研究開発を積極的に進めています. 計算機を用いて,「知」を構造化するためには,テキストで書かれているさまざまな 人間の「知」を,計算機が理解できるような形に加工してあげる必要があります. 知の構造化センターでは,そのための重要な要素技術となる次の5つの技術の研究開発を行っています.
(1) 固有表現抽出
固有表現抽出とは,自然言語処理技術の重要な技術の一つで, 固有表現(人名,企業名,地名,製品名,技術名など),さらに, 日付,時間表現などを抽出する技術です.新聞記事やWebデータなど 現在,私たちの周りにはアクセスできる大量のテキストデータがあります. そして,それらのテキストには大量の固有表現が含まれていますが,人手で 抽出することはとても大変な作業です.そこで,計算機によって大量のテキストから 自動的に固有表現を抽出する技術を開発しています. 知の構造化センターでは,さまざまなデータがある中で,特に新しい知識ベースとして 注目を集めているWikipediaの研究を通じて得られる 固有表現抽出手法などを開発しています. 固有表現抽出は,計算機がデータを区別して扱うために必要不可欠な技術として 知の構造化センターで進めている全てのプロジェクトにおいて活用されています.
(2) 属性抽出
属性とは,固有表現に備わっている特徴や性質を指します.例えば,人という固有表現に関する属性は, 性別,年齢,職業,学歴,出身地などが代表的な属性として挙げられます.大量のテキストから,さまざまな 固有表現の属性を自動的に抽出する技術の開発を行っています. 属性抽出技術により,Webページのサイトによって,例えば,ある技術に関係するあらゆる属性を抽出したり, 異なる属性の表記方法を吸収することができるようになります. 例えば,知の構造化センターで進めている医療知識の構造化プロジェクトでは, カルテ情報から,ある患者に対して,いつ,どこで,どのような症状に対して,どのような治療を施したのか,といった 属性情報を抽出し,表形式のデータとして整理する技術として活用しています.
(3) 関係抽出
人や会社といった固有表現は,他の固有表現とさまざまな関係を持っています. 例えば,人であれば,他の人たちと,同僚,友人や家族といった関係を持っていることが考えられます. 関係抽出の技術を使うと,新聞記事やWeb上の情報から,固有表現間のさまざまな関係を抽出する ことができます. 例えば,産業技術の構造化プロジェクトでは,一つの産業技術と 学術論文,特許,会社,人,製品といった固有表現との関係をWeb上の情報から抽出する技術を開発しています. このような関係を抽出することにより, 「ある技術に関する最新の学術論文は何か?」,「最も重要な特許は何か?」,さらには, 「どのような製品に使われているのか?」といった情報を簡単に調べることが可能になります.
(4) 表記の同定技術
Webデータのように,さまざまなユーザによって自由に記載された文章には, ミススペル/表記ゆれ/誤った用法など同じ実体を指す言葉について,異なる文字表記 が使われることが良く起こります.例えば,「スパゲッティ」,「スパゲティ」,「スパゲッティー」といったものです.知の構造化センターでは,自由記載される表現の表記ゆれを吸収したり,異なる表記が,同一概念を指すことを判定したりする技術(表記の同定技術と呼ぶ)を開発しています. このような自由記載された表現を同定する技術は,サイトごとに表記が異なる属性情報を整理したり, 検索結果がヒットしにくい問題に対応する際に重要な技術です.知の構造化センターでは,特に医療情報データに対応した表記の同定技術を開発しています.
(5) 高度なテキスト検索技術
固有表現抽出,属性抽出,関連抽出などの技術を通じて,さまざまな情報が付加された(タグアノテーション) テキストを最大限に利用するためには,これらの情報を有効に用いる新しい検索技術が必要です. 知の構造化で開発している高度なテキスト検索技術を用いることにより, 例えば,文の表層上の主語-動詞-目的語ではなく,意味上の主語-動詞-目的語関係を持った文を検索することが 可能になります.さらに,否定文の検索,病名や遺伝子名を利用した検索,「主語に遺伝子が存在する文」 といったカテゴリを利用した検索,あらかじめ構築されたオントロジーを利用した同義語を考慮した検索など, さまざまな高機能な検索を行うことができます.