Pon De Beach

叩こう ココナッツ アゴゴ

DBpedia Japanese を利用して各プログラミング言語の関係性を可視化してみる(座学編)

この記事はFUNAdventCalendar2015 4日目の記事です。

こんにちは、 @mizukmb です。

本記事では約2回に渡り LOD について紹介し、実際に LOD の技術を利用して各プログラミング言語の関係性を可視化してみようと思います。

f:id:mizukmb:20151203233200j:plain

対象読者

FUNAdventCalendar ということなので

  • はこだて未来大学に興味がある人
  • 研究テーマをどうしようか悩んでる学生

を対象としています。なので技術的な内容というよりは紹介メインな内容となっております。

LOD って一体なんですか?

LOD(Linked Open Data) とは、 世の中にある様々なデータを横断的且つ容易に利用できるようにするための仕組みのことです。

従来のウェブには膨大な量のデータが蓄積されています。このブログだってウェブ上に公開された貴重(?)なデータです。しかし、こうしたデータをコンピュータで処理しようとすると結構苦戦します。原因の1つとして、 データ形式の違い が挙げられます。 .html とか .csv とかそういうのです。 LOD は こうしたデータの形式を統一することで、データ同士がリンクする「データのウェブ」を目指しているのです。 LOD の普及が進むことで様々なデータを組み合わせた マッシュアップアプリケーション の構築が容易になるといったメリットがあります。

一見すると何も関連がなさそうなデータ同士を組み合わせることで新たな発見を促し、 データとしての価値を高める ことができるのも LOD の魅力といえます。

LOD を支える技術

LOD では セマンティックウェブ と呼ばれるプロジェクトの中で生まれたいくつかの技術を利用しています。言い換えれば、 LOD はセマンティックウェブプロジェクトの一種であるといえますね。今回はその中でも重要な技術である RDF(Resources Description Framework)SPARQL(SPARQL Protocol and RDF Query Language) について説明します(といっても前述のとおりあまり詳しくは説明しません)。

RDF

データ形式の一種であり、要の部分でもあります。 RDF はデータを『 主語(Subject) 述語(Predicate) 目的語(Object) 』の3つの要素で表現します。これは RDFトリプル と呼ばれ、例えば『このブログの執筆者は @mizukmb である』という一文は

  • (この)ブログ -> 主語(Subject)
  • 執筆者 -> 述語(Predicate)
  • @mizukmb -> 目的語(Object)

というように分類できます。このようにトリプルで表現できる情報を整理したものが RDF であり、その集合体(まさにデータのウェブ)が LOD であるわけです。

f:id:mizukmb:20151203232240p:plain

ちなみに、 RSSRDF で書かれています。

SPARQL

SPARQL とは、 RDF データを検索/操作するための言語 です。つまり RDF データを扱うにはほぼ欠かせない技術ってことですね。

具体的な使い方については今回は說明しませんが、後々お話します。

Wikipedia + LOD = DBpedia

だいぶ駆け足で説明してきましたが、ついにタイトルでもある DBpedia Japanese についてお話します🍣。

DBpedia Japanese を一言でいうと『日本語 Wikipediaの情報を LOD 化したウェブサイト』です。といってもページに掲載されているすべての情報ではなく、ページ右側にある infobox を対象としているようです。

f:id:mizukmb:20151203232501p:plain

また、 日本語版だけでなく英語版などの DBpedia も存在します。 DBpedia の登場によって様々データがリンクしやすくなり LOD の普及に大きく貢献しました。

長くなりそうなので、今回はここまでにします。次回は DBpedia Japanese のデータを利用して各プログラミング言語の可視化を行おうと思います。

だいぶ端折った紹介になってしまいましたが、雰囲気だけでも分かっていただけたらありがたいです。最後に、 LOD 周りの研究について紹介して終わりとします。

未来大における LOD 及びセマンティックウェブの研究

未来大では大学の所在地でもある 函館市の歴史的文化財や観光情報 の LOD 化の研究が行われていたり、 高度 ICT 演習と呼ばれる PBL にて LOD を利用した アプリケーション開発 などに利用されたりしています。また、 LOD とは関係ありませんが RDF 等の技術を利用した研究もいくつか実績があるようです。

未来大以外の LOD 及びセマンティックウェブの研究・活動

ヨコハマ・アート・LODデータ シティ鯖江など地方自治体の持つデータの LOD 化などの動きが高まっています。他にも、 既存の LOD を利用したコンテンストも毎年開催されています(LOD Challenge 2015)。

また、研究会としてセマンティックウェブとオントロジー研究会があります。

さらに最近では IoT(Internet of Things) の技術に RDF を採用するケースがふえているようです。(参考: 人工知能Vol. 30 No. 5( 2015 年9月)より Linked Data 活用を促進するプラットフォーム)