Google search engine for open data: Dataset Search

2018.09.08

Open Science Scholarly Communication Research Data Sharing

グーグルは9月5日、インターネット上でオープンなデータを検索できるツールを発表しました。このツールは、"Dataset Search"という名前で、Google ScholarやGoogle Booksと同様、データセットに特化した検索を行います。検索は、データセット所有者が付加したメタデータ（データセットを説明する項目）を元に行い、（ウェブページの場合の検索のように）ファイルの中身のデータを検索に利用する訳ではありません。
★ Dataset Search

グーグルは、研究者やデータジャーナリスト、データギークなどが、データセットを容易に発見できるようにしたとしています。オープンデータに向けての流れにより、政府統計や学術目的で生成されたデータなど、多くのデータが近年公開されるようになっていますが、これまでこれらを有効に検索する手立てがなく、利用者がデータベースに直接アクセスする必要がありました。またデータベースの存在自体は、クチコミで広がるしかないため、若手研究者や学際領域の研究者など、聞く人がいないデータ利用者は、データの発見自体が大変でした。

データセットの検索は、二段階で行われます。第一段階では、インターネットクローラーにより、データセットが存在するウェブページがインデックスされます。第二段階では、これらインデックスされたページがランクされます。
データセットが検索されるためには、データ所有者がページに「タグ付け」する必要があります。データセットのタグは、Schma.orgで定めた辞書を用いる必要があります。Schema.orgは、グーグルのほか、マイクルソフト、ヤフー、ヤンデックス（Yandex）が開始した、インターネット上の構造化されたデータのためのスキーマを生成・維持・促進するためのイニシアティブです。

この検索方式が有効となるためには、データ所有者がデータセットにタグ付けをする必要がありますが、インターネット検索においてグーグルは圧倒的に主流であるため、グーグルが2017年1月にこのアイディアを発表して以来、主要なプレーヤーはこれに向けて即座に対応を採りました。たとえば、データ共有のためのプラットフォームを提供するFigshareが対応を呼びかけたところ、同プラットフォーム上の全ての大学が11月までに対応を完了したそうです。「アカデミアにおけるオープンデータのゲームチェンジャーとなると予想される」と、FigshareのCEOであるMark Hahnelは指摘しています。

アメリカ海洋大気庁（NOAA）も、今回のグーグルの取り組みに対する、強力な協力者です。NOAAは海洋・大気から太陽のコロナを含む7万件ものデータセットを所有し、これらは35ペタバイトにも上ります。「グーグルの検索エンジンは、NOAAのオープンデータに対する使命を全うさせる」とNOAAのチーフデータ・オフィサーであるEdward Kearnsは指摘します。「NOAAのデータが外部の人に利用可能となる、新しい方法を編み出したい」そうです。

グーグルは現段階では、データやファイルの中身を解析して検索エンジンの精度を高めることを、予定していないそうです。「このような検索ツールの精度は、データ所有者が提供するメタデータの質に依存する」と、Google AIのNatasha Noyは言います。同時に、Dataset Searchは、Google Scholar同様、APIや自動検索へのアクセスは提供していません。しかし、その機能を追加開発する可能性はあるそうです。

研究者がDataset Searchを利用するようになったら、その行動を解析し、検索の精度を向上させるそうです。但し、現段階において、このサービスを収益化する予定はありません。

Dataset Searchが充実してきた段階で、Google Scholarと統合し、論文と対応するデータセットをリンクして検索結果として表示できるようになる可能性があります。

[Nature] (2018.9.5)
Google unveils search engine for open data

[Google] (2018.9.5)
Making it easier to discover datasets

[Google] (2018.7.31)
Making it easier to discover data in Search

[Google AI Blog] (2017.1.24)
Facilitating the discovery of public datasets

グーグルらしい方法で、オープンデータとオープンサイエンスへの解決方法を提示したという感じですね。オープンサイエンスの流れにおいては、学術研究活動の過程で生成されるデータを公開・共有していく流れが鮮明ですが、これも単に説明責任のために行われるのではやる気がおきないので、利活用できるようにして、研究の加速やイノベーションなどにつなげることが、効用として挙げられています。データが利活用されるためには、データが発見可能である必要があり、そのためのデータへの説明への付け方について、12項目からなる「FAIR原則（Findable, Accessible, Interoperable, Re-usable）」が設けられています。

[FORCE11] (2016) FAIR Data Principles（オリジナル）
[NBDC] (2018.4.19) データ共有の基準としてのFAIR原則（日本語訳と解説）

こうした原則はできつつも、この原則に基づいてメタデータが付加されたデータセットが蓄積され、それを検索するシステムが（今回のグーグルのDataset Searchほどの規模で）あると聞いたことがありません。学術目的で取得されたデータを保有するリポジトリのカタログとして、"re3data.org (Registry of Research data REpositories)"はできていますが、基本的にはリポジトリもしくはデータベース単位での検索であり、データセットそのものの検索ではありません。

しかも、このNature誌の記事にはNOAAしか協力機関として挙げられていませんが、グーグルのブログにおける発表をみると、NASAやHarvard Dataverse、ICPSRなどのデータも含まれているとあります。Harvard Dataverseは、学術目的で取得されたデータのためのリポジトリで、"Harvard"を冠していますが、ハーバード大学以外の研究者や学会等の団体も利用可能なように開放しています。当初は社会科学分野のデータアーカイブとして始まりましたが、現在はあらゆる分野のデータを受け入れています。一方ICPSRは、ミシガン大学社会研究所により運営される、世界最大規模の社会科学データアーカイブで、たとえば東京大学社会科学研究所の運営する同様のデータアーカイブSSJDAのメタデータも、ここで検索可能です。

試しに、Dataset Searchで検索をしてみました。たとえば東大社研SSJDAの主力商品である"JGSS"（Japanese General Social Survey）で検索すると、2001～2012年のデータが、東大社研、ICPSR、GESIS（ドイツの社会科学データアーカイブ）などの出所で提示されます。

一方、「GDP　日本」で検索すると、"CEICdata.com"からのデータが多数ヒットしますが、政府統計e-Statはかかりません。CEICデータ社は、1992年に設立された、「世界の先進国・新興国経済について最も包括的で正確なデータを提供」する企業だそうですが、それにしても、利用者が大元の政府統計データを利用しないのは問題なので、（Dataset Searchの利用が大きくなった場合）、日本政府もグーグルの指定するSchema.orgのルールにしたがって、データセットに説明を付与していかざるを得ないでしょう。

Dataset Searchは現状では日本からのデータが少ないので、日本語で検索してもあまりヒットしませんが（中国語でのヒットが多数あります）、英語でたとえば"sea surface temperature"（海面温度）とすると、NOAAの的確なデータセットがヒットします。今のところNOAAのデータセットについても、データの説明があるのみで、データセットそのものへのリンクがない場合も多いのですが、いずれにしても情報が見やすく表示され、使いたい気分になります。

Dataset Searchは、データ提供者からタグ情報をSchma.orgに基づいて提供されなければいけないという点で限界はあるのですが、記事にもあるように、グーグルに合わせてデータを検索してもらいたいと考えるユーザは多いため、これから大きく伸びる可能性は大きいと思われます。これでDataset SearchがGoogle Scholarと連携したら、最強ですね。しかし、ここをつなぐためにも人手が必要で、それにはもう少し時間がかかりそうです。

船守美穂