日本語

eScience 2021 参加報告

2021.11.19

国際会議 IEEE International Conference on e-Science and Grid Computing (eScience 2021) が9月20日〜23日に開催されました。
2005年から始まるこの会議は、大きなデータや強い計算力を活用して新たな知見を導く、今日ではデータ駆動型研究と言われる研究手法を主題として、それを実践する計算科学者と、基盤を提供する計算機科学者との対話の場として機能してきました。
17回目となる2021年は、"Open Science - Open Data" と銘打たれたパネルディスカッションを筆頭として、伝統的な計算機システムの技術と運営をオープンサイエンスの時代にどう適合させていくかという観点から、多くの実践例が報告されました。
NII RDCのなかでデータ解析機能を開発している筆者(藤原)は、研究データと切っても切れない関係にある研究ソフトウェアの取り扱いについて国際的な動向を把握するため、この会議に参加しました。
そのなかで、いくつか個人的に興味深いと思った発表を紹介したいと思います。

論文「An Empirical Study of Package Dependencies and Lifetimes in Binder Python Containers」は、研究者が作った解析プログラムとその実行環境をオンデマンドで自動再構築するサービスであるmybinder.orgについて、そのログを解析して利用実態を分析した研究です。
NII RDCのデータ解析機能でも、オープンソースソフトウェアであるBinderを用いて同様サービスを提供する予定なので、先行事例として運営の参考になりそうだと思って聴講しました。
分析によると、構築元となるデータリポジトリはGitHubが97%を占め(他にZenodo、Figshare、Dataverseなども利用可能)、リポジトリサイズは半数が1MB以下、9割が100MB以下でしたが、深層学習用の訓練データを含むリポジトリは10GBを超えるものがあったようです。
解析環境に組み込まれるライブラリは、numpyやmatplotlibなどメジャーなものが大勢を占める一方で、総数ではそれらに匹敵する多種多様なマイナーなライブラリが使われていることが明らかになりました。
ユーザーの用途の広さは運営者の想定を常に上回り、運営者が「共通の標準的な解析環境」を用意することは非現実的と考えたほうがよさそうです。
また、ライブラリのバージョン指定が省略された場合はコンテナ構築時点の最新バージョンが適用されるのですが、このことが大きな問題になりそうだと論文は指摘しています。
つまり、最初に研究者が解析環境を定義した時点ではライブラリ同士の互換性が確認されていたとしても、時間が経つにつれてバージョンアップされるライブラリが増えていき、ユーザーがコンテナを構築する時点では非互換が生じていたり、挙動が変わっていたりする可能性があるのです。
分析によると、condaで解析環境を作ってから10日経つと、80%のコンテナは古くなってしまう(いずれかの依存ライブラリがアップデートされる)そうです。
このような問題を避けるには、すべてのライブラリのバージョンを明示的に指定するべきですが、ユーザーにとっては手間が増えることになるので、バージョン指定を自動補完するツールがあるといいのかな...と思いながら聞いていました。

ワークショップ「FAIReScience 2021 - Making eScience FAIR (findable, accessible, interoperable, and reusable) for diverse research objects」では、RDA FAIR for Research Software (FAIR4RS) Working Group が音頭を取って、ソフトウェア・計算ワークフロー・機械学習モデル・実行可能ノートブックのFAIR化について意見が交わされました。
もともと研究データをオープン化する文脈で提唱されたFAIRという概念をソフトウェアや機械学習モデルに準用する場合、どのオブジェクトにどのようなメタデータを与えるべきか、特にPID(永続識別子)を何に付与するべきか、データとソフトウェアの相互依存性をどのように表現すべきか、それらを表現できるメタデータの標準規格は何か...などなど、考えるべきことが山積していて楽しいです。
発表スライドと、参加者が書いた会議メモが下記URLで公開されています。
https://docs.google.com/document/d/14k0KRsIdF1BP_u4asVxaEACvcc4JPOXzdvwgPRdxkDI

このほかにも、計算科学と計算機科学の両面から実践的な研究報告がたくさん発表されました。
論文は下記URLから入手できます。
https://ieeexplore.ieee.org/xpl/conhome/9581321/proceeding

最後に、メタ情報をまとめます。
IEEE eScience 2021 では、1つのパネルディスカッション、4つの基調講演、33本の論文発表、19件のインフラ発表、23枚のポスター発表に加え、2つのワークショップと7つのチュートリアルが行われました。
論文の採択率は33/54=61.1%でした。
インフラ発表とは、論文発表とは別に、最近開発したシステムなどを1件20分で紹介するセッションです。
事業系の開発成果を発表する機会として、RCOSのメンバーも今後活用していくと良いのではないかと思います。

(藤原 一毅)