リポジトリへのデータセット登録プロトコル「SWORD v3」策定の概要と現状
この時期にはリポジトリを対象とした国際会議「Open Repositories」が開催されます。
今年の開催地はアメリカのボーズマン。イエローストーンといえばイメージがわく人もいるのではないでしょうか。
われわれも次世代リポジトリの開発に反映させるべく、情報収集のために参加してきました。
その中で、コテージラボのリチャードさんとオックスフォード大学のニールさんによる、SWORDのワークショップに参加したので報告します。
JAIRO Cloudのユーザの皆様には、SWORDは「SWORD Client WEKO」でおなじみかもしれません。
SWORDとはリポジトリにアイテムを登録するためのプロトコルに関する規格です。
現在のリリースバージョンはv2ですが、最新のITテクノロジーを導入したv3が策定中です。
しかしSWORD v3の具体的な実装はまだ存在しないため、ワークショップでは規格の特に重要な点についてレクチャーがなされました。
一番印象深かったのは、v2は技術ベースで規格が策定されましたが、v3ではユースケースベースで規格を策定しようとしている点でした。
プロトコルに使う予定の技術も、通信にはREST APIを、通信の内容はJSONベースとなっており、実装のしやすさを意識しているそうです。
しかしそのためにv2との互換性はかなり犠牲となっており、たとえばAtomPubはv3では採用されません。
また、v2では主にクライアントサイドからリポジトリへのアイテム登録を想定していましたが、v3では機械から機械へのアクセスも想定しているとのことでした。
リポジトリからリポジトリに自動でアイテムを登録したり、リポジトリからArchivematicaのようなアーカイブシステムに自動でアイテムを登録したりなど、互いのシステム間での連携が密になるような未来がくるのかもしれません。
策定を行っているチームでは現在、SWORDを用いてどんなことが可能かというユースケースを求めています。
なにかユースケースがある方は、メーリングリストに参加して策定チームに伝えると、プロトコルの規格に反映されるかもしれません。
もう一点印象に残ったのは、リポジトリに送信するデータセット(メタデータ+コンテンツファイル)にBagItという規格を用いる点です。
BagItはIETFによるデジタルファイルの保管と移動を目的とした規約で、ファイルをどうディレクトリに配置するかということや、各ファイルのハッシュ値を保管することなどが定義されています。
今回私が参加したセッションの中では、アーカイブの文脈でBagItが取り上げられていました。
なぜBagItとアーカイブが結びつくのか不思議だったのですが、調べてみるとBagItはアーカイブシステム間でのデータやりとりを議論した論文(筑波大学名誉教授の田畑先生の論文)に触発されて作られたもののようです。
BagItの実装は単にファイル構成を述べているに過ぎないのですが、思想的な背景にはアーカイブが強く結びついていたのがとても面白いです。
リポジトリもある種のアーカイブなので、システム間の連携という文脈で考えれば、SWORD v3でBagItが用いられるのも納得です。
会議の中ではいくらか課題が明らかになった場面もありました。
SWORD v3では複数人がファイルをアップロードできる仕組みを想定していますが、複数人が同一アイテムを同時にアップロードすると、複数バージョンのファイルができてしまうという指摘がありました。
いましばらく規格策定にむけて協議が続きそうです。
その他、SWORD v3の最新動向を知りたい方は、SWORDV3メーリングリストに登録することをおすすめします。
参考資料:
Jones, Richard and Jefferies, Neil. SWORD 3 Workshop.
Jones, Richard. SWORDv3 Specification
Kunze, J. et.al. The BagIt File Packaging Format (V1.0) draft-kunze-bagit-16.
Tabata, K. et.al. A Collaboration Model between Archival Systems to Enhance the Reliability of Preservation by an Enclose-and-Deposit Method.
(林 洋平)
- カテゴリ別
- RCOS運営
- イベント報告
- オープンサイエンスの動向
- 活動報告
- 記事一覧へ戻る