日本語

変わりゆくプレプリントの機能

プレプリントは、正式な論文として発表される前段階の原稿を、一般に指します。インターネットの普及により、こうしたラフ原稿を公開・共有するためのサイト(いわゆる「プレプリントサーバー」)が発達し、これを利用する研究者が増えました。高エネ物理学分野において1991年に立ち上げられたarXiv(「アーカイブ」と読む)が草分け的存在な存在でしたが、その速報性の観点から、多くの分野で同様のプレプリントサーバーが立ち上がり、また一部には、国や地域単位でプレプリントサーバーを立ち上げる事例も見られます。

[physics central] (2020.7.28)
arXiv-ing the History of Preprints in Physics"

[mihoチャネル] (2018.6.28)
アフリカ専用プレプリントリポジトリ、AfricArxiv始動

一方、「プレプリント」はあくまでも、査読前のラフ原稿を速報的に共有することを目的としており、査読を通じて堅実な学問の蓄積を約束する「学術雑誌」を代替しようというものではありませんでした。だからこそ研究者は、研究内容をプレプリントとして公表していても、その後に同じ研究内容を学術雑誌に学術論文として投稿し、査読を経て、研究成果を発表していたわけです。

しかし近年、プレプリントの利用が拡大するに伴い、プレプリントと学術雑誌の機能が近接してきているように感じます。
ここでは、プレプリントにおける品質保証の動きと、商業出版社によるプレプリント参入の動きを中心に、変わりゆくプレプリントの世界を紹介したいと思います。

――拡大するプレプリントと品質保証の必要性

プレプリントは、1991年、高エネルギー物理学の分野で始まりました。その後、プレプリントは他分野にも拡がっていきましたが、2015年までは1年に1〜2個のプレプリントサーバーが増えるのみでした。しかし2016〜19年には36ものプレプリントが新たに開始し、「プレプリントサーバーの第2波」とも言われました。

このような増加の背景には、研究コミュニティにおける「研究の速報性」への期待もあったと思いますが、米国の非営利団体 Center for Open Science(COS)が、プレプリントサーバーを容易に立ち上げ可能とするサービスを提供開始したことも背景にあると思われます。実際、プレプリントの多くは、ボランティアによる脆弱な基盤の上に形成されているため、COSが2020年から年間1000ドル〜の料金体系を導入したところ、複数のプレプリントサーバーが閉鎖を余儀なくされています。

[Scholarly Kitchen] (2019.10.16)
The Second Wave of Preprint Servers: How Can Publishers Keep Afloat?

尾城孝一「進化するプレプリントの風景」情報の科学と技術70巻2号,83〜86(2020)

[Nature] (2020.2.13)
Popular preprint servers face closure because of money troubles

OSF preprint
 - プレプリント公開サイト
 - プレプリント公開サービス

プレプリントの性格が変わる一つの契機は、バイオや医学の分野におけるプレプリントサーバーの開始にありました。

バイオ分野のbioRxivは2017年、医学分野のmedRxivは2019年、その他、ライフサイエンスの分野においては農学や心理学など、複数のプレプリントサーバーが立ち上がっていますが、特に医学の分野では、査読なしの言説が流通すると大きな問題が起こる可能性があります。このためmedRxivでは開始当初から、投稿されたプレプリントのスクリーニングを導入しています。

具体的には、外部の臨床科学者と、経験ある臨床系編集者が、投稿されたプレプリントについて、(1) 当該研究が倫理審査を通過しているか、(2) 患者の同意を得ているか、(3) 当該研究に関わる助成情報が全て公開されているかを確認します。そして、当該研究に社会的リスクを及ぼす懸念があると判断された場合は、medRxivのマネジメントチームが、公開見送りの判断をする場合もあります。

なお、medRxivのサイトは、プレプリント一つ一つに、「ここに掲載された研究は、査読を経ていないため、現場の医療判断に用いたり、先進医療の紹介としてプレスに報じたりしないで下さい」と注意書きしています。

[Nature] (2019.6.6)
How to bring preprints to the charged field of medicine

[mihoチャネル] (2017.4.28)
プレプリントサーバーbioRxiv、多額の出資を得る

[mihoチャネル] (2019.6.18)
再現性実験、1つの論文に対して2つの結論を学術雑誌に掲載

――問題ある研究成果も迅速に撤回される、SNSによる監視の目

新型コロナウィルス感染症の大流行とともに、COVID-19関連の論文およびプレプリントが大きく伸びました。Nature誌の6月の記事によると、2020年5月中旬にはCOVID-19関連の論文が約1.4万本、プレプリントが5万本弱発表されており、研究報告の実に1/4がプレプリントです。多くがmedRxivに投稿され、それまで週あたり数十件程度であった同プレプリントサーバーへの投稿が、2020年1月から急速に伸び、5月中旬には週あたり500本以上の投稿となっています。そのうち8割が、COVID-19関連のプレプリントです。別の統計によると、2020年7月時点で1.8万本のCOVID-19関連のプレプリントが発表されており、medRxivの月当たりのページ閲覧数は、パンデミック以前の100万件から、1500万件に跳ね上がったそうです。

[Nature] (2020.6.3)
Will the pandemic permanently alter scientific publishing?

[Fast Company] (2020.8.5)
How the COVID-19 crisis has prompted a revolution in scientific publishing

当然のことながら、研究発表を急ぎすぎるあまり、不正確な報告がプレプリントとして公開されてしまった事例が複数あるようですが、いずれも、SNS等を通じ、他の研究者が疑問や批判を呈し、概ね48時間程度以内には取り下げられているようです。その公開されている間に、施政者などにより都合のよいように使われてしまったという批判も、特にジャーナリズム関連の分野の研究者からはあるようですが、概ね、迅速に、取り下げ等の処置ができたという評価がなされているようです。

研究成果を迅速に発表し、世界の研究者がこれを常時ウォッチし、次の研究や施策のヒントとする。問題あれば、すぐに叩き、取り下げる。プレプリントは、まさにインターネット時代の学術情報流通のあり方という見方もあるようです。

[STAT] (2020.2.3)
Quick retraction of a faulty coronavirus paper was a good moment for science

――査読付論文も取り下げに

査読を経たCOVID-19関連の論文にも、取り下げられる事例があり、査読を通過していれば安心というわけでもなさそうです。

2020年6月、ハーバード大学Mehra教授率いる研究チームが、医学分野の2大有名誌Lancet誌とNew England Journal of Medicine誌に掲載した、COVID-19関連の論文2本を取り下げたことが、話題を呼びました。
これら論文は、1)研究に利用されたSurgisphere社のCOVID-19関連の症例に関するDBに基づくデータ解析に不審な点が認められた上、2)主著者が、独立した第三者機関を通じて同DBのデータを検証しようとしたところ、個人情報保護等の観点から、データの検証が不可能であったため、取り下げられることとなりました。なお、論文の取り下げはMehra教授と共著者2名の名前のもとになされ、同Surgisphere社の社員であった残る1名の共著者は、論文取り下げにおいて、名前を連ねていません。

[The Scientist] (2020.6.4)
Lancet, NEJM Retract Surgisphere Studies on COVID-19 Patients

この事例は、根拠データの検証可能性が問題であり、必ずしも、COVID-19関連論文の拙速な発表によるものではないようですが、一方で、COVID-19関連論文は、その他の医学系の論文に比べて査読時間が約半分との報告もあり、拙速な発表と簡略な査読が生む誤報もあるようです。

たとえば、Annals of Internal Medicine誌に掲載されたCOVID-19関連の論文は、4件のみのサンプルから結論を導き出していたと批判され、2020年6月に取り下げられました。しかしその研究成果は一見、インパクトあるものであったため、論文取り下げ前に1万回以上ツイートされ、WHOも引用をしていたそうです。

いずれにしても、査読付論文でも誤報はあるわけで、プレプリントだからいけないというものではないようです。

Horbach, S., "Pandemic Publishing: Medical journals drastically speed up their publication process for Covid-19," bioRxiv (2020.4.18)

[Inside Higher Ed] (2020.6.8)
Rush to Publish Risks Undermining COVID-19 Research

[Retraction Watch] (2020.6.1)
Top journal retracts study claiming masks ineffective in preventing COVID-19 spread

――COVID-19関連論文とプレプリントの迅速な査読・精査

膨大な数のCOVID-19関連論文やプレプリントを、迅速に査読・精査するための体制整備もなされています。

PLOSやeLife、英国王立協会、Hindawiなどの学術雑誌は、COVID-19関連の論文を「迅速に査読する査読者プール」を形成するためのイニシアティブを開始しました。このイニシアティブに参加する査読者は、1)COVID-19関連の論文を迅速に査読することと、2)その査読内容が、このイニシアティブに参加する他の学術雑誌に引き継がれることを了承します。査読内容を、他の学術雑誌に引き継ぐことにより、研究者コミュニティにおける査読負担を少しでも軽減することが狙いです。

このイニシアティブはこれに加え、研究者が(査読者プールに参加している、していないに関わらず)、COVID-19関連のプレプリントをチェックし、その中で新型コロナウィルス感染症対策に特に重要なものを、可能な限り迅速に指摘することを求めています。プレプリントの内容を確認している査読者の作業を、最適化するためです。

Open Access Scholarly Publishers Association (OASPA), "Scholarly publishers are working together to maximize efficiency during COVID-19 pandemic," (2020.4.27)

そのほか、Review Commonsという取り組みは、新型コロナ拡大前の2020年12月に開始されましたが、「プレプリントが公開される前に、原稿が査読を得ること」を可能とします! つまり、1)研究者がReview Commonsにプレプリントを投稿すると、2)複数の査読者がこれを査読し、3)プレプリントサーバーbioRxivには、プレプリントと査読内容が同時に公開されます。また、4)この原稿を査読内容とともに、学術雑誌に投稿することも可能です。このようにすると、査読は既に済んでいるため、学術雑誌への迅速な掲載が可能となります。

Review Commons

――COVID-19関連論文とプレプリントの類型化作業

研究者がいくらSNS等を通して、COVID-19関連の論文等を注視しているとはいえ、あまりにも数多くの論文やプレプリントが発表されており、1人の研究者がそれらをすべて確認することは、ほぼ不可能です。このため、発表された論文などを機械的に、もしくは人手により、分類する試みも行われています。

米国科学技術政策局(OSTP)は学術出版社とIT企業と協力し、1950年代以降に出版されたコロナウィルス関連の論文やプレプリント5.9万点以上を含む「CORD-19 data set」を2020年3月に発表しました。グーグル社やChan Zuckerberg Initiative、Allen Institute for AIがNIHに協力し、COVID-19関連の論文等を自然言語処理などの手法により抽出しました。またPDFは、機械可読可能なフォーマットに変換され、後の言語処理が可能となるようになりました。

他方、このデータセットをアムステルダム大学の書誌情報学の研究者Giovanni Colavizza氏が解析したところ、収録された論文の約6割が、「コロナウィルス」といったキーワードを、タイトルや要旨、キーワードに用いていなかったそうです。つまり、COVID-19関連の論文にかすってる程度のものも多かったようです。さらに、5.9万本の論文のうち、本文を含む論文は4万本のみだったそうです。

また、COVID-19関連の論文はフリーで閲覧可能となるように、各国政府等から学術出版社へ要請がなされていますが、実際には、まだ2割近くの論文が閲覧に購読料を必要とするそうです。このような状態では、論文等を効率的に読むための自然言語処理をしようもありません。

CORD-19 data set

[Science] (2020.5.13)
Scientists are drowning in COVID-19 papers. Can new tools keep them afloat?

機械による類型化作業は粗いため、マンパワーをかけてCOVID-19関連の論文を分類することも試みられています。

ジョンズホプキンス大学では、40名の科学者が学術文献などを精査し、COVID-19関連の論文を約80本にまで厳選しました。8つのトピックに分類してキュレーションし、以下のサイトで情報提供しています。量より質の方が大事とのことです。

2019 Novel Coronavirus Research Compendium (NCRC)

MIT大学出版では、「Rapid Reviews: COVID-19」という、COVID-19関連のプレプリントの査読のみを掲載する雑誌を、2020年6月に発刊しました。公開されたプレプリントを、AIで分類したのち、ボランティアの大学院生が確認し、その確認内容が世界1600名の研究者が再確認する仕組みです。同雑誌は、抽出されたCOVID-19関連の重要なプレプリントについて、3名の専門家による査読結果を、著者の了解なしに(ただし、査読結果掲載に関する事前通知は有り)、掲載します。

[The Scientist] (2020.6.29)
New Journal to Publish Reviews of COVID-19 Preprints

――プレプリントサービスに参入する学術出版社

新型コロナウィルス感染症により、投稿が伸びたプレプリントですが、学術出版社大手4社は、プレプリントのポテンシャルをそれ以前から見抜き、プレプリントサービスへの参入をそれぞれに準備してきました。

Springer Nature社は、Research Squareというプレプリントサービスに出資しています。Research Squareの社長Rachel Burley氏は、元Springer Nature社のオープンアクセス出版部の長です。

Springer Nature社は、Research Squareをベースに「In Review」というサービスを2019年から展開しています。具体的には、同社の学術雑誌に投稿され、査読中にある論文を、プリプリントとして公開するサービスを提供しています。著者にとっては、プレプリントサーバーに投稿しなくとも、プレプリントとして論文を公開でき、早い段階の研究成果発表実績と、他の研究者からの迅速なフィードバックを期待することができます。
論文が採択となると、「In Review」上のプレプリントから、正式な論文へのリンクが付されます。不採択となった論文のプレプリントは、そのまま「In Review」で公開し続けることもできます。このような仕組みは、複数のシステム間の連携を必要とするため、設計が非常に複雑です。

Wiley社も、Springer Nature社とほぼ同様のサービス展開をしています。こちらは、「Under Review」というサービス名です。2020年頭に開始し、現在、同社の37学術雑誌について、サービスを展開しています。システムの設計が複雑なため、限定した数の学術雑誌が対象です。
同社の出版テクノロジービジネスAtyponによる「共同編集プラットフォーム Authorea」を利用しています。今後、他のAuthorea利用者にこのサービスが拡張されることが期待されています。

Elsevier社は、よりスケールの大きい、双方向のサービスを展開しています。同社は、社会科学系のプレプリントサーバーSSRNを2016年に買収した際、テクノロジーだけではなく、社会科学系の研究コミュニティも同時に獲得しました。現在では50以上の研究コミュニティが SSRN上に形成されています。同時に、2018年には、 Springer Nature社の「In Review」と同様の機能を持つ、「出版ワークフローソリューションAries Systems」を買収しました。同社は、この二つを組み合わせて、双方向のプレプリントサービスを展開しているのです。

まず、 Springer Nature社やWiley社と同様のサービスとしては、「FirstLook」を展開しています。これは、ELsevier社60の学術雑誌に投稿された論文について、査読段階にある論文を、SSRN上にプレプリントとして公開します。
一方、「Ingest from SSRN」というサービスは、同社の学術雑誌がSSRN上から有望なプレプリントを見いだし、自誌への投稿・掲載に繋げることを可能とします。

Taylor & Francis社は、少し異なる展開をしています。同社は、F1000 Research(以降、F1000)という学術出版プラットフォームを2020年1月に買収しました。
F1000は、民間の巨大財団である英・ウェルカム財団や米・ゲイツ財団、アイルランドの健康科学関連の研究助成機関、そして、EUにおいて、「論文出版後のオープン査読」を可能とするプラットフォームとして採用されています。つまり、研究者が論文を投稿すると、同論文は剽窃防止ソフトなどの最低限のチェックを経て、そのまま公開され、出版後に査読が付されるワークフローとなっています。プレプリント投稿から、学術雑誌への掲載、査読の付与が、シームレスに融合しているわけです。
この方式は、学術論文の迅速な公開、査読負担の軽減、 査読透明性の向上などへの配慮があり、「オープン査読」や「出版後査読」の心理的障壁が解消されれば、今後普及していく可能性があるモデルです。

[Scholarly Kitchen] (2020.5.27)
Publishers Invest in Preprints

――研究成果の迅速な公開を求める研究助成機関

F1000は、「助成した研究内容が、迅速に公開され、より多くの人々に裨益すること」に期待して、民間の巨大財団中心に構築されました。 助成したからには、可能な限り大きな投資対効果を得たいのです。

このように、研究助成機関には、研究成果を早く公開したい、というインセンティブがあります。このため、民間の財団だけでなく、アイルランドやEUの研究助成機関も、F1000を利用しています。また米NIHも、研究助成をした論文をオープンアクセスで公開するリポジトリPubMed Centralを通じて、プレプリントを公開するパイロットを行うと、2020年6月に発表しました。出版後即オープンアクセスを求める「プランS」も、プレプリントによる早期からの研究成果の公開を強く推奨しています。

[Ithaka S-R] (2020.5.27)
Preprints in the Spotlight: Establishing Best Practices, Building Trust

[NCBI Insights] (2020.6.1)
NIH Preprint Pilot in PubMed Central

研究助成機関がプレプリントを認知し、研究成果の迅速な公開を促していることは、プレプリントを一級市民として格上げする、大きな原動力となります。実際そのような流れから、プレプリントにもDOIが振られ、 学術出版社はプレプリントと査読後の論文をシームレスに繋ぐための試みをしています。これまでプレプリントに懐疑的であった学会も、プレプリントに前向きの対応をとるようになっています。例えば化学分野では、 米英独日中の化学会が共同し、ChemRxivを運営しています。学会による取り組みは、プレプリントの、概して脆弱な運営基盤の弱みの克服につながる可能性があります。

[Chemistry World] (2017.8.24)
Preprint servers making waves in chemistry community

林和弘「MedRxiv, ChemRxiv にみるプレプリントファーストへの変化の兆しとオープンサイエンス時代の研究論文」STI Horizon 2020 Vol.6 No.1

――結び:プレプリントは学術雑誌と融合するか?

プレプリントは、新型コロナウィルス感染症の大流行により利用が大きく伸びました。利用がそのように増える中で、迅速な研究発表の裏腹である「研究の堅実性」の問題も顕在化しました。しかし、その顕在化した弱点を補うために、SNSによる迅速な取り下げや、人的なスクリーニング、プレプリントの類型化作業、 査読の付与などがなされるようになり、特に医学分野におけるプレプリントは、正式な査読付き論文の性格に近しくなってきました。

また、商業出版社がプレプリントと正式な査読付き論文の発表シームレスにつなげるシステムを開発、導入したことにより、プレプリントはますます、正式な学術出版の一部となりつつあります。また、各国の研究助成機関や学術出版社、学会などが、ここに紹介したような、プレプリントに積極的な対応を取ると、「論文をまずプレプリントとして公開するのが当たり前」、という流れになる可能性もあります。

COVID-19関連以外の分野のプレプリントは、十分な精査のプロセスがなく、ラフ原稿に近いため、引き続き注意が必要ですが、医学分野において編み出された機能が他の分野にも徐々に浸透し、学術出版の世界が大きく変わる可能性があるように感じました。今後の展開が期待されます。

船守美穂