English

Reproducibility trial draws two conclusion for one article

麻酔と存命年数に関係があるという研究があるため、高齢者を手術する際の全身麻酔の深さについては議論があります。このため、英・麻酔雑誌(British Journal of Anaesthesia)に掲載された、「両者の関係性はない」とする論文1は、臨床医にとって安心材料です。この論文のディスカッションには明確に、「この結論は安心させる(These results are reassuring)」とあります。
しかし本当にそうなのでしょうか?同じ雑誌に掲載された論文2には、同じデータを用いて、死亡率について異なる結論が導き出されているのです。この論文には、「この実験では、死亡率について結論を導き出すのに必要な患者数が得られていない」とあります。

死亡率についての相反する結論は、「研究の再現性」を高めるための、珍しい査読実験(peer-review experiment)の結果です。近年、この分野における研究の信頼性の揺らぎと、相次いで起きた重大な研究不正事例が、麻酔研究の分野を悩ませてきました。この分野の研究は、臨床医療において影響力をもち、患者にも深刻な影響が即時的にもたらされるため、このような事態は問題です。

このため英・麻酔雑誌は、いくつかの論文について「独立したディスカッション(independent discussion)」を、論文著者とは別の専門家に、執筆依頼することとしました。通常の査読と違い、この執筆依頼をされた査読者は、オリジナル論文の結論は見ずに(blinded)、論文の実験方法(methods)と結果(results)のみを見て、ディスカッションを執筆します。オリジナルの論文著者のディスカッションと、査読者のディスカッションは、同じ雑誌の号に出版され、共通点と違いがハイライトされます。

「研究の再現性」に関する専門家の一部は、このアプローチを歓迎し、他の分野にも展開すべきと指摘しています。「研究の再現性」を向上するための取り組みはこれまで、「研究の手法や結果」についての再現性の確認と向上に、特化していました。このため、これを「研究の推論や結論」にも広げる必要があると、「研究の再現性」を長いこと推進し、今回の独立したディスカッションの執筆も行った、スタンフォード大学のJohn Ioannidis氏は指摘します。「同じような実験による同じような結果から、人々は全く異なる推論やストーリーを展開することがあります」。独立したディスカッションの執筆依頼をされた著者は、「いかなるバイアスやコンフリクト、特定の結果や解釈への傾倒からも自由です」と同氏は指摘します。

スピンとバイアス

この取り組みは、論文のディスカッション部においてしばしば起こりがちな、「拡大解釈(over-interpretation)、偏った解釈(spin)、主観的バイアス(subjective bias)」に対処するために行われると英・麻酔雑誌の編集長であり、ニューヨーク市にあるWeill Cornell Medical Collegeの神経薬理学者(neuropharmacologist)であるHugh Hemmings氏は述べます。

「このアプローチは、〔研究の結果について複数の〕見方があるものの、どれが正しいか不明確の場合、有効です」。この取り組みは、議論の多い研究あるいは、政策に関係する重要テーマの研究のみに対して行われると、Hemmings氏は指摘します。これらの研究は影響力があり、結論が繰り返し引用される可能性があるからです。

学術論文への反論は現状では一般に、当該論文が出版されてから数週間あるいは数ヶ月遅れて、出版されます。今回の取り組みのように、独立したディスカッションをオリジナルの論文と同時に出版することで、学術雑誌の自己修正機能を加速することが期待されています。「独立したディスカッションの著者が致命的な欠陥を発見した場合、〔雑誌編集者としては〕問題を抱えることとなります。しかし、そのような事態は初めてのことではありません」とHemmings氏は述べます。

Johns Hopkins Bayview Medical Centerの麻酔学と救命医療の研究者で、今回の査読実験のオリジナル論文の論文主著者であるFrederick Sieber氏は、「この取り組みは素晴らしいと思う」と言っています。「我々は皆バイアスがあります。この方法により、別の視点を得ることができます」。

〔異なる結論への〕同意

独立したディスカッションに目を通した上で、Sieber氏は、この研究は、死亡率に関連づけるには、十分にロバストではなかったと認めています。「彼らが指摘したことは、全て有効です」。
それであっても、オリジナルの論文の主要な結論は引き続き有効である、と同氏は述べています。この論文の主要なゴールは、麻酔の深さと精神錯乱(delirium)の関係を示すことにあり、死亡率(mortality)と関係づけることではなかったからです。独立したディスカッションも、精神錯乱に関わるデータと結論は有効である、としています。精神錯乱との関係性を示すために必要な患者数は、〔死亡率との関係を示すのに必要な患者数より〕少なくて十分なのです。

皆がこのような追加的なステップに価値を見いだしている訳ではありません。同学術雑誌のエディトリアルを執筆した英・Plymouth University Peninsula Schools of Medicine and Dentistryの学部長であるRobert Sneyd氏は、独立したディスカッションの依頼先は、査読者と同じプールとなるため、「査読者を酷使するか、(怪しげな(implausibly))新しい血をリクルートすることになる」と指摘しています。「より良い改善方法は、既存の論文著者へのガイドラインを強化することにある」と同氏は指摘します。ガイドラインにはたとえば、「研究の弱い面を明確にし、拡大解釈は避けるべき」とあります。

Hemmings氏によると、英・麻酔雑誌では「独立したディスカッション」をあと最低一件、掲載予定であり、この取り組みに意味があるという声がある限り、この取り組みを続けるとのことです。「もしかしたら、色々な矛盾が白日の下にさらされ、続けられなくなるかもしれません」。

論文1 : Sieber, F. et al. Br. J. Anaesthesiol. 122, 480-489 (2019)
https://www.sciencedirect.com/science/article/pii/S0007091219300054
論文2 : Vlisides, P. E., Ioannidis, J. P. A. & Avidan, M. S. Br. J. Anaesthesiol. 122, 421-427 (2019)
https://www.sciencedirect.com/science/article/pii/S0007091219300492

[Nature] (2019.6.4)
Reproducibility trial publishes two conclusions for one paper


「研究の再現性(reproducibility)」は、ここ1〜2年のオープンサイエンスにおけるホットなテーマになっています。心理学の論文100本の再現性を確認したところ、39件しか再現されなかったという実験が、大きな原動力となっているようですが、それ以外の分野においても、「研究の再現性」は問題となっています。

[Nature] (2015.8.27)
Over half of psychology studies fail reproducibility test

このため、オープンサイエンスや研究データ管理に関わる会議に行くと、「研究の再現性」のセッションが必ず一つはたっていますし、また、発表の演題に"reproducibility"を入れると、発表が通りやすく、参加者も多いといった具合です。おかげで、期待して行ってみると、発表のタイトルにbuzzwordとしての"reproducibility"があるだけで、中身がゼロということもしばしばあります。

心理学における再現性実験は、論文に掲載されたデータを用いて、論文に記載があるのと同じ解析を施したときに、同じ結果がでるかという、論文の「結果」に対する再現性の確認です。
一方、(私が参加する学術情報流通やdigital scholarshipなどに関わる)国際会議では、計算機実験における「手法」の再現性に関わる発表が、今のところは主流のように見受けます。つまり、データを解析するプログラムが論文とともに共有されても、プログラムの実行環境によって、異なる結果が出ることがあるので、プログラムの実行環境を如何に保持・共有するかということが、研究テーマとなる訳です。重要な研究テーマとは思いますが、「研究の再現性」という重大なテーマが、比較的にアプローチしやすい「プログラムの実行環境の保持・共有」に矮小化されてしまっている感があり、「研究の再現性」の核心に迫るには、より深く掘り下げたアプローチが必要と感じています。

これら「論文の結果や手法」の再現性に対して、本記事は、「論文の推論や結論」部分の再現性を確認することを目的としています。具体的には、論文の「ディスカッション」部分を、論文を執筆した研究チームとは独立した第三者に執筆してもらいます。
論文の「ディスカッション」を第三者に執筆してもらうというのは、ずいぶんとコストのかかる再現性実験のように感じます。記事にもあるように、分野が特定されていると、研究者コミュニティの規模が小さいので、査読負担も大きいです。このため、社会的影響の大きい論文についてのみ、このような再現性実験を施しているようです。
一方、あくまでも研究の結果から考察されることを執筆する「ディスカッション」ですから、異なる研究者が考察すれば、異なる考察がなされてもおかしくないように思います。その意味で、「再現性実験」という表現が適切なのかは、微妙なように思います。ただし、この記事にあるような、「死亡率を関係付けるには、サンプル数が十分ではない」という第三者の指摘は、オリジナル論文の結果の「拡大解釈」を示唆しているので、第三者の目が有用であったということなのでしょう。この程度のことは、通常の査読でスクリーニングできるようにも思いますが・・・。

今回の例のように、臨床医療に関わる論文は社会に大きな影響を及ぼすため、結論の提示において、慎重さを要します。
医学系のプレプリントサーバMedRxivが新たに立ち上がり、6月25日から稼働開始という記事を見かけましたが、ここでは、不確かな情報のもとに医療の現場に混乱が起きないように、プレプリントサーバで原稿が公開される前に、外部の臨床科学者と、経験ある臨床系編集者が、スクリーニングを行うのだそうです。スクリーン項目としては、(1)当該研究が倫理審査を通過しているか、(2)患者の同意を得ているかと、(3)当該研究に関わる助成情報が全て公開されていることが前提だそうです。またこのスクリーニングにおいて、当該研究が社会的リスクを及ぼす懸念があると判断された場合は、MedRxivのマネジメントチーム6名が確認をし、最終判断をするようです。
更に、このMedRxivのサイトと、ここに公開されるプレプリント一つ一つに、ここに掲載された研究が、査読を経ておらず、現場の医療判断に用いられたり、先進医療の紹介としてプレスに報じられたりしてはいけない、と注意書きがなされるそうです。

[Nature] (2019.6.6)
How to bring preprints to the charged field of medicine

プレプリントサーバは通常、研究者間の迅速な研究共有目的に用いられるものですから、ここに査読のようなスクリーニングプロセスが組み込まれるというのは、少し驚きです。しかし医療分野では、こうしたきめ細かさも必要なのでしょう。

今回紹介した「研究の再現性」実験も、コストが相当かかる試みですが、社会的影響の大きい医療分野の研究だからこそ、そのコストをかける価値があるとも言えるように思います。

船守美穂