医師や看護師などの医療従事者が中心となって作成する診療ガイドラインには多くの人手や時間が必要である。現在、医師の働き方改革(注2)が進められており、医療従事者の労働負担を減らすことが重要な課題となっている。AIを活用した効率的な文献スクリーニング方法は、持続可能な働き方を実現するための一つの解決策として期待される。日本版敗血症診療ガイドライン(注3)2024作成委員会の取り組みの一環として行われた本研究成果は、総合医学雑誌JAMA Network Openに2024年7月8日(現地時間)に掲載された。
■研究の背景
診療ガイドラインは、ある疾患に対する検査や治療を決めるための道標として医療従事者や患者が参考にする文書である。このガイドラインを作成するために必要なシステマティックレビューという作業は、ある医学領域に関連する文献を抽出し、文献の情報を同定、選択や評価を行う作業で、多くの労力や時間を要する。一方、人工知能(AI)の一種であるChatGPTなどのLLMは学習した大量のデータをもとに、人間が指示した命令や質問に答えることができる。LLMが、システマティックレビュー作業の中でも特に多くの労力を要する文献の抽出作業を代わりに行うことができれば、人間が行うべき作業量を大幅に削減することができる。しかしこれまで、LLMを用いた文献スクリーニング作業の精度や作業負担軽減の程度は検討されていなかった。本研究では、日本版敗血症診療ガイドラインの作成において、LLMを用いた文献スクリーニングの精度と効率性を評価した。
■研究内容と結果
本研究は、診療ガイドラインの中から5つの臨床疑問(CQ)に関する文献スクリーニングデータを使用して、LLM(OpenAIより2023年11月7日に公開されたGPT-4 Turbo)がそれぞれのCQに関連するキーワードをもとに抽出された数多くの文献の中から、CQに含まれる患者/集団/問題、介入、比較、および研究デザインに合致する文献を正確に選び出すことができるかどうかを検証した。LLMの文献スクリーニングの正確性を評価するために、ガイドラインメンバーが実際に行った文献スクリーニングの結果をゴールドスタンダード(注4)として、LLMを使用した文献スクリーニングの結果を評価した。具体的な正確性の指標として、感度(注5)と特異度(注6)を計算した。また、従来のスクリーニング方法とLLMを用いたスクリーニング法の作業時間を比較した。
①大規模言語モデルを用いた文献スクリーニングの正確性
・従来の文献スクリーニング方法では、CQ1で5,634件中8件、CQ2で3,418件中4件、CQ3で1,038件中4件、CQ4で4,326件中17件、CQ5で2,253件中8件がガイドラインを作成するための最終的な文献として選定された。5つのCQにおける主要解析では、LLMを用いたスクリーニングの感度は0.75(95%信頼区間[CI]、0.43–0.92)、特異度は0.99(95% CI, 0.99–0.99)であった。LLMの特徴として、人間が入力する命令文(コマンドプロンプト)によってLLMの作業内容が変化することが報告されている。本研究において、LLMにおける作業の質が向上するようにコマンドプロンプトを修正したところ、感度は0.91(95% CI, 0.77–0.97)に上昇し、特異度はほとんど低下しなかった(0.98;95% CI, 0.96–0.99)。
②大規模言語モデルを用いた文献スクリーニングの作業時間の短縮
・LLMを用いた文献スクリーニングは、2〜4人のガイドラインメンバーが人力で文献スクリーニングを行う従来の方法では17.2分かかっていた100件の文献スクリーニング時間を、約1.3分に短縮した(平均差 −15.25分、95% CI, −17.70〜−12.79)。
■今後の展開
今回の結果から、LLMを用いた文献スクリーニングはある程度の正確性を有していること(許容できる感度と非常に高い特異度)が分かった。また、文献スクリーニングにかかる時間を大幅に短縮した。この新しい文献スクリーニングの方法は、システマティックレビューの効率を向上させ、作業負担を軽減する可能性がある。現在様々なLLMの開発が行われており、その性能や機能は日進月歩である。今後発表される改良版のLLMを用いることにより、文献スクリーニングの精度がさらに高まることが予想される。また、今回の研究の中で検討したコマンドプロンプトは学問として発達途上にあるため、今後の知見によってLLMを用いた作業内容の正確性が大いに高まる可能性もある。このようにLLMは今後さらに文献スクリーニングの精度や作業負担を改善する可能性があり、注目されていく分野であると考えられる。今回検討したのは敗血症の分野のみの文献検索であったが、その他の医学分野においてもLLMを用いた文献スクリーニングの応用が期待される。医療従事者の作業負担を減らしながら、より良い診療ガイドラインを作成するために、今後もAIを活用した作業の効率化につながる取り組みを続けていく。
■用語解説
注1)大規模言語モデル(LLM):膨大な文章データを学習して、人間のように文章を理解したり作成したりするAI技術。ChatGPTはその一例で、質問に答えたり、文章を生成したりすることができる。
注2)医師の働き方改革:長時間労働の是正や、有給休暇の取得促進、多様な働き方の実現を目指した医師の労働環境の改善を目的とした一連の取り組み。
注3)日本版敗血症診療ガイドライン:敗血症は、感染症が原因で全身に強い炎症が起こり、命に関わる状態になる病気。本ガイドラインは、世界の専門家が集まって作成した、敗血症診療ガイドライン ‘Surviving Sepsis Campaign Guidelines 2021’ を参考にして日本の現状に沿って作成したもの。
注4)ゴールドスタンダード:特定の疾患や条件の診断、治療、評価において最も信頼性が高いと認められている方法または基準。医学や科学の分野で広く用いられ、最も確かな証拠に基づく選択肢として推奨される。
注5)感度:ある検査が病気を持っている人を正しく見つけ出す能力を指す。感度が高いほど、病気を見逃さないという意味であり、例えば、感度が100%であれば、病気を持っている人を全員見つけ出すことができる。
注6)特異度:ある検査が病気を持っていない人を正しく除外する能力を指す。特異度が高いほど、健康な人を誤って病気だと判断する可能性が低いことを意味する。例えば特異度が100%であれば、健康な人を全員正しく健康だと判断することができる。
■論文情報
題名: Performance of a large language model in screening citations
著者名: Takehiko Oami, Yohei Okada, Taka‑aki Nakada
掲載誌: JAMA Network Open