「HealthBench」AIが医療に使えるかを見きわめる新しい基準

AIが医療や健康の分野で使われることが増えています。たとえば、症状について相談したり、病気の予防法を調べたりといったシーンです。しかし、AIが正しく、そして安全に使えるのかを確かめる方法は、まだ十分に整っていませんでした。

そんな中、OpenAIが新しく発表したのが「HealthBench（ヘルスベンチ）」という評価基準です。これは、AIが本当に人の健康に役立つかどうかを、医師と同じ視点でチェックするための新しいものです。

【HealthBenchの要点】

・HealthBenchは、AIが医療や健康の相談にどれだけ適切に答えられるかを評価する新しい基準（OpenAIが開発）

・5,000件の会話を使い、医師が作成した4万8千以上の評価項目でAIの応答を細かくチェック（正確さ・文脈理解など5つの視点で評価）

・緊急時対応、専門家との会話、データ処理など7つの現実的なテーマでAIの実力を確認できる

・最新のAIモデルは医師の回答を上回る評価を受けた例もあり、信頼性と安全性が急速に向上中

・利用者にとっては、より正確で分かりやすく、信頼できるAIを安心して使える環境が整い始めている

【参考】HealthBench: Evaluating Large Language Models Towards Improved Human Health

▶︎ BEST.AI.SYSTEMの「お問い合わせフォーム」はこちらから ◀︎

▶︎HealthBench：AIが医療や健康の相談にどう答えるかを、5,000件の会話例でテストする評価方法

【評価のしかた】

・医師262人が協力して、会話ごとに「こういう答えができていれば良い」という細かいチェック項目（ルーブリック）を作成
・全部で48,562項目もあり、AIの答えが良かったかどうかを細かく判定

答えをチェックする視点は、以下の5つのポイント

1. 正確かどうか（Accuracy）
2. 必要な情報がすべて入っているか（Completeness）
3. 会話の流れや相手の状況を理解できているか（Context awareness）
4. 指示通りの形式で答えているか（Instruction following）
5. わかりやすく、丁寧に伝えられているか（Communication quality）

さらに、会話内容は以下のような7つのテーマに分かれて評価されます。

・緊急時の対応
・医療データの取り扱い
・一般の人と医療の専門家への答え分け
・不確かな状況での応答
・情報の深さ
・国や地域によって異なる医療事情への対応
・聞かれていないけれど必要なことを自分から確認する力（文脈を探す力）

なぜHealthBenchが大事なのか？

これまでのAIのテストは、選択式テストや短い回答を対象にしていました。でも、実際の相談では「どこが痛いの？」「それはどれくらい前から？」といったやり取りの中で状況を理解し、適切に答える力が求められます。

HealthBenchは、現実に近い会話を通じて、AIがその力を持っているかを測れる、はじめての大規模な評価方法です。

▶︎AIはどれくらい良くなってきている？

HealthBenchを使って、さまざまなAIモデルを比べた結果が発表されました。

・GPT-3.5 Turbo（旧モデル）：16%
・GPT-4o（2024年版）：32%
・GPT-4.1 nano：GPT-4oより高スコアで、25分の1のコスト
・o3（2025年最新モデル）：60%のスコア

つまり、AIはこの1〜2年で性能が大きく向上しているのです。

さらに、医師が自分だけで答えた内容よりも、最新AIの回答のほうが高評価だったという結果もありました。これは、AIが医師の助けにもなり得るという意味です。

▶︎ユーザーにとってのメリット

このように、HealthBenchのおかげでAIの性能を正しく測ることができるようになり、信頼できるAIが実際に選べるようになります。それが、以下のような具体的なメリットにつながります。

・安心してAIに相談できる：正確で誤解のない答えが返ってくる
・判断に迷ったときのサポート：今すぐ病院に行くべきか、様子を見るべきかをAIが補助
・誰にでも伝わる説明：一般の人にも、専門家にも、ちょうど良いレベルの説明をしてくれる
・コストが下がる：性能が高く、安価なモデルが登場して、より多くの人が利用できるようになる

▶︎AIが本当に使えるかどうかを見きわめる道しるべ

HealthBenchは、単にテストのためのツールではありません。それは、「AIを安心して使っていいかどうか」を判断する新しい基準です。今後、医療や健康の場でAIを使っていくとき、このHealthBenchのような評価があることで、利用者にとっても開発者にとっても、より信頼できる環境が整っていきます。
AIが「使える」だけでなく「信じられる」存在になるための第一歩として、HealthBenchは大きな役割を果たすのです。

弊社「株式会社BEST.AI.SYSTEM」では、介護現場のDX化や生成AI活用に特化したサービスを提供しています。導入支援や研修についてご相談がありましたら、ぜひお気軽にお問い合わせください。

▶︎ お問い合わせフォームはこちらから ◀︎