ページング博士アルゴリズム:MicrosoftのAIは家のように診断され、コストコのような請求書

ページング博士アルゴリズム:MicrosoftのAIは家のように診断され、コストコのような請求書

サティア・ナデラは、アイがあなたの次の医者になることを望んでいます。

Microsoft CEOは、医療の謎を解決するために協力している複数の仮想医師をシミュレートするシステムであるMAI-DXOを含む、今週、ソーシャルメディアで2つのヘルスケアAIの前進を発表しました。

New England Journal of Medicineの304の複雑な症例に対するテストにおいて、MicrosoftはAIが85.5%を正しく診断したと報告しました。同じケースに取り組んでいる21人の経験豊富な医師のグループ?彼らは20%を正しくしました。

「ヘルスケアAIにおける現実世界の影響に近づく2つの進歩を共有できることに興奮しています」とNadellaは書いています。 「MAI-DXOは、仮想医師のパネルをシミュレートするモデルに依存しないオーケストレーターです。診断コストを削減しながら、経験豊富な医師の診断の精度を85.5%の診断精度を達成します。」

この発表は、MicrosoftがHealthcareの最も厄介な問題にAIを適用するためにレースの混雑したテクノロジー企業の分野に参加しているためです。

アメリカ人がヘルスケアに年間約5兆ドルを費やしており、1200万人に影響を与える診断エラー ジョンズホプキンス大学によると、毎年、AIを使用して対処するというアイデア 人間に関連する問題は、簡単なことのようです。

マイクロソフトの医療評議会の仕組み

MAI-DXOは、コンピューターに閉じ込められた医療ドリームチームのように機能します。このシステムは、Microsoftがシーケンシャル診断ベンチマーク(SDBench)と呼ぶものを通じてケースに取り組んでいます。

従来の医療AIテストのような複数選択の質問の代わりに、医師が実際にどのように機能するかを反映しています。患者に関する限られた情報から始まり、フォローアップの質問をし、テストを注文し、新しいデータが到着するにつれて理論の調整です。

各テストには仮想お金のコストがかかり、AIの徹底のバランスをとることを強制します。

言い換えれば、それは基本的に、異なるモデルが異なる役割を果たしている、異なるモデルが訴訟を議論する医療評議会をシミュレートします。モデルは、あなたが勉強するのに挑戦的なケースであれば、あなたの医師がそうするように、議論し、反対し、最終的にはコンセンサスに達します。

1つの構成では、MAI-DXOは80%の精度を達成しながら、ケースあたり2,397ドルを費やし、医師が通常費やす2,963ドルよりも約20%少なくなりました。

ピークパフォーマンスでは、ケースあたり7,184ドルのコストで85.5%の精度を達成しました。比較すると、OpenaiのスタンドアロンO3モデルは78.6%の精度を達成しましたが、7,850ドルの費用がかかりました。

画像:Microsoft

仮想医師のパネルには、ベイジアン確率法を使用して3つの最も可能性の高い診断の実行リストを維持する仮説博士が含まれています。

Test-Chooser博士は、最大の情報ゲインを目指して、ラウンドごとに最大3つの診断テストを選択します。

チャレンジャー博士は逆説として行動し、一般的な理論と矛盾する証拠を求めています。スチュワードシップ博士は、診断値が低い高価なテストを拒否します。

一方、Dr。Checklistは、すべてのテスト名が有効であり、チームの推論が一貫していることを保証します。

画像:Microsoft

Microsoftは、AIのトレーニングカットオフ日の後、2024年から2025年にかけてニューイングランドジャーナルオブメディシンに掲載されたケースに関するシステムをテストし、モデルが答えを記憶した可能性を排除しました。

この研究は、適切に診断するために徹底的な検査を必要とする困難な症例でした。

比較のために採用された21人の医師のマイクロソフトは、5年から20年の経験があり、中央値は12年でした。

彼らは、同僚、教科書、またはAIの支援にアクセスせずに働いて、生の診断能力の公正な比較を確保しました。彼らは、これらの明らかに難しいケースで20%の成功率を報告しました。

システムはいくつかのモードで動作します。 「Instant Answer」は、300ドルの初期情報のみに基づいた診断を提供します。これは、1人の医師の訪問の費用です。

「質問のみ」では、テストを注文せずにフォローアップの質問を許可します。 「予算済み」は、最大支出制限でコストを追跡します。 「予算なし」にパネルに無料の手綱が与えられ、「アンサンブル」は複数のパネルを実行し、結論を最大限の精度で集約します。

医学の未来?

MAI-DXOは、Microsoftの消費者の健康AIへのより広範なプッシュを表しています。

同社は、BingおよびCopilot製品全体で毎日5,000万人以上の健康関連セッションを報告しています。膝の痛みの検索から緊急のケアの検索まで、Microsoftは検索エンジンとAIアシスタントがヘルスケアの新しい正面玄関になるのを見ています。

もちろん、これは医療技術の非常に長いタイムラインのもう1つのステップにすぎません。

コンテキストのために、スタンフォードのMyCinシステムは1970年代の細菌感染症と診断され、GoogleのAmieは昨年医師と患者の会話をシミュレートしました。

MicrosoftはMAI-DXOをモデルに依存しないシステムとして開発しました。つまり、異なる企業のAIモデルで動作することができます。

テストでは、Openai、Google、人類、メタ、その他のモデル全体で平均11%のパフォーマンスを向上させました。この改善は、すべてのテストされたモデルで統計的に有意でした。

Microsoft AIで研究を主導したドミニク・キング博士とハルシャ・ノリ博士は、この技術が研究デモンストレーションのままであることをブログ投稿で強調しました。

「重要な課題は、生成的AIが医療全体に安全かつ責任を持って展開できるようになる前に残っています」と彼らは書いています。システムは複雑な診断の課題に優れていますが、日常的なケースでのテストが必要です。

Microsoftは、ピアレビューのために研究を提出する予定であり、臨床環境でのアプローチを検証するためにヘルスケア組織と協力しています。

同社は、展開には「厳密な安全性テスト、臨床検証、規制レビュー」が必要であることを明らかにしました。

今のところ、Mai-Dxoは研究室に限定されています。しかし、診断エラーが患者の死亡の10%近くに貢献し、毎年数百万人に影響を与えるため、Microsoftの仮想医師パネルは、AIアシストヘルスケアへの別のステップを表しています。

5ドクターのAIチームは、21人の人間の医師を組み合わせたよりも診断する可能性がありますが、主流の実装を見るにはまだ早すぎます。

マイクロソフトは、AIは医師に取って代わるものではないと言います。それはそれらを増強します。これらの残忍なNEJM症例で20%を獲得した21人の医師は、おそらくそれが本当だと望んでいるでしょう。