テキスト全文
生成AIの概要と自己紹介
#1. もう他人事じゃない! 生成AIの「今」と「これから」 ~活用アイデアから気をつけたいポイントまで~ Photo by Jei Lee
#2. 自己紹介 経歴 2018 2020– 2021– 2023– 2024 現在 高校卒業 教育系大手( AI ・ DX に関する教育サービスの立ち上げ) 医療系ベンチャー(カルテ開発、クリニック運営支援) ライフスタイル系ベンチャー(社内効率化、事業開発、 RAG の PoC ) 大学卒業 大学附属病院 初期研修医
#3. この資料は以下のツールを活用して作成しています。 Marp (on VSCode) Google Gemini 2.5 Pro Preview (05-06 版 ) Google Gemini 2.0 Flash Thinking OpenAI o3-mini
AIの基礎と歴史的進化
#4. 第1部 AI の基礎と現在地 Photo by Jean-Philippe Delberghe
#5. Intelligenceとは? 知識 (Knowledge) :個別の事実や情報 知恵 (Wisdom) :知識を状況に応じて適切に活用する能力 知能 (Intelligence) :学習し、理解し、推論し、問題を解決する能力 これらを機械で実現しようとするのが AI の探求 5
#6. AIとは? 人間の知的な振る舞いを機械で人工的に再現しようとする科学・技術分野 AI が目指すもの:人間の知的作業の代替・支援、新たな知見の発見 (医療分野の例:画像診断支援、創薬プロセスの加速、個別化医療の提案など) 6
#7. AI技術の進化:これまでと今 AI を支えるコア技術 機械学習 (Machine Learning: ML) :データからパターンを学習し予測・判断 (例:心電図データから不整脈を検出するモデル) 深層学習 (Deep Learning: DL) :多層のニューラルネットワークを用いた ML の一分 野(例: CNN を用いた画像認識、 RNN を用いた時系列データ解析) トランスフォーマー (Transformer) :自然言語処理で大きな成功を収めた DL モデル (例: BERT, GPT シリーズの基盤技術) 7
#8. AI技術の進化:これまでと今 AI ブームの歴史 第 1 次 AI ブーム (1950 年代後半~ 1960 年代 ) :探索と推論 第 2 次 AI ブーム (1980 年代 ) :エキスパートシステム 第 3 次 AI ブーム (2000 年代後半~現在 ) ビッグデータ、計算能力向上 (GPU 等 ) 、深層学習の発展 生成 AI (Generative AI) の登場と急速な普及 (例: ChatGPT, DALL-E, Stable Diffusion, Sora ) 8
AIブームの事例と進化
#9. Gen 時代 第 1 1950 年代後半〜 次 1960 年代 第2 1980 年代 次 第 3 2000 年代〜現在 次 キーワード 探索と推論 知識活用 機械学習、深層学 習、ビッグデータ 代表的なモデル・技術 論理プログラミング (LISP), 初期の専門家システム (MYCIN), 自然言語処理の試み (ELIZA) 知識ベース , エキスパートシステムの高度化 , 第 5 世代コン ピュータ計画 , Cyc プロジェクト 機械学習 , ディープラーニング (CNN, RNN, LSTM), 強化 学習 , Transformer, LLM (ChatGPT) 9
#11. 第2次ブーム: Cyc プロジェクトの場合 「常識」を大規模な知識ベースとしてコンピュータに与えることで、 人間のような推論能力を目指したプロジェクト。 出典: Tadeusiewicz, R. (2010). New trends in neurocybernetics. Computer Methods in Materials Science, 10(1), 1-7. 11
#12. 第3次ブーム: AlphaGo の場合 ルールを明示的に教えず、大量の棋譜データからニューラルネットワークを用いて学習。 2016 年、囲碁世界チャンピオンに勝利。その後、過去棋譜なしの自己対戦のみで 学習するモデルも登場した。 出典: Youtube | Match 2 - Google DeepMind Challenge Match: Lee Sedol vs AlphaGo 12
基盤モデルとその特性
#13. 第 3 次ブームの深化:基盤モデルの登場 膨大な学習データ、 Transformer アーキテクチャによる表現力と計算効率の向上、 そして潤沢な計算資源。これらが組み合わさり、 大規模な事前学習と多様なタスクへの転移学習が可能な「基盤モデル」が誕生した。 出典 Bommasani, Rishi, et al. "On the opportunities and risks of foundation models." (2021) 13
#14. Transformerの主要アーキテクチャ Decoder 中心構造 (GPT 系 ): 自己回帰型 (autoregressive) であり、 過去のトークンに基づいて次のトークンを順次予測することに長ける。 強み : テキスト生成 ( 例 : 文章作成、対話システム ) Encoder 中心構造 (BERT 系 ): あるトークンを理解する際に、その前後両方の文脈を双方向に参照できる。 強み : 自然言語理解 (NLU) タスク ( 例 : 分類、固有表現抽出 ) Encoder-Decoder 構造 (T5, BART 系 ): Encoder が入力シーケンスを理解し、 Decoder が出力シーケンスを生成。 マスキングされた部分の再構成やテキスト対テキスト形式でタスクを処理。 強み : Sequence to Sequence (Seq2Seq) タスク ( 例 : 機械翻訳、要約 ) 14
#15. 基盤モデル(Foundation models)とは? 広範なデータ(通常は大規模な自己教師あり学習データ)で訓練され、 ファインチューニング等の技術により多様な下流タスクに適応できるモデルのこと。 非常に大量の多様なデータで事前訓練された、高い汎用性を持つ AI モデル。 このモデルを基盤として、特定のタスク(翻訳、要約、質問応答、画像生成など)に合 わせて調整(適応)することで、様々な AI アプリケーションを効率的に開発可能。 例: BERT 、 GPT シリーズ、 CLIP 、 DALL-E 、 Stable Diffusion など 15
大規模言語モデル(LLM)の理解
#16. 基盤モデ 学習データ例 Input のモダリティ Output のモダリティ ル GPT テキスト、コード、画像 テキスト、画像 テキスト、コード、画像 BERT テキスト主体 テキスト テキスト、分類結果 DALL-E テキスト テキスト 画像 CLIP テキスト、画像 画像、テキスト 埋め込み、分類結果 テキスト、画像、音声、 テキスト、画像、コード、 Gemini テキスト、画像、音声、動画など多様 なモダリティ 動画など 音声など Med- 医療テキスト、医療画像 (X 線 , CT 等 ) 、 テキスト、 DICOM テキスト、医療画像の解 PaLM ゲノムデータなど 釈、埋め込み 16
#17. 大規模言語モデル(LLM)とは? LLM は基盤モデル( Foundation models )の一種 非常に大量のテキストデータで学習された、自然言語処理に特化した AI モデル (例: OpenAI の GPT シリーズ , Google の Gemini ファミリー , Anthropic の Claude シリーズ) 基本原理:入力テキストの文脈をもとに、次に続く確率が最も高い単語を予測・生成 特徴:人間が書いたような自然な文章生成、文脈理解、対話能力、知識の活用 17
#18. 大規模言語モデル(LLM)とは? LLM が注目される理由 創発的能力 (Emergent Abilities) :モデル規模とデータ量の増大により、予測され なかった高度な能力(複雑な指示理解、推論など)が発現。 汎用性の高さ:翻訳、要約、会話、文章創作、コード生成など多様なタスクに対応。 対話能力の向上: SFT (教師ありファインチューニング)や RLHF (人間のフィード バックによる強化学習)により、人間にとって自然で有用な応答を生成。 アクセシビリティの向上: API (例: OpenAI API, Vertex AI API )経由で利用可能 になり、多様なアプリケーション開発が促進。 18
#20. AIはどこにいる? AI モデルは多くの場合、クラウド上の計算資源( IaaS, PaaS )で提供される。 IaaS (Infrastructure as a Service) :仮想サーバー等のインフラを提供 (例 : AWS EC2, Google Compute Engine, Azure VMs ) PaaS (Platform as a Service) :アプリケーション開発・実行環境を提供 (例 : AWS Elastic Beanstalk, Vertex AI, Azure OpenAI Service ) SaaS (Software as a Service) :ソフトウェアをサービスとして提供 (例 : Gmail, Microsoft 365, Salesforce, ChatGPT, Gemini App ) 20
LLMの能力と進化の現状
#21. ローカルLLM AI モデル(ソフトウェア)を自身の PC やオンプレミス環境にダウンロード・搭載し、 インターネット(クラウド)を経由せずに LLM を利用できる。 メリット : データプライバシーの向上、オフライン利用、カスタマイズ性 代表的なオープンソース LLM 例 : Gemma (Google) Llama シリーズ (Meta) Qwen シリーズ (Alibaba Cloud) Mistral シリーズ (Mistral AI) 21
#22. ここからは基盤モデルの中でも特に 「 LLM (大規模言語モデル)」に焦点を当てて解説します。 22
#23. 第2部 LLM の能力と進化 Photo by Kamran Abdullayev
#24. LLM戦国時代:性能とコストの競争 出典 : Chatbot Arena (LMSYS Org) - LLM 性能が匿名評価されている 24
LLMの選び方と活用例
#25. 2025年5月時点の代表的なLLM 従来モデル 推論強化モデル Gemini 2.0 Pro Gemini 2.5 Pro 精度重視 GPT-4o Gemini 2.5 Flash GPT-4.1 OpenAI o3 Gemini 2.0 Flash Gemini 2.0 Flash Thinking 2.0 Flash-Lite 速度重視 Gemini OpenAI o4-mini GPT-4o mini OpenAI o4-mini-high GPT-4.1 mini Gemini Deep Research レポート作成 OpenAI Deep Research 25
#26. LLMの選び方のポイント 求める能力・ユースケースに応じて選択 高性能・高精度モデル : 複雑な指示、論理的推論、計画立案 (Planning) 例 : Gemini Advanced (2.5 Pro など ), OpenAI o3, o4-mini など コスト効率・高速応答モデル : ルーティンワーク、高速応答、大量処理など。 例 : Gemini Flash シリーズ , GPT-4o-mini など mini シリーズ 特定の機能に特化したモデル : 推論強化 : Gemini なら「 Thinking 」、 ChatGPT なら「推論」モード。 マルチモーダル : テキストだけでなく画像や音声も扱えるモデル。 26
#27. LLMはどう進化しているか モデル規模の拡大:パラメータ数(人間の脳のニューロンに相当)を増やす。 学習データと手法の洗練:データ量・質の向上、学習アルゴリズムの改善。 推論プロセスの高度化:思考ステップを増やし、より複雑な問題解決能力を向上させる パラメータ数を増やす (Scaling Up) 知識蒸留 (Distillation) 思考ステップを増やす (Chainof-Thought) NVidia Blog Google Research Blog Google for Developers Blog 27
テキストとマルチモーダル活用アイデア
#29. 第3部 LLM の活用例 Photo by Markus Spiske
#30. 特に指定がない場合、以下のような LLM の利用を想定しています。 Google Gemini 、 OpenAI GPT/o series 、 Anthropic Claude
#31. テキストベースの活用アイデア テキスト生成 文章作成支援 : 論文 Abstract 草稿、患者向け説明資料のたたき台 退院時サマリー、関係機関への届出文書下書き ( 死亡診断書、感染症発生届等 ) 要約 : 医学論文の要点抽出 ( 例 : Consensus, SciSpace) カンファレンスやインフォームド・コンセント (IC) 内容の要約 翻訳 : 英語文献の迅速・高精度な翻訳 外国人患者 / 研究者とのコミュニケーション支援(例: DeepL Voice ) コード生成 研究用データ解析スクリプト (Python, R 等 ) の自動生成・補助 解析・業務効率化ツールの試作 ( 例 : GitHub Copilot, Amazon CodeWhisperer) 31
#32. テキストベースの活用アイデア 感情・意図分析 テキストデータから話し手・書き手の感情、意図、トーンを分析・推定 例:患者からの問い合わせ内容の緊急度判断補助、 IC 中の感情記録 データの構造化・抽出 自由記述テキスト (SOAP カルテ、看護記録等 ) から特定情報 ( 病名 , 症状 , バイタル 等 ) を抽出し、構造化データ ( データベース形式等 ) に変換 例:定型情報抽出の効率化 (Cocktail AI ( 京都大学病院の事例 )) メモ書き状態のカルテ下書きを、標準形式 ( 例 : J-SOAP) に整形 32
#33. テキスト+αで広がる活用アイデア Embedding ( エンベディング ) 単語や文の意味を数値ベクトルで表現。類似概念の検索、分類、推薦等に活用。 (例:類似症例検索、関連医学論文の推薦エンジン (Semantic Scholar) 様々なモダリティでの異常検知(例: CT Foundation ) RAG (Retrieval Augmented Generation :検索拡張生成 ) LLM が回答生成時に、外部の最新情報や専門知識データベースを検索・参照。 ハルシネーション(もっともらしい嘘)の抑制や回答精度向上に寄与。 (例: NotebookLM を使った情報整理・知識ベース構築 OpenEvidence によるエビデンス検索・要約サービス など) 33
#34. テキスト+αで広がる活用アイデア Function calling / Tool Use ( 関数呼び出し・ツール利用 ) LLM が外部 API やツールを呼び出し、その結果を応答生成に利用。 (例:必要なら電子カルテから最新の患者データを取得、検査予約システムの操作な ど、より動的なタスク実行) Grounding ( グラウンディング ) LLM の生成情報が、信頼できる特定の情報源( PubMed の論文、添付文書等)に基づ いていることを保証・明示する技術。 例: Gemini API の「 Grounding 」機能、 ChatGPT の「 search 」機能やプラグイン。 Advanced Reasoning ( 高度な推論 ) 複雑な推論や計画を段階的に行う手法 ( 例: Chain-of-Thought, Tree of Thoughts) 。 診断推論など、より高度な思考プロセスをシミュレートする試み。 34
AIの倫理と法的課題
#35. 画像や音声での活用アイデア マルチモーダル AI :テキスト、画像、音声、動画などを統合的に処理・生成する AI 。 画像生成 (Image Generation) テキスト指示に基づき画像を生成する (例: Imagen3, GPT-4V(4o), Midjourney ) 活用例:医学教育用イラスト作成、患者説明用シェーマの生成補助。 音声認識・生成 (Speech Recognition / Synthesis) 音声認識 : 音声からテキスト(例:患者との会話からカルテ生成) 音声合成 : テキストから音声(例: Amazon Polly, Google AI TTS )。 活用例:オーディオブック形式の学習 ( 例: NotebookLM での音声出力機能 ) 35
#36. 第4部 AI の倫理・法的課題 Photo by Fruit Basket
#37. ハルシネーションに注意 ハルシネーションとは、 AI が事実に基づかない情報やもっともらしい嘘を生成する事象 (例:存在しない薬剤の副作用を列挙、架空の診断基準を提示) 医療においては極めて危険であり、ファクトチェックが必須。 対策: RAG ( 検索拡張生成 ) や Grounding で外部の信頼情報を参照。 生成内容に対する専門家によるレビュー。 ユーザー自身が批判的思考を持つこと! 37
#39. その他の倫理的・技術的課題 バイアス : 学習データに潜む偏りが、 AI の判断に不公平さを生む可能性。 (例:特定の人種や性別で診断精度が低下する AI モデル*) プライバシー侵害 : 入力情報(特に機微情報)の意図しない学習利用や漏洩リスク。 説明可能性・透明性の欠如 ( ブラックボックス問題 ): AI の判断根拠が不明瞭な場合、医師も患者もその判断を受け入れ難い。 セキュリティ脆弱性 : 敵対的攻撃( Adversarial Attacks )による AI の誤作動リスク。 (例:カルテに巧妙に埋め込まれたノイズにより、 AI が診断を誤る可能性) 責任の所在 : AI による医療過誤等が発生した場合の法的・倫理的責任分担の曖昧さ。 * Obermeyer, Z.,et al.(2019) Science, 366*(6464), 447-453. 39
医療におけるAIの未来と私見
#40. LLMと著作権 学習データとしての利用 : AI 開発のための情報解析(著作物を含む)は、著作権者の利 益を不当に害しない限り、原則として許諾不要(著作権法第 30 条の 4 )。 文化庁「 AI と著作権に関する考え方について(令和 6 年 3 月版など最新資料参照)」 生成物の著作物性 : AI が自動生成したものが既存の著作物と表現・本質的特徴が同一又 は類似し、依拠性が認められる場合は著作権侵害の可能性。人間が創作的に関与せず AI が単独で生成したものは、現行法上、著作物と認められにくい傾向にある。 40
#41. 医療情報の特徴 極めて機微性が高い情報( → 個人情報保護法上の要配慮個人情報に該当) 生命・健康に直結するため、情報の正確性・信頼性が極めて重要。 プライバシー保護とデータ利活用のバランスが大きな課題 ( → 医療ビッグデータ法) 41
#42. 要配慮個人情報とは? 「要配慮個人情報」とは、不当な差別や偏見その他の不利益が生じないようにその取扱いに 特に配慮を要するものとして政令で定める記述等が含まれる個人情報をいいます。(中略) 病歴を含む情報、健康診断の結果を含む情報及び健康診断後の措置(医師等専門職による改 善指導又は診療、調剤)が行われた事実を含む情報等が挙げられます。 要配慮個人情報の取得には、原則として本人の同意が必要であり、(中略)オプトアウトに よる第三者提供は認められていません。さらに、要配慮個人情報が含まれる個人データの漏 えい(中略)が生じた場合には、個人情報保護委員会への報告及び本人への通知等を行う必 要があります。 個人情報保護委員会 Q&A より一部抜粋 42
#43. どういうこと? 医療情報は要配慮個人情報である。 個人契約の AI はほぼ「第三者」にあたる。 つまり、勝手に医療情報を個人契約の AI へ入力してはいけない。 43
#44. つまり? 医療情報は基本的に要配慮個人情報である カルテ、処方箋、検査結果、既往歴、アレルギー情報などはすべて要配慮個人情報。 これらの情報を取得・利用・提供する際は、原則として本人の事前同意が必要。 個人で契約している一般的な AI はすべて「第三者」にあたる 多くの条件をクリアすれば「例外」にあたるため別途の同意は不要となるが ... 要配慮個人情報である医療情報は、原則としてあらかじめ本人の同意を得なければ第 三者提供はできない。つまり、「この情報を」「この目的で」「どこを拠点とする何と 言うサービスに」提供しますよ!と必ず本人に同意を取らなければならない。 個人情報保護法 27 条 5 項 1 号、個人情報保護法 25 条など参照。 44
#45. Q. でも名前がなければ個人情報じゃないでしょ? A. いいえ。それ、個人情報(or仮名加工情報)です。 45
#46. 個人情報≠仮名加工情報≠匿名加工情報 単に名前を伏せただけで、カルテ内の他の情報(生年月日、希少な病名、治療日、住所な ど)によって特定の個人が識別できてしまう場合は、個人情報。仮名加工情報だとしても、 原則として個人情報に該当するものとして扱われるため、第三者提供には制限がある。 仮名加工情報 (Pseudonymized Information) 他の情報と照合しない限り特定の個人を識別できないように加工されたもの。 医療機関内部での分析に利用可能。第三者提供は原則禁止。 匿名加工情報 (Anonymized Information) 特定の個人を識別できず、かつ元の個人情報へ復元不可能なように加工されたもの。 一定のルール(作成・提供時の公表等)のもと、本人の同意なく第三者提供が可能。 46
#48. 一般向けLLM(ChatGPT, Gemini等)を臨床活用する際の課題 情報漏洩・プライバシーリスク : 患者情報を入力するとサービス提供事業者に送信され、 LLM の学習データとして利用され、意図しない情報流出が起こる可能性がある。 参照:医療デジタルデータの AI 研究開発等への利活用に係るガイドライン 誤情報・ハルシネーション : 不正確な医学情報に基づく診断・治療判断のリスク。 責任所在の不明確さ : AI の誤った助言による医療過誤発生時の責任分担。 医療機器としての該当性 : 診断・治療に直接用いる場合、薬機法上のプログラム医療機器 (SaMD: Software as a Medical Device )としての規制対象となる可能性がある。 48
#49. 第5部 AI についての私見 Photo by Susan Wilkinson
#50. 医療&AIで考えるべきこと(私見) プライバシーを尊重した利用 AI へ情報を入力する際は常に、情報漏洩のリスクを考慮する。 個人契約の AI を利用する場合は「同施設内が見ても患者が同定できない程度まで一般 化する」等、個人情報保護法やプライバシー法に則って行動する。 医師の専門性と AI の協調 AI はあくまで「高度な支援ツール」であり、最終的な臨床判断と責任は医師が負う。 医師が AI の能力と限界を正しく理解し、批判的吟味をしながら適切に使いこなすため のリテラシー、生涯学習が重要にある。 法的整備・ガイドラインの方向性 技術の急速な進展に対応できる、柔軟かつ実効性のあるルール作り (例:リスクベースのアプローチ、医療 AI 特化のガイドライン) データ利活用とプライバシー保護の両立、国際的な規制・基準との調和。 50
#51. 未来の医療現場(私見) 画一的な臨床業務は8割程度自動化される ベッドサイドや診察室における AI の知覚(センサー)は高度かつ多様化する。 病棟患者の観察・処方・アセスメントは「 AI の提案を承認する」形式に移行する。 病名に基づく医療から、バイオマーカー・症候分類( Ontology )に基づく医療へ。 人間の医師は、患者と接したプロセス自体が重視されるようになる 患者にとって生身の人間との対話機会が減るため、疎外感を感じるように。 一方で、初診 / 入院時の身体所見、「全人的な評価」のための医療面接、 ACP の重要な 局面における対応は、比較的最後まで人間が担うことになる。 診断や治療計画の「成果物(アウトプット)」を効率的に提供するようになるほど、 医師の価値は「プロセス」における人間的側面、すなわち患者との共感・信頼構築・ 個別化されたケアの設計 / 説明といった 「体験価値」の提供にシフトする。 51
#53. 「生成AI」との付き合い方 適切な理解と慎重な活用 LLM の能力と限界 ( ハルシネーション、バイアス等 ) を認識し、個人情報に細心の注意を払う。 AI はあくまで支援ツール 最終的な判断と責任は人間(医療従事者)が担うの原則。 AI を鵜呑みにせず、批判的吟味を怠らない。 継続的な学習と適応 技術は日進月歩。最新情報をキャッチし、 AI リテラシーを高めるためにも 「とりあえず触ってみる」 べし! 今後求められる能力 新しい技術に適応し、患者個人との対話プロセスを大事にする能力。 53