普通视图

发现新文章，点击刷新页面。

昨天以前从百草园到三味书屋

从百草园到三味书屋
Mathematical notation
KaTeX can be used to render mathematical notation within articles. Inline notation #Inline notation can be generated by wrapping the expression in \$ and \$ delimiters. Example: % KaTeX inline notation Inline notation: \$\varphi = \dfrac{1+\sqrt5}{2}= 1.6180339887…\$ Inline notation: $\varphi = \dfrac{1+\sqrt5}{2}= 1.6180339887…$ Block notation #Alternatively, block notation can be generated using $$ delimiters. This will output the expression in its own HTML block. Example: % KaTeX bloc
2019年3月8日 08:00

Mathematical notation

从百草园到三味书屋

2019年3月8日 08:00

KaTeX can be used to render mathematical notation within articles.

Inline notation #

Inline notation can be generated by wrapping the expression in \$ and \$ delimiters.

Example:

% KaTeX inline notation
Inline notation: \\(\varphi = \dfrac{1+\sqrt5}{2}= 1.6180339887…\\)

Inline notation: $\varphi = \dfrac{1+\sqrt5}{2}= 1.6180339887…$

Block notation #

Alternatively, block notation can be generated using $$ delimiters. This will output the expression in its own HTML block.

Example:

% KaTeX block notation
$$
 \varphi = 1+\frac{1} {1+\frac{1} {1+\frac{1} {1+\cdots} } }
$$

$$ \varphi = 1+\frac{1} {1+\frac{1} {1+\frac{1} {1+\cdots} } } $$

医学人工智能周刊 #3

从百草园到三味书屋

2023年5月20日 17:00

医学影像分类的自监督学习：系统综述以及实施指南 #

深度学习和计算机视觉的发展给医学影像分析提供了有前景的解决方案，有潜力提高医疗水平以及患者治疗效果。然而，训练深度学习模型的主流范式需要大量标注的训练数据，这对于医学影像数据管理既耗时又花费巨大。自监督学习有可能从丰富没有标签的医学数据集中学习有用的见解，为发展鲁棒性高的医学影像模型做出巨大贡献。本综述对不同自监督策略进行了描述，并对2012年到2022年间在PubMed、Scopus、ArXiv上发表的使用自监督学习进行医学影像分类对研究进行系统综述。我们综合了前期工作的知识，并且为未来利用自监督学习建立医学影像分类模型对研究人员提供了实践指南。

自监督常见技术 #

内在关系 #

在一些手工制定的任务上预训练模型，可以利用数据的内部结构，而无需获取额外的标签。例如图像相对关系、预测图像旋转角度。

生成模型 #

生成模型随着传统的自编码器（AE）、变分编码器（VAE）和生成式对抗网络（GANs）出现而变得流行起来，能够学习训练数据的分布，从而重建原始输入或者创建新的合成数据实例。通过使用现成的数据作为目标，生成模型能在不需要显式标签的情况下被训练用于自动学习有用的隐含表征。

对比学习 #

基于转化图像引起的变化不能改变图像语义的假设。针对相同图像不同的数据增强方法组成了所谓的正样本对，相对于该图像其他图片以及增强样本组成了负样本对。优化模型让正样本对在潜空间距离变小并与负样本距离变远。

SimCLR
MoCo

自预测 #

自预测SSL是对部分输入进行掩码或增强，然后用没有变化的部分来重建原始输入。自预测SSL想法来源于自然语言处理领域掩码模型。

微调技术 #

主要有两种策略用于微调已被SSL预训练的模型。如果将任意的影像模型都看成编码器和分类器两部分。两种策略能被分为

端到端的微调，所有权重都训练
固定编码器提取特征，对分类器进行微调

自监督医学影像实施指南 #

需要多种自监督学习策略相互比较，现有研究很少进行比较而是有无自监督学习策略比较。

在大型自然图像数据集中自监督预训练的模型也可以被利用到医学影像，但由于医学影像的独特性，究竟能迁移多少有待研究。

由于医学图像采集的标准化协议和人体解剖学的同质性，医学图像具有很高的类间视觉相似性，即不同类也很相似；
在医学成像领域，感兴趣的语义很少是诸如解剖器官之类的对象，而是该器官或组织内是否存在病理异常。许多异常的特征是非常微妙和局部的视觉线索，这些线索可能会由于增强变得模糊或被掩盖；
自预测型自监督学习方法所使用的随机掩码（通过移除有疾病或者异常的图像）可能改变医学影像的语义。

在对比学习形成正样本对时应该探索更多策略，而不是使用相同图片的不同增强版本，比如通过临床信息的相似性来定义正样本对。

在自监督学习中引入多模态信息提高下游任务模型性能。

Self-supervised learning for medical image classification: a systematic review and implementation guidelines | npj Digital Medicine

医学人工智能周刊 #2

从百草园到三味书屋

2023年5月8日 23:00

大型语言模型在医学和医学研究中的伦理问题 #

大型语言模型（LLM）是一种在大量文本数据中训练的深度学习模型，其目标是生成类似人类响应的新文本。2022年11月30日发布的基于大型语言模型的对话机器人ChatGPT（OpenAI, San Francisco, CA, USA），将大型语言模型推动到公众视野并且让数百万能够使用它进行试验。自从那时起，医学从业者和研究者就开始探索LLM的潜在应用，因为很多医学实践和研究都围绕着大量基于文本的任务，例如展示、发表、记录和报告。使用LLM来帮助和简化这些任务可以节约大量时间，让临床人员和研究者能进行其他工作。目前有许多在不同开发阶段的其他LLMs，包括BioGPT（MIT），LaMDA（Google），Sparrow（Deepmind AI），Pangu Alpha（Huawei），OPT-IML（Meta）以及Megataron Turing MLG（Nvidia）。一些新的变种，例如基于PubMed文献训练后专注于生物医学领域文本生产以及挖掘的BioGPT，可能对未来医学和医学研究有重大的影响。与任何新兴、颠覆式的技术一样，重要的是考虑使用中的伦理并优先考虑符合社会最佳利益的负责任和有益的应用。本文从偏见、信任、责任人、公平性以及隐私探讨了LLM在医学实践和研究中关键的伦理问题。

Ethics of large language models in medicine and medical research - The Lancet Digital Health

对可穿戴设备数据去隐私化是不是给我们一个虚假的安全感？系统综述 #

可穿戴设备让采集和分享个人数据变得更加容易，这篇系统综述调查来源于可穿戴设备的去隐私化数据是不是足以保护数据集中个体的隐私。通过文献综述，本文总结正确识别率约86%-100%，表明重新标识风险很高。（重新识别通常是将去标识化或者匿名的数据集与有标识化数据的数据集建立连接）而且，只需要1-300秒记录数据就可以从通常被认为不能产生标识化信息的传感器数据例如ECG进行重新标识化。该发现提醒重新思考数据分享的方法，在促进研究创新过程中，同时保护个人隐私。

Does deidentification of data from wearable devices give us a false sense of security? A systematic review - The Lancet Digital Health

特定时间和事件深度学习方法用于心肌灌注成像后个性化风险评估 #

心肌灌注成像（MPI）的标准临床解释已被证实对主要不良心血管事件（MACE）有预后价值。然而，对特定事件类型和时间间隔进行个性化预测具有挑战性。本文建立一个可解释的深度学习模型，该模型能够直接从MPI和15中临床特征中分别预测全因死亡、急性冠状动脉综合症和血管重建的特定时间风险。这种方法能将个体事件概率表示为时间的函数并且关注特定患者和特定事件的风险解释，这可能有助于引起人们对可改变风险因素的关注。该模型使用了DeepHit中架构以及修改后的损失函数，输出是一个3*131的2维矩阵分别代表了从0到每30天直到最长随访时间各事件发生的概率。

Time and event-specific deep learning for personalized risk assessment after cardiac perfusion imaging | npj Digital Medicine

临床预测算法验证展望 #

临床预测算法的泛化性与临床实践应用十分相关。本文基于现有文献概述了三种类型的泛化性：时序，地理，和领域泛化，以及其目标、方法、利益相关方。

Perspectives on validation of clinical predictive algorithms | npj Digital Medicine

ClinicalBERT: 对医学文本建模用于再入院预测

从百草园到三味书屋

2023年3月1日 18:12

使用临床文本预训练BERT然后在再入院任务中微调

引言 #

非结构化、高维稀疏信息例如临床文本难以在临床机器学习模型中使用。临床文本中包含什么样的临床价值？更加丰富、详细。然而重症监护室医生在有限时间内需要做出最优决策，读大量的临床文本，增加工作量。

再入院会降低患者生活质量、增加花费。这篇文章旨在建立一个出院决策模型，根据医护人员笔记动态的赋予患者30天再入院的风险。

背景 #

临床文本会有缩写、黑话、不标准的语法结构，从临床文本中学习有用的表征具有挑战。以往的方法无法捕捉获取临床意义的文本长程依赖，介绍BERT，以及基于BERT已经开展的工作，已经有人把BERT用在临床文本了，本文在再入院任务上评估改进ClinicalBERT并且在更长的序列上进行预训练。

介绍前人在ICU再入院预测上的工作，缺点：大多数工作都只用了出院的信息，ClinicalBERT使用患者住院整个时间段信息。

该工作的重要性 #

用出院信息来预测意味着减少了再入院风险的机会少了，都要出院了，此刻告诉有再入院的风险，难以采取措施；
由于医院已经有很多误报警，医疗模型需要高的PPV¹，该模型同其他模型相比有最高的recall²；
模型中attention能用于可视化解释。

方法 #

什么是BERT #

BERT是基于transformer编码器架构的深度神经网络，它用于学习文本的嵌入表达。

自注意力机制
BERT模型通过2个无监督任务进行预训练：掩码模型和下一个句子预测。

临床文本嵌入 #

先分词成token³，这里是子词粒度的tokenization⁴
ClinicalBert的token包括子词、分段嵌入、位置嵌入相加后的结果
- 分段嵌入是当多个序列输入时，表示当前的token属于哪一段
- 位置嵌入即在输入序列中token的位置

自注意力机制 #

用于输入token之间的关系捕捉

预训练 #

BERT是在BooksCorpus和Wikipedia中预训练的，临床文本黑话缩写，与一般文本可能语法也不一样，需要在临床文本中进行预训练。损失函数是预测掩码单词任务和预测两个句子是否连续任务损失函数之和。

微调 #

在再入院任务中微调 $$P(readmit = 1 | h_{[cls]}) = \sigma(Wh_{[cls]})$$ 式中W为参数，h为BERT模型输出。

实验 #

数据 #

MIMIC-III中2083180份去隐私化后的文本，五折每一轮其中四折预训练，最后一折微调

实证研究I #

在临床语言建模中ClinicalBERT与BERT进行比较：预测掩码token以及2个句子是否连续任务中均优于BERT
定性分析：专家给出相似医学概念，ClinicalBERT学习嵌入表达后，进行降维可视化，发现相近
定量分析：采用相似度度量公式计算表征之前相似度，然后与专家打分的相似度进行关联分析计算pearson相关系数

实证研究II #

再入院队列：34560患者，2963再入院，42358负样本，这里为啥有这么多负样本？
调整后的再入院预测： $$P(readmit = 1|h_{patient}) = \frac{P^n_{max}+P^n_{mean}n/c}{1+n/c}$$
- 有些文本是比较重要，有些文本对再入院预测不重要，所以要包括最大的概率
- 噪声会降低性能，消除噪音的方法还是取大多数值的平均，如果序列越长，噪声出现的可能性越大，所以需要平均值的权重越大，引入了n/c作为比例因子
- 分母则是用于概率归一化到0,1区间
评估指标
- AUROC
- AUPRC
- RP80：准确度为80%时候到召回率
模型比较：Bag of words，BI-LSTM，BERT
用出院记录来进行再入院预测
用24-48小时数据预测，以及48-72小时数据预测
可解释性
- 给出一句话的self-attention权重示意图

讨论 #

建议在私有数据集上重新训练后在下游任务中使用

代码 #

思考 #

自chatgpt后，大型语言模型受到广泛关注，医学语言模型的发展似乎有多种路径，一种是直接在通用文本上预训练，一种是在医学文本中预训练，或是通用模型在领域微调，个人感觉应该是第三种效果会较好。

Huang, K., Altosaar, J. & Ranganath, R. ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission. in CHIL (arXiv, 2020). doi:10.48550/arXiv.1904.05342. ↩︎
PPV: 阳性预测里面真正的阳性比例 ↩︎
recall: 正样本中实际预测为正，即真阳性率 ↩︎
token: 将原始文本切分成子单元的过程就叫做Tokenization，子单元即token ↩︎

公开重症监护数据库MIMIC代码仓库介绍

从百草园到三味书屋

2023年2月4日 18:57

《The MIMIC Code Repository: Enabling reproducibility in critical care research》论文

引言 #

科学结果的可重复性越来越受到关注¹；
医疗领域进入数字化革命（本文是2017年接收），引出形成MIMIC-III数据库；
EHR二次分析需要临床专家和数据科学家的合作，在EHR数据库上推导或者定义一些概念是需要资源的，对于没有特别强的临床背景或者数据科学技能的人来说巨大障碍；
该文介绍MIMIC代码仓库，介绍与重症相关概念的导出以及相关假设条件等；
公开数据已经逐渐有了，公开相应的数据代码同样重要。加速并提升未来研究的一致性以及有效性。

代码仓库详情 #

Concepts
- 从电子病历中提取重要概念的代码。比如提取AKI的模块
Executable documents
- 可执行的Notebooks文件，可重复的示例研究或者教程
Community
- 建立公开讨论便于社区成员贡献

概念concepts #

代码库中常用的概念

疾病严重程度评分Severity of illness scores #

在回顾性数据库中难以计算

大多都是在前瞻性实验中获取的；
常规收集的数据缺相应元素。有些特征未纳入结构化电子病历系统，另外则是对某种情况的患者没有统一的协议来定义状态

目前MIMIC代码库中有：

acute physiology score(APS)-III
simplified acute physiology score(SAPS)
SAPS-II
Oxford acute severity of illness score(OASIS)

器官衰竭Organ dysfunction scores #

SOFA计算方式不同，由于GCS评分定义不同

Sequential Organ Failure Assessment(SOFA), Logistic Organ Dysfunction system(LODS)

治疗时间Time of treatment #

由于数据获取的限制，许多药物和确切的治疗时间无法得出，需要根据临床经验识别其他可替代的数据

机械通气时长：识别机械通气时长需要复杂的逻辑规则（文中图3）
血管加压药物使用
CRRT

脓毒症sepsis #

sepsis定义有多种版本，这里给出了Angus 2001，Martin 2003，Iwashyna 2014三个版本

共病Comorbidities #

给出了4个版本

Elixhauser A 1998
American Health and Research Quality group（AHRQ）
Quan 2005
Van Walraven 2009

concept指南 #

可执行文档 #

当数据和代码都公开可获取，提供一种研究可以被重现的框架，基于Rmd或notebook给出实例。

Hsu 2015研究复现
- indwelling arterial catheters and their association with in-hospital mortality for hemodynamically stable patients with respiratory failure
- aline.ipynb提取数据
- aline.Rmd数据分析
教程
- definition of CRRT
- introduction to SQL
- a step-by-step guide to selecting a study cohort
- an outline of the data-capture process

社区 #

让研究人员和数据维护人员、临床人员共同提升代码

结论 #

公开数据库的案例已经不少，为了让研究更加透明，也需要公开相应数据分析和数据处理的代码

补充 #

代码库地址：https://github.com/MIT-LCP/mimic-code
- 之前以MIMIC-III为主，现在mimic-iii和mimic-iv合并在一起了
mimic数据库为了让研究者访问更加方便，很大一个改变是部署在云上比如google的云平台，云平台上需要big query语法来访问，所以现在代码库关于数据提取的代码更新以big query为主，需要通过脚本转化为适合postgres语法
- Open a terminal in the concepts folder.
- Run convert_bigquery_to_postgres.sh.
  - e.g. bash convert_bigquery_to_postgres.sh
  - This file outputs the scripts to the postgres subfolder after applying a few changes.
  - This also creates the postgres_make_concepts.sql script in the postgres subfolder.
从代码仓库导出的概念concepts都放到mimic_derived数据集里

Johnson, A. E. W., Stone, D. J., Celi, L. A. & Pollard, T. J. The MIMIC Code Repository: enabling reproducibility in critical care research. J Am Med Inform Assn 25, 32–39 (2018). ↩︎