为期一周的人工智能领域顶级国际学术会议NeurIPS (神经信息处理系统大会, Conference on Neural Information Processing Systems)于2023年12月10日至17日在美国新奥尔良举行。浙江大学伊利诺伊大学厄巴纳香槟校区联合学院(ZJUI)刘佐珠研究员课题组共3篇研究论文中选,成果主要聚焦智慧医疗领域隐私保护、模型公平、长尾学习等关键技术研究。
NeurIPS(神经信息处理系统会议)是机器学习和计算神经科学领域的顶级国际会议之一,汇集了来自学术界和工业界的顶尖研究人员,涵盖机器学习、深度学习等多个领域的最新研究成果。NeurIPS以其高质量的论文、邀请演讲和工作坊而闻名,对推动相关领域的科学和技术进步具有重要影响。
ZJUI博士生陈睿哲、肖子恺等为论文第一作者,刘佐珠研究员为论文通讯作者,论文其他作者还包括ZJUI杨浩研究员,ZJUI博士生熊慧敏、胡天翔等。相关研究得到国家自然科学基金委、浙江省自然科学基金委、浙江大学-时代天使智慧医疗联合研究中心等资助。
01 Fed-GraB:保障数据隐私的同时,提升正畸复杂长尾病例的智能诊断性能
刘佐珠研究员团队与新加坡科技设计大学、新加坡A*STAR、四川大学、时代天使等专业院校和企业,在NeurIPS 2023会议上发表了题为“Fed-GraB: Federated Long-tailed Learning with Self-Adjusting Gradient Balance”的研究论文,为解决联邦学习领域长尾分布问题提供了创新思路和解决方案。
联邦学习由于能够在不共享患者数据的前提下进行人工智能模型训练,为在智慧医疗领域中同时实现患者隐私保护和高效智能诊断提供了新的解决思路。然而,在全局数据呈现出长尾分布的情况下,如口腔医疗数据涵盖多类较为少见错颌畸形病例等,以往的联邦学习方法难以在这些复杂分布条件下实现高效、高质量的辅助诊疗效果。
▲ Framework of FedGraB
为此,研究团队提出了一种名为Fed-GraB的方法,其中包含的自调节梯度平衡器(SGB)能够在保护隐私的前提下,有效地进行客户端梯度重加权。平衡器通过直接先验分析器(DPA)模块,可以在不违背隐私原则的情况下,利用全局长尾先验进行学习。实验结果显示,Fed-GraB模型在ImageNet-LT、iNaturalist等多个代表性数据集上的表现均达到了最优水平,特别是在处理少数类别数据时,其性能大幅度超越领域内当前最优算法。
Fed-GraB在保护患者隐私的基础上,可以提升智慧医疗中复杂长尾病例的智能诊断性能。Fed-GraB的实施预期将助力远程医疗服务创新、促进数据安全共享、提高医疗服务的效率与质量,在制定个性化和精准治疗方案方面具有显著潜力,可以在保障数据隐私的前提下,进一步提升医疗健康行业的患者体验。
论文链接:https://arxiv.org/pdf/2310.07587.pdf
02 Fast Model Debias:实现高质量“去偏见”效果,提高诊疗的公正性和准确性
刘佐珠研究员团队联合南洋理工大学、斯坦福大学、新加坡A*STAR、时代天使等专业院校和企业,在NeurIPS 2023会议上发表了题为“Fast Model Debias with Machine Unlearning”的研究论文,在深度学习模型去偏见问题上取得了新的进展。
在智慧医疗领域中,深度学习模型的去偏见(model debias)具有极其重要的意义:1)去偏见能显著提高模型在不同人群中诊断的准确性;2)去偏见也有助于减少误诊或漏诊的情况,从而提高在处理少数群体医疗数据时的医疗服务整体质量。当患者认识到医疗系统在努力提供公平、无偏见的诊疗服务时,患者对医疗系统的信任会随之增强。
▲ Pipeline of proposed FMD
研究团队提出了一种全面的快速模型去偏见框架 FMD。FMD 包括三个独立的模块:偏见识别、偏见效应评估和偏见消除。FMD构建了一个包括事实样本及其相应的反事实样本的数据集,并通过分析模型的预测随属性的变化来进行有效的偏见识别。FMD基于影响函数(influence function)理论提出了全新评估算法,能定量评估任意有偏见的训练样本对模型预测的误导程度。最后,FMD引入一种遗忘学习机制来消除模型参数学习到的偏见相关性,并进一步设计了一种利用反事实外部数据集来遗忘偏见的替代策略,避免对训练数据的硬性访问要求。与已有工作相比,FMD无需对整个模型进行监督重训练或对偏见属性进行额外标注,在实际场景中降低了大规模投标注训练数据的需求,并且只需更新极少数参数即可实现模型去偏。实验显示,FMD能在多样的偏见指标上以较小的成本提升公平性。
FMD 成功实现在保护患者隐私的基础上(不需要访问训练数据),对已经训练好的深度学习模型进行去偏见。在智慧医疗领域,FMD的应用预期将有助于提高诊疗的公正性和准确性,减少偏见和误诊,给患者带来更加可信赖、有效和公平的医疗体验。
论文链接:https://arxiv.org/pdf/2310.12560.pdf
03 BaCon:解决数据不平衡和开放式分布挑战,将算法有效地应用于真实世界场景
刘佐珠研究员团队联合香港科技大学、时代天使等专业院校企业,在NeurIPS 2023会议上发表了题为“Towards Distribution-Agnostic Generalized Category Discovery”的研究论文,为解决真实视觉世界中数据不平衡和开放式分布这两个固有特征所带来的挑战提供了新的解决方案。
数据不平衡和开放式分布是真实视觉世界的两个固有特征。虽然在解决每个挑战方面取得了不错的进展,但是很少有工作致力于同时考虑这两个挑战,从而将算法有效的应用于真实世界场景。在文章中,该团队正式定义了一个更现实的任务,即分布不可知的广义类别发现(DA-GCD):在长尾开放世界的情况下为闭集和开放集类别生成细粒度预测。
▲ Illustration of distribution-agnostic generalized category discovery (DA-GCD)
研究团队提出了一个自平衡协作对比框架(BaCon),它由对比学习分支和伪标签分支组成,共同提供交互式监督以解决DA-GCD任务。特别地,对比学习分支提供可靠的分布估计来规范伪标签分支的预测,而伪标签分支则通过自平衡知识传递和提出的新型对比损失引导对比学习。实验表明,BaCon在各种数据集取得了优越的性能,超越了当前已有的不平衡半监督学习和广义类别发现的最优基线方法。
该研究解决了真实视觉世界中数据不平衡和开放式分布这两个固有特征所带来的挑战,为真实世界的应用,如智慧医疗中的数据分布区不均衡、标签缺乏和开放样本诊断等场景提供了更加可靠和准确的解决思路。
论文链接:https://arxiv.org/abs/2310.01376
作者介绍
陈睿哲,浙江大学伊利诺伊大学厄巴纳香槟校区联合学院2021级硕士/2023级博士研究生,导师为刘佐珠研究员,研究方向为可信人工智能和医学图像处理。在NeurIPS、AAAI、MIDL等会议上发表论文多篇。
肖子恺,浙江大学伊利诺伊大学厄巴纳香槟校区联合学院2022级博士研究生生,导师为刘佐珠研究员,研究方向为联邦学习和隐私计算。
杨浩博士,浙江大学伊利诺伊大学厄巴纳香槟校区联合学院研究员、助理教授、博士生导师,主要研究方向为无线通信网络的基础理论与系统设计,在无线通信网络领域权威期刊包括IEEE JSAC, TWC, TCOM, TSP等和国际会议论文发表论文 80余篇,相关研究工作曾获IEEE信号处理协会2022年度最佳论文奖;入选IEEE通信学会亚太地区杰出青年学者,现任无线通信国际顶级期刊 IEEE Transactions on Wireless Communications 编委。
刘佐珠博士,浙江大学伊利诺伊大学厄巴纳香槟校区联合学院研究员、助理教授、博士生导师,浙江大学医学院附属口腔医院兼聘教授。主持国自然、浙江省重点、浙江大学重大横向等多项课题,研究方向主要为可信医学人工智能。在NeurIPS、Patterns、IEEE Trans、ICLR、ACL、JDR等领域旗舰期刊和顶级会议上发表多篇论文。