总体来看是弱监督学习的领域,没有接触过,主要需要学习的是两个算法和如何使用深度学习优化其中的参数:
- 多实例学习 MIL
- 正-无标注学习 PUlearning
论文背景和假设
这篇论文需要一定的背景
假设现在提供一个病理切片图像,其中只有部分的区域是癌变而其余部分是正常的。
但是实际上所提供的mask大多是这样的:
所以很大程度上无法分割出具体是哪些点出了问题,即无法实现像素级别的识别,也就引出了这个论文要求。
多实例学习(MIL)
找到了一个非常易于理解的解释,以MNIST数据集为例,里面有0~9个标签表示对应的数字。每次从MNIST数据集中取n个数据(差不多3~10)放到一个袋子里。其中我们把包含了1的袋子设置标签为1,其余的为0。此时,如果忽略掉数据只考虑袋子,就得到了两种类别的袋子0、1。在这个例子下,多实例学习的目标就是,已知袋子的标签,需要知道是袋子里哪个数据决定了这个标签。
那么对于现在这个病理图像分割,我们已知类别,所以需要找到一整张切片中导致其为某个类别的区域或特征,因此该课题可以使用多实例学习解决。具体的repo:
https://github.com/MarvinLer/tcga_segmentation
正-无标注学习(PUL)
正无标注学习的场景是只有正标注的数据和未标注的数据,在此,我们可以视病理切片掩码中,绿色的一定是有问题的(正标注),红色是可能有问题的(无标注),由此就满足了PUL的条件。基于PUL的分割算法:
https://github.com/RxstydnR/PUlearning_segmentation
数据集使用
这里使用的是Prostate cANcer graDe Assessment (PANDA数据集),前列腺等级分类挑战中的数据。其主要提供了:
- 组织切片图片
- 癌变区域掩码图片
- isup类别和格里森等级
其中对实验有效的是组织切片图片和癌变区域掩码图片。数据集大小为411G。
存在问题
效果可能难以进行评估,目前只能通过与其他方案进行对比以凸显效果
数据量大且有很多低质量数据,数据处理步骤重要而且可能会影响最终结果
进度
阅读了相关论文和代码并进行了一定的可行性分析。目前主要在进行数据的下载和MIL模型的测试。