返回
Featured image of post 快乐毕设

快乐毕设

毕设及进度

image-20230212163834102
image-20230212163834102


总体来看是弱监督学习的领域,没有接触过,主要需要学习的是两个算法和如何使用深度学习优化其中的参数:

  • 多实例学习 MIL
  • 正-无标注学习 PUlearning

论文背景和假设

这篇论文需要一定的背景

假设现在提供一个病理切片图像,其中只有部分的区域是癌变而其余部分是正常的。

Example of WSI segmentations
Example of WSI segmentations

但是实际上所提供的mask大多是这样的:

image-20230222113505490
image-20230222113505490

所以很大程度上无法分割出具体是哪些点出了问题,即无法实现像素级别的识别,也就引出了这个论文要求。

多实例学习(MIL)

找到了一个非常易于理解的解释,以MNIST数据集为例,里面有0~9个标签表示对应的数字。每次从MNIST数据集中取n个数据(差不多3~10)放到一个袋子里。其中我们把包含了1的袋子设置标签为1,其余的为0。此时,如果忽略掉数据只考虑袋子,就得到了两种类别的袋子0、1。在这个例子下,多实例学习的目标就是,已知袋子的标签,需要知道是袋子里哪个数据决定了这个标签。

那么对于现在这个病理图像分割,我们已知类别,所以需要找到一整张切片中导致其为某个类别的区域或特征,因此该课题可以使用多实例学习解决。具体的repo:

https://github.com/MarvinLer/tcga_segmentation

正-无标注学习(PUL)

正无标注学习的场景是只有正标注的数据和未标注的数据,在此,我们可以视病理切片掩码中,绿色的一定是有问题的(正标注),红色是可能有问题的(无标注),由此就满足了PUL的条件。基于PUL的分割算法:

img
img

https://github.com/RxstydnR/PUlearning_segmentation

数据集使用

这里使用的是Prostate cANcer graDe Assessment (PANDA数据集),前列腺等级分类挑战中的数据。其主要提供了:

image-20230222114825915
image-20230222114825915

  • 组织切片图片
  • 癌变区域掩码图片
  • isup类别和格里森等级

其中对实验有效的是组织切片图片和癌变区域掩码图片。数据集大小为411G。

存在问题

效果可能难以进行评估,目前只能通过与其他方案进行对比以凸显效果

数据量大且有很多低质量数据,数据处理步骤重要而且可能会影响最终结果

进度

阅读了相关论文和代码并进行了一定的可行性分析。目前主要在进行数据的下载和MIL模型的测试。

Licensed under CC BY-NC-SA 4.0