详细介绍请查看博客:LUNA16肺结节数据集-CSDN博客
一、LUNA16 数据集简介
LUNA16 是一个从 LIDC-IDRI 数据集中提取的子集,主要用于肺结节自动检测任务。数据集中包含了 888 个低剂量胸部 CT 扫描样本,共有1186个结节,直径从3.170毫米到27.442毫米不等,涵盖了不同大小的肺部结节。LUNA16数据集中的图像采用.mhd和.zraw格式,这些格式在医学影像处理领域较为常见,但由于其特殊性,直接处理和可视化存在一定困难。
二、Lung16目标分割数据集
为简化图像的读取与处理,本文对原始的 .mhd 与 .zraw 格式图像进行了预处理,将所有 CT 图像切片转换为常见的 .png 格式,并对肺结节进行了精细化的掩膜标注(mask annotation),以支持更高级的语义分割与实例分割任务。
具体而言,本文以目标检测结果中的边界框为参考,结合原始 CT 图像内容,使用 LabelMe 软件对每一个肺结节区域进行逐个手动标注,精确描绘其轮廓,生成对应的 JSON 格式标注文件。每个 JSON 文件中包含了结节边界的多边形坐标信息,可用于自动生成二值掩膜图或直接用于实例分割模型训练。
如下图所示,在每张图像中,我们严格遵循每个结节的实际形态进行轮廓描绘,确保掩膜区域与实际病灶最大程度吻合。这种高质量的人工标注为分割模型提供了可靠的监督信号,有助于提升模型对细小或边缘模糊结节的识别能力。
LUNA16 分割数据集已完成图像和标签的标准化转换,将统一提供如下内容:
- 经过预处理并转换为 .png 格式的 CT 图像;
对应的 三种类型的标注文件,包括:
- YOLO 格式(用于yolo系列的实例分割);
- Mask 图像格式(用于 UNet 系列分割模型);
- LabelMe 原始 JSON 格式(便于可视化与进一步编辑)。