【U-net】【粗读】Retinal blood vessel segmentation using fully convolutional network with transfer...

Retinal blood vessel segmentation using fully convolutional network with transfer learning

本文仅仅为个人快速阅读记录，部分内容借助于有道翻译。
介绍另一个博主的博客

😄 😆 😊 😃 😏 😍 😘 😚 😳 😌 😆 😁 😉 😜 😝 😀 😗 😙 😛 😴 😟 😦 😧 😮 😬 😕 😯 😑 😒 😅 😓 😥 😩 😔 😞 😖 😨 😰 😣 😢 😭 😂 😲 😱

摘要

由于视网膜血管已被公认为是眼病和心血管疾病诊断中不可缺少的重要组成部分，视网膜血管的准确定位已成为自动化或计算机辅助诊断系统的必备步骤。本文提出了一种基于转移学习的全卷积网络的监督方法。该方法将典型的视网膜血管分割问题从全尺寸图像分割简化为区域血管元素识别和结果融合。同时，对该方法应用了额外的无监督图像后处理技术，以细化最终结果。在DRIVE、STARE、CHASE_DB1和HRF数据库上进行了大量的实验，在这四个数据库上进行的跨数据库测试的准确性是目前最先进的，这也体现了该方法的高鲁棒性。这一成功的结果不仅有助于视网膜、血管的自动分割，还支持了在医学影像中应用深度学习技术时转移学习的有效性。

介绍

有三个创新点最终使这项拟议的工作获得成功。首先，该方法将典型的视网膜血管分割问题从全尺寸图像分割简化为区域血管元素识别。这就是说，血管像素需要从一个区域识别到另一个区域，最后合并在一起。其次，由于这个问题的转移，训练数据因此可以从100增加到10万，这保证了深度网络训练的有效性。再次，通过对预处理的语义分割模型进行适当的微调，使区域分割任务变得更加简单。这种预先训练好的语义分割模型是完全卷积版的AlexNet，它很好地实现了像素对像素和端到端分割。
在接下来的章节中，本文将进一步介绍和讨论所提出的方法的实现。论文的组织如下。

第二部分介绍了视网膜图像数据库及其相关工作。
第三部分将演示数据扩充、全卷积网络的训练和后处理的建议实现。
第四部分将介绍实验设置和结果，以及性能评估。
第五部分将总结和讨论这项工作的价值。

数据集和相关工作

2.1 视网膜血管数据库

Currently there exist 9 publicly available retinal blood vessel databases, amongwhich CHASE_DB1 (Retinal image analysis), DRIVE (Staaletal.,2005) ,HRF(Kohleretal.,2013), STARE(Thestareproject, 2013) databases contain both retinal color images and retinal blood vessel ground truth images. As the study of vessel segmentation requires the vessel ground truth as a golden standard, the other 5 databases such as DiaRetDB1 V2.1(Tomi et al., 2009), Messidor (Decencière et al., 2014), REVIEW(Al-Diri et al., 2008), ROC (Niemeijer et al., 2010), and VICAVR databases are not used in this work.

Most of the retinal blood vessel segmentation methodologies are evaluated on DRIVE and STARE databases because they are all decent in quality and have been created for at least 15 years. CHASE_DB1 and HRF databases are relatively new but also built with good image quality. These four databases will be used to train and test the proposed supervised method.

2.2 相关工作

原文：According to Fraz’s survey (Fraz et al., 2012a) in the year of 2012, the existing retinal segmentation techniques on 2-D retinal images can be summarized into six categories, which are (i) supervised pattern recognition, (ii) mathematical morphology, (iii) matched ﬁltering, (iv) vessel tracking, (v) model based approaches and (vi) parallel/hardware approach. Nowadays, since the hybrid methods, which combine several diﬀerent categories of methods together, have been more and more popular because of its great performance, it is very hard to be categorized into speciﬁc groups. Therefore, in another way of categorization which is more accepted these years, the existing works can be divided into two big categories: supervised and unsupervised methods.

翻译：根据Fraz调查。在2012年,现有的眼底视网膜图像分割技术在二维可以概括分为六类,(i)监督模式识别,(ii)数学形态学,(iii)匹配滤波(iv)船跟踪,(v)基于模型的方法和并行/硬件(vi)的方法。目前，由于混合方法具有良好的性能，将几种不同类别的方法组合在一起而越来越受欢迎，因此很难将其划分为特定的组。因此，以另一种近年来更被接受的分类方式，现有的工作可以分为两大类:监督法和非监督法。

2.2.1 Supervised method

监督方法利用提取的特征向量，即标记的训练数据，训练分类器，从视网膜彩色图像中对视网膜血管和非血管像素进行自动分类。该算法将在训练数据集的基础上学习一套血管提取规则。标记训练数据集在监督方法中是非常重要的，因为血管分割的知识是直接从眼科医生手动分割的图像中获得的。因此，在单数据库测试中，受监督的方法的性能通常比不受监督的方法要好。使用监督方法的相关著作中引用最多的是Staal等人(2005)、Soares等人(2006)、Ricci和Perfetti等人(2007)、Lupasscu等人(2010)、Marin等人(2011)。Staal等人(2005)利用knn分类器和序贯正向特征选择对特征向量进行分类。Soares等人(2006)的工作用灰度强度和二维Gabor小波变换组成了特征向量。Lupasscu等人(2010)甚至构建了基于局部强度结构、空间特性和多尺度几何的41维特征向量。Marin等人(2011)将神经网络应用于像素分类，计算出了一个7维特征向量。Ricci和Perfetti(2007)的工作利用了线算子和支持向量机，并在单数据库测试中获得了上述工作中最高的准确性。然而，在跨数据库测试中，它的准确性显著下降。

一般来说，有监督的方法与无监督的方法相比似乎有更好的结果，但在进行跨数据库测试之前，不能直接将有监督的方法与无监督的方法进行比较。更具体地说，分类器需要在一个或多个数据库中进行训练，而在另一个不同的数据库中进行测试，这也称为稳健性测试。一些监督方法实现了一个像样的准确性在单数据库升级到企业级测试,但执行严重crossdatabase测试期间,里奇的工作和Perfetti等(2007),虽然有些工作没有执行跨数据库测试,如Soares et al .(2006)的作品,Liskowski和Krawiec(2016),傅et al。(2016)。

2.2.2 无监督方法

无监督方法可以进一步分为四类:数学形态学、匹配滤波、血管跟踪和基于模型的方法。

数学形态学包含了一套图像处理技术，是图像分割中最著名的方法之一。它提取有用的图像组件，同时平滑休息区域。形态学操作在识别特定形状如特征、边界、骨架和凸壳等方面具有速度和抗噪声的优势，它将结构化元素应用于灰度或二值图像(Mendonca和Campilho, 2006;Fraz等，2012b, 2012c;Abdurrazaq等人，2008)。

匹配滤波技术通常卷积一个二维核(或一个结构元素)来识别血管的交叉轮廓(通常是一个高斯或高斯导数轮廓)。将内核旋转到多个不同的方向，对图像中某个未知位置和方向的特征进行建模，匹配的滤波器响应表明该特征的存在。这些技术对于检测血管中心线非常有效(Mendonca和Campilho, 2006;Sofka和Stewart, 2006年;Fraz等，2012c;Azzopardi等人，2015)。

在大多数情况下，血管跟踪算法更有效地与形态算子的匹配过滤器结合使用，如Sofka和Stewart(2006)以及Xu和Luo(2010)的工作。跟踪船舶就是在局部信息的引导下，沿着船舶中心线，寻找与船舶剖面模型最匹配的路径，通过这条路径，不仅可以准确提取船舶中心线，还可以准确提取每艘船舶的宽度。

基于模型的方法如船剖面模型工作的林et al .(2010)和无限边界活动轮廓模型的赵et al .(2015),提取视网膜血管通过使用显式的船模型,旨在处理正常和病理的视网膜与光明与黑暗同时病变。其他一些使用可变形模型的方法如参数模型和几何模型不如前者有效。

提出视网膜血管分割方案

如前所述，本工作利用了AlexNet的全卷积版本，其原始功能是进行像素到像素和端到端的语义分割。

图2为提出的分割系统的功能框图，系统分为三个阶段。

在处理之前，从数据库中收集的数据将首先被分配到训练组和测试组，这将在4.1.1节中讨论。
在训练和测试阶段，原始训练和测试数据集都将进行预处理以增强图像对比度。
接下来，将每个数据集中的每一幅图像分割成50×50的图像切片，这是数据扩充的过程。数据扩充的过程是本系统的核心，不仅因为它将大大增加数据集的数量，还因为它将血管分割任务从全局血管树分割简化为局部血管分割。
图像切片完成后，利用训练数据对训练前的全卷积AlexNet进行微调。然后将测试数据反馈给调优网络，以测试调优网络的性能。网络生成的结果会被收集起来。
在最后一个阶段，收集到的结果切片将被合并成完整的大小，并使用去噪技术进行后期处理。

下面几节将全面讨论这三个阶段和每个处理模块。

3.1 Preprocessing

由于原图像的…特点，需要通过重新分配RGB中每个通道的颜色强度来提高图像的整体质量。

$Preprocessing phase: (a) original color image, (b) image after “black ring” replacement, © image after Gaussian smooth (only applied to the outer area), (d) ﬁnal look of the preprocessed image. (For interpretation of the references to color in the text, the reader is referred to the web version of this article.)$

提高图像质量的主要思路是增强视场的对比度。

首先，所有的图像都要去除视场之外的“黑环”区域，简单地使用图像的红色通道来定位其黑色区域，并从视场中填充平均颜色值。更具体地说，将“黑环”应用到红色通道滤波器后，可以使用Otsu的阈值轻松地提取出来。
另一方面，平均颜色值是原始图像中红色、绿色和蓝色通道的平均强度值。这样，视网膜图像的背景几乎是平衡的(见图4(b))。
然而，在视图的内部场和填充区域之间存在着相当明显的不连续。因此,高斯模糊将特别适用于取代区域,为了避免在对比度增强后出现的边缘效应,高斯滤波器的σ值设置为7。通过平滑的边缘和平衡良好的背景，对比度增强将对突出基底血管起到良好的效果(见图4©)。
最后，在对比度增强后，将一个完全黑色的背景(其强度值都设置为0)放回“黑环”原来的位置(见图4(d))。为了避免增加训练的复杂性，最后一步是必要的。

图4展示了预处理视网膜图像的整个过程。

3.2 数据增强

在数据扩充的过程中，每个经过预处理的全尺寸图像都会被裁剪成50×50个图像切片，每个图像切片与相邻的图像切片有一半重叠。然后将50×50的图像切片放大成500×500，以放大细节。扩大后的patch尺寸为500×500，不能太大也不能太小。因为一个大patch大小如5000×5000培训需要更多池层和参数,肯定会降低训练效率,另一方面,一小块大小像一个50×50将导致在瓶颈层特征图的大小是太小,不足以提供足够的信息确定血管的存在。在实验中，500×500被证明是正确的尺寸，在训练阶段的表现略优于400×400和600×600的尺寸。

$A full-size image will be divided into multiple 50\times50 image slices and then be resized into 500\times500. (For interpretation of the references to color in the text, the reader is referred to the web version of this article.)$

图5介绍了该数据扩充过程的总体思路。最终，同样的规则，将全尺寸的ground truth image分割成50×50的图像切片。这样，视网膜血管图像的总数量从133张全尺寸图像增加到84843张图像切片。在这种情况下，训练的目的是生成一个全卷积网络，用于从视网膜彩色图像的一个小区域标记血管像素。从技术上讲，这使得分割任务更容易，因为出现在视网膜颜色小区域内的特征就像红色的管状物体一样简单。图6显示了一对图像切片及其ground truth image。

$The 500\times500 retinal color image slices (ﬁrstrow) and their corresponding ground truth images (secondrow). (For interpretation of the references to color in this ﬁgure legend, the reader is referred to the web version of this article.)$

3.3 用于训练和测试的网络结构

$The architecture of the fully convolutional AlexNet for retinal vessel segmentation.$

网络中共有8个卷积层和1个反卷积层。每个卷积层输出一个BLOBs(binary large object)，如图8所示为白色块，是下一层的输入，用它们的高度×宽度×深度进行标记。
第一个卷积层的核尺寸为11,stride和padding值分别为4和100，而第二层的核尺寸为5,stride和padding值分别为1和2。这两个层之后分别是一个最大池化层和一个局部响应规范化层。池化层的内核大小为3,stride值为2，归一化层的局部大小为5。第三层、第四层和第五层卷积层具有相同的内核大小3，以及相同的步长和填充值1。另一个与前一个相同的最大池化层位于第五个卷积层之后。第六层、第七层和第八层卷积层不做填充，它们的步幅值为1。它们的核大小分别为6、1、1。最后一个反卷积层的核尺寸为63,stride为32。

3.4 Merging and overlapping

3.5 Post-processing

Results and performance evaluation

4.1 实验设定

4.1.1 数据准备

4.1.2

在这项工作中有四组训练过程。每个训练过程有30个epoch。由于转移学习是基于一个预先训练的模型，所以我们设定的初始学习速率为0.0001，每次divided by 10。我们使用的求解方法是随机梯度下降法( Stochastic gradient descent)。

4.2 Performance measurement

This work will be measured and compared to the related ones with three metrics; accuracy, sensitivity, and speciﬁcity if provided.

Accuracy reﬂects the proportion of pixels that are correctly classiﬁed as vessel or non-vessel. Sensitivity (true positive rate) and speciﬁcity (true negative rate) are statistical measures of the performance of a binary classiﬁcation test, where sensitivity reﬂects the ability of the algorithm to detect the vessel pixels while speciﬁcity is the ability to detect nonvessel pixels (or the ability to avoid noise pixels).

The accuracy, sensitivity, and speciﬁcity given in $and are presented with both mean x and standard deviation σ, as they are calculated based on each retinal image segmentation result. In addition, the area under the ROC curve (AUC), which is used to measure the performance of a binaryclassiﬁer, is also reported in and .$

介绍了在DRIVE、STARE、CHASE_DB1和HRF数据库上的准确性、敏感性、特异性和AUC方面的性能。

从表3中可以看出，与表2中单数据库测试结果相比，除HRF外的所有四个数据库的准确性都有所下降。
然而，HRF的敏感性已经下降。但与其他作品相比，这个跨数据库的结果仍然是优秀和稳定的，这将在后面的4.3节中讨论。

这些跨数据库测试在四个数据库上的ROC曲线如图12所示。


Fig. 13. Cross-database test result comparison of the image from DRIVE (ﬁrst row) and STARE (second row) databases: (a), (d) are original color images; (b), (e) are ground truth images; (c), (f) are cross-database testing results. (For interpretation of the references to color in this ﬁgure legend, the reader is referred to the web version of this article.)	Fig. 14. Comparison between single-database results and cross-database results of the image from DRIVE (ﬁrst row) and STARE (second row) databases: (a), (d) are ground truth images; (b), (e) are single-database testing results; (c), (f) are cross-database testing results.

图13显示了来自DRIVE和STARE数据库的两组结果比较。其中，DRIVE和STARE数据库的单数据库和跨数据库结果对比如图14所示。

但是，图14(e)中STARE数据库的跨数据库结果中间有一个噪声块。这是由于培训数据类型不足造成的。
在图13(d)的原色图像中，中间有一块黄色的病灶。这种医疗案例非常罕见，除了STARE外，数据库中从来没有出现过。因此，全卷积网络会出现错误，因为它没有受过这种情况的训练。
除此之外，其余的血管结构与图14(d)中的ground truth图像和图14(e)中的single-database result比较接近。

同时，所提供的准确度、灵敏度和特异度的标准偏差较小，说明所提出方法的准确度较高，具有较强的鲁棒性。

当先锋百科网