中大唯信·唯信计算

通过扫描探针显微镜(SPM)来对手性分子纳米结构成像的技术备受关注。本文采用的机器视觉模型能识别SPM图中的手性模式并在两个超分子组成的分子SPM图中得到验证。

背景介绍

扫描探针显微镜(SPM)，包括扫描隧道显微镜(STM)和原子力显微镜(AFM)，被广泛用于表征纳米材料及分子的结构和电子特性。利用SPM研究分子结构的手性是热门的研究方向。然而，识别SPM图中的大量分子手性通常事倍功半，费时易错。用传统机器视觉算法识别SPM图的主要缺点是对不同的分子没有通用性的模型和参数且获得的SPM图的质量和分辨率也可能存在显著差异。新加坡国立大学的王笑楠和Jiong Lu团队联合开发的深度学习机器视觉算法，结合数据选择方法和数据增强技术，通过基于区域的卷积神经网络(Faster R-CNN)进行高度准确的分子检测和分类，一个分子系统只需要一张SPM图。

主要内容

数据集选用星形六二甲基苯基苯 (HPB) 和氟取代的六二甲基苯基苯 (F-HPB) 分子。由于二甲基苯环之间的空间位阻，HPB 和 F-HPB 分子均采用高度非平面构型。二甲基苯环吸附在 Ag(111) 上时，空间取向呈现L或R对映体构型。HPB 和 F-HPB 的手性不同。几乎无法辨别的对比度变化和分子的模糊边界使得单个分子的检测和分类成为一大难题，因此 HPB 和 F-HPB 的手性识别是极好的测试自动化分子检测模型效果的数据。

我们通过数据选择、数据增强、模型训练和专业知识四个模块来识别两个分子的手性(如图1所示)。数据选择采用t-SNE算法进行数据质量评级和可视化，选取高质量的图像用于训练。数据增强使用STM图生成一个更大的数据集；模型训练模块则以FasterR-CNN作为核心模型(如图2所示)，包括了特征提取、分子检测和分子分类三个阶段。第四个模块是专业知识，在低质量的STM图上，利用条件随机场增强模型性能，降低误报率并提高识别率。完成模型训练阶段后，整个流程可以自动处理包含数百个手性分子不同分辨率的STM图，每个分子都由其边界框和相应的手性类别标记，如图2所示。

图1. 自动化手性分子识别与分类的总体流程图。图片来源：JACS

图2. 模型训练的各模块的示意图。图片来源：JACS

Faster R-CNN 在一组1000张STM图上训练，这些图由大约 50 个分子的高质量STM图数据增强生成，如图 3C、D 所示。图 3A 显示了训练完成后 Faster R-CNN 模型指标，这些模型应用于分析 F-HPB 和 HPB 高分辨率 STM 图。对于 F-HPB 系统，一张包含53个独立分子的高质量 STM 图生成的数据集，模型训练可以实现85.3% 的平均精度 (AP) 和 84.8% 的平均召回率 (AR)，如图 3E-J 所示，其中识别出的分子被代表手性类型的圆圈覆盖。图 3E、F 显示高分辨率 STM 图的识别率异常高。作者发现在低分辨率的 STM 图中，F-HPB 和 HPB 系统的识别率分别为 95.1% 和 97.6%。图 3I、J中， Faster R-CNN 模型仍然可以准确解码低分辨率图像中的分子模式。图 3B 中的敏感性测试结果表明 Faster R-CNN 模型的 AP 和 AR 准确性对不同的分子模式不敏感。作者还对稀疏堆积分子系统的 STM 图进行了类似的测试。该系统的模型性能基于没有手性分类步骤的分子检测精度进行评估， AP 为 86.8%，AR 为 87.3%。

图3. 模型表现与稳健性分析。图片来源：JACS

STM 图的质量对模型的训练至关重要，模型在低质量的STM 图中很难学习L和 R 的区别。作者从STM 图中裁剪出感兴趣的目标分子的图像并用 t-SNE降维。如图 4A、B 所示，F-HPB 和 HPB 系统的STM 图可以分为两个边界清晰的簇，它们具有不同的手性。对于稀疏堆积的分子系统，图 4C 的 t-SNE 结果表明目标分子与其他分子存在较大的差异，在该 STM 图上训练的 Faster RCNN 模型不可能实现分子手性分类任务。

作者用53 个分子的高质量 STM 图生成四个数据集。对四个数据集应用的增强技术复杂性递增，如图 4E 所示，模型的效果随着数据增强的复杂性增加而提高。在增强复杂度为1 的数据集上训练的模型在低分辨率图像上仅能识别 1.4% 的分子，但是在增强复杂度为 4 的训练集上训练时，识别率增加至 95.1%。

Faster R-CNN 的效果与STM 图中独立分子的数量密切相关（如图 4D所示）。我们从6个含有不同分子数量的数据集上采用相同的数据增强技术生成新的数据集，并分别训练模型。结果表明，模型的效果随着训练集中使用的独立分子的数量的增加而提高。每个手性包含超过 20 个分子的STM 图像就可以训练所需的 Faster R-CNN 模型，AP为 82.8% ，AR为 84.9%。

图4. 训练样本的选取与数据增强的效果。图片来源：JACS

类别平衡对模型具有显著影响。如果每个类的分布差异很大，模型在对低比例样本的特定目标分类时的准确率会很低。在不平衡数据集上训练的模型指标如图 4F 所示。从图中可以看出，如果 (R) F-HPB 分子在训练集中较少存在，则该模型无法高精度地检测和分类 STM 图中的 (R) F-HPB 分子。

作者还对文献报道过的两个同类模型NCC和Mask R-CNN用F-HPB 数据集与Faster R-CNN做了比较。Faster R-CNN 方法在高分辨率和低分辨率 STM 图像上分别实现了 100% 和 95.1% 的识别率，但 NCC 方法在这两个 STM 图像中仅检测到 72.7% 和 49.7% 的分子。图 5A 的结果表明，Faster R-CNN 在该实验中比Mask R-CNN30取得了更好的效果，具有更高的识别率。

图5. 三种检测识别的算法比较。图片来源：JACS

CRF 滤波器能重新评估具有缺陷的“非理想”STM 图，能进一步提高整体模型性能。过滤器接收来自 Faster R-CNN 模型的预测，并为每个分子生成一组分布概率，当观察到它的邻近分子处于特定条件时它具有相应的手性。CRF 过滤器能够学习图像内局部分子的手性，随后将用于识别由 Faster R-CNN 模型给出的不确定的预测，并根据它们的相邻分子的手性校正，以匹配图像上显示的分子模式。图 6C、D 提供了 HPB 系统的低分辨率 STM 图像的预测结果，其中包含应用 CRF 前后对比。图 6I 提供了本研究中在两个系统上应用 CRF过滤器前后的平均识别率和误报率。这些结果表明在对缺陷图像应用 CRF 过滤器后，识别率增加，误报降低。

图6. CRF过滤器。图片来源：JACS

小结

在 STM 实验中，深度学习框架支持高效自动化分析工具，单个 STM 图像的识别率可以超过 90%，但应用时仍然需要为不同的任务和分子系统训练单独的模型。如果具有大量通用的训练数据，有望训练出一个可以应用于 SPM 成像的不同任务和分子系统的通用模型。

参考文献

Jiali Li, Mykola Telychko, Jun Yin, Yixin Zhu, Guangwu Li, Shaotang Song, Haitao Yang, Jing Li, Jishan Wu, Jiong Lu, and Xiaonan Wang, Machine Vision Automated Chiral Molecule Detection and Classification in Molecular Imaging, Journal of the American Chemical Society, 2021, 143, 10177-10188.

实时关注公司行业最新动态

JACS | 机器视觉如何自动检测并分类分子图中的手性分子?