来自智利圣地亚哥大学和圣母大学的研究人员利用机器学习,设计了一种基于单一光波长下的折射率来识别有机化合物的方法。该技术可以用于自动化化学分析的研究和工业应用,这种分析更便宜、更安全并且需要更少的专业知识来操作。
在发表于物理化学杂志A的论文“使用可见光机器学习识别有机化合物”中,研究人员记录了他们获取独特数据集的创造性和新颖方式以及他们用于构建证明的步骤的概念有机化学检测器。
机器学习是在一个公开的过去光学实验数据库上进行训练的,该数据库包含可追溯到1940年的科学文献中的已发表数据。在这个数据库中,研究人员找到了编译61种有机分子的识别概况所需的所有参数;群速度和群速度色散、测量波长范围和样品的物质状态、宽波长范围内的折射率和消光系数。总共应用了61种有机化合物和聚合物的194,816条折射率和消光曲线光谱记录。
在典型的红外(IR)分子分类检测器中,分子身份通过吸收峰和拉曼散射峰确认,创建与数据库匹配的组合特征的指纹。有机化合物的静态折射率是一个单值特征,没有相同的编码信息。这同样适用于远离紫外线和红外线吸收共振的单一波长的折射率数据库,这也许是可见光未被用于对有机分子进行分类的原因。
原始数据的初始测试达到了80%,研究人员试图从那里提高它。原始数据库并非旨在优化机器学习,因为其中大部分来自第一台家用计算机发明之前进行的研究。有大量关于紫外线和红外线波长的信息,AI正在对这些波长进行交叉训练。因此,研究人员决定采取更有针对性的方法。
采用了几种数据预处理策略来为AI模拟更理想化的学习环境。目标是创建一个平衡的数据集,这样人工智能就不会仅仅根据信息量就优先考虑某些特征而不是其他特征。过采样和欠采样以及基于物理的数据增强技术用于从根本上减少红外波长在整个数据集中的影响。通过使用经过预处理的平衡数据进行训练,研究人员在可见区域实现了超过98%的分子分类测试准确度。
研究人员表示,需要做更多的工作来扩展和推广分类器,以识别折射率数据库中存在的分子的结构和其他化学特征。总之,他们写道,这项工作是开发远程化学传感器的良好起点。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!