您的位置: 首页 » 学术领域 » 深度学习与人工智能地质学的差异

深度学习与人工智能地质学的差异

作者郑可乐 文章浏览量: 130 次

1月 12, 2022

最近十年,数学地球科学的最显著发展是大数据与人工智能算法的引入。可以说,地质大数据与人工智能时代已经在这期间开启。地质数据以指数形式增长,这是不容忽视的现实。基础地质、矿产地质、水文地质、工程地质、环境地质、灾害地质调查、勘查,产生大量的数据。

各类天基、空基对地遥感观测,更产生了大量的数据。图件编绘、分析计算、模拟仿真、预测评价、管控调控,同样产生大量的数据。并且这些数据可以是结构化的,如地球化学分析和地球物理探查获得的数据;更多是非结构化的、半结构化的。

在现实面前,大数据挖掘和机器学习是地质学科跨越的必须选项。否则,就如同人用腿跟汽车、飞机、火箭赛跑,越往前走,与大数据时代的要求差距越大,最终被先进的工具所被抛弃。尽管依托大数据的人工智能地质学还远不成熟,但已俨然成为这个时代的绚丽浪花。

最近几年,国际数学地球科学协会、国际数字地球学会、中国地质学会、中国矿物岩石地球化学学会每届年会都有专题和较大篇幅的主题报告涉及地质大数据和人工智能分析。

2016年,中国矿物岩石地球化学学会大数据与数学地球科学专业委员会正式成立,这是一个里程碑的事件。大数据专委会自成立以来,坚持每年召开一次“中国大数据与数学地球科学学术讨论会”,而且与会人数逐年增加,同时专委会还相继在《岩石学报》《地学前缘》《大地构造与成矿学》《地质通报》《矿物岩石地球化学通报》组织专辑,介绍地质大数据分析与机器学习的探索性研究成果。

2018年,周永章所著的《地球科学大数据挖掘与机器学习》出版,这是国内外相同领域首部研究型教材,它启迪一代新人,引领他们更多关注和投身地质大数据和人工智能研究。

深度学习与人工智能地质学

1.1 机器学习、深度学习

机器学习被认为是人工智能的核心,是使计算机具有智能的根本途径。深度学习是机器学习的子集,即多层神经网络的方法,是一种实现机器学习的技术,是过去几年大数据与数学地球科学研究的最重要热点之一。

2006年,加拿大多伦多大学GeoffreyHinton和RuslanSalakhutdinov在Science上发表论文,开启了深度学习在学术界和工业界的浪潮。此前,美国心理学家McCulloch和数学家Pitts联合提出了形式神经元的数学模型一一MP模型,证明了单个神经元能执行逻辑功能,从而开创了人工神经网络研究时代。

由于超大规模集成电路、脑科学、生物学、光学的迅速发展,人工神经网络的发展进入兴盛期。在分类与预测中,学习规则(误差校正学习算法)是使用最广泛的一种,但在人工神经网络的发展过程中,没有一种特定的学习算法适用于所有的网络结构和具体问题。

Hinton和RuslanSalakhutdinov倡导的深度学习概念源于人工神经网络的研究,可以理解为神经网络的发展,其实质是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。

“深度模型”是手段,“特征学习”是目的。卷积神经网络(图1)是深度学习中知名度最高和应用最广的一种模型,被用于图像识别和语音分析。在地质领域,徐述腾和周永章(2018)以吉林夹皮沟金矿和河北石湖金矿的黄铁矿、黄铜矿、方铅矿、闪锌矿等硫化物矿物为例,设计了有针对性的Unet卷积神经网络模型,实现了基于深度学习算法的镜下矿石矿物自动识别与分类。

图1 卷积神经网络模型案例

在Unet模型结构中一共涉及到五种操作。其中紫色向右箭头为3X3卷积操作(conv3x3)和欧拉激活函数(ReLU)转换;灰色向右箭头为图像复制(copy)和截取(crop)操作;红色向下箭头表示2×2的最大池化(maxpool2x2),绿色向上箭头表示2×2的上卷积(up-conv2x2),蓝色箭头表示1×1的卷积(convlxl)。

深度信念网络(DBNs)由GeoffreyHinton于2006年提出,是一种经典的深度生成式模型,通过将一系列受限玻尔兹曼机单元堆叠而进行训练该模型在MNIST数据集上的表现超越了当时流行的SVM。

张雪英等(2018)利用深度信念网络来识别地质实体。通过分析各种类型文本数据中地质实体信息的描述特点,构建地质实体信息的标注规范和语料库,设计基于深度信念网络的地质实体识别模型,解决文本数据中地质实体信息的结构化规范化处理问题。

近几年在机器学习、深度学习领域,我国学者的代表的工作包括:韩帅等(2018)、徐述腾和周永章(2018)、焦守涛等(2018)、刘艳鹏等(2018,2020)、王怀涛等(2018)、周永章等(2018a,2018b)、王堃屹等(2019)、王语等(2020)、张野等(2020)、任秋兵等(2020)、陈进等(2020)等。从中亦折射出机器学习是当前地质大数据研究的重要热点之一。

1.2 人工智能地质学

2015年,Science杂志封面发表一篇人工智能论文:3名分别来自麻省理工学院、纽约大学和多伦多大学的研究者开发了一个“只看一眼就会写字”的计算机系统。人们只需向这个系统展示一个来自陌生文字系统的字符,它就能很快学到精髓,像人一样写出来,甚至还能写出其他类似的文字—更有甚者,它还通过了图灵测试,人们很难区分图中的字符是人类还是机器的作品。

贝叶斯原理是人工智能的最重要基础。许多人工智能系统采用的方法就是一种基于贝叶斯公式的方法—贝叶斯程序学习(bayesianprogramlearning)。甚至有科学家认为,人类的大脑结构就是一个贝叶斯网络,贝叶斯公式是人类在没有充分或准确信息时最优的推理结构,为了提高生存效率,进化会向这个模式演进。

科学家对自然语言处理方面的成功,开辟了一条全新的人工智能问题解决路径:原来看起来非常复杂的问题可以用贝叶斯公式转化为简单的数学问题。从实践来看它非常有效,将大量观测数据输入模型进行迭代———也就是对模型进行训练,就可以得到希望的结果。人工智能地质学还远不够成熟,但科学家在不断探索。

周永章等认为,矿床地质学家可以利用贝叶斯网络自动揭示矿床的成因机制及其背后的规律。理解矿床成因可以从理解它们的成因网络开始。贝叶斯网络是贝叶斯公式和图论结合的产物,破译矿床地质的成因网络,可以将公式本身结成贝叶斯网络。贝叶斯网络是马尔可夫链的推广,它给复杂问题提供了一个普适性的解决框架。

与马尔可夫链类似的是,贝叶斯网络中每个节点的状态值取决于其前面的有限个状态,不同的是,贝叶斯网络不受马尔可夫链的链状结构的约束,因此可以更准确地描述事件之间的相关性。为了确定各个节点之间的相关性,需要用已知数据对贝叶斯网络进行迭代和训练。贝叶斯公式的价值在于,当观测数据不充分时,它可以将专家意见和原始数据进行综合,以弥补测量中的不足。人类的认知缺陷越大,贝叶斯公式的价值就越大。

1.3 知识图谱2012年,谷歌提出知识图谱

初衷是为了提高搜索引擎的能力,改善用户的搜索质量和搜索体验。知识图谱以“图”的方式来描述真实世界的事物及其关系,以“实体-关系-实体”三元组的方式存储到数据库中。

其中,实体是真实世界中的各种事物、存在及其概念被称为实体,关是实体与实体之间的关系,许多场景下表示为属性。从本质上讲,它是一张巨大的语义网络图,以节点表示实体或概念,边则由属性或关系构成。知识图谱是客观世界的一种重构,与神经网络相比,它是一种可直接解释的人工智能,已逐渐成为人工智能关键技术之一,被广泛应用于智能问答、智能搜索和个性化推荐等领域。

最近十年,知识图谱的构建技术一直是研究的热点之一。在信息抽取方面,Liu等利用邻近算法(KNN)与条件随机场模型,实现了对Twitter文本数据中实体的识别。在知识加工方面,Wang等(2013)利用基于主题进行层次聚类的方法得到本体结构。谷歌KnowledgeVault根据抽取到的结构化信息的频率对数据可信度进行评分,提高了知识图谱中知识的质量。

从2016年开始,国家自然科学基金委与广东大数据科学研究中心联合基金持续支持城市交通、医疗、防灾、金融、管理等领域的大数据分析挖掘和智能监测、管控与预警的重大科学问题和技术问题。

从已立项的项目看,其中相当一部分设有所在领域知识图谱构建的目标。

在地质环境灾害领域立项的项目有:“城市地质环境时空透视与大数据融合关键技术”(刘刚)、“基于地学大数据的城市地质灾害智能监测、模拟、管控与预警”(王力哲)、“基于地学大数据的城市土壤污染智能监测、模拟、管控与预警(周永章)”,等。

在“基于大数据的城市土壤污染智能监测、模拟、管控与预警”研究中,包括了异质多源时空关联的本体知识图谱的构建研究。项目从知识抽取、推理、融合、更新的角度,分别研究数据驱动的城市土壤污染知识抽取、知识推理,以及知识图谱生成与更新问题,以为全面建立起可解释的多源多层城市土壤污染知识图谱提供理论体系、框架与应用思路(图2)。

图2 土壤污染知识图谱构建方法

知识图谱构建的重要基础是基于数据驱动方法的自动知识抽取,这需要利用深度学习模型对复杂非线性关联优异的表达能力,从数据驱动角度出发,将上阶段获得深度融合的语义表征与关联逐层分解、逐层抽象,结合多实例、多标签、多视图的建模框架,实现对地质实体提及的检测。

上一篇:

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注