新一代人工智能的跨媒体新技术研究

陈希
日期：2022-07-27
20765

【简介】

当前人工智能技术发展到一个新的阶段，人工智能在自然语言处理、计算机视觉、语音识别、数据挖掘等领域取得了巨大的成功，由于算力的增长和新型智能学习与推理技术新理论方法的发展，机器的类人规划和自我学习能力实现了突破，并在多个任务和已知应用场景下超过了人类。过去的人工智能的研究重心包括单模态和感知智能，单模态指的是机器能听会说，感知智能指的是机器能看会认，类似于人的视觉、听觉、触觉等感知能力。由于计算机网络和人工智能技术的广泛应用，当前的信息环境发生了重大变化：大数据、人工智能等技术与应用需求的深度融合，造成了不同模态和来源的数据爆炸式增长，带来了信息环境的重大变革。新一代人工智能就是在这种背景下提出的，它以提高人类智力活动能力为主要目标，为生产、资源、环境等社会发展提供技术引领和支撑。它将各类应用场景中产生的大量数据，通过多源、互补、多模态方式记录网络世界与物理世界，进行学习、推理、理解和认知。这就是跨媒体的人工智能。这次学术沙龙讨论新一代人工智能的前沿问题，重点是跨媒体的分析、推理和理解。

【主持人致词】

刘渝珍：2020年4月10日，中国智能科学技术最高奖-第十届“吴文俊人工智能自然科学奖”在北京举行，这是被外界赞为“中国智能科学技术的最高奖”！黄庆明团队的项目《图像视频的多尺度表征与语义映射》获得了一等奖，他们团队的主要完成人今天就有三人来到了我们沙龙研讨会，黄庆明老师，计算所的王树徽老师和李亮老师。长期以来、他们日以继夜、努力拼搏，在人工智能科学技术的世界前沿研究领域、在多媒体计算，图像处理，模式识别，机器学习，计算机视觉等领域取得了非常可喜的世界顶尖的成果。下面有请黄老师给我们带来今天的主旨报告。

【主旨报告】

黄庆明：面向新一代人工智能的跨媒体分析推理

1956年美国达特茅斯会提出了“人工智能” 这一概念。人工智能(Artificial Intelligence)是使一部机器的反应方式像人一样进行感知、认知、决策、执行的人工程序或系统。2018年，深度学习的三位创造者Geoffrey Hinton, Yann LeCun, Yoshua Bengio获得了图灵奖。

人工智能的出现迎来了全新的技术变革，第一次浪潮：人工智能诞生并快速发展，但技术瓶颈难以突破；第二次浪潮：模型突破带动初步产业化，但推广应用成本昂贵；第三次浪潮：信息时代促进人工智能发展，但未来存在诸多隐患。深度学习引领的是第三次人工智能浪潮，在自然语言处理、计算机视觉、语音识别、数据挖掘等人工智能领域取得了巨大的成功。

与此同时，新型智能学习与推理技术也在飞速发展，由于算力的增长和新理论方法的发展，机器的类人规划和自我学习能力实现了突破，并在多个任务和已知应用场景下超过了人类。

过去的人工智能的研究重心包括单模态和感知智能，单模态指的是机器能听会说，感知智能指的是机器能看会认，类似于人的视觉、听觉、触觉等感知能力。比如“琴棋书画”。

当前，国务院发布了新一代人工智能发展规划的通知，基于重大变化的信息新环境和发展新目标的新一代人工智能，以提高人类智力活动能力为主要目标，为生产、资源、环境等社会发展提供技术引领和支撑。

刚刚提到的重大变化的信息新环境指的是大数据、人工智能等技术与应用需求的深度融合，造成了不同模态和来源的数据爆炸式增长，带来了信息环境的重大变革。包括但不限于AI和金融、医疗、家居、交通、智能客服、创作以及机器人的融合。那么对于跨媒体智能就如下图所示，将各类应用场景中产生的大量数据，通过多源、互补、多模态方式记录网络世界与物理世界。

在这里需要注意的是，跨媒体的研究呈现跨模态、跨数据源、跨空间的复杂、动态关联现象，给传统智能分析推理方法带来巨大挑战。

对于跨媒体智能的技术研究，主要从知识层面和方法层面两方面和大家讨论。

首先，来说知识层面。跨媒体数据中蕴含大量知识，需对其及动态演化过程进行刻画。现有知识库面向单模态特定领域，知识稀疏覆盖率低，缺乏深层跨媒体知识；现有知识库构建过程依赖人工，知识演化更新缓慢。因此，建好并用好跨媒体知识图谱，是重大变革的信息新环境下实现新一代人工智能发展的核心问题。

那么对于方法层面，现有“数据拟合学习”思路取得一定进展，但对不同任务和场景缺乏泛化能力，难以处理多源、异构、演化的跨媒体内容。举个例子，如下图，目前的研究方法对于场景A和任务A，通过数据拟合学习构建的模型，只能进行定向的局限推理，也就是只能完成场景A和任务A的推理。对于单一任务，比如机器阅读理解、语音识别以及图像识别，目前的方法已经十分接近人类水平。

然而想要实现的新一代人工智能，更希望它具备通用泛化推理能力，也就是通过跨媒体语义贯通进行跨媒体分析推理，进而实现如下图所示的例子，即通过场景A和任务A学习的模型，可以实现场景A和任务B，同样地，通过场景B和任务A学习的模型也可以实现场景B和任务B。因此，构建跨媒体语义贯通机制，并在此基础之上实现任务和场景通用的跨媒体分析推理，是实现新一代跨媒体智能的瓶颈问题。

目前在国际上更趋向于以下两种研究趋势：单数据源/单通道知识表达——> 多源知识获取与自主演化；数据驱动的关联定向推理——>知识指导的可解释深度因果推理。总而言之，类人跨媒体智能分析推理是人工智能领域前沿问题，其理论方法亟待创新突破。

综上，我们期望构建的多模态认知智能具备多模态协同能力、逻辑推理能力、知识理解能力以及决策思考能力。从传统认知智能跨向多模态认知智能需要注意以下几个方面：

（1）数据：传统标准数据——>互联网海量高噪数据
（2）模态：单一模态——>多种模态
（3）学习机制：模式挖掘——>模式挖掘+知识推理
（4）逻辑理论：连接主义——>连接主义+符号主义
（5）理解能力：感知——>认知
（6）智能水平：无意识——>有意识

首先，在跨媒体知识图谱构建方面，跨媒体智能技术研究体系，这是一门数据科学（DIKW体系）。为了进一步研究跨媒体内容的理解，研究人员们提出了基于知识图谱的跨媒体分析推理研究框架，目的是研究数据驱动与知识指导结合的类人推理。该研究框架如下图所示。

跨媒体分析推理研究框架主要分为三层，分别是数据层，包括结构化数据、半结构化数据以及非结构化数据；图谱层，包括社会媒体知识图谱，风险知识图谱等，在这里，支持知识图谱定制化与二次构建，支持增量知识更新、图谱快速演化，支持跨源、跨域、跨模态的知识迁移与泛化；最后是任务层，包括检索问答、推荐、风险事件推理等。

在跨媒体内容检索和推荐方面，表示学习在大规模图谱上难以应用，基于规则的查询是当前知识图谱应用的主流实现方案，主要流程包括：查询语义理解和知识图谱推理。

（1）查询语义理解

a.实体提取：首先通过SpaCy提取问句的命名实体、得到词性标注和依赖关系。

b.逻辑拆分：对含有复杂逻辑关系的句子成分进行解析。包括以下步骤：根据词性标注和依赖关系，根据句法模型构造语法树；根据词性分析定位连接词的位置和依赖实体进行一层逻辑拆分；递归调用以上的拆分函数，直到所有子句当中不存在连接词。

c.模糊匹配：受到句子自由度的限制，基于BERT模型计算句子相似度，选取与关系备选列表中相似度最高的关系作为最终三元组的关系。

d.基于正则匹配的逻辑语言转化。得到三元组组合后，根据正则化匹配转化成MATCH (head)-[r]-(tail) 的Cypher查询语句。

（2）知识图谱推理包括基于知识图谱的检索、基于知识图谱的图文检索、基于知识图谱的个性化推荐。

a.基于知识图谱的检索举例如下，在网页中输入文本信息，基于知识图谱的检索算法会根据输入的文本构建知识图谱，并反馈检索的结果。

b.基于知识图谱的图文检索

图谱中基于规则的查询可以检索得到大量相关信息，而更加精确的图文语义检索则需要利用视觉内容的表征。基于卷积神经网络的图文检索通常在视觉、文本内容表征的基础上，利用向量检索技术构建索引。这个研究方向中存在的难题包括多模态内容表征、大规模数据检索以及表征距离度量。

c.基于知识图谱的个性化推荐

随着互联网数据规模不断增长，用户难以从海量信息中找到感兴趣的物品（如：电影、图书等）。因此，推荐系统应运而生，为用户提供个性化决策支持和信息服务。传统推荐算法专注于挖掘用户行为模式，对物品相关的丰富领域知识难以充分利用，仍有一定提升空间。

d.成果展示：基于所提算法实现了电影推荐系统，能够为用户推荐符合喜好的影片，推荐结果可通过图谱路径回溯加以解释。

3.未来展望

a.总体研究思路

跨媒体综合学习、知识获取、泛化推理是前沿研究热点问题。在未来的研究中，综合利用视觉、听觉和语言进行跨媒体学习与推理，让跨媒体智能具备“眼观六路、耳听八方、一目十行”、“吟诗作画”、对答如流以及举一反三的能力，面对复杂的动态数据内容，可以进行数据归纳学习和知识演绎学习，实现一个数据、任务、场景可泛化的类人跨媒体分析推理。

b.数据处理角度

视频是跨媒体中最重要的媒体类型，然而相关应用需求的爆炸式增长与技术发展水平有巨大鸿沟：网络视频多模态之间异步动态关联，现有技术仍以单一通道处理为主；视频内容具有丰富上下文，现有技术仍以帧图像处理为核心；视频语义演化快速，现有技术仍以概念识别为主，缺乏记忆、调整等类人机制。在未来研究中，以电影视频知识图谱为切入点，在视频理解与推理技术方面投入主要研究力量。

c.知识工程角度

针对大规模跨媒体知识图谱构建目标，突破传统知识标注技术的单一性和低效性，建立“标一当百”的人机协同知识更新技术框架和系统。其中包括以下几个方向：（1）多任务协同：实现群智信息的跨任务复用；（2）领域知识感知：结合领域上下文的群智标注；（3）动态反馈控制：解决群智标注良莠不齐问题；（4）人机协同知识推理：将群智深度用于电影知识工程。

d.关键技术角度

围绕开放域类人跨媒体分析推理技术发展目标，针对现有数据驱动方法的不足，建立可解释、可泛化跨媒体分析推理理论方法框架，进一步实现关键技术突破。框架的初步模拟图如下图所示。

e.技术系统角度

将数据与已有算法整合为技术系统，设计超大规模跨媒体知识图谱，实现跨媒体分析推理引擎。面向国家及社会的重大应用领域（内容安全，内容服务，智慧城市等），形成技术应用与决策输出能力，高质量的完成新一代人工智能重大项目。

【邀请报告】

王树徽：跨媒体理解与知识推理

多媒体指的是对多种(视听)媒体综合应用的计算方式与交互系统。跨媒体指的是对多种来源和模态的媒体内容进行语义贯通综合计算的智能系统。多媒体存在同源性、同步性、实时性、交互性，跨媒体存在异源性，关联性、动态性、扩散性。跨媒体呈现跨模态、跨数据源、跨空间信息的复杂耦合与动态演化，给传统分析推理方法带来巨大挑战。

跨媒体技术起源于典型相关分析(Canonical Correlation Analysis, Dec. 1935)，我国学者于2005年首次提出“跨媒体检索”(Cross-media Retrieval) 概念，并在拥有不同模态的多媒体文档之间定义和构建了一套相似度计算法则。目前，对于跨媒体分析推理的研究，可以参考如下框架图：

一、人工智能当中的符号主义与连接主义

1.思维的机械化理论

人工智能的基本假设是人类的思考过程可以机械化。中国，印度和希腊哲学家均已在公元前的第一个千年里提出了形式推理的结构化方法。19世纪初，查尔斯·巴贝奇设计了一台可编程计算机（“分析机”）。基于图灵和冯诺依曼提出的学说，第一批现代计算机是二战期间建造的大型译码机（包括Z3，ENIAC和Colossus等）。

2.三层认知系统：渐进的过程

Kahneman D等人在2003年发表了文章“Maps of bounded rationality: Psychology for behavioral economics”，提出了三层认知系统即感知，本能和推理。

3.符号主义与联结主义的发展历程

符号主义与联结主义在人工智能发展历史中的时间线整理如下图所示：1930年从分析学视角提出了人工神经网络，它代表着联结主义；1956年代数学视角提出了AI概念；1963年Simon和Newell提出了逻辑理论家，它代表着符号主义；1970年是联结主义的沉寂期，符号AI占据主流研究地位；1980年反向传播的提出迎来了联结主义复兴；1988年Fodor提出了“Connectionism and the problem of systematicity”，其主张符号主义；2010年硬件（GPU）的发展使得深度网络成为主流，其代表的是联结主义；2014年至今，已经推演到了联结主义与符号主义，感知与推理相结合。

傅京荪在上世纪60年代提出了句法模式识别，Noam Chomsky在1957年出版了《句法结构》一书，形成了形式语言理论，其最初的目的是为了研究人类语言抽象和通用的结构规则，后来在计算机编程语言、自动机理论、模式识别等方面都得到了广泛的验证和应用。句法模式识别=规则(句法)+统计。

知识图谱的提出实现了符号主义的复兴。知识图谱本质上是一种大型的语义网络，它以现实世界中事物的概念为节点，称之为“实体”，以实体之间的关系为边，提供了一种以实体-关系来描述世界的方式，具有更加规范的层次结构和更加强大的知识表示能力。知识图谱发展历程：1960年，语义网络；1980s，专家系统；1990s，贝叶斯网络；2000s，OWL、语义WEB；2012年，Google Knowledge graph，其将传统的keyword-base搜索模型升级到基于语义的搜索，可以更好的查询复杂的关联信息，从语义层面“理解”用户意图，改进搜索质量。

2008年提出了神经符号主义：结合联结主义的可学习、可训练的数据学习能力和符号主义的可定制、可理解的规则处理能力，被认为是通往通用人工智能(AGI)的必经之路。

神经主义与符号主义在可解释性、大数据建模能力与系统泛化性三个方面的对比：

二、数据驱动的跨媒体计算理论方法

大规模跨模态预训练模型迎来了联结主义的巅峰。预训练模型作为人工智能研究的新范式，它具有以下特性：参数规模大、训练数据量大，精细捕捉数据内在的关联信息；非特定任务预训练，可以应用于广泛的下游任务；也被称为基础模型（Foundation Models）；对内容的符号化(tokenization)方式体现了不同预训练模型的特点。

跨模态预训练模型具有如下特点：海量无标注或弱标注数据的利用（自监督学习）；预训练+微调框架，下游任务模型结构的简化+性能的普遍提高；少样本和零样本的学习；多语言表达能力和多模态交互能力；有望从根本上解决跨媒体复杂内容的符号化难题。

常见的预训练任务有如下几类：

Masked Language Modeling ( MLM )：传统的文本掩码语言模型，针对的是文本流。

Masked Region Modeling（MRM）：类似于MLM的视觉掩码模型，对图片进行随机mask，针对的是图像流。

Image-Text Matching ( ITM ): 图文匹配任务，即判断当前图文对的语义内容是否匹配。

跨模态预训练模型目前存在两种模型框架，Single-stream Transformer (单塔模型)：单流架构是指将文本和视觉特征连接在一起，然后输入单个Transformer模块；Two-stream Transformer(双塔模型)：用两个transformers分别建模两个模态，第三个transformer进行跨模态融合。

5.视频中的跨模态预训练模型

以上介绍的是图像-文本的多模态模型，相比图像，视频包含更丰富的多模态信息，已成为领域研究热点：借鉴卷积神经网络在图像领域的成功经验，视频可看做是将各类基本运算操作由二维(x, y)图像空间向三维(x,y,t)视频空间扩展视频数据的复杂性对视频分析方法内在机理的可解释性提出了更高要求。

基于CNN的视频表征与理解近年发展历程如下图所示：

三、数据与知识联合驱动的跨媒体理解与推理

随着数据爆炸和算力增长，在自然语言处理、计算机视觉、语音识别、数据挖掘等领域，深度学习都取得了成功。近年来的研究趋势也表明了大数据+大规模可以实现更好的跨模态表征。

那么在这个人机混合时代，人如何理解并信任机器行为以及，实现跨模态(媒体)的信息互通是目前研究的重点之一。

可信跨媒体分析推理面临的挑战如下：

1.信息混杂

在当今这个互联网迅速发展的时代，不同模态信息来源复杂、分布不均，使得可信跨媒体分析推理面临了重大的挑战。例如，在视觉问答等多模态任务中，模型捕捉的是语言模态的(伪)关联关系，忽略了视觉信息。

2.模型理解粗浅

人类大脑当中强大的多层级符号化能力是实现从多模态感知到认知发展的关键，但计算机尚不具备与人类相当的多粒度符号化能力。

例如，现有方法可较为准确的理解物体信息，然而对关系、动作、属性等信息的理解较为粗浅，造成了跨模态统一表征中的错误。

基于联结主义与符号主义的发展，我们可以从联结+符号结合角度，建立可信跨媒体分析推理框架，如下图所示。

接下来我们将从跨媒体信息解耦和细粒度知识获取两个方面向大家介绍可信跨媒体分析推理框架的重要研究内容。

1.跨媒体信息解耦

传统的做法是做模态的加法，进行不同模态的互补融合：A+B=C，即已知信息+新信息——>信息融合，也就是SOTA模型+改进技巧——>新模型。这种做法优点是涨点快，刷榜易，缺点是难解释，反常识，当然还存在其他问题：比手速，比套路，忽略本质，逐渐从research变成了search。

普通解耦方法是做减法，对混杂信息进行分离建模：A=A1+A2，其中A表示已知信息，A1表示有用成分，A2表示无用成分。这种做法的优点是可以揭示研究内容的本质，化繁为简，缺点是存在病态问题，无穷解。

复杂跨媒体信息的可控解耦方法是引入过程知识做减法：A=A1+A2，其中A表示已知信息，A1表示成分A，A2表示成分B，这两个成分根据任务特点及目标决定是否是有用信息以及如何使用。

这种方法需要满足如下三个条件：不同成分的“物理”性质即领域知识；不同下游任务的特点即对应用的理解；特定求解方式的过程机理。

因此，针对跨模态及跨域信息混杂现象，可以从表征及模型层面，利用容易过拟合的（有偏）子模型为容器，设计捕捉复杂偏差信息的合理过程，实现跨媒体信息的有效解耦。

2.细粒度知识获取

细粒度知识获取意在建立人机协同的跨媒体知识图谱构建系统，实现可解释及可信的细粒度知识获取和利用。

多模态实体链接是构建大规模跨媒体知识图谱的底层关键技术。它对多种模态的指称(mention)进行消岐(disambiguate)，链接到知识库(knowledge base)中的对应实体(entity)。多模态实体链接可提供跨媒体当中不同模态的对象链接信息的细粒度知识，对提升现有弱监督、预训练大模型(如ERNIE-ViL)的多模态统一表征学习效果具有重要意义。

对于同一个命名实体，不论是图像模态还是文本模态都存在各种变体，例如演员珍妮弗劳伦斯，文本当中有J-Lo和Jenifer两种称呼，而珍妮弗洛佩斯也被称为Jennifer；在图像模态，同一个珍妮弗劳伦斯的照片有可能是生活照，也有可能是剧照，所以这个任务是具有很大挑战性的。

当前，多模态实体链接任务可用数据如下图所示。对于多模态的数据：每部电影对应一个英文影评长文档和10~50张图片。对于大规模的数据：总共包括181,240个文本实体指称，是实体链接基准数据AIDA-CoNLL的10倍；包括45,297个图像实体指称，是其他多模态社交实体链接任务的2~4倍。对于人工标注的数据：数据收集经过算法自动标注和人工修正两个步骤。

四、展望-类人跨媒体理解与知识推理

未来在类人跨媒体理解与知识推理这一研究领域中大致存在以下几类研究方向：

1.大模型的管理和利用问题：研究基于通用信息解耦及去偏差的精调训练方法，进一步提升统一表征大模型对于各类下游任务的鲁棒性

2.符号+联结主义：端到端神经-符号模型。人类对于连续空间理解远不如离散，注意力机制作为可视化可理解性受限。自然监督条件下，由于符号化错误等问题，离散空间多步推理会导致误差累计，强化学习梯度无法反传，进而影响连续空间的推理结果。

3.知识获取效率问题。

4.预测世界模型：强调从算法组件到系统（行为）的重要变迁。

5.物理驱动的新一代计算架构。

6.人机图灵测试：探究阻碍人机协同演化和智能增长的本质问题，设计面向深度人机协作的图灵测试，为新一代跨媒体智能算法与系统的研究提供指导和验证。

【讨论】

赵梅娜：在世界格局上，我们国家人工智能处在一个什么位置？比如跟欧美、日本比？另外它的瓶颈在什么地方？算力发展到什么程度？是不是将来要发展量子计算机、量子计算还有芯片，应用前景怎么样？

黄庆明：据我了解，现在领先的主要还是中国、美国。欧洲日本也在做，但是没有像中美这么大的投入体量和资金。从基础理论研究来讲，我们可能相对落后，像开放性的算法基本上是以美国为首提出来的；在深度学习方面领先的可能还有加拿大。但从应用来讲，我们国家的受众面广，引领性强。像现在手机支付、人脸支付，国外现在都没有我们这么方便。从人工智能在交通、医疗方面的应用来讲，我们国家从应用的广度、范围和产生的社会经济效益方面不比它们落后，甚至领先于它们。

王树徽：我们现在在应用方面确实是做得比较好，应用场景非常丰富，用户需求各方面都有非常充分的释放。但是从理论研究方面，确实是离国外还有一个代际的差异。在深度学习,以及整个的人工智能发展史这里面，实际主要理论基本上都起源于国外。国际上有些公司他们提出一个英文大模型或一个概念，我们就做一个中文大模型，基本上是这样的趋势。所以我觉得我做系统的，研究做的时间越长越担心，因为如果这些理论都在别人手里的话，我们实际上是非常的寝食难安。所以说我们看看未来能不能够在基础理论的角度，去突破欧美国家给我们设置好的学习框架。这实际上是我们解决在未来发展人工智能领域的关键。我们的学者一直比较关注一些宏观的大的用户，但是对于一些小众来说，我们在目前研究的框架下，它的多样性不够，我觉得我们应该可能更沉下心来去针对一些更基础的问题去做一些长时间的研究，这样的话更有利于我们的未来实现更好的环境。

李亮：当前直播和自媒体领域的一个核心技术就是要对文本、视频、评论，甚至一些弹幕信息进行做跨模态的分析和推理，然后将内容推荐给有兴趣的用户，并且每位用户的推荐列表不一样。现在中国在跨模态分析技术上发展的特别好，是国际领先的。抖音的美国版TikTok，现在是美国最火的APP，比Facebook、推特都要火。但因为它是中国公司主导的，所以美国就去有意扼杀TikTok的影响力，他害怕把一些隐私的信息暴露给中国。Tiktok受到如此大的关注,得益于其跨媒体分析处理方面的技术给用户带来了有效的推荐，实际上中国在这方面技术已经超越了美国。但是在理论方面，其实我们还是有差距的，要认识差距，才能更好地去追赶别人，有了明确的目标，我们去努力，一定能赶上，中国科研人员还是非常有韧性的。

桂文庄：其实现在算力中国不差，大概现在全世界最大的计算机，美国第一中国第二。所以从这一点来说，中国的计算机的发展很厉害。最近报道的人工智能寒武纪芯片，在国际上是处于一个什么样的水平？

黄庆明：按照我之前看陈老师的一些报告，他其实在性能参数超过了，但是可能在实际应用条件下，它的很多实际的性能的峰值可能达不到那个NPU的指标。

桂文庄：过去做知识库，作知识的挖掘，最后我们可以构建一个泛化的通用框架，现在能不能做到这一点？还是说我们必须针对着某一类的事情去建？

黄庆明：可能还是有一些能够通用的框架，有一些基础性的，也就是能够指导我们怎么样去建设图谱，它有一些基础操作的功能，例如查询等，这些肯定可以有的。当然可能在这个基础之上，针对到某些特定的领域，需要做一些定制。

桂文庄：模型也是很重要的。比如要预测地球的演化或者宇宙的演化，必须有它的演化模式，显然光靠数据解决不了，所以我觉得除了“连接”和“符号”，这个数学物理模型的问题也是非常重要的。而且这个一旦能够形成数学物理模型，说明你对这个事情本质有了比较深刻的理解。社会现象更加复杂，要建立一个数学模型可能比较困难，那么是不是也有这方面的努力？

王树徽：有。我们知道像仿真、湍流模拟这种，它实际上是有一套背后模型的，所以知道它这套模型干什么，用一套偏分方程组就可以给他还原回来。我们实际上要做的事情针对他们的场景，实际上也有一些这种公式的指导。因为我们现有的这些算法可能在设计的时候并不是针对具体的模拟或仿真那个东西去做的，我们会把现有的这些算法跟一套机理去组装，比如说偏分方程。尤其是现在说的“人工智能+科学”是一个非常重要的一个热点方向。但是在社会方面确实很复杂的。

桂文庄：因为图谱构建得很大，所有的数据不断的增长，无限增长，怎么处理？是不是还有舍弃的问题？另外所有的东西其实是分层次的，它不是在一个层面上，它是个多层次的东西，那么这个多层次从一层到另一层，它也会有关联和互相作用的，这些事情你们会怎么处理？

黄庆明：知识图谱在建设中可能需要一个更长的过程。关于舍弃的问题，现在我们还没有完全考虑，现在因为离目标还有较大距离，需要继续往上堆。但是大了之后确实面临你说的问题，所以我们现在可能的做法，一个是把这些数据分成不同层面，活跃的和非活跃的，放在不同的地方存储；另外是根据需求才调出来，比方说要做到这一部分的功能，我们就把其中某一块调回来，一个是结合需求，一个是结合它的热度，对这些所有图谱的不同的这些节点，不同的部分，实际上是分成不同的情况，或者是相当于不同程度来看。就是说，我们考虑的这个图谱，不是把所有节点，所有的内容都同等对待，而是区别对待。以后可能再庞大了，把一些数据放到僵尸节点里面，也是一种考虑。

王树徽：我们其实构建这个图谱的时候，也是遵循一个程式化的概念。还有滞后的问题，包括实时演化的问题，确实也是一个很关键的问题，因为你的这些知识中最终还是要用这里面。如何去根据知识组织的这些视频内容，并用于更新知识，这里面实际上对我们的研究有更高的要求。

赵震声：你这个和人脸识别是交叉的？

黄庆明：对。

计明娟：你用的大数据还是统计方法？

王树徽：有统计的方法。归类、分类，偏向统计。

赵震声：我们的应用在国外至少已经算是国际前列了，为什么我们的理论还差呢，自己原因是在哪？

黄庆明：一个方面是这是我们和国外比，我们的积累不够。另外还是有些急功近利做一些比较容易见到成果短平快一些的项目。创新的能力、创新思维不够。

中国科学院大学离退休管理办公室

新一代人工智能的跨媒体新技术研究