张晴晴：我们的数据解决方案采用多模态对话式AI

来源：汽车纵横网　发布时间：2021-06-24

2021年6月17-19日，由中国汽车工业协会主办的第11届中国汽车论坛在上海嘉定举办。站在新五年起点上，本届论坛以“新起点新战略新格局——推动汽车产业高质量发展”为主题，设置“1场闭门峰会+1个大会论坛+2个中外论坛+12个主题论坛”，全面集聚政府主管部门领导、全球汽车企业领袖、汽车行业精英，共商汽车强国大计，落实国家提出的“碳达峰、碳中和”等战略目标，助力构建汽车产业新发展格局。论坛期间，爱数智慧创始人兼CEO张晴晴博士受邀接受了媒体专访。以下内容为采访实录：

主持人：各位媒体老师好，欢迎大家远道而来采访报道中国汽车论坛！本场采访我们邀请到的受访嘉宾是爱数智慧创始人兼CEO张晴晴博士。爱数智慧是全球领先的多模态对话式AI数据服务商，在智能语音和自然语言理解等方面的核心技术在国内处于领先水平。感谢张总抽出时间来接受采访。下面请媒体老师提问。

记者：张总好，我们知道智能语音在车载场景中是非常重要的，和同行相比，咱们爱数智慧语音在车载场景应用方面有什么独特之处？

张晴晴：谢谢，首先我介绍我们公司的主营业务，我们公司为所有正在智能化转型的车企提供底层数据的服务，其实我们核心是在帮助所有的这些，比如说他们内部有一些研发的同事，或者是在使用第三方解决方案的同时，能够更好地使用到针对车企目前所出现的这些痛点，应该使用什么样的数据来去解决这个问题，所以我们围绕的核心还是在数据这两个字上面。

在车载场景里面，很核心的一个点是人机交互，人机交互里面我们比较强调的是属于对话式，我们知道人和机器的交流，我们人最希望的一种方式是用自发式、自然式的和车进行交互，而不是很死板的命令控制的方式进行交互。而在这个里面最重要的是要形成对话式，就是我想到什么随时都可以说，也是因为这种对话式的状况，这个语音本身自然的流利度、随意性，都比命令控制式的难度大很多，包括还有一些口音的问题，这些都会加重机器识别语音的难度。

在这个部分，我们一直是深耕在对话式AI领域，我们在数据设计的维度里面就考虑到人和机器以及人和人之间进行自然式对话的过程中有一些语言现象，比如说我们在说话的时候，会有一些自然的停顿，或者是语句的前后颠倒，因为我们人是一边在想一边在说的，所以在这个过程中还会有一些插入语或者吞音、远场环境等等现象，这些在我们的数据里面有规划和设计的，这些数据和我们真正用在智能车载里面的对话式的交互理念是非常匹配的，我们还特别考虑到车载的场景，比如说在行车过程中有开窗、关窗，不同的车速，包括风噪等等，不同的车型也是不太一样的，这些部分都有在我们的数据设计里面考虑到，我们希望将最真实的数据反映到车厂，使用智能化模型优化的理念，帮助他们更好迭代出更智慧化的语音操控系统，这个是我们目前的核心，也是我们希望帮助到整个车企的关键点。谢谢。

记者：张总好，人机交互这块目前在全球也有一段时间了，要是从咱们研究的状况来看的话，我们觉得在车载系统的人机交互，你觉得经历哪几个必经阶段，我们公司在这方面有哪些独特的优势？

张晴晴：车载系统的人机交互场景，其实还是已经演进了挺多年的了，最早的时候，更多的我们还是比较基础的一些控制类型的语音的交互，比如说开窗、关窗，或者是打开空调、座椅的调节，这些是比较常见的，慢慢地我们加入了内容的交互，比如说音乐的检索，我想听什么电台，内容就做了一些扩充，所以在这种情况下，交互的语音的内容我们也要开始进行迭代更新，因为歌曲和电台的内容也有时效性，所以这部分也会加上。

接下来就是进入到比较自然式的，不只是命令控制，可能在车里面我随时想说什么话，这个话的表达方式和我本身去操控这个车是有所差异的。比如说我可能会说调节温度，我不一定这么讲，我可能会说“我觉得好热”，这个时候车就给一个建议调低这个空调的温度，这种也是在现在的过程中开始大家都开始去思考的一个点。

在现在这个阶段，我们还增加千人千面，比如说在这个过程中，我在听到这个电台的时候，车机交互的过程中，是不是有个性化定制的需求，比如说这个导航播报的声音，是不是可以定制成我所喜欢的，比如说我们所了解到90后、95后很喜欢二次元的声音，这个声音可以在自己设定这个车的选择的时候，我希望用这个声音来进行播报，在演进的过程中也是一步一步的。

最近我也有听到一些前瞻性的车企提到，其实在车里面加入一些营销相关的，也是用于交互，比如说就是在他的电台在播报或者内容在播报的时候，开着车的时候，会听到里面一个比较不错的产品，他觉得这个很好，停下车很好，他可以很快定位到它所提到的产品，关联到商城里面进行下单，大家会把车里面的场景用得越来越丰富，也希望真正在这个里面驾驶和使用的这些人能感觉到很温馨，我们的音频产品有很多可以和车交互的一个点，这个也是我们看到的发展的一些趋势。

记者：汽车行业的工程师都是以男性居多，您比较年轻，我们都知道目前在汽车领域的人才竞争力非常激烈，尤其是智能网联这个领域，您为什么在语音交互的这个领域创业，你怎么看当前这个领域的人才机制的引进？我们知道传统的汽车行业，存在整车企业占据主导地位，您认为咱们这种语音交互，是装机之后的零部件供应商，未来的话语权会不会进一步提升？谢谢。

张晴晴：首先我回答一下我自己的背景情况，刚刚主持人也比较简短地介绍了，其实我自己在人机交互这个行业里面，算上学习的经历其实已经17年的时间了，我为什么会做这个方向？首先是在我的博士研究的方向，一直都是人机交互，就是语音、语言这样子的对话式的场景。我觉得语音的交互的方式，是人类和机器交流的一个最自然的方式，包括我们人在传递信息的时候，其实语言也是一个非常重要的信息传递载体，这是我从一开始选择语音这个领域的很重要的一个点。

说到车这个方向，其实所有的物联网，包括智能的硬件，目前来看都需要人机交互，包括手机、家电都需要。车同时都是大家非常看好的一个方向，在车的这个领域里面也有很多事情可以去做的，这个也是我们自己公司本身定位的方向，这个也是很重要的一个场景、行业，这也是在这个里面。

关于这个部分的人才的竞争来讲的话，我觉得其实在整个人机交互或者是语音、语言的整个里面，目前来说，看国内国外两块，我觉得以国外来看的话，基本上可能很多专家都还是属于有10年以上的经验的，整体来讲大家的认知都相对好一些。国内还是处于比较新兴的状态，所以真正是有10年以上的专家目前来讲，整体来看还是不足。更多的是在最近这几年大家对于人工智能和人机交互方向的热情，包括国家也在这方面引导，我看到有很多人开始投入到AI的领域来，所以慢慢地开始有一些年轻人接入到AI领域里面。我觉得AI，在这个领域里面还是需要沉淀一定的时间，有更多的人进来是好事情，但是需要在一个点上深耕，然后不停地思考，让自己在每个点上最后真正成为专家。这个我觉得也是需要时间，反过来来讲，对于一个服务型企业来说也是非常重要，我们在任何一个行业里面，也是需要时间积累下来，所以在这个部分来说，我觉得整体来看还是向好的，但是需要一些时间。

您说的第三个问题，可能我自己来说一个更宏观的方向去看的话，我会觉得现在有很多的，因为我们主要还是围绕数据，我们围绕数据的话，我们给我们的客户提供相应的数据服务的话，会是两种类型的客户，一种类型就是车企，比如说车企自己会有一些AI的研发解决方案，这个情况下，我们可以对接到他的研发部门，我们给他提供相应的咨询和相应的数据的服务，还有一类企业，其实是属于垂直在车企这个行业里面再提供解决相应方案的算法或者是解决方案的公司，我们也在给他们提供相应的数据的支持，这两类的企业来说，对我们来讲都是非常重要的客户。

对于车企本身来讲，目前我们看到的一些头部的车企，确实有在进行相应的AI的投入，相应的一些研发。那更多的可能还是一些解决方案的企业在做，我觉得这个也是整个行业，从我们来看是需要大家一起去努力，然后帮助大家去理解说整个车的场景里面有哪些地方我们可以有更多的机会去做，这个是我们觉得在目前来看，还是大家要去一起努力，我觉得这是现在最重要的事情。

记者：我接着刚才前面老师的问题再问两个问题，第一个问题，女性对声音这块相比男性来讲，可能更敏感，某种程度上来说有优势，从这块来说，你感觉女性具体有哪些优势？第二，您比较年轻，其实创业非常不容易的，你能讲几个你在创业过程中对你触动比较大的故事吗？

张晴晴：谢谢，第一个关于在音频里面女性和男性的问题，实话讲我之前有看过了解过，我觉得在整个人工智能领域里面，其实我发现女性的占比开始比传统的IT的领域开始高起来了，这个可能不止是在语音这个领域，包括在视觉，我觉得女性的比例也开始高起来，我自己有想过这个问题，很重要的一个原因是AI人工智能本质上是一个数据的行业，它因为所有的算法核心还是要靠数据驱动的，所以对于数据这件事情的认知和拆解，我觉得女性在这个部分开始显现出她的优势来，相比来讲女性对于世界的感知度、敏感度可能会更高一些，所以在这种情况下，对于这些世界的数据，万事万物的拆解，女性也会思考得比较多，在这个同时，数据也是需要有耐心一点一点分析和拆解的事情，这个方面我觉得女性是有一些优势的。另外，女性特有的心思细腻、换为思考等能力，不同男性的理解方式也将对机器理解人提供了很大的帮助。

在音频方面，可能会更明显一点，对于一些声音，比如说一些情感的判定，当然我自己在这个领域的时间很长了，所以我自己的耳朵会有一些惯性，比如说有人跟我来聊天的时候，如果我是第一次见到这个人，我会下意识通过声音辨识他是来自于哪个省，就是通过口音去判定，这个也是这17年积累下来自己就会有一些本能的反应。

关于创业的经历，到现在5年的时间，这5年时间的创业给我带来非常非常多的感触，我之前有参加CCF学术交流会的时候，讲到我自己创业感触最深的事情，到现在我自己也很深刻，其实是在我们刚刚创业大概一年多的时间的时候，那个时候公司的人，我们现在公司在北京有150多人，那个时候我们公司一两年的时候，大概有50个人，在一个比较小的商住两用的房子里，当时消防过来告诉我们说，这个房子现在不能用于办公，需要我们立刻走。

那个时候我在公司，其实我是非常忐忑的，因为当时在公司的人不多，我不知道怎么跟所有的员工讲我们需要立刻搬家这件事情，在我的感觉就是，如果我是员工，我听到老板这么跟我讲，我会觉得这个公司不太靠谱。所以我当时是非常怀着非常忐忑的心情，但是我需要把所有的同事叫回来，我当时在微信群里面把大家请回来，还不好意思告诉大家发生了什么。所有的同事回到公司的时候，跟他们讲我需要立刻搬家的时候，当时50多个同事没有任何一个人迟疑，有的人告诉我说，我家里有两个车，我可以开过来帮公司搬家，还有的人说说我知道旁边有一个酒店，可以把东西放先过去，还有的人说我可以立刻找一个孵化器帮助公司先把人挪过去。

那天发生的时候是周日晚上6点多钟的事情，第二天早上11点，我们所人的电脑和东西开始搬到孵化器里面，11点正常上班，也就是比正常上边迟了1个小时，这是非常有感触的，创业真的是团队去创造奇迹的一个过程，在那段时间，在我们很过渡的一个商住两用的，后来搬到孵化器里面。

我们完成了那一轮融资，当时投资人看到我们过渡在那个环境里面，我们投资人都没有任何的迟疑，就觉得看到一个团队一起的努力，可以很快地渡过，我也很感恩那些所有的过程。所以这些东西对我来讲都是印象非常深刻的，我也相信我们公司这个团队未来可以创造更大的奇迹，谢谢。

记者：张总好，有一个问题，我们知道在人机交互方面特别是在汽车领域，现在是越来越普及，可能比家庭各方面的普及度还要高，爱数智慧在汽车人机交互这块，现在目前的布局是什么样的？目前在这个行业里面发展的情况是什么样的？

张晴晴：首先我们在车这个行业里面，我们现在看到了有几个主要的应用的场景，智能座舱是其中一个非常重要的场景，除了智能座舱之外，还有线上线下的智能客服，这块目前来看我们都能看到一些头部的企业开始跟我们探讨这部分的可能性。另外就使刚刚提到的一些类似于短视频营销，在这个部分也会有一些数据的需求，这个部分我觉得目前来看，在车这个场景里面，我所了解的就是这三个场景主动和我们交流的，在智能座舱这个里面，我觉得目前看到几个点：

一个是人在发音，在命令控制的过程中，车首先要识别我的语音，然后把我的语音理解成相应的意图，最后通过语音合成，声音播报出来传递到人的耳朵里，形成这个对话式的过程，这个过程也会面临几个问题，比如说在车的环境里面有噪音，如何降噪是我们要考虑的。

同时人本身说话口音也很有差异化，现在来看，在中国境内普通话只是算是一个最基础的需求了，包括一些方言，目前我们的方言主要覆盖的也会是一些基本上是属于比较热点的口音区域，包括粤语、四川话、上海话，另外还有一些城市也会有，这都是通常车企TL1要做的方言的区域，除了方言以外，还有属于带口音的普通话，就是它属于普通话，但是一听就是口音很浓重，但又不属于方言，这个临界状态也是很难的，但是很多使用场景里面这个很普遍，因为还是希望和普通话和车交互，但是他没有意识到自己的口音蛮重的，所以这个部分是要解决的一点。

还有意图的理解部分，就是人的表达方式是千人千面，我怎么能够保证在用不同的语音表达的时候，不同的方式表达的时候，它对我的意图理解是到位的，比如说我刚刚说感觉好热，这个时候它给我的回馈就是建议调低温度，我们也在做语料扩充的动作，对于同一个意图，我用哪些方式去表达，尽可能去覆盖，这也是一个某重要的事情。

另外就是语音合成的部分，语音合成部分，现在大家也都比较年轻化一点，可能过去我们在做这种播报的时候，声音都是比较成稳的女性、男性的声音，现在来看真的是很多年轻人喜欢非常多样化的声音，有的老人也愿意把一些小朋友的声音定制为自己车里面的声音，所以我觉得这些其实在这种人机交互的，在车里面的人机交互，这些都是需要去考虑的。

我们现在针对这些场景，我们主要提出的解决方案，我们是这样子的：首先当车企有这些相应的诉求的时候，那么他们可以来跟我们进行交流，我们会有相应的专家，我们公司的专家有声学专家、有语言学专家和语音学专家，我们会跟他一起来做相应的咨询，告诉他在这样的问题情况下，我们会建议你的数据从哪些维度考虑，以及怎么样采集和设计，一般在这个过程中，我们会考虑到地域的分布情况等等。我们把这个方案做出来之后，接下来我们会基于我们的产品和我们的服务两者结合给客户提供解决。

我们的产品有两个产品，第一个产品是叫做“标准的数据集”，这个部分其实是，我们提出一个叫做数据行业二八原则，我们发现所有的车企，不管哪个车型，其实在做命令交互的时候都有很多是相似的，都会涉及到打开空调、调低温度等等情况，对于意图的泛化、具事的泛化，这些东西我们已经把它形成一个行业的标准数据集，我们定期去扩充它，保证它的时效性，这样的数据客户可以直接采购这样的数据集，而不是说按再从零开始定制服务，这个就会很耽误时间。这种数据作为我们车企人机交互的底层的数据集，可以很快地帮你把最基础的能力先搭建起来，然后在这个基础之上，针对不同的车型可能噪音也会有所不同，我们在定制化采集的20%的数据，这个20%的数据在进行相应的数据的收集，和我们做数据的清洗和标签化的时候，我们进行数据的处理的系统，这个系统可以私有化部署给我们的车企，因为在车的行业，大家也都非常重视数据的安全性，在这个部分我们也是考虑到，数据留存在我们车企本身内部相对来讲是更安全可控的，所以我们是可以将我们的处理系统提供给我们的车企在内部私有化使用，它相应的数据的人员的服务等等都可以分角色在这个系统上登陆，所以在这种情况下，是基于产品和我们后面的服务两者结合，帮助车企解决底层80%的标准的数据以及20%的定制的数据，最后能够帮助车企以最好的性价比和最快的速度来完成它的整个的智能化模型构建的工作，这是我们提供智能方案的整体的逻辑，谢谢。

记者：因为做语音技术这块，现在国内也有很多同行在做，爱数智慧和同行相比来说，我们的一些优势，或者独特的地方在什么地方？

张晴晴：首先所有的解决方案或车企本身，其实是我们的客户，相当于我们是提供给数据给到这些算法的公司，或者算法的部门来帮助他们优化他们的模型，在这个过程里面，在这个同行业里面也会有一些类似的跟我们在做数据解决方案的企业也在跟他们提供，我们跟他们最大的差异点，就是我们对话式，我们公司创立的第一天起，我们定位就是在以对话式AI为我们的核心优势。

相比于传统非对话式的，主要是命令控制比较机械式的，先把文本规划好设计好，然后去朗读录制的这种方式。朗读式和对话式主要的差异，朗读式文本是设定死的，所有的录音人和采集人是按照这个文本，变异性就很少，按照文本朗读出来，自然性也不够强。

在我们的对话式，尽可能保证说话人是最自然的方式交流你想怎么说就怎么说，尽可能保证发音的自然有的迟钝、停顿等等，更贴合我们的真实的使用场景，我们在数据处理的很通用性的标准，这个部分是我们和其他同类型的公司的很大的差异。

对话式AI里面我们开始扩展到很多语种，比如说中文、方言、重口音，我们也在拓展海外的语音，包括“一带一路”周边的日语、韩语、印尼语等等都在扩充，伴随车企出海的过程里面，我们也可以提供相应的数据的解决能力。

记者：国家通过了数据安全法，咱们作为人工智能数据服务商，在数据服务和安全这块，法律未来会逐渐规范，以前也有一定的规范，但是未来有法律的强制的限制，未来咱们公司对数据服务和安全这块，会做哪些调整？

张晴晴：您说的这个是非常重要的，对于一个数据服务商来说，数据安全性是我们立命之本，公司也不遗余力在上面进行投入和迭代优化的一块。我们公司其实是在整个数据服务行业里面，我们是较早一批拿到ISO/IEC 27701：2019标准认证，这个是全球最新的个人隐私认证，这个本身对于我们作为一个数据服务商来说也是一个非常强的认可，这说明我们在整个数据的处理的环节，其实是一个遵循了目前全球在这个上面的最高的标准。

同时我们刚刚有提到，我们在给我们的车企的客户提供解决按的时候，我们比较建议的方式是80%使用的是标准数据集，20%使用的是定制的服务，这80%的标准数据集是我们自行进行相应的数据的包装处理和入库，整个的一套是完全遵照数据安全法，我们在C端收集数据的那一刻起，就告知他我们在进行相应的数据的采集的工作，你可以参与这个相应的工作，我们支付相应的费用。

同时在数据处理的环节里面，对于个人的信息，我们会进行脱敏，这些部分，最终我们是将已经处理好的数据给到企业，让企业在使用数据的时候没有相应的安全风险。同时在数据的处理的定制的部分，我们使用我们的数据私有化的系统，进入到我们车企里面，在这个部分里面，其实也是对车企来说是比较安全的一种方式，我们采用这两种方式保证我们的数据的安全性。

记者：第二个问题，回到前面和创业有关的，咱们作为一个科技型的公司，和资本打交道是比较重要的，你也比较年轻，在和资本方打交道的时候，你个人有什么心得吗？未来你想把公司做成什么样？

张晴晴：可能我在和投资人打交道方面不像很多已经创业过很多次的，我觉得很重要的一点，大家是不是在这个点上面能够相互地理解，并且认可双方的价值，我觉得这个是更为重要的一件事情，这是我自己到现在很重要的一个心得。

自己创业，希望未来是怎么样的？我觉得这个问题应该是回归到创业的初心，我自己创业，因为我自己在AI这个领域已经是17年时间了，我非常希望AI这次智能化的浪潮可以一直前行，我希望这个东西真正对于整个行业包括人类都起到非常非常好的价值和作用。

在这个里面，我又看到，其实数据在这个领域里面的地位真的是非常重要，但是做数据真的需要懂数据的人才，比如说懂音频懂视频懂文本的专业的认识提供相应的解决方案的能力，本身我是一个做很长时间算法的AI的研发，最后我会选择来做数据，就是因为我觉得在AI这个行业里面非常需要有专业的数据公司为所有的算法以及研发的人员提供更好的数据的解决能力，只有这样子整个人工智能才有机会更好向前发展，这是我最想看到的结果，我不在乎于这家公司本身，我更希望这个公司帮助人工智能更好向前发展，也希望我们所有希望智能化转型的车企能够更好车企向前发展，这是我的初心，也是我希望企业未来能够走向的一个方向，谢谢。

记者：整个车载交互领域，除了语音也有手势识别、虹膜识别等其他的交互方式出现，甚至有一些在车内应用了，你怎么看整个人机交互方式的发展趋势，其他交互方式的出现，会不会冲淡语音交互在车内应用的场景？

张晴晴：你提到的除了语音以外，还会有其他的模式，我认为这个一定是发展的趋势，在我们的公司介绍里面，我们其实也有提到，这个就是多模态，这个在今年我们看到行业，特别是以短视频为突出的一块，基本上都是在原始的音频的基础上还会有很多对于图象视频，或者是文本或者是动作加入的一些分析，我觉得在智能的座舱里面，这个也一定会出现，我觉得这个是毫无疑问的一个方向。

我们自己五年前开始，以及我们最优势所在，是在音频和语音方面，这是我们的强势优势。但是从去年底今年初的时候，我们已经开始布局多模态的数据处理的能力了，同时由于音频本身它的的信息量是很大的，所以音频在多模态的演进过程中，整体音频部分的需求量还是在增加，只是在音频以外还伴随其他的模态同时需要处理，我们也提供了多模态数据处理的系统，在我们公司官网也有介绍，这个系统是今年推出，也在逐步迭代的过程，我们也是看到了这个趋势，这个趋势是一定会发生，同时也会加速音频在这个多模态的需求量，其实也会增加的。谢谢。

主持人：因为时间关系，我们本场采访到此结束，感谢张总的精彩分享，也谢谢大家。

（注：本文根据现场速记整理，未经受访嘉宾审阅）