VR与AR：半个世纪之路——专访微软亚洲研究院网络图形组首席研究员童欣

现在的位置: 故事大全首页 > 人生故事 > 三联生活周刊 > 三联生活周刊2016年 > 三联生活周刊2016年第39期 >

2016-12-29 09:55:22 /故事大全

三联生活周刊：为什么20世纪60、70年代就有VR（虚拟现实）这个概念，但以前那几个浪潮都没有发展起来？这中间技术的掣肘点在哪里？短板在哪里？您是研究图形学的，您最早开始接触VR这个概念，包括混合现实的概念，是什么时候？

童欣：其实早在图形学开始发展的时候起，VR和AR（增强现实）这些概念就已经存在了。90年代初，那时图形学里高端的VR系统叫做CAVE System，当时由EVL研发的，由几个显示屏组成屋子的墙，提供了一个沉浸的环境。每个屏幕后面有图形能力很强的图形工作站。用户戴上立体眼镜，通过一些穿戴上的跟踪设备和数据手套，可以在里面自由地走动旁边的内容会随着交互而改变。在当时这是一个非常高端、售价非常昂贵的系统。那个时候VR更多的还是面向工业应用，包括美国的航天系统或者是军事应用。PC出现之后，大家开始用PC来代替原来的超级计算机，用PC把所有的显示屏搭起来就能做成一个CAVE系统。这是VR发展的一条线索。另一条线索则是供单个人使用的头戴显示器这样的VR系统。

AR方面也很早，主要还是面向非常专门的工业应用。一个是军工。比如说，一家军工厂需要修理一颗导弹，有了AR就可以知道先打开什么地方，需要执行什么样的操作，可以极大地提高效率，减少失误。因为对军工来说，如果能提高效率，这个成本是值当的。一个是飞机制造和维修。波音公司很早就采用了AR的系统，就是小的半透明显示器在眼睛前面，显示的内容叠加在真实场景中。装配飞机或者是修理飞机，这是非常高难度和复杂的任务，需要得到维修指南，哪怕告诉你手册需要查哪儿。

我觉得这拨VR/AR浪潮的兴起，一个原因是手机产业过去这几年的发展，让所有的传感器和显示器小型化，且价格真的能让大家接受。同时随着个人计算机计算能力的增长，和图形处理器的发展，使得内容显示的计算能力跟得上。所有条件结合在一起，终于可以以一个普通用户能接受的价格为大家提供比较好的VR体验。VR一直都在那，但之前很小众很昂贵，现在慢慢地终于到了面向普通用户的时候了。

三联生活周刊：在这一波VR/AR浪潮里，计算图形学、人机交互和传感方面的技术水平有没有突飞猛进的进步？

童欣：有几个最重要的进步。硬件上，过去的传感器已经非常精确，但售价非常昂贵。智能手机普及后，传感器大量生产，价格变得非常便宜，传感器的发展也让很多定位技术有所进步。GPU的发展也很快，在这么高的分辨率下，能做到非常真实的显示。当然，在这所有的背后，需要有很多实时算法进行支持，能够结合传感器数据进行实时的定位，同时把真实感很强的内容显示出来。另一个方面是交互技术的进展。目前在VR中，大家的交互基本上还是依靠设备。首先靠传感器帮助用户确定在虚拟环境中的位置和头的朝向。此外还需要有输入，用游戏手柄，或者依靠语音、手势，提供很好的自然的交互体验。这也是一个很大的突破。

微软其实一直在自然交互，VR和AR领域中进行着重点的投入和研发。在真实感实时现实方面，微软研发了很多的算法并且通过Direct3D提供给用户，和GPU的发展相互推动，带给用户更真实的内容体验。自然交互方面是Kinect，这是第一次把很自然的体感交互体验推给用户，能用价格便宜的深度摄像头，结合最新的算法，来达到用户姿势的实时识别和跟踪。而近来推出的全息眼镜HoloLens则把所有交互，显示的最新技术，硬件集大成了。不仅仅是硬件上的波导显示，全息处理器（HPU），整个的计算平台的可穿戴化和小型化，更有软件上的实时定位与场景重建技术，语音识别和手势识别的技术。所有这些组合在一起才能让混合现实的技术真正落地和活起来，才能给用户带来全新的体验。

三联生活周刊：HoloLens体现了近几年技术发展的哪些东西？

童欣：我觉得其实很多。刚才也提到了，硬件层面，这么小的重量情况下，需要一个头戴显示器。HoloLens有一个See-Through的屏幕，要半透的，要能看清外面的东西，同时内容要显示在上面，它的分辨率要够。另一个方面，其实HoloLens就是一台头戴式的计算机，所有的计算单元包括电池都是集成在上面的，这些并不是理所当然地往里塞，需要平衡很多方面。硬件集成进去，需要保证它高质量地工作，续航能坚持足够长的时间，比如说3到4个小时。所有这些都依赖于硬件的进步和工艺的进步。

有了这些还不够，还要有最基础的软件去支撑硬件。对混合现实来讲，最核心的技术叫做SLAM（Simultaneous Localization and Mapping），就是实时定位和场景建模的技术。这是什么意思呢？当我做VR的时候，由于整个视野沉浸在虚拟环境中，我只需要根据根据计算的位置，显示整个虚拟的场景。现在我在一个真实的世界里，虚拟的东西可以按照我计算的视点移动，但是真实环境的物体并不会。所以我要知道你的头在真实世界中的精确位置。这样虚拟的东西和真实东西混合才会真实。比如说我想显示一个虚拟的杯子，在桌子角上，我现在一转头再回来，真实世界中桌子和杯子还在那里，可是如果我的计算位置不精确，虚拟的杯子的位置就移动了。虚拟世界中，我怎么知道你看的是原来的位置，我就应该把这个东西显示出来在原来的位置呢？所以计算机必须要知道在真实的世界中，我现在在哪儿，我在看哪儿，这个东西必须要实时算出来，同时必须非常稳定，不能有扰动，不然用户就会觉得显示的内容在空中飘，这个挑战是非常大的。微软通过HoloLens上的摄像头和非常先进的算法，包括专用的HPU（Holographic Processing Unit，全息处理器，简称HPU）来进行所有的计算，把所有的位置信息能实时地提供给你。这些东西是所有做增强现实，特别是混合现实（MR）最关键的技术。

同时，我们也认识到混合现实这一全新体验背后需要一系列的技术做支撑，无论是内容生成方面、智能交互方面，还是最上面的内容的智能理解交互方面，都需要专业的算法，门槛很高。如果只有几个大公司做内容，做开发，可能还是不能满足大家的需要。那最好的办法就是我们建立一个生态系统。我们不仅提供像HoloLens这样一个标杆的硬件，而且提供Holographic这样一个软件平台，通过把不同的算法和服务变成普通用户都能用的API，想开发某些应用的人也可以用我们的工具和服务来开发应用，最后可以做到HoloLens上去，也可以用到其他虚拟现实，增强现实设备上去。

三联生活周刊：无论是游戏还是电影，我们在二维屏幕的图形显示上已经达到了相当高的水平。虚拟现实和混合现实开启了一个沉浸式的三维图形显示的时代。在三维图形领域，还有哪些问题是需要解决的？

童欣：光影技术在图形学里叫“绘制技术”。实时的、光影真实的三维场景绘制技术，仍然是大家在研究的热点问题。在微软研究院，我们第一次尝试用机器学习的方法来处理这一问题，第一次把一些原来非常难做到的复杂光影效果真的做成实时的。我们相信随着这些技术的发展，会有更多的酷炫的光影效果，可以在VR和MR中呈献给大家。

还有一个是怎么样更加方便地产生更真实的三维场景和交互内容。传统上我们需要艺术家去造型，但另一个方法是从真实世界中直接拍摄捕捉。比如，我想做一个咖啡馆，原来是艺术家用三维造型软件手工去做，包括所有的细节，这是一种方法。还有一种方法是，拿一个深度相机或者普通相机来，把一个咖啡馆里所有的桌子和墙的几何形状、材质完全捕捉下来，把它放在三维场景里，真实感一下就提高了，所有桌面的材质都会很真实。有了这个技术，艺术家就不是无中生有了，他可以在这个场景的基础上把材质改改，把桌子让它生点锈，把它变得更有质感。所以内容捕捉技术是非常重要的技术路径。微软研究院在这个方向做了非常多的研究工作，我们的目标也是希望通过我们的推动，能够让普通的用户享受这项技术，通过比如Kinect这样的深度相机，甚至像手机或者是普通相机拍摄的东西，能够把用户感兴趣的三维物体和几何形状表面的丰富材质、光影效果都捕捉下来，完美地再现在虚拟的世界里。一旦这个问题解决了，所有普通用户都能产生高质量的三维内容，那虚拟世界，混合现实的世界就会变得丰富多彩，用户的体验也会提升一个数量级。

三联生活周刊：混合现实真的要变得实用，还需要解决哪些问题？

童欣：首先从交互的角度来讲，要有定位，要有语音和手势、表情等自然的交互方式，这方面技术还需要进一步成熟。如果高质量的输出和用户的输入方式不匹配，用户就会觉得这个东西不好用，不自然。一个常被大家忽略的是智能感知层面的问题，为了更好的混合现实的体验，我需要有更好的下一步的人工智能技术和识别技术。比如说在一个场景中，当我戴上AR眼镜想操作这个东西。定位技术告诉计算机我在盯着这个东西，可是这个东西是什么呢？可能需要识别技术知道这是一个遥控器。然后系统知道用户想使用遥控器了，把遥控器的操作信息从数据库中拿出来传递给用户，变成一些可视的指南，交给用户说，你先按这个键吧，根据用户操作的手势和出现的问题，再给用户进一步指南。你可以看到，这个简单的例子里，自然交互，显示，识别，所有的这些都要加在一起，这个场景才能行。如果里面缺任何一样，最后都会变成听起来很美好，用户刚开始觉得很新鲜，但很快会发现，操作比原有的设备和方法更费事，那么自然带来用户期望和实际能达到的之间的巨大落差。所以微软希望能从各个层面开展研究，提供解决方案，缩小落差，让混合现实变成对用户真正有用的东西。

长远来看，从应用范围来讲，AR远比VR广泛得多，将来会渗透到生活各个方面。当你戴上VR的时候，你看不到真实环境，完全是在虚拟世界的体验。AR混合现实更多是可以把它想象成视觉助手一样的东西，极大的增强和方便你在真实世界的生活。但是AR技术的门槛更高，所以大家觉得AR可能普及得会比VR晚很多。以前大家会说AR怎么也得等10年，我个人乐观估计可能会来得更快。原因有两个。第一，AR很多基础层的智能感知技术成熟得比我们以前想的要快。第二，随着AI技术的成熟，识别感知层成熟得更快，比如说物体识别的技术日新月异地在发展。这些技术的进步能对AR的场景产生非常大的推动作用。这些东西如果比以前成熟得快，AR的场景应用就会更快地来到，但具体的时间我觉得很难预测，因为技术的发展真的是太快了。

文刘敏蒲实