背景&序言
1. 乔布斯的3个遗产
2.1 有钱的邻居,PC与GUI发明史
2.2 XR-GUI中的恒量与可确定的变量
3.1 智能手机的人机交互范式——Multi Touch
3.2 离开旧时代要下狠手——XR时代的输入方案
3.3 我所构想的XR人机交互方案——Multi Tracking
4. 软硬一体化的封闭生态系统
5. XR时代需要解决的社会问题
结语: 回归常识,放眼终局——中国作为最大的试验场将一直存在
2022年,随着BirdBath和光波导两类光学方案的技术达到量产,国内消费级AR眼镜涌现出一批新产品。尤其以观影娱乐为主场景的分体式眼镜,头部的4家公司被业内及媒体称为“AR四小龙”,分别是雷鸟创新、Rokid、Nreal、Inmo。
除此之外,国内手机厂商“华米OV”均有入局,罗永浩“真还传”后创立“细红线”,吴德周离开新石实验室创立“致敬未来”。已知入局的国内企业就有35家,而长尾还将不断增加。
人们开始把2022年定义为“AR消费级眼镜的元年”。业内对VR和AR普遍有不同的认知:VR相当于游戏机,虽然VR产品的硬件技术已经基本完善,但难点在于内容和生态的构建,需要大量的游戏及影视的内容生产,持续积累数量和提升质量。而AR/XR有望成为下一代可代替手机的泛用型产品,在解决了硬件的基础体验问题后,不断扩展使用场景,加入更便捷的人机交互方式,这个体量是可以等同于手机的。所以可想而知,如果这个故事成立,资本市场是愿意早点入局抢占先机的。
另外,相传苹果最早将于2023年春季推出自己的AR/VR产品,名为Reality Pro,售价在3000美元左右,相当于Quest Pro价格的2倍。此产品将有别于世面上的同类产品,加入眼动追踪和体感手势的人机交互方式。苹果从2015年开始布局,近几年密集申请了大量AR/VR领域的专利,在国内市场诸多新兴品牌涌现后,老苹果终于按耐不住,将以怎样的方式进入市场,行业内一直在期待。
当然目前大部分资本市场对AR/XR产业的态度还是“长期看好,短期观望”,因为预计达到硬件成熟的时间是5-10年,大部分入局的企业都做好了打持久战的准备。最近又接连传来头部VR公司裁员的消息,业内都很担心会像2016年的昙花一现。“元宇宙”这个长期愿景多久能兑现没有人能给出准确答案,但冷静一点的都明白,距离行业爆发为时尚早。
我们都希望自己能预测未来科技的走向,希望能引领下一个智能终端时代,然而我们大部分人短视而且记性不好,只看到过去十年的经历,却不愿去探究历史的发展规律。国内AR/XR行业虽然这几年进展不错,但却没在一些显而易见的底层产品逻辑上达成共识,对比国外的科研进展,我们一直在光学方案上死磕却没有几家公司在探索新的人机交互范式。硅谷的大咖都知道的事情,放在国内却很少看到相关的观点和讨论,这让我捏了把汗。
这个底层的产品逻辑到底是什么?或许我们应该先仔细研究一下历史。过去40多年里,我们无非就经历了两次智能终端革命,一次是个人电脑,一次是智能手机,前两次都跟乔布斯有关。如果第三次是AR/XR的革命,我们应该向前两次革命借鉴什么?我们能从乔布斯的思维模式中学到什么?
2007年1月19日,乔布斯站在旧金山的Macworld博览会舞台上,向世人发布了iPhone初代。这一年乔布斯52岁,距离去世还有4年。这场发布会之所以重要,是因为从这款产品开始,人类真正进入了智能手机时代。
发布会的第5分钟到第10分钟实际上浓缩了苹果公司至今仍能引领时代的一切,就这5分钟乔布斯娓娓道来地介绍了iPhone的革命性成果,逻辑行云流水,这不只是他的演讲稿,也是他贯彻在产品里的哲学:
前5分钟的暖场和铺陈不再赘述,第5分钟开始引出正题——重新发明手机。
“第一步就是要有一个 革命性的用户界面(Revolutionary UI) 。而为什么我们要有革命性的UI?”
“因为现有智能手机最大问题是下部40%占比的是固定全键盘,不管你用不用得着,它一直都在那,而且每个软件应用都必须面对它。
然而每个软件应该有自己不同的用户界面,应该为每个软件提供独特的功能按钮。如果你有软件迭代的新点子,你也无法做什么改变。”
“如何解决这个问题?
事实上我们已经解决了。
嗯,20年前我们在电脑上就已经解决了。
我们使用GUI来显示任何想要的东西。
加上一个指针设备,我们使用鼠标。
那我们如何把这个理论应用到移动设备呢?
我们要做的就是把键盘全部扔掉,只留下一个巨大的屏幕。
那我们如何操作它呢?
总不能带着鼠标吧。那怎么办?
噢可以用触控笔。
不要,我们不用这玩意。
我们要用全世界最好的指点工具,每个人生来就有的指点工具,每个人生来都有十个手指,我们用手指触控。
而且我们发明了一个新技术, 多点触控(Multi Touch) 。”
“它很强大,像魔法一样。
你不需要触控笔,它比现有的任何触控屏都更准确。
它自动忽略无意间的触摸,非常智能。
你可以做多手指的手势操作。
而且我们已经注册专利了。”
“我们有幸为世界带来了几种革命性的用户界面。第一个是鼠标(Mouse),第二个是点击式转盘(Click Wheel),而现在我们把 多点触控(Multi Touch) 引入市场。
“ 每个革命性的用户界面都带来了革命性的产品。 Mac、iPod、现在的iPhone。”
“一个革命性的用户界面,在这个基础上是软件系统。手机上的软件系统就像婴儿一样,它们一点都不强大。而今天我们向大家展示一个突破,比其他手机至少先进5年的系统。我们怎么做到的?我们有一个坚实的基础,iPhone运行的是 OS X 系统 。”
“为什么我们要在移动设备上运行如此复杂的系统? 因为它有我们需要的一切。 (Syncing、neworking、Multi-tasking、Low power、Security、Video、Cocoa...)这让我们能够创造桌面级的应用和网络。”
“你知道,我们行业的先驱之一艾伦·凯,多年来有许多著名的言论,而我恰好看到其中一个,能最好地解释我们的看法,解释为什么我们用自己的方式来做事情,因为我们热爱软件,就是这句:
对软件真正较真的人也应该自主研发硬件。 (people who are really serious about software should make their own hardware.)”
Alan在30年前就说过这话了,这就是我们的感受。我们首次给移动设备带来了 突破性的软件系统,它比其他手机至少领先5年。 ”
以上就是发布会的前10分钟演讲内容,乔布斯在10分钟里概括了3点怎样做一款跨时代的智能终端设备:
革命性的用户界面——Revolutionary UI
全新的人机交互——Multi Touch
同一个系统 OS X——封闭式的软硬件生态系统
如果我们想为AR/XR产品开一场像iPhone初代这样封神级别的发布会,引领第三次智能终端革命,把智能眼镜也送进“1亿俱乐部”,我们起码应该满足以上3个条件。接下来的章节会围绕这3个方面分别回顾历史,并给出AR/XR实现泛用的解决方案。
首先来看第1个条件—— 革命性的用户界面 ,其实这个UI界面并不革命,就像乔布斯说的,20年前(以2007年为坐标)个人电脑上已经解决了。苹果是做个人电脑起家的,在PC时代积累的成果和经验只要稍加改进就可以复用到智能手机时代。所以我们要回到40年前,看苹果是怎样起家的,PC时代的UI界面是怎么被发明的。
1973年,世界上第一台个人电脑 奥托(Alto) 由施乐的PARC研究院发明。它首次搭载了鼠标(Mouse)、桌面比喻(Desktop Metaphor)、图形用户界面(GUI-Graphic User Interface)。
但在讲述施乐PARC研究院发明PC和GUI之前,先来回顾一个更出名的故事——乔布斯与盖茨的相爱相杀,这两个1955年出生的同龄人是怎样开启PC消费时代的。
1977年apple II发布并大卖,但好景不长,销量出现瓶颈。1979年乔布斯带领研发团队参观了施乐PARC研究所,并观摩了 施乐之星(Xerox Star) 原型机的用户界面。随后便启动了Lisa(以乔布斯长女的名字命名)的研发项目。
1980年,因为与管理层的矛盾,迫使乔布斯转战麦金塔(Macintosh,初代的Mac电脑)项目。当时乔布斯跟盖茨达成协议,微软将为麦金塔电脑编写BASIC程序,以及全新独占的图形界面软件Excel和Word。在此期间,两个团队频繁合作,盖茨也目睹了麦金塔操作系统的很多细节,他也相信GUI的操作系统会是大众电脑的未来。微软团队秘密启动了代号为“SAND”的项目来研发操作系统,全称竟是“Steve's Amazing New Device(乔布斯的神奇设备)。
后来的故事家喻户晓,1983年11月微软宣布为IBM开发Windows操作系统,盖茨在纽约赫尔姆斯利大饭店主持了一场乔布斯风格的发布会。乔布斯对此很愤怒,叫盖茨过来对质。乔布斯咒骂盖茨盗用了他们的东西,而盖茨说出了那句经典反驳:“我们都有个 有钱的邻居 ,叫施乐,我闯进他们家准备偷电视机的时候,发现你已经把它盗走了。”
再后来1984年麦金塔电脑发布,1985年Windows 1.0发布。GUI为个人电脑降低了用户使用门槛,越来越多的人开始使用电脑,PC时代真的到来了。
讲完乔布斯与盖茨的故事,来看看这位 “有钱的邻居” 都做了什么。
1970年,施乐帕克研究中心(Xerox Palo Alto Research Center,简称Xerox PARC)成立。负责人鲍勃·泰勒(Bob Taylor)说“在美国最优秀的100位电脑科学家里,有76位在PARC。”
PARC的1号员工是艾伦·凯(Alan Kay),就是上文提到的乔布斯在iPhone发布会上引用那句格言的作者。老爷子生于二战期间,今年已经83岁,他是图形用户界面GUI的理论奠基者和最早实践者,是“面向对象”的编程语言Smalltalk的发明者,是个人教育电脑的最早构想者。
可以这么说,如果没有他的远见卓识,就没有今天操作系统上 “所见即所得”(WYSIWYG:What You See Is What You Get) 的GUI。1979年也是在他的引导下,乔布斯及其团队参观了PARC研究院。后来1984年他也加入到了苹果的研究院ATG (Advanced Technology Group)[李开复也曾在ATG负责语音识别方向的研究]。
Kay在当时对认知心理学和儿童心理学做了深入的理论研究,提出了 “使用图像来创造象征”(doing with images makes symbols) 的观点。如今交互设计师都熟知的铁律,要把操作流程做得直觉化,也是他早期研究儿童的学习认知过程所提出的。乔布斯也推崇直觉化操作的理念,这个信条如今已是常识了,但在当时还靠代码输入指令的年代具有前瞻性意义。
另外Kay提出的Smalltalk编程语言,引领了“面向对象”的设计思潮,与GUI的操作流程也相辅相成。后来的编程语言C++、Objective-C、Java等都受到它的影响。下面来看一段对Smalltalk的解读,可以充分理解“面向对象”的基本原理:
“Smalltalk的「面向对象」特性非常具有启发性。例如,「面向对象」意味着对象知道它可以做什么。在象征化(symbolic)领域中,这意味着我们应该先写对象的名字(或者获取它的任何东西),然后在后面加上一条它可以理解的信息,请求它执行某些操作。在具体的用户界面领域,它建议我们首先选择对象。然后,它可以为我们提供一份它愿意做什么的菜单。在这两种情况下,我们都是先有目标,后有欲望。这以一种非常令人满意的方式将具体和抽象统一起来。”
读完这段文字不知道你会联想到什么?这让我想到了如今电脑界面上最常见的操作——单击一个图标会出现一个菜单列表,然后再选择你要的入口或操作。
世界上第一个GUI设计师诞生于PARC研究院,这位Lead Visual Designer名字叫Norm Cox 。最早的图标设计比稿也诞生于此,家喻户晓的三条横线“菜单”图标也诞生于此,有太多的发明在PARC研究院诞生,这也是为什么让乔布斯震惊的原因。
我们开始逐渐意识到用户在识别信息时的层次,用户在看屏幕的时候,他们会快速扫视寻找特定的形状,在形状匹配的情况下,再相对仔细地查看细节。
就像当你注意到一个钻石形状的路标时,你是先看到路标本身,然后才注意到其中的细节文本。
所以,我们需要确保你在界面中扫视的时候,不用扫视太多的内容。屏幕上每一个像素都很重要,不应该将无关的信息放上去,一切都应该有清晰的目标,额外的装饰是没有必要的。这些限制意味着我们必须设计一些 优雅而简单的东西:永恒经典的设计风格。
如果你曾经关注过图标设计的整个历程,尤其是在苹果、微软两家的用户界面当中,你会发现图标从最初的简单的线条,随着像素密度的增加,逐渐演变成为极具真实感的写实照片一样的图标,包含阴影、高光和各种各样东西,再重新回到极为简约的线条和形状,这背后的原因其实和我们前面所说的是一样的。
“如今的 Mac 系统中,遍布着各式各样的菜单。但是在最初的施乐之星当中,我们只有一个下拉菜单,并且菜单中大多是单个命令。你难道不觉得这是一件非常奇妙的事情吗?为什么?因为我们在竭尽所能地去「概括」和整合命令,而不是去消除功能。使用按钮指令来完成任务,这是我发明的!Apple 的用户可以使用剪切、复制、粘贴、撤销这样的功能来完成任务, 而在此之前,在施乐之星上,已经存在移动、复制、删除、撤销、显示属性、复制属性等一系列的基本核心操作了。 ”
重温PC和GUI的发明史,还原史料记载的细节,是为了确定这个革命性的用户界面是什么。如果我们不把它们追本溯源地找出来加以确认,我们可能没法意识到未来发展中不变的恒量。GUI中的G是Graphic,图形的意思,而Graphic Design也被国内翻译为“平面设计”。到了XR的三维世界,整体的UI界面仍将是二维平面的, 这个G会一直存在 ,因为这些象征化的图形语言早已深入人类心智,我们也已经习惯了在二维平面上组织和展示信息。
确认了不变的东西,来设想一下在AR/XR上会改变的东西。电脑、手机、平板电脑,依然是局限在屏幕里的GUI,而AR/XR眼镜是眼前的GUI。因为没有了屏幕,又长时间置于眼前观看,所以有一个可以确定的变量应该是被消除的—— 主界面窗口的白色背景 。
一是出于续航的优化,就像智能手机后期出现了“暗色模式”(Dark Mode),主要是为省电考虑。二是出于保护视力决定的,虽然现在Birdbath光学方案都获得了德国的莱茵护眼认证,但长时使用还是容易疲劳的。AR/XR的GUI界面更像《三体》中汪淼眼前的倒计时,是凭空在眼前出现的,用目前新能源车上的HUD(Head Up Display)做类比也比较恰当。
AR/XR的GUI界面设计,只要是长时使用的软件应用就应该考虑去掉主界面的白色背景,比如轻办公软件。甚至除了2D影视应用还需保留固定尺寸的窗口,其他应用都可以去掉,不必担心视觉干扰的问题。人眼是精密的视觉器官,完全可以自动调整焦段,注视近距离的物体、虚化远距离的物体。还有一个重要原因,如果视线中的物体过大,跟随头部移动时,很容易造成眩晕感。
所以一个AR/XR设计师,应该考虑这种非窗口的GUI是怎样组织的。当然只是主界面的窗口背景应该被消除,小型的操作面板还是有必要保留的,它们可随时调起和隐藏,以及调整位置和排列次序。
而3D的Launcher怎样呈现还是业内在讨论的问题。桌面图标是否会变成3D带有循环动效的方式,都是可去尝试定义的。有些界面比如多任务管理,一定是以三维方式呈现的,而具体的前后关系,可移动的自由度,还没有定论。系统控件也会像3D方向演进,方便手势调节的同时也会加入更多真实的物理反馈。
除了操作系统的3D化呈现,未来可预见的最大体验升级是3D类的建模渲染软件,比如Maya、Zbrush、Blender。在PC时代,我们要在二维的屏幕上不断切换角度,才能对3D模型的构建,这种体验可能三维设计师也被迫习惯了。但在AR/XR时代,三维设计师将直接变为雕塑师,再也没有密密麻麻的界面信息,只有忠实于直觉的雕塑创作,你可以像米开朗琪罗一样把3D模型放在工作室中央,环顾自己的作品,又可以把它缩小到工作台上,检查整体的协调感。甚至3D打印在AR/XR时代都已经过时,如果你是枪械设计师,你可以设置每一个零件的材质和质量,组装完后直接喷漆,然后像握真枪一样测试它的手感,一切都可以那么真实和高效。
在未来,三维模型的创造效率和体验将会大大提升,这将是我们加速三维内容生产的前提。所以早日做好AR/XR的系统,然后配合这些三维软件公司适配出他们的AR/XR版本,是触发内容大爆发的前几个必要步骤。
3.1 智能手机的人机交互范式——Multi Touch
作为85后、90后、95后,中国这10年间出生的IT从业者充分拥抱移动互联网,我们似乎并不知道什么叫 “人机交互” ,只知道 “交互”。 我们只知道一个App解决实际业务的交互逻辑,或者一个OS系统提升易用性的功能迭代,那个交互设计跟硬件基本没多大关系。因为那个 底层的范式的人机交互规则 ,乔布斯已经给你定义好了。(即使全面屏、折叠屏的方案,也仅是在电容屏框架下的迭代微创新。)
乔布斯为iPhone初代这块3.5英寸“巨大”(在2007年)的电容屏定义了全新的人机交互方式Multi Touch,他能完全摒弃当时智能手机的电阻屏和物理键盘,仅留一个Home健在底部,还是因为Kay的那句话—— 对软件真正较真的人也应该自主研发硬件 。反观现在的VR游戏或软件开发公司没有自研硬件,传统硬件制造厂商又没有认真对待自己的OS操作系统和软件应用。 人机交互的底层创新一定是软硬件的合力共同促成的,然而大部分企业只在电子产品的已有品类里做生意,他们对开创新时代不感兴趣。
点击(Tap)- 点击桌面图标进入应用;点击某个列表项进入二级界面;
滑动(Swipe/Scroll)- 锁屏左滑进入主界面;下滑列表,因为电容屏搭载了加速计(accelerometer)所以支持“惯性加速”,当他第一次下滑演唱者列表时,场下响起欢呼与掌声;
拖拽(Drag)- 拖拽音量控制条;增减评分星级;拖拽影视进度条;
旋转(Rotation)- 旋转屏幕,横屏展示专辑封面流(Cover Flow);横屏播放影片;
捏合(Pintch)- 双指捏合放大或缩小图片,演示这个手势时,场下也有欢呼掌声;
双击(Doulbe Tap)- 双击快速定位放大网页,此处有掌声。
如今这些触屏手势我们天天都在用,但首次发明这个东西的人值得被历史铭记。其实有些手势能看到PC的影子,比如点击、双击、拖拽,但用手指操作比用鼠标操作更直接、更直觉。苹果可能不是第一个使用电容屏的手机,2006年LG与Prada联名做了一款时尚手机,比iPhone发布会早了1个月。但利用电容屏优势找到人机交互完美解决方案的Multi Touch,无疑是苹果的专利。
另外再回顾一段支线历史,早在1968年,Kay的博士论文就提出了Dynabook的构想,一台为儿童教学设计的移动电脑。后来又衍生出了“知识导航官”(Knowledge Navigator)的概念。Kay对这个概念一直心心念念,后来也集中体现在苹果iPhone之前的一款试错产品Newton PDA(Personal Digital Assistant)上面。
PDA的产品品类属于细分市场,功能单一、显示单色、手写识别度差,只存在了一段很短暂的时间。但你可以在这款产品上看到iPad的影子、Siri的影子,以及更能理解“面向对象”的交互思路。如果再扯远一点,甚至锤子手机里——文本的跨应用拖拽,都有它的影子。从这段历史也能看到, iPhone的成功绝非偶然,是乔布斯建立在前人试错基础上的背水一战。
一款极致的产品是软件的精巧构思和硬件的量产攻关共同促成的。成熟产品的供应链早已整合完善,但对于初代iPhone,如果不是产销双方共同的坚持与努力,就无法实现关键硬件的量产商用指标,比如玻璃这种东西:
当时的主流手机电阻屏都是塑料材质,触屏需要用指甲盖用力划才能操作,用久了也会充满划痕。玻璃成为最好的选择,但玻璃也有缺点,非常易碎。最终乔布斯找到康宁公司当时的CEO威克斯(Wendell Weeks),说服他在6个月时间研发出符合标准的玻璃用于iPhone。
其实康宁早在1962年就研发了一种名为Chemcor的挡风玻璃,但因为销量不好,1971年就关闭了产线。2006年,康宁重启产线,在6个月内,他们将这种玻璃的厚度从4毫米降到了乔布斯期望的1.5毫米。后来2010年经过迭代,正式将这款玻璃命名为“大猩猩”(Gorilla)。
iPhone发布当天,威斯克收到乔布斯的一条短息:“没有你,我们做不成这件事(We can’t do it without you.)”。后来这个便条被表到相框作为纪念品放在威斯克办公室里。往后的几年间,康宁不断自我死磕,一直迭代到第六代“大猩猩”玻璃,除了更薄、更轻,更强硬度、更好柔韧性之外,还有更强的抗跌落性和抗刮擦性。
举康宁这个例子是想说明一个问题:硬件的攻关需要建立在正确的人机交互方案已经非常成型的前提下才能实施。XR时代的人机交互方案还未定型,这是硬件没有迅速发展的原因。品牌厂商与供应链厂商是 互相确认的关系 ,不存在谁等谁成熟以后才有大风口的逻辑,谁向前进一步,谁就能为对方提供多一点支撑,最终产业的成功是双方合力的结果。
上文提到了苹果的官方设计指南HIG,“触屏手势”放在了HIG的输入(Inputs)大类——最后一个(如下图所示),其他的输入方式还有鼠标、键盘、手柄、遥控器等等。HIG可能是目前行业里最全的设计系统了,它并不像谷歌、微软的设计系统定义了很多琐碎的控件视觉样式规格,反而对人机交互设计做了非常详尽全面的描述,或许这就是苹果不同于其他科技公司的原因之一。
用什么设备输入直接决定了人机交互的产品形态,VR游戏机主流的输入设备还是手柄,依然需要摇杆和按键来操控。摇杆现在确实也是主机游戏手柄的标配方案,虽然对大部分玩家被训练过了,但对于初学者尤其是在玩FPS(第一人称射击,First-person Shooting Game)类游戏时,还是会有点无所适从。
摇杆作为上世纪的发明,最开始用于飞机控制面板。后来街机行业借鉴了这个发明,发展成了8向摇杆。街机摇杆是游戏硬件史上的一个重大进化,它符合人机交互的直觉。再后来就被应用到了雅达利和世嘉最畅销的游戏机上,比如1977年风靡一时的Atari 2600。
1983年,横井军平发明十字键,它被应用在任天堂FC上,很多80后熟悉的记忆,俗称红白机。他之所用十字键替换摇杆,是因为当时日本的房间普遍狭小,游戏机经常就放在地上,因此手柄容易被踩到,如果带有摇杆则会被踩断,而十字键更安全、更耐用。
在游戏机早期,用一个摇杆来玩2D横版卷轴类的游戏是够用的。后来3D第三人称游戏的出现,就出现了双摇杆手柄。1997年,历史上第一款双摇杆手柄由索尼研发,名称为Dual Analog 。一个摇杆控制位移的方向,一个摇杆控制视野的方向,这种双摇杆从PS2一直延续到现在的PS5。
到了VR游戏机,这种双摇杆手柄也一直被广泛使用。但操作体验越来越被诟病,十个手指使用最多的依然还是拇指和食指,在玩一些还原度较高的射击类游戏时,学习曲线骤增,既要换枪换子弹,又要顾及到自己的方位和视野。这种体验就像是在用两个拳头玩枪械,也可以比喻为机器猫的“圆手”,我们的双手一直握持着手柄从来没松开过,从来没伸展过灵活的手指。
实际上在智能手机那里,我们也使用了过多的拇指。iPhone初代发布会上,乔布斯还是用食指在做demo展示的,可后来人们更习惯使用拇指,即使是用全键盘打字时,也是两个拇指按来按去。智能手机初期,还有一些发挥多点触控优势的游戏,比如《愤怒的小鸟》、《水果大战》。到了后期流行的又是PC上的热门游戏再做一次移动端适配,比如《炉石传说》、《英雄联盟》、《暗黑破坏神》。
智能手机时代基本上是触觉消失的时代。我们的手指在光滑的玻璃上划来划去,虽然线性马达提供了一些震动反馈,但仍然微乎其微。所以到了XR时代,我们要把十个手指张开,把丢失的触觉找回来。手柄和触屏已经是旧时代的产物了,是时候该抛弃它们。抛弃屏幕我们有AR/VR眼镜,抛弃手柄我们有什么?
大名鼎鼎的V社(Valve Corporation维尔福集团)老玩家一定很熟悉,它的成名作有太多:《反恐精英》、《刀塔2》、《求生之路》,2020年发布的VR游戏大作《半衰期:爱莉克斯》(Half-Life ALYX)也出自他们之手。早在2016年Steam开发者大会上,V社就公布了Valve Kuncles的原型机,这是一款可以对虚拟对象进行自然抓取和释放的手柄。2019年6月,正式更名为Valve Index Controllers,与头显同步发售。
它的主要工作原理是靠手掌与手柄的输入元件(摇杆、触控板、按钮)接触产生电容,以及借助压力传感器和一系列算法,实时建模渲染,计算和显示手指的实际姿势。当然也要配合像陀螺仪、加速度计等标配的传感器,官网宣称共搭载了87个传感器。它应该是第一款能让玩家自然抓握的手柄,玩家的中指、无名指、小拇指也终于得到了释放,不再仅仅是“拇指手柄”。
因为它的定位还是VR游戏手柄,为了适配Steam平台的游戏,还保留了摇杆和按键。而小扎的FRL(Facebook Reality Labs)实验室并不是奔着游戏去的,而是为了未来10年更泛用型的AR眼镜及输入配件。 FRL有几大研究方向:AR眼镜、肌电手环、触觉手套、脑机接口。 目前有望在近期转化为消费级产品的应该是 EMG肌电腕带 了。2019年9月,以10亿美元收购了一家纽约的初创公司CTRL-Labs,这是一家研究EMG腕带和脑机接口的公司,被收购后全员进入FRL实验室。这是Facebook五年来最大的一起收购案,上一次还是以20亿美元收购Oculus。
EMG手腕的工作原理是通过传感器测量肌电图,将运动神经元信号转化为输入指令,实时识别手势并模型渲染。同时结合AI算法预测手指动作,用户使用越多,算法识别用户意图越精准。这种机器学习结合神经科学的方案,大大提升了人机工效,代替键鼠和触屏只是时间问题。
目前我认为最靠谱的一款产品是Tap XR,目前售价299美元,单看产品形态就比FLB的EMG腕带更轻量时尚,有六种色彩可选。它由一家加利福尼亚的初创公司Tap Systems研发,目前估值才100万美元,但已经有两款完成度很高的产品了(第一款是Tap Strap 2)。有别于EMG方案,Tap XR使用IMU(惯性测量单元)方案,支持6Dof。用户使用时,有点像在敲摩尔斯电码,跟传统键盘的映射有区别,需要花时间学习训练,但据说学习曲线不高,熟练者可达到70WPM(每分钟打字数)。
对于一款消费级产品来说,它已经很厉害了,支持Windows和Apple操作系统,兼容主流VR平台,电池续航10-14小时。不仅能打字,还包括各种菜单选择的交互。这跟我所构想的人机交互输入已经很接近了,唯一的缺点就是只有单手操作和学习曲线的问题。
除了以上三种方案之外,坊间还流传着苹果的Smart Ring方案,Inmo今年也将推出官方的智能指环。指环也搭载了力传感器、惯性测量单元、超声波传感器、触摸传感器等。但目前的信息只有公开的专利,是否会跟AR配套发布这个产品也只是猜测。
看了这么多输入配件,可见AR/XR绝不是做一个眼镜设备那么简单,别忘了它是智能可穿戴设备的范畴,人机交互的输入方案如果不够高效直觉,很难成为手机的替代产品。就像FRL首席科学家Micahel Abrash将AR交互称为“最难也最有趣的多学科问题之一”。目前Facebook和Apple两大阵营的交锋还不明朗,两个CEO都看好AR/VR的发展,但苹果的信息安全保密工作做的比较严实,只能等待今年的WWDC发布会才能见分晓。
整个AR/XR消费级解决方案将是一个多模态交互的方案,是HCI(人机交互)与GUI(图形用户界面)共同科研创新的结果。这种软硬一体化的共创是小公司完成不了的,小型科技公司可以深耕关键技术,寻求单点突破,然后与大型科技公司深度合作绑定,完成人机交互和硬件生态的制造闭环。而这些大公司则可以选择投资或收购的方式,将上下游产业纳入自己的供应链体系。
国内的AR/VR公司很少看到他们在人机交互方面的进展,相关报道主要还是集中在内容生产和光学方案。我不确定国内行业内的普遍认知是否有盲区,还是已经明白过来了但还没有实质可公开的进展,总之不从HCI的学科角度去做AR/VR的前沿探索,注定会走不少弯路。弯道超车也更别提了,因为还没看见弯道是什么。
3.3 我所构想的XR人机交互方案——Multi Tracking
现在假设已经比较完美解决了硬件上的诸多问题,在理想状态下,我来构想一下在5年内可以实现的人机交互解决方案。如果智能手机时代的人机交互是Multi Touch,那么AR/XR时代的人机交互应该是Multi Tracking,它是 “手指追踪+眼动追踪”的多模态交互 。
首先还是来构想一下打字输入方案,因为虽然我们可以使用语音借助VUI实现输入和输出,但打字依然是移动办公场景中最先使用的输入方式。
那么你所设想打字方式是怎样的?五个手指甲上都带有传感器,或者戴上有更多传感器的手套,然后识别出一个实体的桌面,或者直接锚定一个空间中虚拟的平面,然后把虚拟的键盘放在上面。接下来你的双手就可以打字了。好像听起来不错,但还有个问题——
检验移动轻办公场景的解决方案是否真做对了,有一个很简单的评判标准,就是在地铁里你要是真用XR眼镜办公,你是否难为情?隐私性当然没问题,因为屏幕就在你眼前,其他人看不到。但当你举着两只手在凭空打字的时候,其他乘客可能觉得你有病。
VR里有个东西叫化身(Avatar),是你在虚拟世界的自我控制的个人形象。“阿凡达”也是这个词,UI界面里“头像”也是这个词。但我今天想说的化身不一定是一个人,它可能是人的局部躯体,比如双手。当这个虚拟键盘上已经有了两个虚拟双手放在那里,这就是你真手的化身。你的真手只需要跟它的关节做一个匹配,然后不管你的真手放在哪里,只要你手指做了按下的动作,你的手指化身也会映射相同动作。所以你不再需要保持固定的打字姿势,设想现在地铁里很拥挤,挤到连抬手看手机的距离都没有。但你佩戴了XR眼镜,你现在双手插在裤兜里,你的手指开始按来按去,是的,你已经在轻办公了。
这个构想其实像前文提到的Tap XR,它如果技术上能实现双手全键盘操作,应该会成为主流的人机交互方式。另外,FRL实验室找残障人士测试过EMG腕带,屏幕中的虚拟手模就像测试者的“幻肢”一样可以灵活操控。所以我认为这个虚拟手模是一定要显示出来了,起码在用户使用早期,先适应了映射关系,然后就可以实现“盲打”。系统可以设置几个显示档位,全虚拟手模显示、只显示手指、完全不显示仅有虚拟键盘。
计算器跟全键盘也是一样的,因为要形成可复用的人机交互范式。设想现在有个算术题要用计算器,用户使用语音唤出眼前的计算器按键布局和虚拟手模,然后在裤兜里按几下,眼前便出现了计算结果。这比低头用手机按计算器会方便很多。
下面构想一下最基础的操作——唤起、选择、确认、返回。首先第一个思路是怎样把电脑和手机上已有的人机交互转化到AR/XR上,因为用户已经熟悉的交互方式不需要学习成本,然后第二个思路才是借助眼动追踪和手指追踪做一些新变化。先来看看有什么值得继承和复用:
Mac电脑有一个触发角功能,你可以定义鼠标移动到屏幕的四个角来触发一些高频操作,比如左上角定义为调度中心,右上角定义为回到桌面,左下角定义为启动launcher,右下角定义为锁屏。你会发现鼠标DPI设置的比较灵敏时,这些触发角会非常好用,我在Mac电脑上每天都在使用这个功能已形成习惯。
实际上眼动追踪是很适合做类似操作的,传感器记录的主要是眼球角度,而且目前眼动追踪技术的精准度已经能够达到0.5度。但眼球视线的落点应该更像一小片区域,而非一个精准的单点。所以要用眼动选择的话,需要把GUI元素做大,元素的间距也做大,否则会造成误触和聚焦疲劳。如果GUI中确实有选择元素较多的情况,则需要手指追踪配合使用。另外眼动追踪还可以配合头部的体感追踪,因为眼球运动时,也会下意识牵连头动,两者配合也是为了更确认用户意图、防止误触。
例如现在有这样一系列操作,看看体验如何:此时想象自己坐在地铁里,想主动发一条微信。轻触眼镜架,开启快捷入口的选择模式;眼前上下左右各出现一个设置好的应用入口,比如上面就是微信入口,眼球向上一扫恢复原位,即可进入微信主界面。主界面里的信息列表,可通过手指上下轻扫选择,选中一条信息轻按确认进入聊天界面。此时虚拟键盘和手模在下部显示,上部显示过往聊天信息。在大腿上活动手指打字,此时聊天信息隐藏,只显示正在输入的文字内容,输入完成后回车确认发送,此时重新显示聊天信息。完成回复后,眼球向左上角一扫,回到主界面,再扫一次,退出微信、眼前界面消失。
以上描述的操作过程还比较基础,不包含发送图片、分享文章之类的操作,但已经可以体会到AR/XR眼镜的人机交互效率,它比禁锢在手机小屏里的体验要好得多。由于时间紧促没有做可视化的demo展示,可能理解起来不够具象,但大概能体会到这种Multi Tracking配合使用的高效。AR/XR的单人日常操作体验,应该不会像某些科幻电影里展示的那样——小臂抬得高高的,伸出一根手指在空中划来划去,点来点去。先阶段的单人操作需要考虑隐私性,而多人操作则需要考虑互动性(这个话题后面再说)。
现在我们回到乔布斯的第3个遗产—— 封闭的软硬件生态系统 。iPhone初代搭载的系统是Mac OS X,X是罗马数字10的意思,从1984年麦金塔电脑开始,Mac系统已经迭代到第10代了。这并不是从零到一重新做了一个系统,而是把Mac OS X做了在手机端的全面适配。别忘了苹果是做PC起家的,2007年 iPhone发布会上,乔布斯才正式宣布苹果公司的名称由 Apple Computer Ins. 改为Apple Ins. 。
网景公司的联合创始人马克·安德森(Marc Andreessen)曾评价乔布斯说:
“Mac、iPhone和iPad其实是把Unix超级计算机装进了一个适合消费者使用的外壳里,这才是苹果的成就,却没有人讨论,因为大家都把目光放在了设计上。你口袋里的iPhone事实上就是20年前售价高达1000万美元的克雷XMP超级计算机,iPhone的操作系统、运算处理速度、数据存储容量都与XMP不相上下,但售价却只要600美元。这是史蒂夫的突破,这才是iPhone的本质。”(节选自《成为乔布斯》的第15章 整机)
从2018年开始,国内手机厂商开始做手机与电脑的协同办公功能,比如多屏协同、锤子科技的TNT显示器。因为国内手机厂商没有PC制造的基础,是智能手机的插班生,所以现在也开始研发一些PC端的产品。而苹果2020年推出了M1芯片,再一次整合了自己的软硬件生态。给用户最直观的体验就是,可以在搭载M1芯片的Mac上下载移动端的APP了。这一次苹果补齐了封闭生态中芯片这一环,可以说成为了目前唯一拥有 自研芯片、操作系统、软件三方生态、硬件多终端设备 的科技公司。
当罗老师做了TNT,希望用手机反向统一PC时;苹果则从自己的老本行Mac入手,正推统一了iPhone和iPad。可能姜还是老的辣,1973年,中国第一台每秒钟运算速度达到100万次的集成电路电子计算机试制成功;同年大洋彼岸,第一台个人计算机奥托也诞生了。所以我们还是要正视差距的。
苹果与Wintel阵营和Android阵营的较量,让用户一直在为他们的价值观站队。乔布斯的完美主义为苹果留下了这个软硬一体化的封闭系统,实际上他的出发点或许是为了体现审美品味,塑造品牌差异化,与同时代的竞争对手划分消费者心智的蛋糕。但在他去世后的十多年里,1984年广告片里的反叛气质也逐渐消失,屠龙少年终成恶龙,失去乔布斯的苹果在推出新产品上总是慢了半拍。就看今年的AR/XR新品将是“十年磨一剑”的跨时代产品,还是江郎才尽的平庸之作。
国内的科技企业虽然没赶上20世纪80年代的PC热潮,但21世纪的前20年里成为移动互联网的重要参与者。接下来20年,将会是AI+AR的时代,Facebook和Apple目前正在AR/XR行业领跑,我们当然可以观望可以减少试错成本,等待他们的产品得到市场验证后再下场。但就怕像iPhone初代发布会一样,乔布斯宣称领先行业5年, 这已经不是18个月能搞定的事 ,到那时,我们要补的功课、要交的学费会更多。
科技带给我们便捷的同时也催生了很多问题,Kay曾提出过“消费和创造应该是对称的”观点,然而今天消费远比创造泛滥得多,很多创造也只是为了迎合消费。除了为自由市场经济创造价值之外,在企业里应该需要一批富有远见的学者,把社会责任、人类演进放在研究首位,产生更多元的长远价值。
Kay在接受采访时对iPhone表达了一些批判性的观点:
“iPhone的计算能力远远超出了我们所需要的。你最终得到的一个有大量信息和关联的设备。这就像电视存在的问题——电视一天24小时播放,看起来像一个完整的世界。它是如此的直接,以至于它把你带入了一个愚蠢的世界。它总是有事情发生,几乎没有一件事是重要的或是有结果的。所以这也是智能手机的问题。”
“事实上,移动电脑已经被证明是一种令人麻木的消费设备——精致的电视——而不是乔布斯所设想的「思维的轮子」(Wheels for the Mind)。”
反思智能手机后期,我们的注意力被消耗在手机这块小屏上,它充斥了我们大部分的碎片时间。车厢、电梯、街道、餐馆,随处可见的低头族脸上泛着蓝光,我们忽略了身边的交流,毫无意识地汲取“奶头乐”信息,我们的颈椎变得僵硬,我们的精神变得冷漠麻木。
XR时代我们要解决好这个问题,让人类回归现实,回归面对面的交流。有了眼前这块无限屏,我们不再需要频繁低头查看手机这块小屏。人跟人面对面的互动将变得有趣,尤其家长和孩子的交流与教学,例如我们可以跟孩子一起操作眼前的立体模型,教孩子如何通关游戏,如何试错与改进策略,培养孩子的空间想象能力。
苹果的前设计师Bret Victor(他在苹果的职位是Human Interface Inventor)曾提出过这样一个构想, 面对面即兴交流时 ,可以就一个抽象概念在空间中画出草图,两人都佩戴XR眼镜(他并未给出技术解决方案,但可联想到用XR眼镜实现),可实时看到该草图模型的状态,并可借助手势操作进行实时编辑修改。这对于头脑风暴讨论方案的场景或给甲方推销展示方案的场景都非常契合。这与他提出的原则也保持一致: 创造者需要对自己创造的东西有实时反馈。 (Creators need an immediate connection to what they're creating.) 实际上,这种场景基本已经实现了,Meta Quest 2的游戏 《方块主义》 (Cubism)支持手势追踪后,这种在AR空间中用手搭建拼图的体验非常流畅。只要加一个多人模式便可实现与孩子的互动玩耍。 我很少看到国内科技公司有关学术的理论研究成果,或许我们有不少技术专家,但我们几乎没有人类学家、社会学家,我们对科学技术的价值评判过于单一、过于狭隘。美国有很多高校开设HCI相关的专业,有系统的教学计划和商业实践,而我们在这方面还基本是一片空白。我们在移动互联网里收益太多,导致我们有大而不倒的幻觉,看看那些钻“政策导向”空子的机构,原本要被竞争淘汰掉的劣币却躲进了“庇护所”。
结语: 回归常识,放眼终局——中国作为最大的试验场将一直存在
讲完了危机的一面,来看看机会的一面。好在中国还有它的先天优势,虽然我们不擅长做从零到一的创新,但我们擅长在一个已确定的品类里做精益创业。我们不擅长领跑,但我们擅长追赶。
举一个国内精益创业最成功的案例——小米。虽然Anroid不是我们发明,但我们可以做ROM。2010年雷军把金山送上市后,创立小米科技。他用了一种互联网的开发方式,先有一个基础MIUI版本发布,然后收集用户反馈,做快速迭代。“橙色星期五”就是在那时诞生的,每周五发布一个新版本,放到现在很多大公司都达不到这么快。如果不是他在做WPS积累的经验,不是“为发烧而生”的热情,不是那本《硅谷之火》,可能就没有这种精益创业的极致玩法。在操作系统方面,我们对易用性的执着迭代是中国式精益创业的最佳实践,iOS和原生Android都赶不上“华米OV”的步伐。再看看我们对硬件的迭代,摄像头像素越来越高,后摄布局越来越复杂,屏幕从全面屏进化到折叠屏,屏幕形状从刘海屏改进为挖孔屏。我们在细节和品质上的追求,远比乔布斯更死磕。
我们另外一个优势就是14亿人口规模的消费市场。未来AR/XR的智能终端革命,将是一场跟线下实体经济紧密相连的革命。不管AR、VR、MR还是XR,都有一个Reality,这次智能终端的跃迁不会再局限于小小的屏幕里,它一定会回归现实,让现实更有趣。我们的学校、公司、商超、体验店、博物馆、游乐园,将遍布AR相关的信息建设,广告行业也将发生深远的变革。在未来,AR/XR科技公司、线下第三方运营商、用户需要达成三赢的利益关系链,这个市场才会做大,而中国天生就有这样的土壤。
iTunes音乐商店改变了唱片行业。2000年左右,人们开始下载音乐到MP3,P2P的互联网分享精神改变了人们的听歌方式。iPod的横空出世也加速了盗版音乐的传播。最终乔布斯与BMG、华纳、索尼在内的“五大唱片”公司谈判,iTunes收取20%佣金,以每首歌0.79美元的价格售卖。这次谈判达成了三赢局面,苹果、唱片公司和音乐人、用户,改变了音乐行业的生态。
App Store应用商店改变了移动应用的发行方式。2008年,苹果公开了iPhone的SDK,为第三方应用的开发打开大门,同年第二代iPhone 3G版发布,正式预装搭载了App Store。PC时代,软件还是靠CD实体销售或者线上激活码方式发行的,像微软和Adobe都是靠这种终身买断制来销售的。而到了移动互联网时代,第三方开发者接受App Store的审核并上架,平台抽取30%佣金,用户直接在App Store下载各种免费或付费应用,彻底改变了PC时代的开发和发售模式。这也是一场三赢局面,苹果、开发者、用户,三方受益,苹果的软件生态从此确立。
到了AR/XR时代,我们的线下商超将发生本质变化,广告再也不是那些狗皮膏药一样的banner,戴上AR眼镜你将看到一个精美的三维立体广告世界(当然也要警惕视觉污染)。周末带孩子去游乐园也不只是观看实体的部分,那些虚实结合的IP形象将带给孩子一个更广阔的卡通世界。走进超市,只要打开商品解析模式,就可以看到每个产品的视频广告或使用说明……那将是一个比现实更丰富、更便捷的世界。中国的建筑密度和人口密度造就了AR/XR天然的试验场,如果这个产业做好了将持续带动旅游业的发展,可能会有大量的“赛博朋克爱好者”来到中国的北京、上海、深圳、成都、重庆、西安,去领略城市的独有风光。
实际上我们仅仅才经历了2个消费级终端设备时代,2G到3G的PC时代经历了50年,3G到4G的智能手机时代经历了10多年,4G到5G的AR/XR时代会经历多少年,这个确实还没有定论。但就像赛博朋克祖师爷威廉·吉布森(William Gibson)所说:“ 未来已来,只是分布不均。 ”(The future was already there, but just not distributed evenly.)
最后讲一下我写这篇文章所用的一个“思维轮子”: 回归常识,放眼终局。
“回归常识”是指我们要从历史出发,研究历史上的关键事件背后的成因,试图总结成功与失败的规律。用已知的常识推导出未知的未来——如果想要推动历史进程的发展,则需要满足哪些条件才会发生。
“放眼终局”是指我们可以大胆设想未来生活方式的实际情况,用终局思维勾勒出一幅逼真的科幻全景图,尽可能地还原细节、陈述事实。把未来当做现实,倒推回当下——如果想要一步一步走到未来,则需要做出怎样的路径选择,点亮科技树上的哪些节点。
AR/XR还处在探索阶段,我们前期的这些探索和试错,都是为了给人类提供更恰当的生活方式。如果我们的自我驱动仅仅是制造一个几十亿的新智能终端消费市场,这种愿景未免还是有点单薄了。
评论区
共 13 条评论热门最新