微软的诱人新软件

2008年5月21日 | 作者: 麦金太尔(Jeffrey Macintyre) | 栏目: 特别报告

62.JPG

去年3月,美国加州蒙特里市举办了“科技、娱乐、设计大会”(TED),它是一个高层峰会,被称为“数字世界的达沃斯”。
来自微软的软件设计师用平和的语调开始了他的产品示范,并引导观众快速观看了大屏幕上展示的众多图像。他利用Seadragon这一技术,稳定、快速地展示大型的成组文字和图像资料,毫不费力地打开了一幅300兆像素的地图,并放大展现了地图一角的国会图书馆的日期印章;之后,他又放大了一张图像,直到两个曲边排版字符占满屏幕。那张图像看起来象条码,实际上它是狄更斯(Charles Dickens)的《荒凉山庄》(Bleak House)的全文;接着又迅速、轻松地缩回到了密密麻麻的文字和图像。

微软在2007年就获得了Seadragon技术。该技术的设计者阿卡斯(Blaise Agueray Arcas)也随之进入了微软。但阿卡斯参加TED大会不仅仅是为了炫耀Seadragon技术。接下来,他将画面切换到了一组由加拿大落基山脉照片拼接而成的全景镜头;当光标移向这些方块形的小图片时,图片开始移动,显露出一座巨大的山脊线。紧接着,出现了一幢熟悉的建筑物模型鸟瞰图──圣母大教堂。阿卡斯解释说,这座模型是用数百张来自Flickr网站的独立图片拼接而成的。这就是“点云”(Point Cloud),一组三维空间中的点。
阿卡斯边说边卖弄地浏览着圣母大教堂周围的景象。这些景象时而放大到纤毫毕见,时而又缩小到模糊不清。画面和焦点的快速移动所产生的效果被细微的瞬变效果所柔化,感觉好象是在特意用慢镜头播放着一幅幅动画,效果非常震撼。观众们惊奇地看着阿卡斯将镜头推进了建筑物拱门的正面图像,而最后,又把镜头定格在建筑物怪兽的雕饰上。严格来说,这项技术中画出的一些图像根本不是照片:它在Flickr网站中搜索到了所有的相关图像,包括教堂的海报画。阿卡斯所展示的这些并非录像,但也不仅仅是一组照片集或大型相片集。它如同一幅地图,一幅因其梦幻般模糊形状与变幻景观而显得生气勃勃的巨大地图。 这就是Photosynth,一种分析相关的图像、并把它们连接在一起、以在耀眼的虚拟空间内重建物理环境的技术。阿卡斯表示,该科技创造了一个“虚拟世界”(Metaverse),但也造就了Virtual Earth的“长尾”。Virtual Earth是微软用来与谷歌竞争的武器,因为它能够汲取和贡献它在线所得到的大量本地绘图和图像数据。阿卡斯说,它可以提供“地球各有趣部分的、极其丰富的虚拟模型,而这些模型不仅来自于空中的拍摄图、卫星图等,也有来自集体的记忆”。
此时,展示结束了,宛如6分钟前开始展示时一样的突然。阿卡斯的结束语得到了雷鸣般的掌声。
不仅是图像拼接

 

阿卡斯把Photosynth的诞生称作是Seadragon与PhotoTourism的结合,它是一个试图对成组照片打包及显示方法进行改进的微软项目。Photo Tourism最初来自美国华盛顿大学的研究生斯纳维利(Noah Snavely)所写的一篇博士论文,当时他年仅26岁,充满了激情。斯纳维利的指导老师之一是斯泽里斯基(Rick Szeliski),微软研究中心的电脑图像研究员,是公司搞研究与开发的主力。斯泽里斯基之前在微软的工作是协助研发图像合成技术,如今,该技术已被普遍应用于取景更广、更远的数码相机中了。他回忆道:“我把幻灯片中功能强大的优良要素的需求展现出来,例如合成效果。”同时,斯泽里斯基努力寻求图像之间的流体效果以及观看图像时的互动感觉。

在与斯泽里斯基和美国华盛顿大学教授赛兹(Steve Seitz)的合作期间,斯纳维利主要致力于研发一套编码方法,以超越在计算上的严峻挑战——如何通过图像之间的相似性,把它们合并为一个可被肉眼识别为真实世界景物的物理三维模型,而且该模型应由用户进行空间操纵和体验。根据图像被选取的顺序,被用于数码相机等电子装置的现有图像拼接软件能够识别如何在一组图像之间推断出它们的关系。但是,斯纳维利试图
要开发出一种有可能用截然不同的方法对其进行评估的软件。他设计了一种两阶段式程序。他说:“在第一阶段,我们在所有的二维图像中选好定点,然后试图在这些不同的图像中找出哪些点与三维图像中的点相对应。”

斯纳维利说:“这个程序被称作为‘运动结构’。一架运动照相机基本上可推导出三维结构。你可通过前后移动自己的头部来调整视觉,以便更清楚地了解你所看到的景物的三维结构了。这是一样的道理。试着闭上一只眼睛,将头从一侧摆到另一侧,此时你可以看到在不同距离中的不同点所做出的不同的运动。这就是运动结构的基本概念。”

正如阿卡斯解释的那样,计算机视觉的成立得益于一个简单的事实:所有的空间数据都是可以量化的。他说:“空间中的每个点都只有三度的自由,即x、y和z。”他还补充说,某些具有同样特征的照片也可用相同的方法进行处理。例如,一块形状独特的铺路石可能在其他图片中重复出现。当软件识别出其相似性,即一张图片中的某块石头也出现在另一张图片中时,电脑便由此去查找出它们相似性。因此,在比对视觉要素的基础上,图像进行归类的过程就可以搜集到细小的信息,直至整条路径能够由那些铺路石重新生成。系统搜集到的图像越多,其结果就越接近真实,特别是当原始图片从各个角度、各个视角采集而来时,就更是如此了。

斯纳维利表示,这是因为第二步演算过程是要把从不同角度拍摄的、具有共同特征的图像进行对比。他说:“最终,第一个步骤推动了第二个步骤,并告诉我们,照相机应该放在哪里。我们由此可以重现每张照片拍摄时的视角。这样,当用户在选择照片时,就象被带到了拍摄照片的那个视角一样。” 该软件通过给每一张照片设定一个视角,即计算出拍摄该照片时照相机的所在位置,可以模拟出望远镜的视觉原理,从而产生三维效果。

然而,正象斯泽里斯基所知道的那样,人的视觉是最为挑剔的。于是,他与他的两个同事开始不仅仅满足于将小部分的图片拼合成大的整体图了,他们要研究其过渡效果,以使图像拼接得尽可能是天衣无缝。他们提炼出的技术包括渐隐或渐现的效果,这是电影和电视的编辑们合成图像时的常用方法。

在一次展示意大利幸福喷泉的演示中,Photo Tourism达到了Photosynth的效果,但相比之下又显得较为夸张和原始:一组在同一地点以不同视角拍摄的图像聚集而成的点云。更令人印象深刻的是,根据描述性的标签,该软件可自由浏览从Flickr中下载的大量图像,当然,那些是一些不以创建模型为目的的照片。据斯泽里斯基回忆,即使以老手的眼光来看,结果也“非常惊人、非常有新意”。

斯泽里斯基说:“我们发现的是一种新的浏览照片集的方法,即一种互动式的幻灯片。我觉得,Photo Tourism无论对于内行还是外行,都极具震撼力。但内行却震惊于其使用时的便利性。”他认为,外行也可能根本就不相信这是真的。

然而,Photo Tourism应用软件仍然是前途未卜。虽然Photo Tourism是科技上的一大创新,但要在Linux中被开发出来,并达到可在Windows上运行,这仍然只算是一个雏形,进一步开发该产品的道路仍不明朗。

2006年的春季,当斯纳维利在微软内部工作室展示PhotoTourism时,当时还是新员工的阿卡斯走了过去,并仔细地观看了展示。那时,他的Seadragon公司被收购时,他才刚进公司不久。在此之前,他的公司开发了一个软件应用程序,他将之称为“图像的三维虚拟内存管理器”。Seadragon的魅力在于它具有能让用户装载、浏览和操控数量惊人的图像信息的能力,而它杰出的技术成果就是通过网络实现上述功能的(但
Photosynth对来自Flickr等网站的图像进行编辑的能力是源于Photo Tourism的技术)。
就在当天,阿卡斯和斯纳维利开始交谈。到了2006年的夏季,展示开始了。最终开发出的混合产品──部分是PhotoTourism,部分是Seadragon──将一大堆相似的图片(照片或插图)整合起来,编入到三维的实景图像模型中。它甚至在二维照片的结合处也能呈现出三维的视觉效果。每张独立的图片都复制得非常逼真,但是在图片之间的过渡部分,Photosynth插入了明显的空隙,使照片集感觉不象是广角图像的一部分;同时,“合成”后的模型不仅是真实景物的图像模拟,而且还具有很强的可浏览性。正如斯纳维利所解释的,“其主要的浏览方式是通过点击控制鼠标,选定下一张要访问的图片,此时系统会自动将三维视点转移到那个新的位置,就好象眼睛在转动时的情景一样。”该软件可以从任何可行的角度进行浏览重新生成的图像主题。

Photosynth惊人的技术成果就象魔术师从帽子里变出了白兔一样──它以二维照片为媒介,生成了栩栩如生的三维界面。埃弗洛斯(Alexei A. Efros)是美国卡内基梅隆大学的教授,专攻“电脑视觉”。他说:“这真是点石成金。”埃弗洛斯解释说,其诀窍在于照片的数量,“当你获得越来越多的数据时,其数量就会转化为质量。而当数据多得惊人时,它开始告诉你一些你以前并不知道的事情。”由于模式识别、索引和元数据技术的发展,因此电脑推导出了三维图像。埃弗洛斯希望,要不了多久,“视觉如同现在的人类一样,将成为电脑的主要感知仪器”。

产品的未来

微软在Photosynth方面的工作是该公司“百强人才Live实验室”战略的一个绝佳例子。Live实验室一方面做着繁重的网络工作,另一方面则是一些不适合创业的电脑书呆子的招收基地。弗雷克(Gary Flake)是一位40岁的技术研究员,也是Live实验室的创建者和主任。他说,Live实验室的目的之一是向“人们对微软的定位发起挑战”。它最直接的目标是要将网络技术推向市场。说起Live实验室的文化定位,弗雷克显得干劲十足。他表示,要在科学研究与产品工程学之间架起一座桥梁。弗雷克将其描述为整个行业内的挑战。他曾就职于多家研究机构,这其中包括他参与组建和运行的NEC研究院和雅虎研究实验室。他解释说,在Live实验室,“我们有审慎的套期保值证券,还有一个其中包含了40个不同项目的、非常有意义的混合体。”

弗雷克不愿详谈他的那些项目,但他却兴奋地谈到了他的目标──在引进人材的同时,“也引进更多的DNA项目”。他说:“我们希望创造并改进因特网的产品和服务。”但他还充满激情地将Live实验室的员工们比喻为“人类的罗塞塔石碑”。在研发领域,工程人员和科学家分别使用不同的“语言”进行交流,而他们可以在该领域充当“翻译”。弗雷克表示,Photosynth项目概括了这种成功,即他想通过他的努力,达到弥补科学与产品工程之间的传统差距的目标,它“代表了这一科学艺术的顶尖平”。

目前,人们只能通过在线展示就能看到Photosynth,但阿卡斯的团队则希望能在当年底之前推出该款产品。对于想利用这一技术来实现什么目的人而言,我们仍需拭目以待。点云至少可由2到3张图片构成,所以也可以想象,用户如何建造他们自己相对简单的图片库,如一次到拉什莫尔山的家庭旅游。(当然,拥有Photosynth的人们可在特定的地点多拍摄一些照片,以使自己图片库里的资料更为丰富。)用户也可以利用事先已下载到本地电脑中的在线图片资料馆,进而创建出他们自己丰富的图片库网址。

但如今,Photosynth主要是一种希望,还未成为现实。它是否很容易使用,其功能到底如何,这些都是我们将面临的技术问题。同时,虽然Photo Tourism源于Linux系统,但在可预见的将来,Photosynth仍然只能用于Windows系统。

尽管Photosynth有直接的吸引力,但对于它的应用仍不明朗。世界不再需要另一个图像浏览器了,哪怕是它具有非凡的能力。而且,让用户花钱购买Photosynth的当前版本似乎又不太可能。同时,Photosynth能否广开财路,这还取决于它能否建立广泛的用户群。它能否象Google Earth那样为用户开辟一些新的应用领域。更重要的是,微软最终推出的这一产品是否具有足够的吸引力,能让那些客户群放弃原有的选择。

弗雷克报告说,Photosynth团队已开发了它的十几种潜在用途,其中有两种看来是可行的。

一种是把它与微软的Virtual Earth更全面地结合起来,让它成为用户可用来进一步缩放的一种工具。Virtual Earth可以处理地形及飞行摄影方面的问题,而Photosynth则是综合了大量的地面摄影材料。引用阿卡斯在TED大会中发言中的一句话说,“这两种应用程序可能会产生一种轻量级的‘虚拟世界’”。

注意到Photosynth对建筑物与城市广场的简洁应用后,华盛顿大学的赛兹还幻想进行“大规模的扩张”。他说:“我们要捕捉整个城市。”因此,2007年8月,在拉斯维加斯举办的Defcon年度黑客会议上,阿卡斯和微软Virtual Earth项目的总经理罗勒尔(Stephen Lawler)宣布,他们正在策划合作的事宜。赛兹表示,一旦克服了某些小的技术障碍,“就没有任何事情可以阻止我们为城市建造数字模型了。”

当人们创建和储存更多数量的数字媒体时,Photosynth甚至还能让用户“实况播放”他们的家庭相册。弗雷克说:“想象一下,你只需要用你的照片集就可以在家中目睹自家孩子的成长过程了。”

随着这类想法的日渐成熟,Photosynth团队再也按捺不住了。2007年夏天,科研人员公布了一项与美国国家航空航天局合作开发的在线展示程序。目前,他们正在与美国喷气推进实验室合作,对火星表面进行局部影像合成。

让人们感到奇怪的是,微软资助这类奇怪的项目究竟会到什么样的程度。然而,正如阿卡斯和弗雷克也反问的那样:人们对这类科技成果会报以多大的认同?总之,Photosynth的市场前景似乎不容乐观,而且似乎还缺乏整体竞争力。

 

麦金太尔是一位自由撰稿人,其撰稿范围广泛,涉及文化、科学与技术等领域。




 打印本文  打印本文


特别报告中的其他文章

相关评论