您现在的位置:检察风云>> 新视点>> 司法科技

新传输技术让Wi-Fi上网快10倍/人工智能使读唇越来越精准

新传输技术让Wi-Fi上网快10

文·图/忠东

 

Wi-Fi网络的“频谱危机”

Wi-Fi是一种允许电子设备连接到一个WLAN(无线局域网)的技术。连接到WLAN通常是有密码保护的,但也可以是开放的,这样就允许任何在WLAN范围内的设备可以连接上。

随着移动互联网技术的快速兴起,人们在移动端使用Wi-Fi上网,已成为主要的休闲和工作方式。出门在外,大家会习惯于查看公共场合是否有免费的Wi-Fi可以接入。在演唱会、机场、大型会议厅或体育场等人流密集的宽广区域,往往安装了大量提供大家上网的无线路由器。然而这么多的路由器往往会互相产生干扰,加上大量设备的密集接入和访问需求,使得Wi-Fi网络往往不是被卡住就是速度缓慢。所出现的这种现象被业内称之为“频谱危机”,也就是说这些拥挤的场所无法为每个用户提供他们所需的无线频谱,以至于无法保证数据传输的速度,致使上网者的体验非常糟糕。

然而在不久的将来,这种状况可望改善。美国麻省理工学院计算机科学和人工智能实验室的一个研究团队在最近发表的一篇题为《实时分布式多输入/多输出系统》的研究论文中,表示已经找到了解决方案。他们宣布设计了一套名叫“MegaMIMO2.0”的系统,能够使得无线路由器在人流大规模聚集的地方无缝协作,避免同频率之间的无线干扰。通过对网络管理系统的调整和改进,让Wi-Fi信号在不同频率同时发送,从而确保无线网络的上网速度增加10倍,网络数据的发送变得更加高效。

“由于频谱的稀缺,提高无线网络承载力的唯一途径是增添更多的无线接入点,并且使用某种分布式的MIMO方案。然而这种工作方式能否被实际应用,一直饱受争议。”斯坦福大学的计算机科学家萨钦·卡蒂说。

 

“MegaMIMO 2.0”

作为一套分布式MIMO,由4个独立接收器组成的“MegaMIMO 2.0”系统是一款数据传输软件,大小跟一个标准的无线路由差不多。MIT研究人员研发出新的信号处理算法,能够处理路由器的信号,调节它们的活动,从而避免了在同一时间、同一频率发送信号的情况。消除了这一干扰,区域内的无线网络就能够更加高效地运作。在传统点对点MIMO系统中,发射器之间是在未经协调的情况下运行的,产生的干扰往往使得实际效率只有25%左右。而通过协调4个独立的接收器,“MegaMIMO 2.0”系统可将吞吐量提升至3.6倍。考虑到干扰会随着信源数量的增长而成倍增加,这套系统的效益也会更加明显。

研究人员在一个移动设备密集房间的测试结果证实,与传统的无线网络相比,“MegaMIMO 2.0”传输技术传输速率增加了360%。通过无线频段之间的相互联系,解决了Wi-Fi网络在大量设备同时接入时的干扰问题。在网络覆盖的边缘地带,为移动设备提供更好的上网速度和更强的无线信号。即使是在大型活动场合的拥挤网络中,相同频段的网络数据仍然可以自由传播,迅速与世界连接。

第一代的MIMO是能有一名用户、一个路由连接到一台移动设备,被称为Wave 2的下一个迭代可让多个路由连接到多名用户。“MegaMIMO 2.0”的到来对于物联网、AR、VR尤为重要。更多的设备意味着更多的带宽,而这正是MIMO所能提供的。

“由于无线频谱属于稀缺资源,网络拥堵现象只会越来越严重。‘MegaMIMO 2.0’系统的重要意义在于,即使在拥塞的网络中也能大幅提升数据传输速度。目前,研究团队正在想办法让这项新技术商业化。我们还创建了自己的MegaMIMO公司,并与相关组织接洽推广这项新技术。”参与研究的科学家伊泽丁·侯赛因·哈米德展望道,“相信在不久的未来,我们就能在音乐厅、体育场、购物中心等人流密集的地方畅快上网。”

 

 

人工智能使读唇越来越精准

文·图/李忠东

 

读唇破案匪夷所思

读唇术是一种以视觉代替听觉的高超技能,在隔绝说话者话音的情况下,会读唇术的人依靠观看他们说话时的嘴唇动作,就能解读所说的内容。在国际上,读唇已经成为媒体爆料和案件举证的重要来源之一。

此前,英国皇家检察院雇佣著名的“读唇女王”杰西卡·里斯为英国唯一的官方读唇证人。她能够根据英国警方用监控摄像机偷拍下来的嫌犯录像,用读唇翻译出录像带中嫌犯的对话,提供至关紧要的证据。这位英国获得认可的唯一“无声证人”一度被视为该国司法界的“奇迹武器”,帮助法庭将至少包括谋杀犯、武装抢劫犯、恐怖分子和毒品大亨等在内的30名罪犯定罪关入监狱,其中5名是英国2002年“零证据”最大劫钞案(案值650万英镑)的罪犯。

杰西卡自幼失聪,却能通过读唇术理解别人的话语。她阅读唇语的能力如此娴熟高超,往往让人们很难发现是一位耳聋患者。在这位唇语解读者的视线之内,没有什么秘密可言。无论怎样的对话场景,哪怕是录像带中人的脸没有正对着摄像机,只要看到了对方的部分嘴唇,也能够通过读唇术破译出来。杰西卡从侧面、上面和下面各个角度,即使隔着40~50米远,也可以根据说话人的嘴唇动作读懂他们的话语内容,甚至连方言也难不倒她。

然而读唇这种独特的技艺学习起来非常困难,因为它对于语言语境和知识理解要求非常高。测试实验发现,大部分人在别人说话时,通过观看后者的嘴唇动作,只能辨别出10%的单词,即便是所谓的唇语专家,准确识别率也不够理想。像杰西卡这样的读唇术天才,真是凤毛麟角。

然而研究人员称,通过获取大量数据来寻找“共同点”的人工智能(Artificial Intelligence,以下简称AI)技术,能够大大提升音频语言的识别度,使读唇越来越精准,达到跟“面对面”对话一样的程度。

 

最近,谷歌旗下DeepMind AI团队与英国牛津大学合作,开发出迄今为止全球最先进最准确的AI“读唇”软件。为了实现超过人类读唇能力的目标,研究人员选取了BBC2010 年1月~2015 年12 月间的一系列电视节目,其中包括“新闻之夜”“英伦早晨”“提问时间”和“今日世界”等,然后上传到一个神经网络上,对其“读唇”软件进行训练,即根据主播嘴部运动来识别其播报内容。

Deep Mind团队发现,人们在观看视频时,如果里面主人公说话的口型与声音不吻合,就会觉得很不舒服。这是音视频流不一致造成的结果。音视频流包括视频流与音频流,其中前者指视频数据的传输,后者指控制“数据流”同步类型音频的输出质量。为此,研究人员先让计算机学会完全同步的音视频流,掌握发音与唇形间的关联,进而自行推断音视频流中哪些画面是不同步的,再进行自动修正,从而避免了视频流与音频流不同步的障碍。

据统计,将选取的BBC所有的视频资料加起来,约有 11.8 万句话和1.75万个不同的单词。在经过了大约5000个小时的训练之后,掌握了读唇技术的AI“读唇”软件正式开启了读唇功能。在后来进行的读唇对比测试中,从2016 年3 月~9 月的节目库中随机选取出 200 种说话场景,要求对电视节目嘉宾进行唇语解读。结果很令人震惊,AI“读唇”软件的完全准确率为46.8%,而专业的唇语专家在接受同样的测试时准确率仅为12.4%。它不仅迅速掌握了读唇术,而且还比唇读专家做得好,一些媒体将其评为2016年10大科技之一。

不久前,牛津大学AI实验室的研究人员也使用深度学习技术,开发出了一种名为“LipNet”的AI“读唇”软件。在将视频中人物的嘴部运动与其台词进行匹配时,它的“表现”远远胜过了唇语解读者。虽然现在还处在初期阶段,但这款软件几乎达到了一种能够“实时”将静音视频转化为文本脚本的处理速度。

研究人员选用了一组数据库,用它对“LipNet”AI“读唇”软件进行训练和测试。测试中,研究人员收集了来自34名志愿者事先录制好的短视频。在视频中,他们读取的是一些“毫无意义”的句子(比如插图说明)。每个短视频只有3秒长,并且每个句子都采用非常简单的句式结构:命令动词+颜色+介词+字母+数字+副词,没有任何复杂的事件背景可言,测试视频当中的特殊词汇只有51个。但从事这项研究的科学家雅尼斯·阿萨尔指出:“‘LipNet’AI‘读唇’软件的测试结果令人满意,能够在更大的数据库中表现出色。”

 这款“读唇”软件可以帮助那些听力受损的人群,尤其是在一个比较吵闹的环境(也就是计算机很难分离出噪音的环境)。他们可以佩戴内置摄像头的眼镜,在参加聚会的时候清楚地拍摄到目标人物说话时嘴唇动作,接着使用这款软件来实时将嘴唇“语言”翻译成文本,然后再将其语音传输到佩戴者耳朵中。“未来,或许我们就不敢对着自己的电脑讲话了。”另一位研究人员布兰登·席林福德表示,“原因很简单,它们可能会读懂我们说的内容。”

AI业内专家高度评价说,谷歌AI“读唇”软件绝对是构建全自动读唇系统的第一步,现有的各类庞大数据库完全可以支持深度学习技术的发展。“AI唇读技术非常实用,大有作为,例如可以使助听器变得更智能。”牛津大学里普耐特研究团队的阿萨埃尔教授展望道,“此外,AI技术还能够应用于外交和破案等领域,在普及之后甚至可能改变人们的生活,像注释电影或者利用唇部动作与Siri(苹果公司在其产品iPhone4S,iPad 3及以上版本手机上应用的一项语音控制功能)这样的数字助理进行沟通。”

人们对DeepMind团队的研究成果并不陌生,他们开发的AI程序AlphaGo (一款围棋AI程序,) 2016年3月以总比分4:1大胜围棋世界冠军李世石曾经轰动世界,充分显示了AI逐渐壮大的能力,让人类不容小觑。DeepMind 原是一间专门研发AI的公司,自2011年成立以来一直专注于研究解决AI问题。它所拥有的天才团队和未来发展性是谷歌决定在 2014 年以4亿英镑收购的主要原因之一,最后成为 Alphabet 旗下的一员。DeepMind 发展AI的脚步没有因为人事变动而趋缓,接连研发能让电脑有记忆和AlphaGo等突破性技术。

现在 DeepMind 又赋予了AI新的能力,让它能够自动从其记忆中学习,使读唇越来越精准。这种命名为“可区分神经电脑”(DNC)的AI系统会将一些相连的事实组织起来去解决问题,表明AI系统能在人类未教导它们所有可行解决办法的情况下,直接对其问题给予答复。AlphaGo 在与李世石对战时,需要人类主动给予其超过3000万种的下棋方式,而若能将DNC的相关技术应用至 AlphaGo 上,则能让它自行完成其他更加复杂的任务。这样的新突破其实是建立起神经网络的概念,它能模仿人类思考的模式,也是对于想让电脑透过记忆来学习找答案的一种非常好的机器学习应用。                    


作者: 来源:2017-7 发布时间:2017年05月02日

■本刊已被《中国期刊全文数据库》、《万方中国数字化期刊群》、《龙源期刊网》、《汉王书城》收录,作者文章著作权使用费已随本刊稿酬一起给付。如作者不同意文章被收录,请在来稿时向本刊声明。 ■本刊反对一稿多投,凡属一稿多投者,一经发现,将停发稿酬。本网所有文章、图片若需转载必须注明来源,违者必究。 ■欢迎读者对本刊印刷、装订质量进行监督,凡发现本刊有印刷、装订质量问题,请致电021-64723180本刊发行部,本社将给予奖励并负责调换。 ■监督电话:021-61851212
上一篇:百步穿杨的狙击技术[ 03-14 ]下一篇:没有了!
  相关信息
没有相关内容