展会信息港展会大全

语音识别的未来 用AI控制属于你的“数字双胞胎”
来源:互联网   发布日期:2019-05-13 13:22:54   浏览:34232次  

导读:语音命令是与电子设备互动的一种更自然的方式,尤其是无需笨拙的拨弄按钮和触控屏幕。最近几年以来,语音助手的普及程度突飞猛进,现在我们几乎所有能想到的家用智能设备都已经可以使用语音助手来控制。 而现在一家名叫XMOS公司的努力使这种技术的进一步增长...

语音命令是与电子设备互动的一种更自然的方式,尤其是无需笨拙的拨弄按钮和触控屏幕。最近几年以来,语音助手的普及程度突飞猛进,现在我们几乎所有能想到的家用智能设备都已经可以使用语音助手来控制。

而现在一家名叫XMOS公司的努力使这种技术的进一步增长成为可能。也许你这个名字可能不太熟悉,但如果你曾经使用过亚马逊Echo智能音箱,那么就从这种技术中受益过。

XMOS是一家专注于语音处理的无晶圆片半导体公司,它的算法能够检测整个房间的轻声语音指令,即使是在非常有挑战性的条件下(比如有很多杂物或墙壁的房间里)。那么,为什么语音技术进步得如此之快呢?

XMOS算法工程师亚历克斯克拉辛(Alex Craciun)表示:“我认为是语音技术让生活变得更容易。你不必处理那么多消息和复杂的指令。我们要做的只需要给出命令,设备就可以自己进行优化,或者告诉你想要的东西,这就简单多了。”

该公司营销总监Esther Connock补充说:“语音技术可以帮助我的服务,我们认为语音命令会让一切变得简单,因为这种技术会告诉你它是如何工作的。它不需要遥控器、也不需要带说明书,我们只需要用一种非常自然的方式进行对话和与它交谈,这对我们来说是技术的民主化,因为你不需要花费太多的时间成本去学习如何使用它,同时你也不需要带着一定的知识储备去做。”

“所以,如果想想那些文化水平或受教育程度比较低的用户,突然之间就会意识到这是一个更加开放的竞争环境。社会的弱势群体可以利用这种技术减少孤立感。所以对我们来说,声音是世界上最自然的东西。”

有助于聊天

XMOS是来自英国布里斯托尔蓬勃市发展的科技产业的一部分,由该市的两所大学联合发展而来,这两所大学还包括Ultrahaptics(利用超声波在空中制造触觉反馈)、Reach Robotics (Mekamon增强现实机器人的创造者)和Graphcore (XMOS的子公司)。

该构件将英飞凌的雷达和硅麦克风传感器与XMOS 的音频处理器相结合,通过音频波束成形和雷达目标位置检测进行远场语音识别。这些器件融合在一起能够实现最优语音识别,并能实现语音控制设备的完美执行。目标应用主要包括智能家居、智能电视和机顶盒、安全无钥匙进入系统和其他声控消费电子设备。

当前MEMS麦克风的性能会限制系统的有效性:在多人语音时,声源的真实性和位置不能被准确识别,而且无法与无生命体噪音分离。英飞凌带有天线的60 GHz 2Tx/4Rx雷达IC和70dB SNR麦克风可以帮助克服这些问题。该麦克风基于英飞凌的双背极MEMS技术,十分适合远场语音捕获和波束成形。此外,麦克风信噪比的优化将进一步提升性能。

XMOS音频处理器分析来自英飞凌数字麦克风阵列的信号数据,调整每个麦克风的角度和距离数据,以雷达数据确定的角度形成声束。LED灯指示在场检测和声源位置。

英飞凌雷达与XMOS 波束成形器的结合有助于麦克风准确地瞄准具体目标,即使目标在移动或有微弱噪音。与现有声控系统相比,该麦克风可提供卓越的用户体验,同时明确理解指令和实现完美执行,防止设备意外启动。

其语音检测和隔离技术包括波束形成(跟踪一个人的声音、他们所处的空间以及自动跟着他们的麦克风移动)、声学回声取消(分离用户的声音从声音播放的设备本身)和补偿回波、噪声抑制、停止音频播放设备的检测到唤醒语以及固定或自动增益控制(确保电话会议中的所有声音都能以相同的音量听到,不管对方说话的声音有多大)。

该公司成立于2005年,以布里斯托尔大学的研究为基矗“他们开发了一种微控制器,可以做很多处理,并且有很多功率和能力可选,可以同时执行很多任务,”康诺克解释说,“这非常令人兴奋。”

2008年,苹果决定关闭FireWire接口,这一决定彻底打开了USB音频市场,XMOS开始在这个市场找到了自己的定位。该公司进行了多元化经营,为哈曼卡顿(Harmon Kardon)和雅马哈(Yamaha)等大公司工作,也为拥有混音平台的DJ等小客户服务,然后转向多通道音频平台。

康诺克解释说:“有了一块处理能力很强的电路板,我们可以产生多达32通道的输出能力,这样我们就可以得到非常棒的多通道音频效果。这种声音和音频的专长在声音开始出现时就把我们引入了这项技术。我们的一位客户表示,凭借你所有的专业知识,就应该考虑使用麦克风和捕捉声音技术,而这正是我们所做的事情。”

2017年,XMOS凭借其远场语音接口技术获得亚马逊的青睐。康诺克说:“我们仍然是亚马逊唯一有资格的立体声解决方案合作伙伴,所以对于任何开发电视、音条和机顶盒类产品,并在真正的立体声系统中工作的客户来说,我们是唯一能够在立体声系统中消除杂音的技术供应商。这对我们来说真的很重要,也是我们今年在CES上重点关注的事情。同时我们也刚刚通过了百度的测试,这非常令人兴奋,我们另外也在与NTT Docomo合作,总体来说,我们正在全球各个地区扩张。”

户外音频技术

XMOS目前专注于房间边缘语音应用,但该公司也在研究其他领域,包括车内语音接口。

“我们在波士顿开发了一种新技术:声源分离,可以在对话中提取多种声音,这非常适合汽车环境,”康诺克说。“所以,如果你能想象我可以给你打电话时,即使我在开车,系统会把你能听到的一切杂音都去掉,只保留我的声音。孩子们可以在后面大喊大叫,他们也可以正在看一部在线流媒体电影,但对方能听到的只有我的声音。”

该公司还对语音技术的未来做出了一个有趣的预测:作为一名个人语音助理(内置到灵活的、可穿戴的智能手机中),它将介于我们现有和目前的大公司提供的语音识别服务之间。

“如果我看看亚马逊和谷歌(从某种程度上说,还有苹果和Apple Music),他们都有一种目的,就是他们想卖给我们东西。我更喜欢亚马逊卖给我的东西,但我不想要的是语音垃圾邮件,一旦这种东西开始出现,会导致用户远离语音技术。”

这种解决方案是一种中间地带,可以过滤掉任何垃圾邮件,并指向具有最相关内容的服务(它将根据用户的喜好通过人工智能技术学习这些内容)。

数字版的双胞胎

这不仅仅是一种理论,XMOS已经在实际中通过对话来来实现它。“这将很快发生,”康诺克说,“所以我们正在考虑合作、完善、购买,以创建那种生态系统。”所以这里面有很多我们认识的很多人在这个领域工作。它是开放的,已经准备好了,我们想要利用它。”

据康诺克介绍,这将导致公司创造出一位“数字双胞胎”,她承认这个词听起来有点矫情,但很贴切。它会学习并适应用户使用它的方式。例如,它会知道你不想让它跟你说话,除非你先开口。

“它不仅能了解我对音乐的喜好,还能了解我对所有事物的喜好。当我想要沟通的时候,我会优先和我的朋友们交谈,包括一切在内。”

交流更自然

然而,即使有一个真正的个人助理来过滤任何垃圾邮件,语音识别技术仍然面临一些阻力。

“当你看到这个”康诺克边说边捡起她的智能手机。“它有一个摄像头,它总是能听到你的声音,有传感器来采集大量数据,根据你输入的一切。因为我们如此依赖它,并且如此接近我们,所以大家不认为这是一个隐私问题。”

“但当你把一个扬声器放在房间中央时,每个人都会说,‘哦,它在监听我,没错,但它还不像智能手机那么贵。”

康诺克相信,与语音助手相关、可信的内容将是声音控制被广泛接受的关键。一旦行业将销售设备置于用户体验之上,它就会出现问题,所以XMOS要确保自己处于领先地位,并准备在这种情况下做出正确的反应。

还有自然语言的问题,而不是给人感觉像是命令。Alexa的技能非常有用,但它与另一个人交谈时完全不同,目前XMOS的算法工程师正在努力使交互更加自然,接近人类的语气。

“你需要感觉到机器能够理解你的情绪,就像它没有遇到任何问题,然后它就会溜得起飞。”康诺克说。

这听起来像是科幻小说,但康诺克说这比我们意识到的程度更接近现实。“我认为这种情况已经发生了,”她说。“我们看到亚马逊的很多的产品和进展,每个月都会有一些新的东西出现,所以这个领域发展得非常非常快。也许明天会有更自然的产品出现,给我们带来惊喜。”

赞助本站

人工智能实验室
AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港