AI智能音箱现在越来越多走进了人们的日常生活。例如当我们说出调节空调温度,空调就可以自动调节。当我们想听一首歌时,只需要对音箱说出歌曲的名字,他就会自动播放我们想听的歌曲!在方便了我们的同时,还增加了生活的趣味性!那我们就来了解一下他究竟是如何工作的吧!
AI音箱的工作流程如下:
语音检测—>降噪—>语音唤醒—>语音识别—>自然语义理解—>自然语言生成—>语音合成—>播放声音
语音检测(VAD voice activity detection)
准确的检测音频信号的语音段起始位置,从而分离出语音段和非语音段
降噪(AEC)
现实环境中存在噪声,通过降低噪声的干扰,降低语音识别难度。
降噪通过麦克风阵列,判断人在哪个方向,增强那个方向的拾音效果。这样可以在5米之外就能听到人在说话,足够一间房间使用了。
还可以在本机播放音乐的时候,滤除麦克风接收的本机音乐,使得智能音箱在播放音乐的时候也能被唤醒。
语音唤醒
经过语音检测后的信息,只能音箱会在检测到唤醒词之后才开始复杂的信号处理(声源定位等)和后续的交互。
语音交互
语音识别(ASR)
我们说出的歌曲的名字,音箱听到讯息后,要识别我们说的话,从而转化为自己需要的文本内容,所以,第一个强大的技术支持就是语音识别系统,比如苹果手机的siri,淘宝购物的语音评价,百度地图的语音搜索等都是类似的功能。
自然语言理解(NLU)
通过语音识别后,音箱采集到的只是语音,但是他本身是不能直接输出相关语音的,必须通过信号处理,将语音转化成文本,对芯片来说,处理文本内容相对比处理语音内容简单多了,这一步骤叫做自然语言处理。
要结合特定的使用场景和现有技术。
领域分类:根据识别命令所属领域,领域是封闭的集合。
意图分类:在相应的领域,识别用户的意图。
实体抽取:确定意图的参数。比如歌手名字和歌曲名称。
对话管理
控制着人机对话的过程,DM 根据对话历史信息,决定此刻对用户的反应。最常见的应用还是任务驱动的多轮对话,用户带着明确的目的如查天气、放歌等。当用户的陈述的需求不够具体或明确的时候,机器也可以通过询问、澄清或确认来帮助用户找到满意的结果。
自然语音的生成(NLG)
采用预先设计的文本模块生成文本输出。
即将为您播放的歌曲是谁的什么歌。
语音合成(TTS)
TTS使机器能够像人一样朗读给定的文本。
我们最后得到的是要听到我们想听的歌曲,所以他必须进行文本到语音的再次转化,从而把处理结果转变为语音发送出去!这就是我们最终想要的!
智能交互是在智能音箱中的典型应用。同样在日常生活中智能交互无处不在。例如当你无聊时,你可以通过文本交互或者语音交互与智能AI机器人进行畅聊,强大的语音语义理解能力和技术支持使得机器人越来越智能化、情感化,或许你会感受到与机器人交互也有一番新奇的体验!
机器人其实早已渗透到人们日常生活中的各个领域,当在平台上进行购物、买药时遇到问题需要咨询客服时,许多平台都会使用AI机器人会优先接待,这也是机器人大展身手的时候!售前售后客服人员使用语音机器人和文本机器人代替人工进行智能交互咨询服务,销售人员在外呼营销场景中使用智能语音机器人进行外呼,一个成功的AI智能机器人不仅可以实现准确识别客户问题、帮助解决客户疑难,提升客户问题解决效率和用户服务体验,同时也能大大地减轻客服人员工作压力,帮助企业降本增效。机器人的应用价值在越来越多的领域得到了验证和认可。