“怎么,不服?”
“怎么会呢爷~”宋锦忍受着心头的屈辱,扬起一个甜美的笑脸,掰开男友搭在她大腿上的黑手。
像挠狗子一样,挠了挠女友的下巴,洛川抻了个大大的懒腰,喊过一旁正噼里啪啦敲代码的瑶瑶姐,交给她一个新任务。
开发一款语音助手。
这款应用,将内置于下一代星光旗舰机。
未来的智能家居战略,也能用得上。
技术组成,大致可分为硬件层和软件层。
硬件层,需要定制麦克风阵列,并集成自研的“自适应波束成形”算法,以实现3米远拾音、嘈杂环境降噪、区分用户与他人声音等等。
同时需自研低功耗语音唤醒算法,以免这款应用成为“电量杀手”。
就跟siri刚诞生时那样。
同时,还需跟高通合作,签订排他性协议,深度定制SoC,在下一代芯片中,固化语音处理专用指令集。
如离线唤醒词监测、基础指令本地处理等等。
这一块,其实可以放在云端处理,但如果直接将指令集嵌入芯片DSP中,可以大幅提高响应速度,效果更佳。
可惜星光那边的芯片研发设计,仍处于起步阶段,这两年估计是用不上自家设计的芯片了。
其次是算法层,大致可分为四个大项。
其一,语音识别。
可采用基于隐马尔可夫模型的语音识别技术,结合高斯混合模型提升识别准确率,自研端侧轻量化语音识别模型。
这两种理论早已出现,但前世直到12年,才有“机灵鬼”,将前者应用到实际的商业语音识别产品之中。
将两者混合的模型,更是在很长一段时间内都鲜有人问津。
当然,想要实现两者相结合的混合模型的超前应用,自然也需要下一番功夫。
首先需要收集海量的语音数据,涵盖各种不同的口音、语速、语调及使用场景,用以训练模型,这对计算资源的要求极高。
巧的是,极光既有海量的用户,又有强大的云计算资源~
只需再开发引入自适应学习率的算法,使得模型在训练过程中,能够根据数据特点,自动调整学习速度,进而提高训练效率即可。
同时也可采集粤语、鲁省方言、东北话等方言,组成方言库,以支持语音识别。
不过这个功能倒也不急,可在后续版本迭代中再加入。
反正前世直到13年,另一款主流手机语音助手,siri,才支持中文。
其二,自然语言处理。
需要构建一个语义理解模型,解析用户指令的意图。
可通过规则引擎+统计学习的混合方案。
规则层,内置500条高频场景模版,比如“导航去公司”。
统计层,可利用悠米社区和极光微博中,数以百亿条公开语料,训练朴素贝叶斯分类器,以提升意图识别准确率,处理模糊指令。
比如,用户说“太冷了”,语音助手自动查询天气,并给出关窗、添衣服等建议。
之后也可基于地理位置,同智能家居联动。
此外,还可将简单的神经网络模型引入其中,以提升模型的泛化能力,以及处理复杂指令的能力。
放在深度学习刚刚起步的今天,自然算是难如登天。
但你说巧不巧,洛川最擅长的就是深度学习~
宋锦同学深有体会~