狗儿不用训练都知道主人的喜怒哀乐。(图片来源:Pixabay)
科学有一种蛮干的精神,就好像几个世纪前一位学者说:“只要给我一根棍子和一个支点,我就可以撑起地球。”科学家好像只要发现了一点什么或是找到了一个工具,就可以拚了命的往下钻,往下做。
我的实验室是在做语音讯号处理的研究,主要是语音辨识。语音辨识简单地说就是要让机器(或电脑)听得懂人讲的话。
语音辨识的过程是这样的:首先把人讲话的声音讯号取样,做傅利叶转换,经过一个精心设计的滤波器之后,取得一组特征参数,然后把这组特征参数与数据库中已存有的大量的人的声音资料做对比,因为数据库中的声音讯号是已知发什么音的,所以对比出来最接近的那个声音就是要辨识的答案了。
声音取样的过程就是把事情极度复杂化的过程,也可以说是错误的开始。以取样频率48kHz来算,5秒钟的声音就会被取样成240,000个数字,这么多的数字当然也只有电脑看得懂了。把声音变成了人无法掌握的形式之后,再想出各种方法去处理它。
如去除背景杂音、语者辨识、建立人的声道模型等,即使如此到最后还得算机率,即这段声音是哪个答案的可能性最大,这个音不太可能是哪个音。算完之后发现结果还不行,再套上语言模型,终于把辨识率拉到可以接受的程度。
最后辨识的结果是,你讲的是这个音,可能是这个字。如果在限定领域的条件下做语音辨识的话,正确率大概在70%到90%之间。什么是限定领域?就是你讲话的内容只能限定在某个范围(如体育)之内,超出这个范围(如你聊到了政治)辨识成功率就直落了。
别说这是愚公移山,这应该用“蛮干”两个字来形容才对。要达成这个目的怎么会用这么笨的方法?因为这是科学所能提供的最“聪明”的方法了。科学既提供不了更好的办法,科学家们就只好用笨方法,蛮干下去了。
狗儿不用训练都知道主人的喜怒哀乐,植物有他心通功能,科学却只想的到要电晶体来听懂人讲的话。
看完这篇文章觉得
排序