谷歌手机语音搜索幕后:一封邮件拉起中国团队

2009年10月16日消息,14日中午11时,谷歌负责全球移动搜索的副总裁Vic Gundotra出现在谷歌中国总部,他此行的目的是向从两岸三地汇集于此的媒体宣布,谷歌将于近期推出中文手机语音搜索服务,这也是谷歌手机语音搜索首次推出非英语版本。

在现场的中文手机语音搜索演示中,只要用户对着手机说出想要搜索的内容,这一应用就能将用户所发出的语音信息识别为文字,随后自动进行搜索并迅速回馈回结果----无论你想要的是文字还是图片。

甚至在某些看似"极端"的情况下,比方故意发出略带口音的普通话、或说出一长串的内容,谷歌中文手机语音搜索都能良好完成自己的任务。

实际上,谷歌这项新技术的最核心的部分,已经不是如何搜索到最佳的结果。

如何准确识别出用户发出的语音内容成为关键。而中文和英文之间的巨大差异,注定谷歌手机语音搜索推出中文版意味着众多关键技术的重构。领导中国团队进行这项工作的,正是谷歌中国工程研究院副院长林斌。

林斌最初接到这一任务的时候,谷歌手机语音搜索的英文版已初具雏形但尚未向外发布,林斌意识到要完成相应的中文版必须借助语音方面专业人员的力量。而就在谷歌中国总部的周围,中科院和清华都有这方面的研究团队。

不过林斌并没有依靠外援,他的最终选择是发送了一封内部邮件:谷歌中国所有懂语音技术的工程师,立即集合。林斌的信心来源于谷歌中国此前就有五六位语音技术的专家,而且时任谷歌中国总裁的李开复本身就是语音识别领域的权威。

林斌对新浪科技表示,中国团队所要面临的挑战之一就是构建分词算法。英语不存在分词的问题,一个单词就是一个单词,而对于中文语音识别来说分词则是重要基础。

规则在此就变得尤为重要。语境分析是最好的判断标准之一,林斌表示如果语境分析不足以判断如何分词,中文谷歌手机语音搜索将根据某一组词出现的概率,由高到低进行选取。

另一个重要的工作是在全国范围内采样。虽然中文谷歌手机语音搜索主要支持的是普通话输入,但考虑到更广泛的用户适用性,林斌的团队还跑到中国各个地方去采集当地带有方言腔调的普通话样本。

于是,就算不标准的普通话输入,中文谷歌搜索也能识别,即便是夹杂着英文的港台腔,中文谷歌搜索也能识别。

不止一个人会想到这一技术,完全可以与谷歌众多的产品相结合,比方谷歌办公套件、谷歌输入法、Gmail等等。

Vic Gundotra表示之所以率先用在手机上,是因为这个平台的需求最迫切,此后将在计算机平台上进行推广,并表示将考虑将这一技术应用在更广泛的输入应用领域。林斌对此也表示不排除进一步融合相关产品,但谷歌中国要与谷歌总部步调一致。

谈及这项谷歌耗费巨资的技术时,Vic Gundotra用"many many years(很多很多年)"来形容研发过程的漫长。而在这一基础上,林斌和中国团队仅用不到十个月的时间,就完成了中文版的全部工作,林斌说推出其它语言版本的时间将越来越快。

据介绍,中文版谷歌手机语音搜索采用云计算的模式工作,采集到的语音样本将送到云端处理,转化成文字内容。对于用户而言,无疑会带来手机数据传输流量的增加。

对于谷歌这一新技术的使用成本,林斌直言并不会给用户带来明显的负担。林斌对新浪科技表示,谷歌的工程师将语音采样的数据包进行了深入的优化,这使得通过用户手机发送的数据非常小。

林斌以自己为例说,目前他平均每天用手机语音搜索服务十次。据其推算按这一标准,购买5元包30M流量的资费套餐,足以应付谷歌中文手机语音搜索服务的要求。

本文留言

近期读者推荐