柳传志寄语创业者
3月22日发布会结束之后,安排了一个高峰论坛,邀请到柳传志、李开复和雷军(南赴珠海领取“荣誉市民”未能到场)来谈“语音时代”。主持人是《商业价值》的主编张鹏。
柳传志是科大讯飞寻找投资的“贵人”,柳传志看着科大讯飞长大。而科大讯飞是联想投资成立后“按照正规流程”投资的第一家企业,2001年的签约仪式也是当时柳传志唯一出席过的一个。
科大讯飞是一家安徽公司,前身是“安徽硅谷天音信息科技有限公司”,创始人刘庆峰原来是“中国科技大学人机语音智能多媒体实验室”的主任,1999年6月响应团中央“关于大学生创业”号召,率领实验室团队创办“硅谷天音”,注册资金300万元人民币。1999年12月30日“硅谷天音”更名为“科大讯飞”,重新注册后,加上3000万元风险投资,公司注册资金变为5000万。2007年完成股份制改造,一年后2008年5月12日在深圳中小板上市。
2001年6月6日联想向讯飞投资800万元,实际投入2533万元。2008年5月12日上市时,联想持有科大讯飞880股股票,占比8.21%,在上海广信13.24%之后;当时刘庆峰本人持股761万股,占7.10%;科大讯飞管理层共持股约20%。
2011年苹果iPhone4S发布后,借Siri的东风,科大讯飞开始慢慢走入普通人视野。在受到大众关注之前,讯飞已经做出了“讯飞语音输入法”这样面向普通用户的app产品,但其风头显然不及Siri教育大众后,今天下午发布的“中文版Siri”讯飞语点。
柳传志讲自己投资的理念是“事为主,人为重”,他夸赞刘庆峰,说他“有理想、有胸怀、有能力,有强烈的把科技成果转化为产品的意愿”。不过在讲台上,柳传志并未一味夸赞,也提了新要求,比如增加语音识别的复杂度,“我现在出去跟别人演示,只敢选择简单常规的问题进行示例,比如‘明天什么天气’,但生活更加口语和随意,这一点是讯飞应该加强的方面”。
主持人问到柳传志对互联网创业者的寄语,他的回答是“用做实业的态度做互联网”。“创业之前,问题要想清楚,要想盈利模式,仅靠人气劲儿、烧钱是不对的。而拿了投资后,也要算准钱能烧到什么时候。如果你创业筹来的钱太不容易,‘钱太重’,就要谨慎选择创业。其实创业失败并不是什么,我投的200多家企业中,不少是经历失败,吸取经验再创业的;即使后来你不再创业,创业过程中积淀的经验,对于你以后在公司工作也是很大的提升。”
柳传志也以自己的经历,勉励创业者保持“专注”:
身边很多朋友赚了很多钱,我也可以赚很多钱。当年96、97年民生银行投资的时候,我被认为最有可能第一个投资的,但我没投。据别人替我估算,如果当时投了那1亿多,现在的回报是2000多亿,我觉得我不必后悔,身边不断有这样的事儿出现,你说它是好事,它是坏事?这还真不好说,因为我投资赚了这笔钱以后,我也许会想去投房地产、去做别的更多的事,电脑这条路可能做不成,也许到最后什么都可能做不成。
李开复谈语音识别技术
李开复是第二名上场的嘉宾。众所周知,李开复是著名语音识别技术专家,谈到语音识别,当然少不了由他来现身说法。
事实上,在讯飞发布会之前,李开复曾在微博上对市面上存在的众多“中国Siri”提出四个疑问:
1)智能手机主界面是手触,语音助手解决了什么真正用户需求和痛处?2)如何克服后台海量数据学习技术门槛?全球只有一个公司有这个技术。3)应用谁开发?自己开难扩张,用别人的应用整合不佳影响体验,4)语音服务器和带宽成本较大,如何克服?
今天发布会结束后,李开复更新微博:“讯飞语点推出后,2、4由讯飞解决了”。
事实上,在之前科大讯飞向爱范儿提供的独家稿件中,讯飞一一回答了四个问题,3月22日发布会用实际产品进行了回应。详细内容见文末引用部分。
李开复的“炉边谈话”提供了很多“专家式”的内容。简单整理成问答形式如下。
问:我们看到讯飞语音识别的技术已经非常成熟,那么你认为“应用”的空间在哪里,未来语音识别技术还有什么挑战?
李开复:云端识别技术,讯飞已经解决了。“应用”在哪里?这并不是一些专家在实验室里拍脑袋就能想到的。大家可以来试,可以在讯飞的云平台上试一试,可能成功的会比较少,但能够摸索到成功的应用的概率也会增加。
语音技术方面,主要挑战还有三方面:
一、语音识别相对容易,但语义理解相对困难。让软件听懂容易,但理解会比较难。
二、如果能在一定程度上做到语义理解,那么怎么样让开发者介入不用太花时间?
三、用户体验的期望值。语音是人类最自然交流的方式——与多点触摸不同,一旦人们开始使用语音交互,会有比较大的心理预期:我爱怎么说就怎么说,你应该能理解,这是一个比较长久的挑战。这中间,应该有巧妙方式来降低这种感受。
问:语音技术里面,是不是使用的人越多,语音技术也会愈加成熟?
李开复:当然了,更多人参与,获得更多自动回馈,可以实现一个良性的正向循环方。一个人能力有限,一亿用户,每人使用3秒钟,就是3亿秒,这个数据量是庞大的。实际应用中,正确的输入可以被视作是“一次正确训练和学习”,吸收改进;一个错误的结果,比如订餐时识别错误取消订单,可以视作“不正确的学习”,同样吸收改进。
但这个比“听写”更困难:错了,是语音错了还是语义错了,或者其中一个正确、一个错误;对了,是语音对了语义对了,或者其中一个正确、一个错误。当回馈量大于累计量和使用量,可以让我们迈出一大步。
问:什么样的语音应用是用户期待和接受的?
李开复:我认为有三个方向。1,相对是语音识别,而非深度语义理解的应用,或者说“浅语义,深语音”。比如听写(Demo中有提到教育领域的听写测试、KTV评分、发短信、日程提醒),——输入法也很重要,这个比较保险。
2,娱乐性应用,比如Siri这样的调侃调戏类应用。这种识别错了也无伤大雅,很爱使用。苹果很聪明,用调侃Siri录了很多语音,然后慢慢把真正的应用做好。
3,在一些“眼忙手忙”的场景,这个时候语音需求就会很大,比如驾车的时候,这时候是不能多点触控的,这算一个“刚性需求”的场所。
在这里我建议开发者:想把语音放进来的时候,不是那么容易,因为语音的API和语音的用户体验,比一般的API要难很多,比如百科全书类、地图、本地商家,O2O,线上模式拉来线下消费,因为有语义部分在里面,要花很多时间去把它调好,不能用简单的API随便联接起来。
附:科大讯飞对李开复“中国Siri路在何方”的回应稿件
第一,语音助手能够解决什么真正的用户需求?
大多数人提到Siri,第一印象就是调戏Siri,但如果一个产品只是用来“调戏”,那这个产品充其量只能算是玩具,而不是人们所必须使用的语音助手。所以,Siri的定位应该是解决用户的真正需求和痛处。
可惜,目前Siri的模仿者大多视这个需求而不见,而是关注如何才能更好的“调戏”用户。相信只有真正做到解决用户需求的产品,才能够获得用户长久的喜爱,希望国内的开发者能够注意这个问题。
Siri想要实用,就必须调用开放数据的平台,而中国却没有WolframAlpha这种引擎,所以中文Siri想要真正解决用户需求,只能一家一家去谈,比如找大众点评、百科等。这是创业公司做不来的,而大公司(百度、腾讯等)来做,可能又存在利益冲突。
第二,如何克服后台海量数据学习技术门槛?
虽然李开复老师说全球只有一个公司有这个技术,而我们也不知道这个公司具体是指哪一个。但据我了解,在语音识别方面,科大讯飞是做的不错的,讯飞语音输入法的识别率已经达到85%以上。而且他们的语音识别是基于云计算实现的,应该是具备数据学习能力的。
除了语音识别,还有一个难题是语义理解,这也是中文Siri的核心难题。让机器真正理解人的语言,这是一件很困难的事。就目前来看,苹果在英文方面都没有很好解决,不然也不会有用户要告苹果虚假宣传了。但苹果可以依靠“调戏”用户获得大量语料,然后学习后提升可用度。
可见,语义理解是一个需要不断优化的过程,每一个用户的参与都将对智能语义理解的完善做出奉献。
第三,应用谁开发?
Siri的前提是要有语音识别功能,这个功能的门槛之高,已经让很多开发者望而却步。幸好,国内有科大讯飞的语音云开放平台,为普通开发者提供了语音识别和语音合成的功能,让中文Siri的开发有了基础,智能360和Airi等产品就是基于讯飞语音云平台实现的。
作为普通开发者,使用语音云平台研发产品是很正常的。但如果真的想做成Siri这种大众性应用,核心技术却掌握在别人手里,这是致命的问题。所以,真正能够做出中文Siri应用的,应该还是科大讯飞这种掌握核心技术的公司。
第四,语音服务器的成本太大?
语音服务器的成本问题对于创业公司来说,确实是个大问题。但事实情况是,需要承受这个压力的,可能只有科大讯飞和谷歌,因为一般公司目前连语音技术都没有。
科大讯飞在2010年推出了开放的语音云平台,目前用户规模已经达到2500万。3月22日,科大讯飞还将发布新一代的语音云,可见科大讯飞对于语音云开放平台的投入力度很大。作为一家上市公司,相信科大讯飞还是有实力克服用户扩张带来的服务器成本和带宽压力的。