李教授的学生叫李燃——最初听名字的时候,老赵心里还猜想过,会不会是李教授的私生子,他才帮着学生出头来找自己。
听名字就很像,李明然,李燃。
不过见到真人之后,老赵可以确定不是。
李明然文质彬彬的斯斯文文,李燃乍一看和什么博士硕士根本不沾边,压根就是一黑胖子,长相很凶恶,走在大街上跟黑猪成精没啥两样,搁在古代,直接抓官府说他是山贼都有人信。
都说相由心生,老赵也搞不懂,他一个博士,在大学校园里熏陶了快十年,怎么长成这样。
也难怪他找不到投资人,马芸只是长得怪,并不恶,可这位李燃同学,任凭谁看到,第一印象都不会好。
赵泽君尽量让自己抛开对丑人的刻版印象,去听对方说话。
“赵总,我的研究成果主要是人工智能语音……”能看得出来,面对面和赵泽君直接交流,李燃多少有点紧张,打开笔记本的时候差点把桌上的水杯给碰翻了。
赵泽君不动声色的把对方的水杯稍稍朝一边挪了点,点点头,继续听他说。
“人工智能,顾名思义,电脑可以像人一样‘说话’。我们平时从电脑里听到的‘说话声音’,一般是事先录制好的,比如说播放音乐,听起来是电脑在说话,本质上是计算机播放了一段事先录制的音频,并不是计算机本身在唱歌。而人工智能语音,就是让电脑去识别文字,然后发出类似人的声音……”
说着,他随意输入了一段文字,应该是徐志摩的诗,在软件里点了几下按钮,电脑果然发出了很接近人类的声音,朗读这首诗。
但是电脑的声音没有感情,平淡无起伏,读起来也断断续续的。
和后世的导航声音原理差不多。
计算机是个很笨的东西,它的强项在于重复运算,而人类能做到的很简单的事,对于计算机做来说就很困难,需要成千上万的指令,甚至大部分是不可实现的。
比如感情、判断,直觉等等。
一个成年人,‘断句’是非常简单的事,根本不用过脑子,计算机却得经过N道运算,无比废力。
所以也有人说,人类本身,就是上帝创造的一种最神秘也最伟大的‘生物机器’。
“我打断一下。”赵泽君抬头看了眼时间,然后说:“据我所知,科大腾飞也在做人工智能语音这一块,而且做得比你要好。我听过,更加流畅,而且已经可以达到用中、英两种语音。你的产品,优势在哪里呢?”
“赵总,这就是我接下来要说的。”李燃咽了口口水。
“别紧张,时间还很多。”老赵挥手笑笑。
“嗯。”李燃说:“是这样的,腾飞的识别和朗读,起步早,投入大,比我的研究要领先。但是在人声音的模拟上,我可能要超过他们。”
“腾飞也有人声模拟吧。比如,模仿某个明星的声音。”赵泽君很清楚的记得后世的导航里,应用的就是模拟技术,可以选择郭德纲的声音,林志林的声音,听起来还都挺像那么回事。
“但是您不觉得,腾飞模拟的声音,这是形似,而不是神似嘛?”说起专业擅长,李燃好像变了一个人,目光炯炯有神地反问,“是能模拟出明星的声音,可并没有神韵,一听就是机器声。”
“这倒是。没有感情起伏和顿挫。”赵泽君点点头。
“用专业术语说,声音三个主要特征,是音调、响度和音色,响度是声音波形的振动幅度,音调的频率,也即是经常说的男高音、女中音之类,音色是声音波的波形,决定了声音的品质。”
李燃开始侃侃而谈:“模拟一个人的声音,第一步是这三个特征和本人的特征极为接近,这一点上,腾飞做得比我要好,但并非不能赶超的。像跑步,他们跑得快些,先跑了半分钟,我虽然落后,但只要一直跑,也能达到他们的水平……”
老赵点点头,示意他继续。
“第一步,三种特征实现形似,第二步,想要实现神似,就必须捕捉一个人声音这三者的配合方式,通过计算机表现出来,并且要存储一个人大量的说话习惯,才能模拟对方真实的说话声音。”
“你能演示一下吗?”赵泽君问。
“可以。就用我自己举例子吧,我在数据库里存储了我个人大概十个小时的讲话,讲话内容都很随意,如果不用这个数据库,电脑模仿我的声音,大概是这样的……”
他点开了程序,电脑的读了一段话,乍一听和李燃的声音很接近,但稍稍留心下,就会判断出这不是李燃。
有形无神,像是李燃很机械的在说话。
“那么如果用我的声音数据库,进行分析后,就是这样的……”李燃低着头一边操作电脑,一边说。
可说完之后,电脑没有发出任何声音。
“怎么了?”赵泽君一愣,问。
只见李燃抬起头来,笑呵呵的看着老赵,嘴唇紧闭。
但是他的声音又一次在房间里响起:“那么如果用我的声音数据库,进行分析后,就是这样的……”
“哦!”老赵恍然大悟,刚才李燃低头时候根本没说话,他听到的,只是电脑里的人工智能声音。
“有点意思,你再放一遍,我仔细听听。”赵泽君说。
“我放点别的吧,让它读一段文章。”李燃这次是自己说的,然后导入了一段常用的聊天话语,重新启动了程序。
“阿姨你好,我是李燃,请问李教授在家吗,是这样的,我有一个项目……”
赵泽君仔细的听着,微微点头。
这次先入为主,知道这是机器声音,然后专门留心去判别,还是能发觉和李燃本人是有一定差别的。
但如果不留意,或者和李燃不是很熟悉的话,乍一听,说话的这个人就是李燃。
“如果换成模拟别人呢?”赵泽君问。
“数据库越庞大详细,模拟的越是准确。”李燃说:“我试验过,一般能有对方四五个小时的讲话作为数据,差不多就能大致掌握对方的说话习惯,数据越多越详细,模拟得越逼真。像刚才那段,有我十个小时的讲话时间。但是理论上来说,不可能百分之百以假乱真。”
“嗯。”老赵又一次看了看时间,已经过去了35分钟,“你这个技术的确有意思,但未来怎么进行商业应用?”
“赵总,我暂时并不准备进行商业化。这项技术尚不成熟,第一步模拟声音三特征距离腾飞还有段路要走;第二步,收集数据库暂时也没有任何规律可言,只能通过大量的讲话,我想把这两个问题都解决了,技术进一步成熟之后,再商业化应用。”