第四十三章：语音通话模型的制作（二更）

    “宿主，你能要点脸不？你哪来的自信，出卖身体，能赚几千万。”

    “我……我……”林奇竟然无言以对。

    林奇仔细思考了下，发现自身记忆力惊人，学知识的速度快。但是也不能教授给别人，别人学不来的，他们没有这些机遇。

    那利用已经学习到的知识，怎么能在短时间内赚那么多的钱呢？

    自己是把学校里面的东西学会了，但是这该怎么赚钱？办补习班，来钱太慢了。

    除此以外林奇也就学习了电池制造相关的东西，正是因为要等待大规模生产才这么缺钱，所以这条路也走不通。

    那就剩余一个了——自己之前学习的编程，还在算法大赛中取得第二名，赢得过20万奖金。

    但是应该通过什么赚钱呢，开发出来游戏吗？小游戏是简单，但是没有一个好的创意，很难有大的影响力。大的游戏又不是一时半会能开发出来的。

    林奇拿着手机打开了手机内的软件。

    打车软件，共享单车软件，新闻客户端，邮件系统，短信，语音，视频，聊天工具。

    看了一个又一个的软件，林奇突然脑中一闪，语音通话。

    现在聊天工具能直接进行视频和语音通话，还有一些软件只有语音通话功能。

    这些语音通话软件有一个共同的特点就是都消耗的是流量，不用话费。

    最近几年，语音通话的软件是越来越多，并且不用话费。

    有很大一部分人都用这个来代替打电话。但是因为这些需要的是流量，所以通话质量不是那么的有保证，质量和和网络的稳定性成正比。

    如果是在良好的4g网络下或者ifi环境下，通话质量都挺好的，但是在3g甚至2g，或者信号不稳定的地方，发文字还正常，但是语音通话就不行，通话双方会感觉卡顿，对方听不到，听不清这是经常会发生的事情。

    如果能开发出一个软件可以在各种复杂的网络环境下让语音通话都依然流畅，应该很有市场。

    林奇通过看手机上的各种软件，想到了这么一个赚钱的机会。

    怎么才能实现这个目标呢？最好的就是发送文字，因为文字占用的带宽最少了，即使网络很不稳定也能收到，除非是完全没有网络。

    最后林奇想到了一个非常精妙的方法，能实现这个功能。

    那就是通过机器学习来建立每个人的音色库，然后再把不同的文字用上不同的语气，只要这个个人的模型训练好，发送对方的手机里面，然后把要说的话转换为文字，每次都只发送文字过去，这样需要传输的信息就会小很多。

    虽然这个方法想起来非常的简单，但是做起来可不是这么容易的。

    首先每个人都有一个自己的语音模型，训练这个模型需要有一个很优秀的训练好的模型，然后做迁移学习。

    但是训练基础模型的时候，是需要很多数据的，程序林奇很快的就做好了，但是没有语音数据是硬伤。

    最后林奇收集了很多的网络上公开的音频资料，来输入到模型中进行训练，刚开始的时候找来了很多的汉语的音频。包括从电视剧，电影还有广播，新闻等里面抽取的音频。

    等训练好之后林奇测试之后发现针对标准的普通话，这个表现很好，但是如果是方言甚至是另一种少数民族，比如蒙古语，这个软件表现的就非常的不尽人意。

    后来林奇换了一个思路，不把每个人的语音转换为文字。而是让机器自己发明一种能发音的文字，不需要人类能看懂，只需要这个软件自己能看懂就好，可以把听到的任何声音都转换为这种机器自己能识别的文字。

    修改了核心的算法之后，林奇再次把数据输入进去，同时这次增加了很多的其他的数据，包括英语，德语，日语……几十种语言的数据。还有很多的大自然的声音，乐器的声音，等等。

    电脑分析这些数据建立一个模型过程是很慢的，经过漫长的等待之后，终于重新生成了一个模型。

    经过测试之后，效果出奇的好，林奇发现尤其是针对有规律的东西，包括语言，乐器这些东西，都能有很好的效果。

    然后这些数据经过压缩之后，体积比文字的还小了很多，即使网络环境再不好，只要不是完全没有，通话的质量都是很完美的。

    但是美中不足的是，针对不太规律的东西，这个模型处理的效果就不是很好，比如一些环境噪音或者大自然的风声雨声鸟叫等。

    林奇接着又去修改了模型，但是训练后的结果都不是很好。

    后来林奇想了想“环境噪音，在语音通话过程中，人们应该是不想要的，我干嘛还要费那么大的力气给加上。这不正是几千块钱的所谓的主动降噪耳机，或者是骨传导耳机追求的降噪的功能吗？”

    想至此，林奇想抽自己两巴掌，白白浪费了那么多时间。

    至于一些风声什么的，林奇也有了一个很好的解决方法，就是在算法里面判断这个声音，如果是没有规律的，但是和环境噪音又有些区别的，那么就保留原有的语音通话，只有这种有语言的才智能的运用自己这套系统。

    这个系统的价值在于能让语言的传输大大减小体积，同时还能高度还原原声，甚至带有主动降噪功能。

    而这个系统的难点在于模型的训练。

    训练的时候刚开始针对的是普通话，到了后来，林奇彻底的放开了自己的思维，让机器自己去生成一种能传输的自己认识的语言，这样效果大大的提升了，不用针对每一种语言来训练好一个模型，而是针对所有的声音，训练出了一套通用的模型。

    在使用的时候，只需要把这个模型加载到用户的手机，用户只需要说几句话，模型就会自动生成对应的音色，还有对应的语言的机器翻译。

    通过实际的使用，林奇测试发现，这完全秒杀了世面上所有的语音通话软件。