第一百三十四章 远超预期 路大头
极其困难的任务。参数量大十倍的模型都未必做得好,因为它考验的不是知识储备,而是对人的理解。
赵文渊合上案例页,回到那张柱状图。
赵文渊郑重说出了这句话。
“韩总,我做这行这么多年了,从来没见过一个7b的东西能在任何单项维度上打赢gpt-4,从来没有。”
“而且这才是第一轮,只跑了几个epoch,超参数都没调到最优。在这个基础上再调试几轮,还有上升的空间。”
苏念念一直没说话,这时候才轻轻开口说了一句:“意图理解……这不就是开物一直想做的事吗?”
韩路一点了点头,心里好像都松了一些。
视哥,给力!
沉思了一下,韩路一问了一个问题。
“如果有十万条这种精度的数据呢?”
赵文渊仰起头,对着天花板想了一会儿。
“十万条这种精度的标注,”他慢慢说,“理论上足够在70b甚至更大的基座上把意图理解能力拉到当前行业天花板,之上。”
“这不是提升几个百分点的事,你可以想象从gpt-3到gpt-4那种级别的换代。”
“而且不只是意图理解,意图理解是模型的基础能力,模型一旦真正学会了理解人话,所有下游任务的表现都会跟着涨,回答更精准,代码更贴合需求,内容更有针对性,用户满意度提升——”
他停住了,意识到自己说得太远。
“这是理论上。”他往回收了一步,“实操还要看数据分布、训练稳定性、泛化表现,不能简单的线性推理,但方向肯定没问题。”
他接着说:“这个效果,这个水平的标注数据,拿到任何一家大模型公司去做对齐训练,都可以让意图理解直接上一个档次。”
“韩总,我融资经验不多,但我可以肯定的告诉你,我们不会缺融资了。”
韩路一和苏念念对视了一眼,都为这个好消息感到振奋,刚刚nexai带来的压力也被扫清了一些。
“把参数调完,做一个最优的原型出来,你大概还要多少时间?”韩路一问。
“一周吧。”说完,赵文渊面露难色,“但是,要占用工作时间。”
这就是韩路一和赵文渊之前讨论的灰色地带了,在工作时间使用工作资源做出的成果,源码科技可以主张所有权,如果弘远真的和韩路一闹僵了,这就是个隐患。
想了一会儿,赵文渊说:“我先请无薪假吧,一周,先把成果做出来。”
韩路一点了点头:“不用过沈丛云,我来批。”
赵文渊准备起身告辞,韩路一叫住了他,转头看了一眼苏念念,才说道:“既然训练结果不错,趁你们两个都在,我说个事。”
两人一起看向韩路一。
“融资的事,我仔细想过了。既然我们最缺的只是算力,也没必要从投资人那绕一大圈,直接找有算力的人用算力入股。”
“现在国内的几个大玩家,这方面最有实力的还是鼎盛。源码过去和鼎盛有点不愉快,但我希望你们别有芥蒂。”
韩路一说完,看了两人一眼,又补充道:“当然,这是我的初步想法,你们有什
章节内容不完整,请退出阅读模式查看完整内容!