第一百八十四章 处理过了,干净 路大头
去鼎盛云园区的公交车。
刘亚光的工位在云园区,他今天是特意来给张弛当面汇报的。
下午两点,刘亚光在工位上给张弛发了条消息:“张总,数据弄好了。”
张弛过了几分钟才回复:“干净吗?”
刘亚光:“处理过了,干净。”
张弛:“给数据组发过去吧。”
刘亚光放下手机,在电脑上打开内部通讯,给吴英豪发了个消息:“在吗?”
然后他拿起手机,给吴英豪的微信发了一条:“有新数据。”
不一会,吴英豪发了个戴绿头盔的表情包回来。
刘亚光把一个加密压缩包的链接从内部通讯发了过去。
然后他在微信里给吴英豪有发了一句话:“密码老样子,走数据入库流程,来源写外部采购,批次号我生成好了,你们填进去就行。”
吴英豪的微信消息回复很快:“质量怎么样?”
“洗过的,能用。”
“好。”
吴英豪不是第一次从刘亚光这拿数据了,这事不干净,两人有固定的默契。
数据组每隔一段时间就会有这种批次进来,来源五花八门,有的是爬的,有的是买的,有的是“合作方共享”的。填外部采购是最干净的写法,因为采购来源很杂,审计不容易查到。
这种事不是第一次,也不会是最后一次。
三天后,坤元项目组。
刘大海盯着屏幕上的一条曲线,看了大概三分钟没动。
这是坤元这一轮预训练的loss曲线。
loss是损失值——可以理解成模型犯错的程度,数字越低说明模型学得越好。训练的过程就是让这条曲线一路往下走。
这条曲线确实在往下走,但走得比他预期的快。
刘大海把时间轴拉长,把上一轮的曲线叠进来对比。差异很明显,不像是误差范围内的波动,应该是系统性的提升。
他在心里排除了几个可能的原因:学习率没改,模型架构没动,算力配置没变。难道这批数据有特殊?
刘大海立刻站起来,动身去了数据组。
数据组的负责人叫吴英豪,三十出头,戴眼镜。数据组主要的工作就是收集和清洗数据。
这是个脏活,累活,在大模型开发的产业链里比较底层。
刘大海过去的时候他正在核对一份入库日志。
“英豪,这轮训练咱用了什么新数据没有?”刘大海拍了下他的椅背。
吴英豪转过来,打了个招呼。又翻了翻日志:“最近的新入库的,我看看……几天前外部采购的了一批,放进去用了。”
刘大海点点头,说:“这批数据质量贼拉好了,loss下来了,还比上一轮快不少,应该少不了这批数据的功劳。”
吴英豪愣了一下,随即起身往刘刘大海耳边凑了凑,语气里带了点小心翼翼的热切:“大海老师,这批数据进来的时候噪音很多的,是我们自己花时间处理的,好几个同事加班跑的清洗流程,您觉得效果好?”
吴英豪笃定了刘大海不会追问数据的具体来源,因为他从不过问,这也不是他的职责范围。
章节内容不完整,请退出阅读模式查看完整内容!