第一百三十四章 远超预期 路大头
两人来到韩路一的办公室,正准备就刚才的视频会议,谈谈应对策略。
这时,门外传来了急促的敲门声。
“韩总,在吗?”
是赵文渊的声音。
韩路一和苏念念对视了一眼。
韩路一走过去把门打开,赵文渊手里抱着笔记本电脑,一脸兴奋。
“韩总!真神了!”他一边说一边走进来,才突然注意到苏念念也在房间里,一愣。
随即他的表情放松下来,把笔记本电脑放在办公桌上。
“正好,苏总你也在,一起看看。”赵文渊说道,“第一轮训练的结果出来了。”
他翻开屏幕,手指在触控板上快速滑动,调出一个表格。
“先看基础数据。”赵文渊切到第一页,“7b的开源基座微调,参数量不到gpt-4的二十分之一。知识问答、逻辑推理、数学计算、代码生成,常规指标在同量级模型里中游偏上,没有惊喜。7b就是7b,没法跟几百b的大家伙比。”
他看了韩路一一眼,期待着他的反应。
“重点在下一页。”
赵文渊翻到第二页。
屏幕上是一张柱状图。横轴排列着十几个模型的名字,纵轴是分数。
韩路一认出了几个:gpt、rcury、gei。
这些名字旁边的柱子高度差不多,分数集中在71到78之间。
最右边有一根单独的浅蓝色柱子,明显高出一截。
模型名称是px-7b-post_traed-v01。
顶端的数字是837。
“意图理解维度的评测结果。”赵文渊的声音压低了,语速却很快。“评测集用的是ifeval标准框架加上我自己设计的深层意图还原测试,一共一千二百道题,覆盖十六个垂直场景。”
他拿手指点了点那根浅蓝色的柱子。
“837,断层领先。”
“第二名,gpt,782。”
“第三名,gei,769。”
韩路一自己看了一下rcury31——就是刚才瑞恩展示的那个,得分是748。
办公室安静了三秒钟。
韩路一没有说话。苏念念也没有。
“我跑了三遍验证。”赵文渊说。“第一遍以为评测代码写错了。第二遍换了评测框架,分数不同,但是结果排序一样。第三遍打乱评测集做交叉验证,误差在03个点以内。”
他往后翻了一页。屏幕上是具体的案例对比——左列是用户输入,中间是各模型的理解结果,右列是标注的真实意图。
赵文渊翻了几页案例对比,没有逐条讲解,但每一页停留的时间特意拉长了一些,像是在确认韩路一和苏念念有没有跟上。
韩路一跟上了。
意图理解,简单来说,就是模型能不能读懂用户真正想要什么。用户打字输入的内容是表面,表面之下是处境、是约束、是没说出口的真实需求。绝大多数模型在做的事情是理解字面意思,然后给出一个正确但泛泛的回答。而px-7b做到的,是从同样的输入中读出字面背后那个具体的人。
这是一个
章节内容不完整,请退出阅读模式查看完整内容!