第一百三十四章远超预期_首富从AI浪潮开始路大头

两人来到韩路一的办公室，正准备就刚才的视频会议，谈谈应对策略。

这时，门外传来了急促的敲门声。

“韩总，在吗？”

是赵文渊的声音。

韩路一和苏念念对视了一眼。

韩路一走过去把门打开，赵文渊手里抱着笔记本电脑，一脸兴奋。

“韩总！真神了！”他一边说一边走进来，才突然注意到苏念念也在房间里，一愣。

随即他的表情放松下来，把笔记本电脑放在办公桌上。

“正好，苏总你也在，一起看看。”赵文渊说道，“第一轮训练的结果出来了。”

他翻开屏幕，手指在触控板上快速滑动，调出一个表格。

“先看基础数据。”赵文渊切到第一页，“7b的开源基座微调，参数量不到gpt-4的二十分之一。知识问答、逻辑推理、数学计算、代码生成，常规指标在同量级模型里中游偏上，没有惊喜。7b就是7b，没法跟几百b的大家伙比。”

他看了韩路一一眼，期待着他的反应。

“重点在下一页。”

赵文渊翻到第二页。

屏幕上是一张柱状图。横轴排列着十几个模型的名字，纵轴是分数。

韩路一认出了几个：gpt、rcury、gei。

这些名字旁边的柱子高度差不多，分数集中在71到78之间。

最右边有一根单独的浅蓝色柱子，明显高出一截。

模型名称是px-7b-post_traed-v01。

顶端的数字是837。

“意图理解维度的评测结果。”赵文渊的声音压低了，语速却很快。“评测集用的是ifeval标准框架加上我自己设计的深层意图还原测试，一共一千二百道题，覆盖十六个垂直场景。”

他拿手指点了点那根浅蓝色的柱子。

“837，断层领先。”

“第二名，gpt，782。”

“第三名，gei，769。”

韩路一自己看了一下rcury31——就是刚才瑞恩展示的那个，得分是748。

办公室安静了三秒钟。

韩路一没有说话。苏念念也没有。

“我跑了三遍验证。”赵文渊说。“第一遍以为评测代码写错了。第二遍换了评测框架，分数不同，但是结果排序一样。第三遍打乱评测集做交叉验证，误差在03个点以内。”

他往后翻了一页。屏幕上是具体的案例对比——左列是用户输入，中间是各模型的理解结果，右列是标注的真实意图。

赵文渊翻了几页案例对比，没有逐条讲解，但每一页停留的时间特意拉长了一些，像是在确认韩路一和苏念念有没有跟上。

韩路一跟上了。

意图理解，简单来说，就是模型能不能读懂用户真正想要什么。用户打字输入的内容是表面，表面之下是处境、是约束、是没说出口的真实需求。绝大多数模型在做的事情是理解字面意思，然后给出一个正确但泛泛的回答。而px-7b做到的，是从同样的输入中读出字面背后那个具体的人。

这是一个

章节内容不完整，请退出阅读模式查看完整内容！