返回第215章 差距不小  胖胖的小橘首页

关灯 护眼     字体:

上一页 目录 下一页

错。”

“这个东西,是我们目前的模型最缺的。”

那个戴眼镜的男人放下了刀叉,慢慢地开口。

“邱总,我其实一直有个问题想请教。”

“gpt-3到gpt-35中间这一跳,到底关键是跳在哪儿的?”

“外面现在一提就是rlhf,好像那一套人类反馈就是所有答案。”

“但我总觉得没那么简单。”

邱明丽笑了一下。

“你这个问题,问到点子上了。”

“rlhf这几个字,最近被炒得有点太凶了。”

他用筷子头在桌布上虚划了一下。

“gpt-3到gpt-35,真正那一跳,不是rlhf。”

“是代码。”

桌上有人愣了一下。

“代码?”

邱明丽点头。

“openai中间悄悄干了一件事。”

“他们在gpt-3的底座上,又灌了一轮超大规模的代码预训练,内部叫-davci-002。”

“github上能扒的高质量代码,加上一部分自然语言和代码混在一起的数据,一锅炖进去。”

“灌完这一轮出来,模型的推理能力莫名其妙地就起来了。”

“不光是会写代码了,你让它做数学题、让它做多步逻辑推理、让它分析一段很长的论证,它突然就会想了。”

“业内现在把这个叫做代码带出来的思维链。”

“代码这个东西是很严苛的,你少一个分号它就跑不了。”

“模型在海量代码上被反复蹂躏过一遍之后,它对一步一步地把事情想清楚这件事,就有了一种别的语料给不了的感觉。”

邱明丽顿了一下,抿了一口酒。

“在这个底座上,再往上套指令微调、再往上套rlhf那才有了chatgpt。”

“但你要问跳在哪儿,我也只是个人猜测,最关键的一跳我觉得的是在代码预训练那一步。”

“rlhf真正解决的问题,是怎么让这个聪明但是野的模型听人话。”

“它解决的是对齐,不是智商。”

那个戴眼镜的男人慢慢地点头,若有所思。

邱明丽接著补了一句。

“当然rlhf那一套也不是简单东西。”

“我们这边要追这一套,标注员的培训体系从零开始搭,至少得半年到一年才能进入状态。”

桌上一片安静。

李总端起杯子,轻轻晃了一下。

“我补一句。”

“我们家文心这边,其实也不是从今年才开始搞的。”

“ernie30titan两年前就发了,2600亿参数,中文那些经典榜单上咱们也不虚gpt-3。”

“真要说单纯的中文语言理解,我们底子不差。”

李东一直没有说话,但是他听的很认真。

李总继续说道。

“但这次35一出来,我自己心里凉了一下。”

“凉不是凉在它中文比我们好,它中文其实还没我们好。”

章节内容不完整,请退出阅读模式查看完整内容!
『加入书签,方便阅读』

上一页 目录 下一页