第二百六十一章 就不能两头吃吗 路大头
吃饭的时候韩路一给他处理了之后,密钥就发到邮箱里了。
他现在迫不及待的想要去戳破这个假货。
他从邮箱里复制出那串密钥,打开自己常用的测试脚本。
私人测评集不大,一共一百二十七道题。
但都是他这几年一点一点攒下来的。
有些是他读论文时发现的边界案例,有些是他自己做实验时用来卡模型的反例,还有一些是他专门用来测试中文意图理解的古怪问题。
这些题没有公开过。
不在任何排行榜里。
也不可能被提前训练进去。
章闻铎给文件起的名字就叫——
kill_odel_v111jsonl(杀死大模型111版)
这个名字虽然中二,但是水平可不低,很多号称世界先进的大模型,在这套题上跑一遍,分数都会变得很难看。
章闻铎把汤圆-09的api地址填进去,又把密钥贴好,调用写好的大模型测评脚本。
运行。
他一边看着终端输出结果,一边身体靠在人体工学椅上后仰,把脚搭在了桌子上。
头还有点儿晕。
再一看,前十题都过了。
二十题,也都过了。
章闻铎皱了皱眉头,把脚从桌子上放了下来。
三十题,还是全对。
怎么回事?
章闻铎把椅子往前拉了拉。
脚本已经运行到五十题了,依旧是全对。
章闻铎感觉有点儿凉,摸了摸头,出了一层细汗。
没去继续关注正在运行的脚本,章闻铎点开其中一题,看了看汤圆的输出。
逻辑很严密啊!
行家一出手,就知有没有,这些章闻铎特意收集起来的题,强调的就是任务的复杂性,按照一般大模型的处理方式,在这么复杂的条件下,很容易就会出现注意力分散,关键条件被忽略的问题。
可是这个问题在汤圆的答案上一点儿没出现。
章闻铎静静地看着终端里的脚本跑完,最后一百二十七题里面对了一百二十题,错了七道。
但是这七道里还有不同寻常的事。
其中有一道题,汤圆回答的是——“我不知道”。
作为一个ai模型的研究者,章闻铎知道这有多难。
光凭提高数据质量就可以做到这一步吗?
章闻铎突然觉得脸上有点儿热,而且越来越热。
他摸了摸脸,这个酒后劲儿这么大的吗?
又上头了。
章闻铎拿起手杯去接了杯水,然后一饮而尽。
他拿出手机,找到刚才加的韩路一的微信好友。
聊天记录里有一句话:
“我通过了你的朋友验证请求,现在我们可以开始聊天了”
章闻铎盯着输入框看了好一会儿,开始打字。
【韩总,刚才吃饭的时候我说话有点】
打到这,他停住了。
有点儿什么呢?冒犯?没分寸?自以为是?
他皱着眉,把这几个字删掉了,又重新打。
章节内容不完整,请退出阅读模式查看完整内容!