第二百六十一章就不能两头吃吗_首富从AI浪潮开始路大头

吃饭的时候韩路一给他处理了之后，密钥就发到邮箱里了。

他现在迫不及待的想要去戳破这个假货。

他从邮箱里复制出那串密钥，打开自己常用的测试脚本。

私人测评集不大，一共一百二十七道题。

但都是他这几年一点一点攒下来的。

有些是他读论文时发现的边界案例，有些是他自己做实验时用来卡模型的反例，还有一些是他专门用来测试中文意图理解的古怪问题。

这些题没有公开过。

不在任何排行榜里。

也不可能被提前训练进去。

章闻铎给文件起的名字就叫——

kill_odel_v111jsonl（杀死大模型111版）

这个名字虽然中二，但是水平可不低，很多号称世界先进的大模型，在这套题上跑一遍，分数都会变得很难看。

章闻铎把汤圆-09的api地址填进去，又把密钥贴好，调用写好的大模型测评脚本。

运行。

他一边看着终端输出结果，一边身体靠在人体工学椅上后仰，把脚搭在了桌子上。

头还有点儿晕。

再一看，前十题都过了。

二十题，也都过了。

章闻铎皱了皱眉头，把脚从桌子上放了下来。

三十题，还是全对。

怎么回事？

章闻铎把椅子往前拉了拉。

脚本已经运行到五十题了，依旧是全对。

章闻铎感觉有点儿凉，摸了摸头，出了一层细汗。

没去继续关注正在运行的脚本，章闻铎点开其中一题，看了看汤圆的输出。

逻辑很严密啊！

行家一出手，就知有没有，这些章闻铎特意收集起来的题，强调的就是任务的复杂性，按照一般大模型的处理方式，在这么复杂的条件下，很容易就会出现注意力分散，关键条件被忽略的问题。

可是这个问题在汤圆的答案上一点儿没出现。

章闻铎静静地看着终端里的脚本跑完，最后一百二十七题里面对了一百二十题，错了七道。

但是这七道里还有不同寻常的事。

其中有一道题，汤圆回答的是——“我不知道”。

作为一个ai模型的研究者，章闻铎知道这有多难。

光凭提高数据质量就可以做到这一步吗？

章闻铎突然觉得脸上有点儿热，而且越来越热。

他摸了摸脸，这个酒后劲儿这么大的吗？

又上头了。

章闻铎拿起手杯去接了杯水，然后一饮而尽。

他拿出手机，找到刚才加的韩路一的微信好友。

聊天记录里有一句话：

“我通过了你的朋友验证请求，现在我们可以开始聊天了”

章闻铎盯着输入框看了好一会儿，开始打字。

【韩总，刚才吃饭的时候我说话有点】

打到这，他停住了。

有点儿什么呢？冒犯？没分寸？自以为是？

他皱着眉，把这几个字删掉了，又重新打。

章节内容不完整，请退出阅读模式查看完整内容！