Design Principles
榜单设计原则
声律榜 TONE Bench(Tonal Order & Norm Evaluation)——谁最懂格律
诗才榜 VERSE Bench(Verse Evaluation by Rules & Style, Expert-blind)——谁最会写诗
合称 SVOIC TONE & VERSE,大模型诗词格律与写作能力双榜(Classical Chinese Prosody & Verse-writing Benchmarks)。本原则适用于 SVOIC 诗韵中心全系测评。
一、裁判是规则,不是观点
近体诗格律是一千多年的公共规则——平水韵、粘对、拗救,写在历代韵书与诗话里,不属于任何公司,也不属于任何模型。SVOIC 榜单的客观项评分全部由确定性规则引擎完成:同一首诗,今天判和明天判、你来判和我来判,结果完全一致。不存在「AI 评 AI」的循环论证。
二、方法全公开,题目不提前公开
- 公开:评测维度、计分公式、提示词模板、有效题判定标准、模型版本与测试日期——方法论文档随榜单同步发布,任何人可以按同样方法复现流程。
- 不提前公开:当期题库。题目一旦公开,就会进入下一代模型的训练语料,榜单从「测能力」退化为「测背诵」。
- 赛后开卷:每期榜单发布时,上一期可公开部分的题目、各模型原始答卷、逐题判定同步公开,接受任何人复核。当期保密、过期公开、期期轮换——保密不是黑箱,只是时间差。
三、题库四源
| 来源 | 占比 | 公开策略 | 作用 |
|---|---|---|---|
| 历史对照组(公有领域) | 10% | 可公开 | 不计主榜分。用于引擎校准、变格试金石(如著名拗体),并计算污染指数——模型在历史组与生成组的分差,即其「背答案」程度的量化证据 |
| 当代网络作品 | 20% | 仅内部使用,永不公开原文,对外只发布分数与统计结论 | 真实人类创作分布(内部卷) |
| 授权作品(如南溪诗词) | 20% | 按授权范围赛后开卷 | 真实人类创作分布(可公开卷) |
| 参评模型现场生成作品 | 50% | 查重后全量公开,每期轮换 | 主力动态卷。作品在测评前不存在于世上任何角落,从根源杜绝「见过题」;且无第三方著作权,可放心开卷 |
- 「人类卷」(网络 + 授权)与「机器卷」(生成)分别计分并对比呈现——判人诗与判机诗的分差本身是能力看点。
- 生成卷题目一律取现代题材(古人未写过),公开前与古典库及存量语料查重,剔除默写回流。
四、著作权与授权
- 未授权的当代作品仅在「科研少量复制」范围内内部使用,不出版、不公开传播原文;
- 授权作品通过刊物征稿条款一揽子取得(「投稿即授权 SVOIC 诗韵中心将作品用于 AI 测评研究及结果公示」);
- 模型生成作品无第三方权利人,公开发布不涉侵权;
- 榜单对外只发布分数、排名与统计结论——关于作品的事实数据不是作品本身。
五、双盲与回避
互评环节隐去作者身份、同题横比、剔除自评(保留少量自评对照以计算护短指数);SVOIC 诗韵中心不隶属于任何模型厂商,测评费用独立承担并公开数额;任何模型厂商不能付费上榜、不能付费复测。
六、你可以亲手验证裁判
规则引擎开放为公开检验工具:任何人可提交任意一首绝句律诗,实时查看引擎的逐字判定。你不需要信任我们——你可以拿李白杜甫来试它,拿自己的作品来试它,拿榜单公开的往期答卷来试它。裁判的每一次哨声都经得起吹毛求疵。
七、榜单会认错
引擎判定与公认格律学理不符的案例,任何人可提交异议;核实后修正引擎、重算受影响分数、在更新日志中署名致谢。规则引擎迄今已与主流格律检测工具在 2,496 首真实作品上完成全量对齐校验。
SVOIC 诗韵中心 | 本文档随榜单同步发布并接受公开监督