TONE Bench · Tonal Order & Norm Evaluation

声律榜 · 首轮

谁最懂格律 —— 让大模型像规则引擎一样，逐字判断一首近体诗的格律对错。

测试日期

2026-07-03

题库

80 题 · 有病40 / 无病40

金标准

规则引擎

与搜韵在 2496 首真实律绝上 0 分歧对齐。

综合分

7 类型 F1 宏平均

另附平仄错字字级 F1（不计入综合分）。

🥇 榜首 Claude Fable 5 综合 F1 0.854，且孤平、三仄尾满分；用韵 0.96、重字 0.97。Qwen3.7-Max 紧随其后（0.809）。GPT-5.5 的错字级 F1 达 0.905（全场最高），但因个别病类失手，综合分居中。

Kimi K2.6 成绩无效。 仅 14/80 题返回有效判定（调用超时），样本不足以定名次，置底灰显、括号内为参考值，待补测后再纳入排名。

小样本提示。 本期题库中孤平、三平尾、三仄尾、失粘各仅 1–2 例，属小样本，其分项 F1（表中对应列）波动较大，仅供参考；下一轮生成卷将定向补充这些稀有病类。

计分方法

七类型二元判定：每题就「平仄有误 / 用韵 / 孤平 / 三平尾 / 三仄尾 / 失粘 / 重字」逐项与引擎金标准比对，按类型计 F1（精确率与召回率的调和平均）。
综合 F1：七类型 F1 的宏平均——每类等权，不因某类题多而被淹没。这是唯一的排名依据。
错字级 F1（错字F1）：细到「具体哪个字出律」的字级评分，反映定位精度；不计入综合分，仅作参考。
多音字不计分位：金标准（引擎保守）不为未定读的多音字定罪；模型定读后报之或漏之，两头不罚，避免多音字争议干扰分数。
有效题：模型返回可解析判定 JSON 的题数。不足全量者，仅在其有效题上计分并标注；14/80 判为成绩无效。

本页表格即完整榜单；底层分数以静态 JSON 提供，人人可下载复核——这本身就是「方法全公开」原则的一部分。

JSON 内含每个模型的 OpenRouter 调用 ID、测试日期、各项 F1 与有效题数。题目原文按「赛后开卷」原则随下一期公开可公开部分。

发布：SVOIC 诗韵中心 · 测试日期 2026-07-03 · 模型经 OpenRouter 统一调用，本机基线经本地 llama-server。