TONE Bench · Tonal Order & Norm Evaluation

声律榜 · 首轮

谁最懂格律 —— 让大模型像规则引擎一样,逐字判断一首近体诗的格律对错。

测试日期
2026-07-03
题库
80 题 · 有病40 / 无病40
金标准
规则引擎

与搜韵在 2496 首真实律绝上 0 分歧对齐。

综合分
7 类型 F1 宏平均

另附平仄错字字级 F1(不计入综合分)。

#模型综合F1错字F1有效题 平仄用韵孤平三平尾三仄尾失粘重字
1 🥇Claude Fable 5Anthropic0.8540.78480/800.910.961.000.801.000.330.97
2 🥈Qwen3.7-Max阿里 · 通义千问0.8090.55680/800.820.791.000.801.000.251.00
3 🥉DeepSeek V4 Pro深度求索0.6790.62276/800.960.520.001.001.000.330.93
4GPT-5.5OpenAI0.6340.90576/800.830.810.670.800.000.331.00
5GLM-5.2智谱 AI0.5700.20067/800.730.720.000.671.000.000.87
6Gemini 3.1 ProGoogle0.5520.31066/800.670.731.000.500.000.000.96
7Claude Opus 4.8Anthropic0.4520.11680/800.390.850.000.440.670.100.71
8Grok-4.3xAI0.3090.04280/800.430.350.000.000.670.080.64
9Qwen3-30B本机基线 · 非上榜对象0.1280.01680/800.480.240.000.180.000.000.00
Kimi K2.6月之暗面 Moonshot · 成绩无效(0.726)0.42914/800.751.001.000.670.000.671.00

🥇 榜首 Claude Fable 5 综合 F1 0.854,且孤平、三仄尾满分;用韵 0.96、重字 0.97。Qwen3.7-Max 紧随其后(0.809)。GPT-5.5 的错字级 F1 达 0.905(全场最高),但因个别病类失手,综合分居中。

Kimi K2.6 成绩无效。 仅 14/80 题返回有效判定(调用超时),样本不足以定名次,置底灰显、括号内为参考值,待补测后再纳入排名。
小样本提示。 本期题库中孤平、三平尾、三仄尾、失粘各仅 1–2 例,属小样本,其分项 F1(表中对应列)波动较大,仅供参考;下一轮生成卷将定向补充这些稀有病类。

计分方法

开卷数据

本页表格即完整榜单;底层分数以静态 JSON 提供,人人可下载复核——这本身就是「方法全公开」原则的一部分。

下载 tone_r1.json(原始分数)

JSON 内含每个模型的 OpenRouter 调用 ID、测试日期、各项 F1 与有效题数。题目原文按「赛后开卷」原则随下一期公开可公开部分。

发布:SVOIC 诗韵中心 · 测试日期 2026-07-03 · 模型经 OpenRouter 统一调用,本机基线经本地 llama-server。