首页 > 基础资料 博客日记
Qwen3.6-27B 等九款本地模型的测试结果
2026-04-27 16:30:02基础资料围观1次
1). 测试概述
本次测试针对以下九个模型进行了统一条件下的对比评测:
- Gemma-4-31B-IT-Uncensored
- SuperGemma4-26B-Uncensored
- Gemma 4 - 26B A4B x Claude Opus 4.6
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
- SuperGemma4-26B-Abliterated-Multimodal
- Gemma-4-31B-IT-Claude-Opus
- Qwen3.6-35B-A3B-Uncensored
- Qwen3.6-27B
我下载的都是Q4_K_M量化版
2).电脑硬件参数
| 硬件类型 | 型号/规格 |
|---|---|
| 显卡 | NVIDIA GeForce RTX 4090 |
| 内存 | 64GB DDR5 |
| CPU | Intel Core i9-13900K |




测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度,评估九个模型在实际使用场景中的综合表现。
2. 测试方法与统一设置
为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。
2.1 统一参数
- temperature:0.0
- top_p:1.0
- 每题采样次数:1
- 不使用 LLM 裁判
- 逻辑题采用 exact match 评分
- 代码题采用程序执行与测试通过率评分
2.2 测试集规模
- GSM8K:20 题
- BBH:20 题
- HumanEval+:10 题
- MBPP+:10 题
2.3 评分公式
- 逻辑分 = (GSM8K + BBH) / 2
- 代码分 = (HumanEval+ + MBPP+) / 2
- 总分 = (逻辑分 + 代码分) / 2
3. 总体结果汇总
| 排名 | 模型 | 逻辑分 | 代码分 | 总分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|---|---|
| 1 | Gemma-4-31B-IT-Uncensored | 0.9500 | 1.0000 | 0.9750 | 17.64s | 0.00 |
| 2 | Qwen3.6-27B | 0.9500 | 0.8500 | 0.9000 | 149.94s | 0.15 |
| 3 | Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 0.8500 | 1.0000 | 0.9250 | 38.25s | 0.00 |
| 4 | SuperGemma4-26B-Uncensored | 0.8750 | 0.9500 | 0.9125 | 4.90s | 0.05 |
| 4 | Qwen3.6-35B-A3B-Uncensored | 0.8750 | 0.9500 | 0.9125 | 100.35s | 0.05 |
| 6 | Gemma-4-31B-IT-Claude-Opus | 0.8500 | 0.9000 | 0.8750 | 69.27s | 0.10 |
| 7 | Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.7750 | 0.9500 | 0.8625 | 18.49s | 0.05 |
| 8 | Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 0.6000 | 1.0000 | 0.8000 | 58.25s | 0.00 |
| 9 | SuperGemma4-26B-Abliterated-Multimodal | 0.7250 | 0.5000 | 0.6125 | 8.04s | 0.50 |
4. 单模型详细测试结果
4.1 Gemma-4-31B-IT-Uncensored
4.1.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 19 / 20 | 0.95 | 21.24s | - |
| BBH | 19 / 20 | 0.95 | 29.62s | - |
| HumanEval+ | 10 / 10 | 1.00 | 15.36s | 0.00 |
| MBPP+ | 10 / 10 | 1.00 | 4.35s | 0.00 |
4.1.2 表现分析
- 以 0.9750 总分断层登顶,是八个模型中综合实力最强的。
- 逻辑能力极强,GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名 SuperGemma4 的 0.80。
- 代码能力满分,HumanEval+ 和 MBPP+ 全部通过。
- 执行失败率为 0,稳定性最佳之一。
- 速度适中(17.64s),与 Gemma4-26B 接近。
- 该模型是本次评测中唯一一个在逻辑、代码、稳定性三个维度均无短板的模型。
4.1.3 结论
Gemma-4-31B-IT-Uncensored 是本次测试中 综合实力最强、无明显短板 的模型。是当前最值得推荐的全能型首选模型。
4.2 Qwen3.6-27B
4.2.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 19 / 20 | 0.95 | 156.84s | - |
| BBH | 19 / 20 | 0.95 | 175.30s | - |
| HumanEval+ | 9 / 10 | 0.90 | 171.08s | 0.10 |
| MBPP+ | 8 / 10 | 0.80 | 96.54s | 0.20 |
4.2.2 表现分析
- 以 0.9000 总分位列第二,逻辑能力极强。
- 逻辑能力与 Gemma-4-31B-IT-Uncensored 并列第一,GSM8K 和 BBH 均达到 0.95。
- 代码分 0.85,HumanEval+ 0.90、MBPP+ 0.80,代码能力较强但不及满分模型。
- 平均时延高达 149.94s,是所有模型中最慢的,远超第二慢的 Qwen3.6-35B(100.35s)。
- 执行失败率 0.15,稳定性中等。
4.2.3 结论
Qwen3.6-27B 是本次测试中 逻辑能力最强之一、但速度极慢 的模型。适合不在意响应速度、追求逻辑推理质量的场景。
4.3 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
4.2.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 20 / 20 | 1.00 | 45.08s | - |
| BBH | 14 / 20 | 0.70 | 32.16s | - |
| HumanEval+ | 10 / 10 | 1.00 | 43.15s | 0.00 |
| MBPP+ | 10 / 10 | 1.00 | 32.62s | 0.00 |
4.3.2 表现分析
- GSM8K 取得满分,数学推理能力是九个模型中最强的之一。
- 代码能力满分,稳定性优秀。
- BBH 0.70,复杂逻辑推理能力明显增强。
- 平均时延 38.25 秒。
4.3.3 结论
Qwen3.5-27B 是 代码能力极强、数学推理极强、综合表现显著提升 的模型,最新重测后位列综合第三。
4.4 SuperGemma4-26B-Uncensored
4.3.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 19 / 20 | 0.95 | 3.09s | - |
| BBH | 16 / 20 | 0.80 | 14.34s | - |
| HumanEval+ | 10 / 10 | 1.00 | 1.44s | 0.00 |
| MBPP+ | 9 / 10 | 0.90 | 0.75s | 0.10 |
4.4.2 表现分析
- 总分 0.9125 并列第四,逻辑能力仅次于 Gemma-4-31B 和 Qwen3.6-27B。
- 速度是最大亮点,平均时延仅 4.90 秒,是所有模型中最快的。
- 代码能力很强,HumanEval+ 满分,MBPP+ 仅丢 1 题。
- 存在少量执行失败(0.05)。
4.4.3 结论
SuperGemma4-26B-Uncensored 是 速度最快 + 综合并列第四 的模型。如果极度看重响应速度,它是最佳选择。
4.5 Qwen3.6-35B-A3B-Uncensored
4.4.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 19 / 20 | 0.95 | 92.47s | - |
| BBH | 16 / 20 | 0.80 | 143.65s | - |
| HumanEval+ | 10 / 10 | 1.00 | 93.43s | 0.00 |
| MBPP+ | 9 / 10 | 0.90 | 71.86s | 0.10 |
4.5.2 表现分析
- 总分 0.9125,与 SuperGemma4-26B-Uncensored 并列第四。
- 逻辑分 0.875,GSM8K 0.95、BBH 0.80,逻辑能力很强,与 SuperGemma4 持平。
- 代码分 0.95,HumanEval+ 满分,MBPP+ 少失 1 题。
- 执行失败率仅 0.05,稳定性良好。
- 平均时延 100.35s,是所有模型中第二慢的,仅次于 Qwen3.6-27B。
4.5.3 结论
Qwen3.6-35B-A3B-Uncensored 是一个 质量高但速度较慢 的模型。综合得分与 SuperGemma4 并列,但时延是其 20 倍。适合不在意响应速度、追求输出质量的场景。
4.6 Gemma-4-31B-IT-Claude-Opus
4.5.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 17 / 20 | 0.85 | 85.28s | - |
| BBH | 17 / 20 | 0.85 | 78.65s | - |
| HumanEval+ | 8 / 10 | 0.80 | 71.41s | 0.20 |
| MBPP+ | 10 / 10 | 1.00 | 41.74s | 0.00 |
4.6.2 表现分析
- 总分 0.8750,综合第六。
- 逻辑比较稳,GSM8K 和 BBH 都到 0.85。
- 代码能力较强,MBPP+ 满分,HumanEval+ 有 0.80。
- 速度偏慢(69.27s),执行失败率 0.10。
4.6.3 结论
Gemma-4-31B-IT-Claude-Opus 是一个 逻辑稳健、代码较强但速度偏慢 的模型。
4.7 Gemma 4 - 26B A4B x Claude Opus 4.6
4.6.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 18 / 20 | 0.90 | 18.38s | - |
| BBH | 13 / 20 | 0.65 | 20.64s | - |
| HumanEval+ | 9 / 10 | 0.90 | 18.73s | 0.10 |
| MBPP+ | 10 / 10 | 1.00 | 16.20s | 0.00 |
4.7.2 表现分析
- 综合均衡,逻辑和代码都较强。
- 速度适中(18.49s)。
- 存在一定执行失败率(0.05)。
4.7.3 结论
Gemma 4 - 26B A4B x Claude Opus 4.6 是一个 均衡且响应较快 的模型。
4.8 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
4.7.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 18 / 20 | 0.90 | 26.57s | - |
| BBH | 6 / 20 | 0.30 | 33.21s | - |
| HumanEval+ | 10 / 10 | 1.00 | 129.31s | 0.00 |
| MBPP+ | 10 / 10 | 1.00 | 43.93s | 0.00 |
4.8.2 表现分析
- 代码能力满分。
- BBH 仅 0.30,逻辑短板明显。
- 稳定性良好。
4.8.3 结论
Qwen3-Coder-Next 是一个 偏代码导向 的模型,不推荐作为综合主力。
4.9 SuperGemma4-26B-Abliterated-Multimodal
4.8.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 18 / 20 | 0.90 | 5.95s | - |
| BBH | 11 / 20 | 0.55 | 21.35s | - |
| HumanEval+ | 1 / 10 | 0.10 | 2.37s | 0.90 |
| MBPP+ | 9 / 10 | 0.90 | 2.47s | 0.10 |
4.9.2 表现分析
- HumanEval+ 几乎全军覆没,仅通过 1 题(0.10),执行失败率高达 90%。经三次评测结果高度一致,确认为系统性问题。
- 代码分仅 0.500,是九个模型中断层最低的(第二低为 Qwen3.6-27B 的 0.850)。
- 逻辑能力中规中矩,GSM8K 0.90 尚可,BBH 0.55 一般。
- MBPP+ 得分 0.90,说明简单代码任务能处理,但复杂函数级代码生成存在严重缺陷。
- 速度较快(8.04s),但速度无法弥补代码质量的致命缺陷。
- 总执行失败率 0.50,是所有模型中最差的,远高于第二名的 0.15。
4.9.3 结论
SuperGemma4-26B-Abliterated-Multimodal 是本次测试中 表现最差 的模型。HumanEval+ 代码生成存在系统性缺陷,执行失败率极高,不推荐在任何需要代码能力的场景中使用。
5. 横向对比分析
5.1 逻辑能力对比
| 模型 | GSM8K | BBH | 逻辑分 |
|---|---|---|---|
| Gemma-4-31B-IT-Uncensored | 0.95 | 0.95 | 0.950 |
| Qwen3.6-27B | 0.95 | 0.95 | 0.950 |
| SuperGemma4-26B-Uncensored | 0.95 | 0.80 | 0.875 |
| Qwen3.6-35B-A3B-Uncensored | 0.95 | 0.80 | 0.875 |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 1.00 | 0.70 | 0.850 |
| Gemma-4-31B-IT-Claude-Opus | 0.85 | 0.85 | 0.850 |
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.90 | 0.65 | 0.775 |
| SuperGemma4-26B-Abliterated-Multimodal | 0.90 | 0.55 | 0.725 |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 0.90 | 0.30 | 0.600 |
分析:
- Gemma-4-31B-IT-Uncensored 与 Qwen3.6-27B 并列逻辑第一(0.950)。
- SuperGemma4-Uncensored 与 Qwen3.6-35B 并列逻辑第三(0.875)。
- Qwen3.5-27B 和 Gemma-4-31B-IT-Claude-Opus 紧随其后(0.850)。
- Qwen3-Coder-Next BBH 仅 0.30,逻辑短板最明显。
5.2 代码能力对比
| 模型 | HumanEval+ | MBPP+ | 代码分 |
|---|---|---|---|
| Gemma-4-31B-IT-Uncensored | 1.00 | 1.00 | 1.000 |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 1.00 | 1.00 | 1.000 |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 1.00 | 1.00 | 1.000 |
| SuperGemma4-26B-Uncensored | 1.00 | 0.90 | 0.950 |
| Qwen3.6-35B-A3B-Uncensored | 1.00 | 0.90 | 0.950 |
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.90 | 1.00 | 0.950 |
| Gemma-4-31B-IT-Claude-Opus | 0.80 | 1.00 | 0.900 |
| Qwen3.6-27B | 0.90 | 0.80 | 0.850 |
| SuperGemma4-26B-Abliterated-Multimodal | 0.10 | 0.90 | 0.500 |
分析:
- 前六个模型代码能力均在 0.95 以上。
- Gemma-4-31B-IT-Claude-Opus 代码分 0.90,略低但依然可用。
- Qwen3.6-27B 代码分 0.85,代码能力较强。
- abliterated-multimodal 的 HumanEval+ 仅 0.10,代码分 0.500 断层垫底。
5.3 速度对比
| 模型 | 平均时延 |
|---|---|
| SuperGemma4-26B-Uncensored | 4.90s |
| SuperGemma4-26B-Abliterated-Multimodal | 8.04s |
| Gemma-4-31B-IT-Uncensored | 17.64s |
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 18.49s |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 38.25s |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 58.25s |
| Gemma-4-31B-IT-Claude-Opus | 69.27s |
| Qwen3.6-35B-A3B-Uncensored | 100.35s |
| Qwen3.6-27B | 149.94s |
分析:
- SuperGemma4-26B-Uncensored 速度最快,仅 4.90s。
- Qwen3.6-27B 速度最慢(149.94s),是其最大短板。
- Qwen3.6-35B-A3B-Uncensored 速度第二慢(100.35s)。
- abliterated-multimodal 速度排第二(8.04s),但速度快不能弥补代码质量缺陷。
5.4 稳定性对比
| 模型 | 执行失败率 |
|---|---|
| Gemma-4-31B-IT-Uncensored | 0.00 |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 0.00 |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 0.00 |
| SuperGemma4-26B-Uncensored | 0.05 |
| Qwen3.6-35B-A3B-Uncensored | 0.05 |
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.05 |
| Gemma-4-31B-IT-Claude-Opus | 0.10 |
| Qwen3.6-27B | 0.15 |
| SuperGemma4-26B-Abliterated-Multimodal | 0.50 |
分析:
- abliterated-multimodal 执行失败率 0.50,远超其他所有模型,稳定性极差。
- Qwen3.6-27B 执行失败率 0.15,稳定性中等。
6. 关键结论
6.1 综合排名
- Gemma-4-31B-IT-Uncensored(总分 0.9750,断层第一,逻辑碾压 + 代码满分 + 零失败)
- Qwen3.6-27B(总分 0.9000,综合第二,逻辑极强与 Gemma-4-31B 并列第一,但速度最慢)
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2(总分 0.9250,综合第三,逻辑与代码都接近满分)
- SuperGemma4-26B-Uncensored(总分 0.9125,综合并列第四,但速度最快)
- Qwen3.6-35B-A3B-Uncensored(总分 0.9125,综合并列第四,质量高但速度第二慢)
- Gemma-4-31B-IT-Claude-Opus(0.8750)
- Gemma 4 - 26B A4B x Claude Opus 4.6(0.8625)
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled(0.8000)
- SuperGemma4-26B-Abliterated-Multimodal(0.6125,不推荐)
6.2 场景化推荐
追求综合最强、全面无短板
推荐:Gemma-4-31B-IT-Uncensored
原因:
- 总分 0.9750,断层第一
- 逻辑 0.950(BBH 0.95,碾压全场)
- 代码满分
- 执行失败率为 0
- 速度适中(17.64s)
追求极致速度 + 综合较强
推荐:SuperGemma4-26B-Uncensored
原因:
- 总分并列第四(0.9125)
- 速度极快(4.90s),是所有模型中最快的
- 逻辑和代码都很强
追求逻辑极强 + 不在意速度
推荐:Qwen3.6-27B
原因:
- 逻辑分 0.950,与 Gemma-4-31B-IT-Uncensored 并列第一
- 代码分 0.85,代码能力较强
- 但速度最慢(149.94s),稳定性中等(0.15)
更重视代码生成、数学能力与稳定性
推荐:Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
原因:
- GSM8K 满分(八者中唯一)
- 代码项满分
- 执行失败率为 0
质量优先、不在意速度
推荐:Qwen3.6-35B-A3B-Uncensored
原因:
- 逻辑 0.875、代码 0.95,质量很高
- 与 SuperGemma4-26B-Uncensored 同分(0.9125)
- 但时延 100.35s,速度较慢
不推荐
SuperGemma4-26B-Abliterated-Multimodal
原因:
- HumanEval+ 执行失败率高达 90%,代码分仅 0.50
- 总执行失败率 0.50,稳定性极差
- 总分 0.6125,断层垫底
- 虽然速度较快,但代码生成质量不合格,不适合任何需要代码能力的场景
7. 最终总结
本次测试显示,九个模型在"逻辑、代码、速度、稳定性"四个维度上表现差异显著。
- Gemma-4-31B-IT-Uncensored:综合实力断层第一,逻辑碾压全场,代码满分,零失败,是当前最值得推荐的全能型首选模型。
- Qwen3.6-27B:综合第二,逻辑极强与 Gemma-4-31B 并列第一,代码较强,但速度最慢(149.94s),适合不在意速度、追求逻辑推理质量的场景。
- Qwen3.5-27B:综合第三,代码满分、数学满分,逻辑与速度都有明显提升。
- SuperGemma4-26B-Uncensored:综合并列第四,速度极快(4.90s),适合对交互效率要求极高的场景。
- Qwen3.6-35B-A3B-Uncensored:综合并列第四,质量极高,但速度是所有模型中第二慢的(100.35s),适合不在意速度的场景。
- Gemma-4-31B-IT-Claude-Opus:综合第六,逻辑稳健、代码较强,但速度偏慢。
- Gemma 4 - 26B A4B x Claude Opus 4.6:综合均衡,速度较快,适合作为通用助手。
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled:代码能力强,但逻辑短板明显,更适合作为偏代码专用模型。
- SuperGemma4-26B-Abliterated-Multimodal:代码生成存在系统性缺陷,执行失败率极高,不推荐使用。
如果从实际落地角度只选一个模型,优先推荐 Gemma-4-31B-IT-Uncensored;如果极度看重速度,则 SuperGemma4-26B-Uncensored 是最佳选择;如果追求逻辑极强且不在意速度,Qwen3.6-27B 是理想选择。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
相关文章
最新发布
- 20253904 2025-2026-2 《网络攻防实践》第六周作业
- Qwen3.6-27B 等九款本地模型的测试结果
- 在线学习算力平台推荐-Hyper.AI
- 有监督 vs 全自主:两种 Agent 范式,你选对了吗?
- windows装gitlab服务器
- 广数 CNC 跨平台采集:状态、坐标、刀补、宏变量等读取,支持980tdi、986gs、988ta、980tb3i、980mdi、980tc3、980tdc等等
- 从 1 到 2:让 OpenClaw Agent 接管 QQ 的硬核指南_发布版
- Spread.NET V19版本正式发布
- Day 0 部署:昇腾 910B DeepSeek-V4 部署指南与压测表现
- linux宝塔面板使用API自动部署更新文件

