ICLR 2026 | HardcoreLogic：大模型的超级逻辑挑战

论文地址：

https://arxiv.org/abs/2510.12563

Github地址：

https://github.com/ljcleo/hardcore-logic

评测数据集：

https://huggingface.co/datasets/xhWu-fd/HardcoreLogic

在线排行榜：

https://huggingface.co/spaces/JunsWan/HardcoreLogic

引言

近年来，大型推理模型（large reasoning model, LRM）在复杂逻辑推理任务中展现出令人瞩目的性能，尤其在数独等逻辑推理谜题上已达到较高水平。然而，现有逻辑推理基准（如Enigmata、ZebraLogic）多聚焦于标准格式的谜题（如9x9标准数独），导致模型易过度拟合标准形式、记忆解决方案模式，而非真正理解逻辑规则。这种局限性在面对“长尾”变体时尤为突出：

模型仅能识别标准谜题形式，对非标准规则或结构的变体难以理解；
模型依赖固定推理策略，即使理解变体规则，仍套用标准解法导致错误。

当前的各类LRM是否拥有真正的灵活推理能力？当面对非标准、长尾分布的逻辑谜题变体时，它们能否自适应调整推理策略？针对这一关键问题，来自复旦大学、南加州大学、华为技术有限公司等机构的研究团队提出了HardcoreLogic —— 一个包含5250个长尾逻辑谜题的挑战性数据集。这一新评测基准在10种涵盖不同逻辑推理能力的谜题的基础上，系统性地引入多种长尾变换，使谜题变得更加困难或更不常见，同时特别构造了无解谜题，以填补当前主流评测基准在这方面的空白。

图1（左）：针对数独谜题的两种变换示例：右上的变体具有不规则宫格（规则变异）；右下的变体用字母替代数字（形式变异）且要求对角线也不能重复（规则变异）。

图2 （右）：模型在标准数据集（Original）与HardcoreLogic上的性能对比。

实验结果显示，各类开源及闭源LRM在HardcoreLogic上均无法达到常规谜题上的答题水平，并呈现出多种相对普遍的错误模式；而在无解谜题上，许多模型也不能准确判别问题无解或试图强行编造解答。这些结果揭示了当前主流LRM在真实逻辑推理中仍然存在的核心缺陷；HardcoreLogic不仅为此提供了针对性的评测谜题，还能进一步作为一种数据构造范式，持续提供不同难度梯度的谜题数据以帮助模型克服这些缺陷。

本论文已经被ICLR 2026接收为主会长文。

基准设计

覆盖谜题类型

HardcoreLogic涵盖6大类10种经典逻辑谜题，全面测试模型的逻辑演绎、模式识别、序列搜索等多种核心推理能力：

逻辑谜题：Zebralogic
网格谜题：Sudoku、Skyscraper、Binario
搜索谜题：Minesweeper、Hitori、Kakurasu
模式谜题：Crypto
图谜题：Navigation
序列谜题：Hanoi

三大长尾变换维度

HardcoreLogic通过以下三种互不重叠的变换构建长尾样本，大幅降低模型记忆优势：

复杂度提升（IC），包括：

搜索空间扩展（IC1）：增大谜题规模（如更大网格）、减少初始给定信息，扩大候选解空间；
约束强化（IC2）：增加约束间的耦合程度，降低单个约束的信息量，延长推理链。

非标准元素（UE），包括：

形式变异（UE1）：改变谜题呈现形式（如数独用字母替代数字、不规则子网格划分）；
规则变异（UE2）：修改或融合核心规则（如数独增加对角线唯一约束、扫雷用“地雷簇”替代单个地雷计数）。

不可解谜题（UP）：基于可解谜题构造存在逻辑矛盾的无解样本，测试模型识别信息不一致、避免“幻觉解”的能力。

表1 ：各个谜题的变体分布及数据量；Original是用于对比的标准谜题数据集。

数据规模与复杂性

相比基于标准谜题的数据集（Original），HardcoreLogic中的样本具有更高的理论复杂度或模型困惑度：

经过IC1变换的谜题普遍拥有更大的解空间，使得暴力搜索无法在常规上下文空间内完成；

经过IC2和UE2变换的谜题普遍具有更大的分支长度和回溯次数，使推理链条更加复杂；

经过UE1变换的谜题虽然不会增大解空间或增加复杂度，但仍然具有更高的模型困惑度。

图3 ：五个游戏的谜题在IC1变换前后的平均搜索空间大小对比；

图4 ：各个游戏在IC2（绿）、UE1（橙）或UE2（紫）变换前后的复杂度/困惑度大小对比。

实验结果与关键发现

我们在21个主流LRM（包括GPT、Qwen3、DeepSeek等开源/闭源模型族）上进行了全面评估，核心发现如下：

所有模型性能显著下降

无论是开源模型还是闭源模型，在HardcoreLogic上的准确率相比标准数据集均大幅下滑。其中，部分大参数模型（如Kimi-K2）在原始基准上表现中等，但在HardcoreLogic上大幅落后，暴露其依赖“谜题刻板印象”的缺陷。这一现象在涉及的各种游戏上均有体现，尤其是部分标准数据集中较为简单的谜题（如Binario）。

图5 ：不同LRM在标准数据集（Original）和HardcoreLogic上的平均准确率。

图6 ：两个数据集中每种谜题的开源模型平均准确率分布。

IC和UE变换的难度贡献

通过加权线性回归分析，我们发现搜索空间扩展（IC1）对模型性能影响最大，表明模型的推理模式对解空间大小最为敏感。此外，非标准元素变换（包括UE1和UE2）在部分谜题（如Sudoku和Minesweeper）上也导致明显的模型性能下降——尽管这类变换未必会使推理过程更加复杂，但仍然对LRM产生了一定误导。