大语言模型(LLMs)常常提供看似合理、连贯的思维链(Chain-of-Thought, CoT)推理过程,但其中可能隐含未被言明的内在偏见。我们将这类偏见称为“未言明偏见”(unverbalized biases)。因此,仅通过模型所陈述的推理过程来监控其行为并不可靠;而现有的偏见评估方法通常依赖于预定义的偏见类别以及人工构建的数据集。本文提出一种完全自动化的黑箱式流程,用于检测特定任务场景下的未言明偏见。该流程以某一任务的数据集为输入,首先利用大语言模型作为自动评分器(autoraters),生成一系列潜在的偏见概念候选;随后,针对每个候选概念,在逐步扩大的输入样本规模上进行检验:通过生成体现该概念的正向变体与负向变体,并结合多重假设检验的统计方法及早停机制,判断其是否具有统计显著性。若某概念能引发模型性能的统计显著差异,且在模型自身的思维链推理中从未被援引为决策依据,则该概念即被标记为一项“未言明偏见”。我们在六种大语言模型上、针对三项决策任务(招聘、贷款审批与大学录取)对该流程进行了系统评估。结果表明,本方法能够自动发现此前未知的模型偏见(例如:西班牙语流利程度、英语熟练度、书面表达的正式程度等);同时,在同一轮运行中,亦成功复现并验证了先前研究通过人工方式识别出的若干已知偏见(如性别、种族、宗教信仰、族裔等)。更广泛而言,我们所提出的这一方法,为实现任务特异性的自动化偏见发现,提供了一条切实可行、可规模化推广的技术路径。