Opening the AI black box: program synthesis via mechanistic interpretability

简介

我们提出了 MIPS，一种新颖的程序合成方法，基于神经网络自动机制的可解释性，自动将学习到的算法转化为 Python 代码。我们在一个包含62个可通过 RNN 学习的算法任务的基准测试中测试了 MIPS，发现它与 GPT-4 高度互补：MIPS 解决了其中的32个任务，包括 GPT-4 无法解决的13个（GPT-4 解决了30个）。MIPS使用整数自编码器将RNN转换为有限状态机，然后应用布尔或整数符号回归来捕获学习到的算法。与大型语言模型不同，这种程序合成技术不使用（因此不受限于）来自 GitHub 的算法和代码等人类训练数据。我们讨论了扩展这种方法以使机器学习模型更具可解释性和可信度的机会和挑战。
图表
解决问题

本文试图通过机器学习的方式自动合成程序，解决算法任务的问题。同时，该方法不依赖于人类编写的算法和代码，试图提高机器学习模型的可解释性和可信度。
关键思路

本文提出了一种名为MIPS的程序合成方法，通过自动化机械解释神经网络的学习过程，将学习到的算法转化为Python代码。该方法使用整数自编码器将RNN转换为有限状态机，然后应用布尔或整数符号回归来捕获学习到的算法。
其它亮点

本文在62个算法任务的基准测试中测试了MIPS的性能，发现MIPS解决了32个任务，其中包括13个GPT-4无法解决的任务。与大型语言模型不同，该程序合成技术不使用（因此不受限于）来自GitHub的算法和代码等人类训练数据。作者还讨论了将该方法扩展到更大规模的机器学习模型的机会和挑战。
相关研究

最近在这个领域中，还有一些相关的研究。例如，Neural-Guided Deductive Search (NGDS) 和Neuro-Symbolic Program Synthesis (NSPS)等。

Opening the AI black box: program synthesis via mechanistic interpretability

评论