我们在探索构建高质量数据集的一些方法,目标是让遥感大模型和语言大模型(智能体)实现联动,实现特定领域高质量数据集的构建;

我们的路线核心,包括4个环节:

环节1:充分的数据源;环节2:稳定的数据筛选;环节3:准确的数据抽取;环节4:多智能体校验。

针对第一个环节充分的数据源,我们设计3条技术路线:

技术路线1:显式的Prompt,引导多大模型构造多种主流思维链的Prompt,利用自动构造的Prompt从主流大模型(自带搜索引擎)中提取;

大模型涵盖:kimi、天工、星火、千问、豆包、文心、GPT4o-latest、llama3.1-405b、o1、claud3.5-sonnet、deepseek等

思维链:CoT、ToT、一致性等

 当前时间点,我们认为仅仅将思维链放在提示词工程中,效果不佳。即使是有诸多目前来看较好的大模型+匹配的内部搜索引擎的支持,依然无法满足高质量数据集构建需要。

内容中包含的图片若涉及版权问题,请及时与我们联系删除