AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning

Summary: 本文提出持久工作流程提示（PWP）方法，通过结构化提示库和元提示技术，指导大型语言模型完成复杂的学术同行评审任务，并在抑制输入偏见方面取得初步成功。

Keywords: LLM, Prompt Engineering, Workflow Design, Reasoning, Bias Mitigation

Authors: Evgeny Markhasin

Institution(s): Lobachevsky State University of Nizhny Novgorod

Problem Background

大型语言模型（LLMs）在处理学术同行评审等复杂专家任务时，面临数据限制和推理复杂性的挑战，尤其是在需要深度批判性分析和克服输入偏见（Input Bias）的情况下。本文旨在探索如何通过提示工程技术，在不依赖API或代码的情况下，仅使用标准聊天界面，将专家评审的隐性知识和工作流程转化为结构化指导，从而让 LLMs 能够系统化地完成学术评审任务。

Method

核心思想： 提出持久工作流程提示（Persistent Workflow Prompting, PWP），通过一个层次化、模块化的提示架构，指导 LLMs 完成复杂多步骤分析任务，如学术同行评审。
具体实现：
- PWP 架构： 使用 Markdown 格式组织详细的工作流程，形成一个持久的工作流程库，在会话开始时一次性提交到 LLMs 的上下文内存中。随后通过简短用户查询触发具体分析步骤，避免重复提交大型提示，节省上下文窗口空间。
- 工作流程设计： 将评审任务分解为可管理的步骤（如识别主要结果、评估方法论、定量可行性检查等），并编码为提示中的具体指令，指导 LLMs 进行系统化分析。
- 角色设计（Persona Engineering）： 通过详细的角色描述和行为指令，赋予 LLMs 批判性评审者的特质（如怀疑精神、客观性），以对抗模型固有的正向输入偏见，强调独立方法评估。
- 元提示（Meta-Prompting）： 利用 LLMs 自身迭代优化提示内容，包括语言结构优化和语义工作流程设计，通过与模型的交互逐步提炼 PWP 提示。
- 元推理（Meta-Reasoning）： 通过反思专家评审的隐性知识和直觉判断，将其转化为明确的提示指令，例如将‘过于美好而不真实’的启发式判断分解为具体的可操作检查步骤。
关键特点： 不修改底层模型，仅通过推理时提示调整实现复杂任务指导，适用于大多数现成 LLMs，包括专有模型。

Experiment

有效性： 在针对实验化学论文的测试中，PWP 指导下的 LLMs（如 Google Gemini Advanced 2.5 Pro）能够一致地识别出单一测试案例中的主要方法论缺陷，并在不同模型（如 ChatGPT o1/o3、SuperGrok Grok 3 Think）间表现出一定的分析稳定性，成功抑制了输入偏见。
优越性： 相比简单的提示方法，PWP 通过结构化工作流程显著提升了 LLMs 的批判性分析深度，尤其在多模态分析（结合文本和图像）方面，Gemini Advanced 2.5 Pro 甚至发现了人类评审未注意到的缺陷。
实验设置局限： 实验仅基于单一测试案例（已知有方法论缺陷的化学论文），缺乏多案例验证和量化基准，提示范围局限于核心实验方法，未覆盖论文其他部分（如数据呈现、统计分析），因此通用性和全面性有待进一步验证。
开销与兼容性： PWP 提示体积较大（超过 30 kB），可能超出某些 LLM 聊天界面的输入限制（如 Qwen 界面），对平台兼容性构成挑战。

Further Thoughts

PWP 的持久工作流程库理念可以扩展到其他复杂任务领域，如实验设计、代码审查或跨学科分析，构建领域特定的提示库；此外，元提示和元推理技术启发了一种自适应提示开发框架，可以利用 LLMs 自身迭代优化提示设计，甚至形成自动化提示改进循环；同时，输入偏见抑制策略（通过负向偏见角色设计）也为在教育或决策支持系统中平衡 LLMs 的学习能力和批判性思维提供了思路。