1 COSTAR要素框架

C：Context（上下文），描述问题的背景和环境，提供任务的背景信息，让AI理解数据、环境和约束条件。C描述的约具体，AI的回答就越精确。
O：Objective（目标），明确你想要达到的具体目标，用动词开头，描述最终的状态或结果而非过程。例，构建逻辑回归模型，输出OR值和95%置信区间。
S：Style（风格），指定代码的风格、写作风格或表达方式，比如：tidyverse风格、论文规范、逐步注释式。例，使用tidyverse风格编写代码，使用 |> 管道，代码模块化，注释清晰。
T：Tone（语气），设定AI回答的语气和态度，比如：正式、学术、简洁、幽默等。例，用正式学术的语气回答，避免使用口语化表达或耐心教学式，帮助初学者理解。
A：Audience（受众），明确你的目标受众是谁，他们的背景知识水平如何。例，具备基础R语言知识的资源环境科研人员。
R：Response（回应），描述你期望AI的回答形式、内容、格式，比如：代码块、解释性文本、图表等。例，提供一个完整的R代码块，包含数据处理、建模、结果输出和结果的解读，在代码后附注意事项。

Note

不必写满6要素，根据需要选择适合的要素组合，确保提供足够的信息以获得准确的回答。注意，简单的任务应至少包含C+O+R三项。
Context越详细越好，在背景信息中贴上glimpsw()或报错的信息，让AI更好地理解问题的环境和约束条件。
保存为代码片段，方便后续使用和修改。在Positron中将常用模版保存为snippet，在需要时直接调用，节省时间。
为R优先指定tidyverse风格，保持代码的现代性和可读性。在Style中明确要求使用tidyverse风格，确保代码简洁、模块化，并且注释清晰。

2 数据清洗的COSTAR提示词示例

Note

【C·背景】我有一份[数据来源]的数据，共[N]行。 glimpse输出如下： [粘贴完整 glimpse(df) 输出]

存在以下已知问题： - [问题1] - [问题2] - [问题3] 运行环境：R [版本]，已安装 tidyverse、janitor、lubridate、naniar

【O·目标】完成完整的5步数据清洗： 1. 列名规范化为英文小写下划线 2. 数据类型转换（日期/因子/数值） 3. 缺失值处理（包括伪装的缺失值） 4. 异常值检测与处理 5. 验证清洗结果

【S·风格】 tidyverse管道写法（|>），按步骤分块，每块前加中文注释

【T·语气】系统化，关键决策说明选择依据（如为什么用中位数而非均值）

【A·受众】准备用清洗后数据做[逻辑回归/生存分析/机器学习]的科研人员

【R·格式】完整可运行的R脚本，最后加验证代码和数据保存代码

3 图表绘制COSTAR提示词示例

Note

【C·背景】数据：[描述数据情况，粘贴glimpse(df)输出] 图表用途：投稿[期刊名/领域]SCI论文

【O·目标】用ggplot2绘制[散点图/箱线图/柱状图/折线图/热图/火山图/KM曲线/森林图]： - x轴：[变量名]，含义[说明]，单位[单位] - y轴：[变量名]，含义[说明]，单位[单位] - 分组：[变量名]，共[N]组，标签为[标签列表] - 特殊要求：[如：添加显著性标注/趋势线/风险表/置信区间]

【S·风格】 ggplot2投稿格式，严格要求： - 字体：Arial 11pt - 主题：theme_classic()，无网格背景 - 图例：图内[位置，如右上角 c(0.85, 0.85)] - 配色：[色盲友好配色/黑白灰度] - 导出：TIFF格式，300DPI，宽[N]英寸

【T·语气】关键参数加注释（颜色选择依据/alpha值的作用/导出参数含义）

【A·受众】投稿SCI期刊，审稿人是最终受众

【R·格式】完整可运行的ggplot2代码 + ggsave导出代码最后加：该图常见的审稿意见及提前规避的方法（3条以内）

4 随即森林建模COSTAR提示词

Note

【C·背景】数据：[描述]，共[N]行 glimpse输出：[粘贴完整输出] 结局变量：[变量名]（二分类：[正类]/[负类]）特征变量：[列出所有候选变量] 运行环境：R 4.6.0，已安装tidymodels、ranger

【O·目标】用tidymodels框架完成随机森林建模： 1. 数据7:3划分（分层抽样） 2. 5折交叉验证调参（mtry和min_n） 3. 选最优参数训练最终模型 4. 测试集评估：AUC、准确率、敏感度、特异度 5. 变量重要性图（vip包） 6. ROC曲线图

【S·风格】tidymodels框架，set.seed(2026)，中文注释

【T·语气】解释：为什么要在划分前设置随机种子 mtry参数的含义和推荐调参范围 last_fit只能用一次的原因

【A·受众】有R基础但没接触过机器学习的科研人员

【R·格式】完整可运行脚本 + 图表导出代码（TIFF 300DPI）

5 XGBoost建模COSTAR提示词

Note

【C·背景】 [同上，粘贴glimpse输出] 已完成数据划分和交叉验证折叠设置

【O·目标】用XGBoost完成建模（tidymodels框架）： 1. 定义需要调参的7个超参数 2. 拉丁超立方抽样生成30个参数组合 3. 交叉验证调参，选AUC最优参数 4. 训练最终模型，测试集评估 5. 绘制学习曲线（trees vs AUC）

【S·风格】boost_tree() + set_engine(“xgboost”)

【T·语气】解释每个超参数的含义： trees（树数量）、learn_rate（学习率）、 tree_depth（树深度）、min_n、loss_reduction、 sample_size、mtry

解释拉丁超立方抽样比网格搜索效率高的原因

【R·格式】完整代码 + autoplot(xgb_tune)可视化调参结果

6 多模型对比COSTAR提示词

Note

【C·背景】已有三个模型的测试集预测结果： rf_predictions（随机森林） xgb_predictions（XGBoost） lr_predictions（逻辑回归）每个数据框包含：.pred_pos（预测概率）、diabetes（真实标签）

【O·目标】生成完整的预测模型评估代码： 1. 三条ROC曲线画在同一张图上（含AUC标注） 2. 校准曲线 3. 决策曲线分析（DCA） 4. 完整评估指标对比表（准确率/AUC/敏感度/特异度/PPV/NPV） 5. 导出结果表为Word

【S·风格】pROC + ggplot2，投稿格式（Arial 11pt，TIFF 300DPI）

【T·语气】解释：校准曲线和ROC曲线分别衡量什么 DCA曲线的净收益如何解读

【R·格式】完整代码 + 三张图的导出代码

机器学习的结果如何写进论文？

方法部分：本研究采用R语言（R语言版本）机器学习框架tidymodels（tidymodels版本）构建随机森林和XGBoost预测模型，并以逻辑回归作为基准模型进行比较。

数据按7:3比例随机分为训练集（n=537）和测试集（n=231），采用分层抽样保持两组间结局比例一致。

在训练集上采用5折交叉验证进行超参数调优，以ROC曲线下面积（AUC）作为优化目标。最终模型在测试集上进行评估，报告AUC、准确率、敏感度、特异度、阳性预测值和阴性预测值。

采用校准曲线评估预测概率的准确性。

结果部分：在测试集上，XGBoost模型表现最优（AUC=0.XX，95%CI: XX–XX），随机森林次之（AUC=0.XX），均优于传统逻辑回归模型（AUC=0.XX）。变量重要性分析显示，葡萄糖浓度、BMI和年龄是最重要的预测因素（图X）。校准曲线显示三种模型的预测概率与实际发生率均具有良好的一致性（图X）。