跳转至

大作业要求

基本要求

  1. 可以自由组成不超过 3 人的小组完成大作业,截止时间:

    • 7.18 课堂中期展示,全天(按报名顺序的逆序展示);所有小组在 7.18 早上 9:30 前提交中期展示 PPT;虽然是中期展示,但如果你已经完成所有工作也可以展示最终结果
    • 最终报告提交时间 TBD(预计在课程结束后 1-2 周内)
  2. 下面给出三类选题参考:自由类、Agent-based Modeling 类和复现与改进类,具体含义与选题内容见下文;如果在以下推荐选题外还有自己感兴趣的题目,可以联系助教确定内容

  3. 中期展示与最终报告提交的内容如下

    • 自由类
      • 中期展示:要求清晰介绍项目的架构(A.1)/研究的问题(A.2),已经实现的内容,以及后续的计划
      • 最终报告
        • 要求提交报告(pdf 格式)和实验代码(A.2 如果选择纯理论题目可以不提交代码)
        • A.1:报告至少需要包括实现的整体架构,实现的具体算法和机制以及选择这些算法和机制的理由,对算法/机制的理论分析和实验结果的描述与分析,以及拓展与创新性内容的描述和验证(如果有)等
        • A.2:报告至少需要包括问题描述,创新机制的设计思路,创新机制的具体描述,创新机制的理论分析(如果有)以及实验验证等
    • Agent-based Modeling 类
      • 中期展示:要求清晰介绍模拟的场景,agent 的设计,已经完成的模拟内容(实验结果/启示/改进等),以及后续的计划
      • 最终报告:要求提交报告(pdf 格式)和实验代码。报告至少需要包括模拟的场景,agent 的具体设计(例如 prompt 设计等),实验的结果与分析,基于实验结果得到的启示,以及改进的方案与验证等
    • 复现与改进类
      • 中期展示:要求清晰介绍文章的核心理论和算法,展示目前已完成的内容(实验复现/实现以及改进),并且清晰地描述后续的计划
      • 最终报告:要求提交报告(pdf 格式)和实验代码。报告至少需要包括问题描述,文章的整体思路,以及关键定理的描述、insighth 与证明(如果难度太大也可以不写证明,只叙述思路)、实现的核心算法介绍、实验结果与分析(包含运行结果截图等)以及(如果要求)改进内容的描述和验证等
    • 其余题目相关的个性化要求见选题参考
  4. 评分

    • 中期展示占比 20%,最终报告占比 30%,且中期展示分数不超过最终报告分数 + 10,以鼓励在中期展示时诚实地反映项目进展和存在的问题
    • 中期展示的主要评判标准是展示清晰程度和(计划实现或已实现)内容的丰富度
      • 当前完成度仅作参考,只要完成内容达到总工作量 50% 以上即可
      • 展示清晰程度表明了你对项目内容的理解深度,计划实现或已实现内容的丰富度体现了你的工作量和创新性
    • 最终报告的三个主要评判标准:工作量,报告清晰程度和改进内容的质量(如果有)
      • 不用太卷,三个人工作量在 3-5 天为宜
      • 报告的主要目标是把实现或理论写清楚,而不是页数越多越好,无效的工作量将不被视为工作量,报告清晰程度表明了你对文章 / 算法的理解深度
      • 下面的题目均给出了难度参考(1-5 分,并且难度只是基于助教本人的主观感受,仅供参考),这些难度只作为评判工作量的参考,实际仍然根据完成情况评分
      • 关于改进内容,你可以参考或者综合其他文献中的方法,但请你务必说明你参考的文献中对应的内容,这是重要的学术规范
    • 原则上小组成员分数相同,如果出现“搭便车”行为,组内协调无果可以申请分数上的调整
  5. 其它

    • 有问题请及时联系助教,特别是概念不理解或者感觉有的问题可能比较难的时候
    • 下面给出的论文均可以直接点击论文标题下载,如果你还希望搜索其他论文,可以使用 DBLP、Google scholar 等,论文请注意中稿会议 / 期刊级别,可参考 CCF 评级、清华评级等
    • 随着大语言模型能力的涌现,完成一个基本的 project 已经是比较容易的事情了,并且我们相信使用大语言模型编写代码、完成科研、编写报告等都是未来需要掌握的基本技能,因此这次的大作业选题会看起来比较开放。我们非常鼓励使用(甚至是要求使用)vibe coding 和 autoresearch 等工具完成选题、文献调研、代码实现、改进方案以及撰写报告等工作,但必须保证理解大语言模型生成的内容,把控大语言模型生成内容的质量,并且避免出现幻觉等问题

工具使用

重要提示

本段内容结合了个人经验与大语言模型的调研结果,同学们应当自己核实相关工具的功能、价格和使用方法等信息,并且根据自己的实际情况选择合适的工具。此外,对于大作业而言,最重要的是形成一套稳定的工作流,让最适合的(能力最强或性价比最高)的工具完成其最适合的任务(包括文献阅读与检索、方案设计、代码实现、PPT 和报告撰写等),并且学会输入好的 prompt 让工具真正帮助你实现目标,并保证自己对工具生成内容的理解和把控。

时刻记住,工具可以显著提高效率,但不能替代理解,请务必自己核查并理解工具生成的内容。虽然本课程鼓励(甚至要求)使用工具,但最后评分看的是你是否把问题想清楚、做清楚、写清楚,仅依赖工具是无法达成这一点的。

Vibe coding 工具

  • 如果希望尽量免费

    • ModelScope:ModelScope 是一个 “模型即服务”(MaaS) 平台,旨在汇集来自 AI 社区的最先进的机器学习模型。其中提供了多种大语言模型,并且每个账号提供每日 2000 次免费 API 调用机会。
    • GitHub Copilot:和 VS Code / JetBrains / GitHub 生态结合最紧,适合把大语言模型自然地嵌入日常编码流程。Copilot Free 可以零成本体验,适合同学们做日常补全、简单问答和小范围修改;但自 2026.4.20 起 student / Pro / Pro+ 的新开通暂时暂停,因此如果此前没有注册,可以先用免费版试验,但如果需要更强的能力可能需要考虑充值或者使用其他工具。
    • Gemini CLI:开源的命令行 agent。官方 README 显示,使用个人 Google 账号可以获得免费额度(60 requests/min,1000 requests/day),并且自带搜索、文件操作、shell 命令和 MCP 支持。
    • Cline:开源 coding agent,可以在编辑器或终端中工作,但是需要自己配置 API,实际成本取决于你接入的模型与使用强度。
  • 如果愿意付费且希望能力强

    • Cursor:不必多言,相信各位熟悉这一产品,其将 AI 深度集成到编程工作流程。官方页面显示有 Hobby FreePro20 美元 / 月
    • Codex:OpenAI 的编程工具,可以使用强大的 ChatGPT 模型来辅助代码编写、调试和优化。如果你充值了 ChatGPT Plus(20 美元 / 月)及以上的套餐,就可以使用 Codex 了。
    • Claude Code:Anthropic 的命令行 coding system,如果你更习惯 terminal workflow,它通常会非常顺手。Claude 官方页面显示 Pro 月付价格为 20 美元 / 月,并包含 Claude Code 访问权限。
    • 国内大语言模型提供商(如 Deepseek、GLM、Kimi、Qwen,MiMo 等)也在不断迭代其 coding 能力,价格和使用方式各不相同,相较于上述国外大语言模型的价格会低很多,当然能力也相对减弱一些,建议同学们根据自己的实际情况进行选择。

Autoresearch 工具

  • 做网页层面的初步调研、问题拆解和方案发散

    • 大语言模型:ChatGPT、Gemini、Claude 等国外大语言模型以及 Deepseek、GLM、Kimi、Qwen 等国内大语言模型都在不断迭代其信息检索和综合能力,因此可以使用(免费或付费)网页版面进行初步的调研和方案设计,但需要注意部分内容可能存在幻觉,甚至文章可能不存在,因此需要自己核实和判断。
    • ChatGPT Deep Research:适合做多步骤信息综合。官方文档显示,它支持限制特定站点、允许优先搜索某些站点、连接 Google Drive / SharePoint 等数据源,并输出带 citations 或 source links 的长报告。
    • Gemini Deep Research:Google 官方文档表明,Deep Research 已“now available for anyone to try”。它适合做广泛的网页扫描、整理长报告,并且和 Google 生态的衔接较自然。
    • Perplexity Deep Research:Perplexity 官方说明,Deep Research 对所有人开放,非 Pro 用户每天只有有限次数,Pro 用户有更高额度。它的优势是速度快、引用直观、适合快速找到最新网页资料,很适合做“这个方向最近有哪些工作/博客/产品/观点”的第一轮扫描。
  • 做学术文献调研

    • Elicit:官方页面显示,Basic 免费版包含有限的 Research Agent、每月 2 个 automated reports、无限 paper search / summary / paper chat,并支持 Zotero 导入。它很适合拿来回答“这个方向上有哪些代表性论文”“某篇文章的方法和 baseline 是什么”“几篇论文之间有哪些差异”等问题。
    • Consensus:更偏“循证问答”。官方帮助中心显示,免费版有 unlimited paper searches、每月 15 个 Pro messages、3 个 Deep reviews、10 个 Study Snapshots。它很适合拿来问“现有研究总体是否支持某个结论”“某个机制是否通常提高某项指标”,但它的回答依然只能作为起点,不能替代你自己阅读原文。
    • ResearchRabbit:非常适合做引文扩展和 related work 挖掘。官方页面显示其 Free Forever 层已经包含 unlimited search、unlimited collections、library uploads、collaboration,以及最多 50 篇 seed articles 的扩展搜索。它的强项不在于直接给你写一段综述,而在于从 1-3 篇核心论文出发,把这个方向的“文献网络”挖出来

重要提示

无论使用哪种 autoresearch 工具,最终都应当回到论文原文、会议/期刊官网、作者主页或可靠索引站进行核对。推荐至少搭配使用 DBLPGoogle ScholarSemantic Scholar 这类基础检索工具。

对于 C 类复现题目,论文原文中的问题定义、理论证明、实验设置与结果等都建议自己逐项核对,不要只依赖大语言模型给出的总结。

自由类选题(A)

此类选题开放性最强,没有明确指定的实现内容和参考文献,可以根据自己的兴趣和能力选择想要实现的内容,甚至是自己设计一个创新性的方案,其中选题 A.1 更偏向于工程实现,A.2 更偏向于科研探索;如果你有一些初步的想法但不确定是否合适,可以使用大语言模型工具进行初步的方案设计和可行性分析,或者联系助教进行讨论。

选题 A.1:数据市场综合实现

  • 难度:4
  • 实现一个完整的数据市场,至少应当包含数据定价(课堂或教材介绍的任意定价机制均可,或者自己设计的机制)模块
  • 我们不限制实现的具体数据定价方案,你可以使用任何合理的方案,针对任何产品使用任何角度的定价策略,只要你能清楚地描述并给出方案的优越性(现有文章论据,理论保证或实验验证),最后有一个可展示的结果即可(命令行或者简单的前端界面都可以)
  • 可能的拓展方向(根据自己的兴趣、时间和能力选择即可)
    • 增加前后端,搭建完整的系统
    • 增加更多的针对不同场景的数据获取与定价方案
    • 增加数据获取(如数据清洗,数据选择,数据增强等)模块,数据提供方的收益分配模块,或数据安全模块等(不同模块之间应当自然衔接)
    • 设计创新方案,并通过实验比较或理论证明创新方案的优越性(类似于选题 A.2,但不用像 A.2 那样完整和严格)
  • 可供参考的文献(仅供参考,并不代表限制实现的内容,我们非常鼓励各种形式的创新):

选题 A.2:数据定价机制设计

  • 难度:5
  • 针对数据定价的某些问题,设计创新性的机制,并且通过理论分析或实验验证机制的优越性
  • 可能的研究方向:可以参考教材编排,考虑数据零成本复制(版本化定价,无穷拍卖,外部性)、价值不确定性(拍卖,在线算法,数据试用)、决策视角(将数据视为帮助决策的信息)、隐私视角(考虑数据隐私的定价)等进行机制设计
  • 可以基于课上讲到或教材中提到的某一篇(或一系列)文章内容进行改进,或是基于一些创新的想法通过与大语言模型或助教的讨论来迭代设计出一个创新性的机制,或是组合得到一些之前的文章没考虑到的问题或场景,针对这些问题或场景设计创新性的机制
  • 你的机制应当:
    • 相较于先前的工作有明确的改进,例如理论上或实验中能实现更高的收益或福利、更好的公平性、更低的复杂度等
    • 或是考虑了不同的场景/问题,此时你应当通过理论分析或实验验证你的机制在这个场景/问题下的优越性

Agent-based Modeling 类选题(B)

所谓 Agent-based Modeling,指的是通过构建智能体来模拟经济系统中不同参与方的行为和交互。这一概念的提出可以溯源到这篇 Nature 论文,其背景是 08 年金融危机后,经济学家发现传统的数理模型无法有效模拟经济这样的复杂系统;于是 Agent-based-model 应运而生,其通过智能体模拟人类行为,并且观察量化不同经济政策的结果。

所谓的 agent 有非常多的可能实现方式,例如用遗传算法训练的 agent,强化学习训练的 agent 等。我们希望同学们基于大语言模型构建 agent(这也是目前最热门的研究方向之一),并且通过 agent-based modeling 来模拟数据定价机制中参与者的行为和交互,观察这些机制下 agent 模拟的结果与理想结果之间的相似性和差距,得到一些启发,并基于这些启发设计改进的机制并使用 agent 模拟验证改进机制的优越性。

如果同学们不熟悉如何使用大语言模型构建 agent 但又非常感兴趣,可以参考以下资源:《Hello-Agents:从零开始构建智能体》进行学习。需要说明的是,你应当根据选题对应的场景,精心设计你的 prompt 等从而构建出一个能够在这个场景下进行合理交互的 agent,否则很多时候 LLM 并不能很好地模拟人类的行为。下面我们给出题目具体要求:

选题 B.1:基于 Agent-based Modeling 的数据定价机制模拟与改进

复现与改进类选题(C)

此类选题要求同学们在理解论文内容的基础上,复现一些实验性文章,或者用代码实现一些理论文章中的机制,部分题目会要求在复现/实现的基础上进行改进。下面给出一些可行的选题,如果你想复现/实现一些其他的文章,也可以联系助教进行讨论。最终提交的报告需要包含对文章理论内容的理解,对文章实验内容的复现/实现,以及(如果有)改进内容的描述和验证等。

选题 C.1:机器学习模型版本化市场

  • 难度:3
  • 参考论文
  • 提示与要求
    • 参考文献第一篇主要考虑了机器学习模型无套利版本化定价问题,第二篇添加了数据提供方的收益分配部分
    • 理论部分应当特别关注第一篇参考文献中的机器学习模型版本化方法、无套利条件,应当叙述清楚(提示:教材中有相关内容,可以参考,但你应当在理解的基础上用自己的话重新组织叙述
    • 实现应特别关注第二篇参考文献的算法 1-7,算法 8 给出了整体算法总结,你应当将其中算法的基本功能都实现并在报告中描述清楚
    • 实现要求接入真实的机器学习模型,模拟市场运行时使用的数据可以使用模拟或随机的,也无需前端界面
    • 改进:请你找出这个版本化市场机制存在的一个(或多个)问题,并设计改进方案,基于理论分析或实验验证改进方案的优越性

选题 C.2:机器学习模型交易完整流程

  • 难度:3
  • 参考论文:A Marketplace for Data: An Algorithmic Solution
  • 提示与要求
    • 本文重点是三个步骤:第一步是诚实的机器学习模型拍卖,第二步是 MWU 算法动态定价,第三步是收益分配
    • 理论部分应当关注文章所有叙述的定理(提示:教材中对部分内容有介绍,可以参考
    • 实现部分将三个步骤连接起来,要求能输入一个买家运行完整流程,其中需要接入机器学习模型,其余数据都可以使用模拟或随机的,也无需前端界面
    • 改进:请你找出这个流程机制存在的一个(或多个)问题,并设计改进方案,基于理论分析或实验验证改进方案的优越性

选题 C.3:机器学习数据获取与数据定价

  • 难度:4
  • 参考论文:Optimal Pricing for Data-Augmented AutoML Marketplaces
  • 提示与要求
    • 本文通过将买家提交的训练数据与有价值的外部数据集相结合,并根据模型可衡量的性能提升来定价,有机结合了数据获取和数据定价两个核心问题
    • 理论部分要求理解文章的建模,提出的定价机制以及相关的定理,实现部分要求复现文章中的实验
    • 改进:请你找出这个机制存在的一个(或多个)问题,并设计改进方案,基于理论分析或实验验证改进方案的优越性

选题 C.4:数据的工具价值

  • 难度:4
  • 参考论文
  • 提示与要求
    • 两篇文章都考虑了信息的工具价值,第一篇文章是第二篇文章部分内容的理论基础,第二篇文章将这套理论应用在贝叶斯线性回归模型的数据定价上
    • 理论部分要求叙述并证明第二篇文章的主要定理(第一篇文章仅帮助理解,不要求在报告中叙述),实现部分要求复现第二篇文章中提出的机制,通过实验验证 Theorem 5 中的结论
    • 改进:由于文章内容难度已经较高,因此本选题不要求改进

选题 C.5:无先验无穷拍卖

  • 难度:3
  • 参考论文:
  • 提示与要求
    • 本文研究了买家估值无先验、产品数量无限的情况下的最优拍卖机制,提出了一个合理的 benchmark 衡量拍卖机制的好坏
    • 理论部分要求读者重点关注论文 1-4 节中的定理与证明,要求读者理解并用自己的语言重新组织并严禁清晰地叙述,第 5 节及之后的定理可以只了解结论,在报告中简要叙述即可(提示:教材中有相关内容,可以参考,但你应当在理解的基础上用自己的话重新组织叙述
    • 实验部分要求实现 random sampling 拍卖机制,同学们应当随机生成大量买家的估值,然后看 random sampling 机制在实际容易出现的估值情况下的竞争比

选题 C.6:数据市场中的恶意行为

  • 难度:3
  • 参考论文:
  • 提示与要求:
    • 本文讨论了数据市场中买家可能出现的一些策略性行为,并给出了简单的解决方案
    • 理论部分要求读者理解文章中给出的三种策略性行为以及相应的解决方案的合理性(在报告中简要描述即可),实验部分要求读者根据 7 EVALUATION 中提出的 RQ(research question)给出自己的实验对这些问题的回答
    • 改进:你觉得论文作者给出的解决方案是否合理,在这些解决方案下买家是否仍然有可能实施更高级的策略性行为?你能得到理论保证或者实验结果更优的解决方案吗?你还能相到数据市场中其他可能出现的买家策略性行为吗?请给出一些并提供合理的解决方案。

选题 C.7:动态定价

  • 难度:3.5
  • 参考论文:
  • 提示与要求:
    • 本文考虑了有多种不同类型的数据买家(即他们的需求不同)的情况下,如何利用多臂老虎机算法平衡对不同类型数据买家估值的探索与利用,考虑了随机以及对抗性场景的情况,分别提出了基于 UCB 和 FTPL 两个非常经典的算法的动态定价算法
    • 要求同学们理解并实现文章中基于 UCB 和 FTPL 的算法,理论部分要求同学们理解算法设计的思想,以及证明的思路(不要求理解非常具体的证明细节),实验部分可以自己随机产生一些数据(对抗性同学们可以自己思考如何生成数据)进行实验,检验算法的实际效果
    • 改进:你可以设计出新的动态定价算法,使得算法在理论上或实验中能实现更好的效果吗?

选题 C.8:查询定价版本化市场

  • 难度:4.5
  • 参考论文:
  • 提示与要求:
    • 第一篇文章是查询定价无套利理论文章,给出了 QPS 和 APS 查询定价满足无套利的充要条件,通过格结构非常精妙且简洁地达到了目标;第二篇文章基于查询无套利定价的理论给出了适用于大型查询的查询无套利定价算法,核心在于基于支撑集的概念以及进一步的小优化大大降低计算量
    • 理论部分要求将第一篇文章的核心证明理解清楚并在报告中详细描述,并清晰地表达转化为格结构背后的直观想法是什么(提示:教材中有相关内容,可以参考,但你应当在理解的基础上用自己的话重新组织叙述
    • 实现部分要求复现第二篇文章中的算法,定价函数直接选定为 Weighted Coverage 函数即可,并且不需要实现带有聚合函数的查询定价,只需要实现 SPJ 查询定价即可,此外 history aware 应当实现;基于文章给出的数据集(不需要全部做,只需要做出 1-2 个就够了)以及最后给出的查询(选择有代表性的实验即可)进行实验,最终提交的代码能输入查询输出价格即可,然后在报告中应该给出你们在一些有代表性的查询上给出的价格,检验算法的合理性
    • 改进:请你找出这个机制存在的一个(或多个)问题,并设计改进方案,基于理论分析或实验验证改进方案的优越性

选题 C.9:信息定价理论与算法

  • 难度:4.5
  • 参考论文:
  • 提示与要求:
    • 两篇参考文献解决的是同一问题,即允许动态出售信息的情况下的最优信息出售机制,但第二篇简化且合理化了第一篇的模型,因此阅读时第一篇冗余的复杂部分可以忽略,书写报告时也应当将两篇文章融合起来写(提示:教材中有相关内容,可以参考,但你应当在理解的基础上用自己的话重新组织叙述
    • 要求实现第二篇参考文献中的所有机制,测试其在随机的大量输入下的表现
    • 改进:由于文章内容难度已经较高,因此本选题不要求改进