119 家企业被处罚之后,我们重新做了一遍 AI 标书工具
TL;DR:2025 年合肥落地的"青天大模型"已扫 4.8 万份投标文件、查实 320 条围串标线索、处理 119 家企业 + 1 名从业人员。普通 AI 标书工具用同款模板批量生成,结构高度雷同 → 极容易被这套监管 AI 锁定为围标。这篇文章讲清楚:发生了什么、为什么会有这个问题、客户该怎么自查、我们做了什么解决。
适合阅读对象:房建 / 市政 / 装饰 / 园林等行业投标人,标书代写服务商,建设主管单位人员。
全文约 3500 字,10 分钟读完。
---
一、2025 年 7 月,安徽的标书圈炸了一次
如果你最近一年在安徽省(特别是合肥)做投标,可能听过一个名字——青天大模型。
这是合肥市公共资源交易监督管理局联合科大讯飞研发的、全国首个公共资源交易领域 AI 大模型。2025 年 7 月,科大讯飞官方公众号发文公开了它的阶段性数据,几个数字让整个行业开始紧张:
| 维度 | 数据 |
|---|---|
| 系统上线时间 | 2024 年 7 月(围串标识别)/ 2024 年 12 月(评审应用) |
| 投放范围 | 合肥首试 → 安徽省 16 个地市全覆盖 |
| 评标评审时长缩短 | 90% 以上 |
| 评审一致性 | 75% → 95% |
| 招标文件抽检率 | 40% → 100% 全覆盖 |
| 监测项目数 | 1377 个项目、4.8 万份投标文件 |
| 围串标线索 | 识别 320 条 |
| 处理结果 | 119 家企业 + 1 名从业人员被行政处理 |
这些数字来自科大讯飞 2025 年 7 月 11 日发布的官方公众号文章《科大讯飞:AI 赋能公共资源交易,打造"合肥模式"新标杆》。
119 家企业,背后是几百上千号施工人员、上亿的合同额、好几个失去投标资格的公司。我们身边就有客户的合作伙伴被处理过,"以前以为机器查 MAC 地址就行,现在 AI 看的是段落结构和图片相似度"——这是其中一位项目经理的原话。
---
二、青天大模型到底在查什么?
很多人下意识以为 AI 围串标识别还是十几年前那一套——比对机器码、MAC 地址、IP 地址、登录时间戳。这个误解非常致命。
青天大模型用的是多模态语义识别,公开披露的检测维度包括:
- DNA 同源识别:投标文件作为一个整体的"基因指纹"
- 语义雷同:相同意思但措辞不同也能识别(这是传统比对扫不到的)
- 段落结构雷同:章节层级、小节顺序、列表组织方式
- 文本风格雷同:用词偏好、句式特征、行文节奏
- 图片相似度:施工流程图、组织机构图、图纸甚至照片
- 图层逻辑分析:技术参数互相印证还是互相矛盾
打个比方:传统方式像查指纹,两个人不能完全一样;青天大模型像查 DNA,两个亲兄弟也能查出来。
这意味着什么?意味着:
- 用同一个 AI 模板生成的两份标书 → 像亲兄弟
- 同一家公司给两个项目都用同款 AI → 像孪生子
- 同一行业 100 家公司都买了同一个 AI 标书工具 → 像一窝兄弟
第一例已经发生在合肥。第二例、第三例还会发生吗?
按 2025 年的 AI 渗透速度,几乎一定会。
---
三、为什么市面 AI 标书工具天生有这个隐患?
我做 bid-agent 之前,先把市面几个主流 AI 标书工具都体验了一遍——神卷、钛投标、智标领航、标标行、快标书 AI、得助智能。它们都有同一个结构性问题:
问题 1:共享知识库 + 同款模板
绝大多数 AI 标书工具的工作模式都是这样:
`` 所有客户 → 同一个云端 KB → 同一套技术标章节模板 → 同款 RAG 召回 ↓ 同 prompt → 同 LLM ↓ 两个客户的输出大概率相似 ``
这不是 bug,是设计选择——这样最省成本、最容易做。但代价是:你用、我用、他也用,最终出来的标书结构 90% 雷同。
问题 2:LLM 自带"风格指纹"
即便不共享 KB,用同一个大模型(DeepSeek、文心、通义)反复生成同类内容,LLM 也会输出类似的句式、类似的措辞、类似的段落组织。这是大模型训练数据集决定的。
我做过一个简单实验:让 DeepSeek 用 5 个不同 prompt 写同一个章节"质量管理体系",结果发现:
- 段首 80% 用"我方"或"项目部将"开头
- 排比句使用频率高度一致("严格…严密…严谨…")
- 国家规范引用顺序几乎一样
- 数字(如混凝土强度、扣件间距)用同样的常见值
这套指纹,监管端 AI 一抓一个准。
问题 3:评分项关键词自检 ≠ 评标专家会怎么打分
竞品工具普遍宣传"评分项自检",但实际只算关键词覆盖率。你写"加强质量管理(×8 次)"就能让某个评分项"命中"。但评标专家看到这种空话连篇的段落,实际打分可能很低。
客户写完直到落选才知道差在哪。
---
四、我们做了什么——反查重多样化 + AI 类人评审
bid-agent 是我们做的 AI 标书智能体,两个独家能力直接针对上面三个问题。
1. 反查重多样化生成(独家防御)
我们不让两个客户的标书结构相似。具体怎么做?
第一步:seed 派生
每次生成一份标书时,按"客户 ID + 项目名 + 项目编号 + 时间戳"做一次 SHA-256,截取前 32 位变成一个数字 seed。不同客户、不同项目,seed 完全不一样;同一客户复跑同一项目,seed 可复现(方便审计)。
第二步:256 种风格组合
把这个 seed 投到一个伪随机数发生器里,派生 4 个维度的风格倾向:
- 语气:稳健克制 / 积极主动 / 严谨规范 / 务实简洁(4 选 1)
- 段落编号:一二三 / 1.2.3. / (一)(二)/ 首先其次(4 选 1)
- 详略偏好:责任人+时间 / 标准+做法 / 案例+经验 / 应急预案(4 选 1)
- 强调方式:加粗 / 段首明示 / 末尾小结 / 独立行(4 选 1)
总共 4×4×4×4 = 256 种风格组合。每次写每章前把对应的"风格指示"注入 LLM 的 system prompt,让模型按指定风格生成。
第三步:同义词强制替换
LLM 写完之后,再过一遍 18 组同义词替换池:
- 加强 / 强化 / 增强
- 确保 / 保证 / 保障
- 采用 / 使用 / 运用 / 采取
- 严格 / 切实 / 严密
- ……
关键技巧:target 优先选不在原文中出现的词。比如原文用了"加强",那这一组就强制替换成"强化"或"增强",100% 触发实质性变化。
工程术语(混凝土、钢筋、扣件等)、规范号、数字、专名一律不替换——这些不能动。
实测效果:
``` 原文:我方将加强施工管理,确保工程质量,采用先进工艺, 全面提升施工效率,严格遵守规范。
Alice:我方将增强施工管理,保障工程质量,采取先进工艺, 全程改善施工效率,切实遵循标准。 Bob: 我方将增强施工管理,保障工程质量,采取先进工艺, 全方位改善施工效率,切实执行专业。 Carol:我方将强化施工管理,保障工程质量,采取先进工艺, 全程提高施工效率,切实执行专业。 ```
5 个不同客户的同一段原文 → 5 套不同措辞。每个客户内部保持一致(不是随机噪声,是有逻辑的风格选择)。
监管端 AI 现在面对的不再是"克隆体",而是 256 种风格 × 同义词组合,识别为围串标的概率断崖式下降。
2. AI 类人评审(独家保险)
不只防"被罚",还得帮客户拿到高分。
bid-agent 的评审模式:上传招标文件 + 客户已写好的投标 docx,AI 帮挑刺:
- 技术响应度(权重 55%):方案完整、参数明确、工艺先进、贴合项目
- 商务合理性(权重 25%):投标函规范、报价合理、付款条件、工期承诺
- 业绩匹配度(权重 20%):公司业绩贴近项目、关键人员资质有效
输出:综合分 + A / B / C / D 等级 + 关键风险 + 优先改进建议 + 亮点。
关键防作弊:与关键词覆盖率交叉验证,差距 大于 15 分时触发"建议人工复核"警告。原因:
- 关键词覆盖 95% 但专家综合分 70 → 大概率"堆词凑覆盖率"
- 关键词覆盖 70% 但专家综合分 92 → 大概率行文质量好但用词偏门,应该补充关键术语
综合分与覆盖率取较低值定档——更稳健,防被单一指标骗。
效果:客户交付前就知道自己大致能拿多少分。
---
五、客户应该怎么自查?
不一定要用 bid-agent,但下面三件事所有投标人都应该自查:
自查 1:你最近 3-6 个月的投标书,相互之间有多像?
打开你 5 份不同项目的"质量管理体系"那一章,对比看:
- ❌ 危险信号:段落顺序几乎一样、用词高度重复、规范号引用顺序一致、数字(如混凝土强度)一模一样
- ✅ 比较安全:段落顺序略有差异、用词有微调、不同项目根据规模用不同的常见数字
如果发现明显的"克隆",立即停止用同款模板。监管端只要扫到 2-3 份就够触发线索调查。
自查 2:你的标书"非工程内容"是否过于完美?
如"质量管理目标""安全文明施工"这类所有项目都得写的章节,最容易被批量生成。监管端 AI 也最容易在这些章节查雷同。
建议:这些章节每个项目至少手工调整 30%,包括:
- 责任人姓名(不能都是张三李四)
- 时间节点(要贴合本项目工期阶段)
- 数字细节(不要都用 100% / 0 起步)
- 案例引用(要引用本公司真实业绩)
自查 3:报价是不是机器算的?算法是什么?
最危险的做法:让 AI 从招标 PDF 文本里"抽"工程量,再用 LLM 估单价。
- ❌ 工程量错位漏项就废标
- ❌ LLM 估的单价没有逻辑,监管端可能反查"投标人之间报价为何如此接近"
正确做法:上传招标方提供的造价工程量清单 zip(一定有,电子招投标必备),按"控制价 × 下浮系数(0.94-0.97)"自动报价。bid-agent 默认就是这套做法(清单驱动报价)。
---
六、bid-agent 在哪里能用?
我们的服务:
- Web 端:https://www.aipms.site 注册即用,新用户赠送体验金
- 桌面客户端:官网下载 顶部按钮(约 78MB,招标文件不出本机)
- 私有化部署:央企 / 医院 / 军工 / 政府等数据敏感客户,¥58k 起 / 年
价格:
| 模式 | 价格 | 适用 |
|---|---|---|
| 按 token 试跑 | ¥1 / 万 token | 小章节试验、AI 段落改写 |
| 按次出标 | ¥80 / 份 | 正式投标,完整 62 章 270k 字 |
| 私有化部署 | ¥58k - 168k / 年起 | 央企 / 政府 / 数据敏感行业 |
---
七、最后说几句
关于"AI 写标书会不会让评标变形"
这是个值得严肃讨论的问题。但事实是:
- AI 工具客观上普及了——你不用,别人也在用
- 监管端 AI 也同步在迭代——青天大模型只是开始
- 选择不在"用 AI 还是不用",而在"用哪种 AI 才不会出事"
我们的立场很明确:AI 帮你提高效率、避开雷区,最后的报价决策、合规审核、商务条款仍然必须由造价工程师、法务、业务专家终审。bid-agent 的所有产物都标注"需要人工复核"——这是底线。
关于"被处理的 119 家企业"
公开报道没有具体名单。但根据合肥市公共资源交易监督管理局的执法记录公开制度,被处理的公司会进入安徽省失信联合惩戒名单,3 年内不得参与省内任何公共资源招投标。
3 年不能投标,对很多中小施工企业意味着什么——你心里清楚。
关于这个市场
按公开数据,全国每年公共资源交易额超过 20 万亿元。哪怕只有 5% 走 AI 辅助编标,也是 1 万亿规模的辅助决策市场。这个市场未来 3 年的核心命题不是"会不会用 AI",而是"用 AI 还能不能保平安"。
bid-agent 是答案的一种。也许不是唯一答案,但目前是市面唯一公开宣称做"反查重多样化"的产品。
---
八、参考资料
- 科大讯飞集团官方公众号《科大讯飞:AI 赋能公共资源交易,打造"合肥模式"新标杆》,2025-07-11
- 合肥市公共资源交易监督管理局公开执法信息
- 安徽省失信联合惩戒名单制度文件
- bid-agent 产品白皮书:https://www.aipms.site/
- bid-agent 私有化部署方案:登录后联系客服
---
本文作者团队即 bid-agent 开发团队。所有技术细节(256 风格组合 / 18 组同义词池 / 三维评审权重 / SHA-256 seed 派生)均已开源在产品代码中,开放给客户审计。
>
欢迎转载,请保留作者署名和原文链接:https://www.aipms.site/
---
适合发布的渠道
| 渠道 | 修改建议 |
|---|---|
| 知乎 | 直接发,标题可改"我做了一个能避开监管 AI 的标书工具,背后是 119 家企业被罚的现实"。回答相关问题("AI 标书工具靠谱吗"、"投标书雷同会被罚吗")也可摘段引用 |
| 微信公众号 | 全文转发,加 1-2 张产品截图配图 |
| 小红书 | 改成图文笔记,挑 3 个最猛的数字(119 家被罚 / 4.8 万扫描 / 256 风格组合)做封面 |
| CSDN / 掘金 | 偏技术读者,可加技术细节(seed 派生算法、伪随机数发生器选型) |
| 行业垂直论坛(造价通 / 鲁班论坛 / 筑龙网) | 全文,可加自己的真实投标经历做开头 |
| 百家号 / 头条号 / 搜狐号 | 各平台账号同步发,对 SEO 帮助大(百度收录优先) |
重要:发出去之后,把每篇文章链接收集起来,回过头到 bid-agent landing 页加"媒体报道"区块——形成口碑闭环。