投标书查重率太高被废标?我做了一个能"反查重多样化"的 AI 标书工具
写在前面:本文涉及的所有"反查重算法"、"256 风格组合"、"18 同义词组"都已开源在 Gitee,文末会给地址。全文长 6500 字,18 分钟读完。
---
一、被废标的"小李"案例:查重率 78%
先讲一个真实的、改名后的故事。
小李是华东某市政公司的商务负责人。2025 年 10 月,他用一款主流 AI 标书工具生成了一份道路改造项目的投标文件,技术标 230 页、商务标 110 页、报价部分自己手填。提交前他还专门让 AI 改了 3 遍,"看上去每段都不一样"。
3 天后,公示阶段被竞争对手举报「与同行 X 公司的标书结构雷同」。招标代理用了一个云端查重系统跑了一遍——结构雷同度 78%,文字相似度 41%,图片同源率 60%。
最致命的是图片:组织机构图、工艺流程图、关键节点甘特图——全是 AI 工具的默认模板。两家公司都没改。
结果:废标 + 进黑名单 + 半年禁标。小李从那之后只手写技术标,"AI 不敢碰了"。
这不是个案。2025 下半年起,类似废标在公共资源交易系统几乎每周都有公示。原因不是用户不努力,是底层 AI 工具的设计就在制造雷同。
---
二、投标书查重的 4 个维度(远不止文本)
很多人以为查重就是查"文字重复率"——像学术论文那样比 N-gram。2026 年的招标查重已经远超这个层级。当下主流的查重系统(含监管侧的青天大模型、招标代理常用的"信用查重宝"、各省交易中心自建模块)至少看 4 个维度:
维度 1:文本字符相似度(最基础)
这一层和论文查重一样,N-gram 切片 → 编辑距离 → 滑窗匹配。问题在于,单纯改几个同义词已经没用了——主流引擎现在用的是 BERT/RoBERTa 类的语义嵌入对比,相似含义 = 相似向量。
| 改法 | 字符相似度 | 语义相似度 |
|---|---|---|
| 一字不改 | 100% | 100% |
| 同义词替换 | 65% ↓ | 95% ← 仍然高 |
| 调整语序 | 75% | 92% ← 还是高 |
| 加修饰词 | 80% | 94% |
| 真的换思路重写 | 30% | 45% |
普通"AI 改写"对监管侧的语义查重基本无效。
维度 2:段落结构 DNA
这是 2025 年才开始大规模采用的检测维度。系统提取每份标书的:
- 章节层级树(深度、宽度、节点顺序)
- 小节标题序列
- 列表 / 表格出现位置
- 图文混排节奏
→ 编码成一棵"结构树"。然后用树编辑距离(Tree Edit Distance)做比对。
两份投标书如果章节顺序、小节命名、表格分布几乎一致——哪怕文字完全不同——都会被锁定为「结构同源」。
这恰好是 AI 标书工具的天然弱点:所有客户用同一份"章节大纲"模板,结构树长得像兄弟。
维度 3:图片 / 图表同源率
施工流程图、组织机构图、关键路径甘特图、工艺工艺示意——这些是 AI 工具最容易"批量复用"的部分。
主流图片查重用的是感知哈希(pHash)+ SIFT 特征点。同一张组织机构图换颜色、加水印都查得出来。
2025 年青天大模型公开披露已能识别:
- 流程框图结构同源
- 表格列名 + 数据排布雷同
- 甚至照片合成痕迹
维度 4:行文风格指纹
这是最难规避也最致命的一层。
每个 LLM(DeepSeek、通义、GPT-4、Claude)都有自己的风格指纹——句长偏好、过渡词分布、列表 vs 段落比例、修辞密度。
用同一个 LLM 给 100 个客户写标书 → 这 100 份的风格指纹几乎完全一致。
把这 100 份扔进任意一个聚类系统(K-Means / DBSCAN)→ 立刻能识别出是同源批量生成的。
监管侧目前还在用这一招做"AI 标书识别"——一旦标记为「AI 生成」会触发更严格的人工复审。
---
三、3 个查重失败的真实场景(匿名脱敏)
场景 1:3 家公司投同一个园林项目,全部废标
2025 年 11 月,华南某市政园林项目,3 家投标人均使用同一款 AI 标书工具。开评标日:
- A 公司技术标 380 页
- B 公司技术标 365 页
- C 公司技术标 392 页
招标代理常规跑查重,结果触目惊心:
- 章节结构相似度 94%
- 图表同源率 88%
- 段落语义相似度 71%
招标代理直接判定「疑似围标」,提交监管局复审。3 家全部废标,黑名单 6 个月。3 家都没有围标意图——只是用了同一款 AI 工具。
场景 2:标书没问题,但触发"风格聚类"被人工复审
华北某市政企业用 AI 工具写了一份控制价 2.3 亿的标书。查重单项都过线(结构相似度 50%、文字相似度 35%),但是被监管 AI 标记为「风格指纹聚类相似」——和同一周内提交的另外 11 份标书行文风格高度同源。
代理机构启动人工复审,多耽误 9 天才完成评标。中标公示推迟,企业现金流压力增加。事后追溯:那 11 份标书都来自同一款 AI 工具(不同公司)。
场景 3:图片同源率 95%,技术标全推翻
华东某医院 IT 设备投标,控制价 8500 万。投标人小张用某款 AI 工具自动生成了完整标书,包括组织机构图、网络拓扑图、运维流程图——全是工具默认模板。
开标当天,评审专家用 pHash 工具扫了一下:与同行 4 家投标人的图片同源率 95%+。
医院评标委员会现场决议:5 家全部图片部分作废,必须 24 小时内提交手绘版重新评分。小张连夜赶到医院,技术分被打到最低档。最终丢标,技术标全部白做。
---
四、反查重多样化的 5 个技术细节
讲了这么多负面案例,正面解决方案是什么?
我们做 bid-agent 的时候,决定把「反查重多样化」当成第一性问题来设计。不是事后改写,是从生成那一刻起就让每份标书天生不同。具体做了 5 件事:
细节 1:独立 seed(基础但极关键)
主流 AI 工具的问题在于"共享 KB + 共享 prompt + 共享 LLM"——三件事任意一件相同就会带来同质化。
bid-agent 给每个客户的每个项目分配一个独立 seed:
```javascript // 摘自 src/agents/diversify.js function getProjectSeed(username, projectTitle) { return crypto.createHash('sha256')
.update(username + '|' + projectTitle + '|' + Date.now().toString(36)) .digest('hex') .slice(0, 8); } ```
这个 seed 会驱动:
- 风格组合的选择(见细节 2)
- 同义词组的选择(见细节 3)
- 段落顺序的微调
- 图表的颜色 + 形状变体
→ 两个客户即使写同一类型项目,最终结构 / 措辞 / 视觉完全不同。
细节 2:256 种风格组合
我们做了 8 个维度 × 各 2-4 种风格变体 = 256 种风格组合:
| 维度 | 变体 |
|---|---|
| 标题风格 | 数字 / 中文 / 字母 / 混合 |
| 段落长度 | 短促 / 中等 / 长段落 |
| 列表偏好 | 无序 / 有序 / 表格 / 混排 |
| 过渡词密度 | 低 / 中 / 高 |
| 数据展示 | 文字 / 表格 / 图表 |
| 案例引用 | 0 / 1-2 / 3-5 个 |
| 引经据典 | 无 / 行业标准 / 国家政策 |
| 收尾方式 | 总结 / 展望 / 承诺 / 反问 |
每个项目根据 seed 抽取一组组合 → 同 LLM 写出 256 种完全不同的"风格指纹"。
这一项直接解决了「行文风格指纹同源」问题——即使全行业都用 bid-agent,每个客户的风格也是分布在 256 个区段里,聚类时分散。
细节 3:18 组语义同义词替换
不是字面同义词(那对语义查重无效),是结构性同义词:
``javascript // 摘自 src/agents/diversify.js const SYNONYM_GROUPS = [ // 组 1:保障 / 措施类 ['保障措施', '保证措施', '保障方案', '保证体系', '防控措施', '防范方案'], // 组 2:质量 / 品质类 ['质量管理', '品质管理', '质量控制', '质量保障', '质量管控', '品控体系'], // 组 3:进度 / 工期类 ['进度安排', '工期安排', '进度计划', '工期计划', '进度管理', '工期管控'], // ... 共 18 组、约 110 个常见标书术语变体 ]; ``
每个 seed 在每组里随机选 1-2 个变体作为主词。整份标书的术语体系自动差异化。
细节 4:段落结构打散
针对「段落结构 DNA」的检测,我们做了三层打散:
- 章节顺序微调:相同大章节内的小节顺序随机 ±2 位
- 小节命名变体:「3.2 工期保证措施」可能变成「3.2 工期保障体系」「3.2 工期管控方案」
- 图文位置变体:相同的图可以放小节开头 / 中间 / 末尾
→ 结构树编辑距离从「兄弟」(5-8)拉到「同行陌生人」(25-40)。
细节 5:图片 / 图表本地化
这是大部分 AI 标书工具完全没碰的层面:
bid-agent 不用模板图,每个项目用 Mermaid + 自定义 SVG 现场生成:
- 组织机构图:根据投标人公司实际架构生成
- 工艺流程图:根据项目特殊工艺现场画
- 网络拓扑图:根据项目设备清单生成
- 甘特图:根据实际工期排期生成
每张图都带上客户公司名 + 项目编号水印——pHash 比对天然差异化。
更进一步:每个项目 seed 还会决定图表的颜色主题(默认蓝、商务灰、品牌橙、稳重深绿),让视觉指纹也分散。
---
五、反查重多样化算法架构图
完整的反查重多样化算法是 bid-agent 的核心模块之一,开源在 Gitee。核心架构:
`` [ 项目输入 ] ↓ ┌─ Step 1: 生成 seed (sha256, 8 字符) ─┐ │ username + project + timestamp │ └──────────────────┬────────────────────┘ ↓ ┌─ Step 2: 8 维风格组合抽样 ─────────┐ │ 从 256 组合中按 seed 选一组 │ └──────────────────┬────────────────────┘ ↓ ┌─ Step 3: 18 同义词组各抽 1-2 个 ───┐ │ 作为本项目的"术语主词表" │ └──────────────────┬────────────────────┘ ↓ ┌─ Step 4: 章节顺序 / 小节命名打散 ──┐ │ 树编辑距离 > 20 才放行 │ └──────────────────┬────────────────────┘ ↓ ┌─ Step 5: 图表本地化生成 ────────────┐ │ 公司架构 / 工艺 / 设备 / 工期 │ └──────────────────┬────────────────────┘ ↓ ┌─ Step 6: 自查重报告 ───────────────┐ │ 生成的标书 vs 历史样本相似度报告 │ └──────────────────┬────────────────────┘ ↓ [ 最终输出 ] ``
最值得关注的是 Step 6——bid-agent 在交付前会自动跑一遍内部查重报告,输出:
- 与历史样本的文字相似度(目标 <30%)
- 章节结构编辑距离(目标 >25)
- 图表同源率(目标 <10%)
- 风格指纹聚类位置(目标分散到独立簇)
如果任意一项不达标,会自动重新抽样 seed 重生成。直到 4 项都达标才输出。
---
六、与监管层对标 - 不只是查重,是合规
很多人以为反查重只是为了"过查重系统"——这是 2024 年的思路。2026 年的反查重需要直接对标监管 AI。
2025 年 7 月,科大讯飞青天大模型在合肥 + 安徽 16 地市公开运行的数据:
| 维度 | 数据 |
|---|---|
| 监测项目 | 1377 个 |
| 投标文件 | 4.8 万份 |
| 围串标线索 | 320 条 |
| 处理结果 | 119 家企业 + 1 名从业人员被行政处理 |
bid-agent 的反查重多样化直接对标青天大模型的 6 个监管识别维度:
| 监管识别维度 | bid-agent 对应措施 |
|---|---|
| DNA 同源识别 | 独立 seed + 256 风格组合 |
| 语义雷同识别 | 18 组结构性同义词 + 段落打散 |
| 段落结构雷同 | 章节顺序 / 小节命名变体 |
| 文本风格雷同 | 风格组合分布到 256 簇 |
| 图片相似度 | 图表本地化 + 客户水印 |
| 图层逻辑分析 | 技术参数现场验证(不复用) |
这是市面唯一一个把反查重当成"主动合规"而不是"事后改写"的工具。
---
七、5 条立刻能用的实操建议
不管你最终用不用 bid-agent,这 5 条建议都值得抄走:
建议 1:永远不要"两份标书共用一个 AI 工具账号"
如果你公司同时投 A、B 两个项目,分别给两位商务用同一个 AI 账号生成——这两份会因为账号 seed 相同被关联。建议每个项目用独立账号 / 独立工作区。
建议 2:技术标的图表至少手改 30%
哪怕你用 AI 工具,组织机构图、工艺流程图、甘特图——手动 PS 改颜色 + 重排版 + 加公司 logo 水印。pHash 比对最容易触发,也最容易规避。
建议 3:提交前自查相似度
把上一份你公司近半年投过的标书拿来对比一下。文字相似度 > 50%、结构相似度 > 70% 就该警惕了。
工具推荐:
- 在线轻量:知网论文查重(按页计费,便宜)
- 完整跑包:bid-agent 内置自查重模式(¥1-3/次,含 4 维度)
建议 4:术语主词表本地化
每个公司应该有自己的「术语主词表」——专门用一组术语变体写自己的标书。比如你公司常用「质量管控体系」,那 18 组里就固定选这个变体。建立你公司的"行文指纹"。
建议 5:投同行业项目时刻意错峰、错风格
如果你公司在同一行业一周投 3-5 个项目,强行让这 3-5 份标书风格不同:
- 第 1 份用「数字标题 + 短段落 + 表格密集」
- 第 2 份用「中文标题 + 长段落 + 列表为主」
- 第 3 份用「字母标题 + 中段 + 图表混排」
→ 即使是同一公司同一时段提交,也不会被聚类锁定。
---
八、bid-agent 体验入口
bid-agent 的反查重多样化算法是开源的、可审计的、可私有部署的:
- 公网在线试用:https://www.aipms.site/login#signup(注册赠 ¥9.5 体验金)
- 评审模式(¥1-3/次跑一遍现成标书检测):https://www.aipms.site
- GitHub / Gitee 开源:https://gitee.com/smar/bidding-robot
核心承诺:
- 每份标书天生不同——256 风格 × 18 同义词组 × 独立 seed
- 交付前自查重——4 维度通过才输出
- 图表全部本地化——你的公司架构 / 工艺 / 设备 / 工期,每张图独一无二
- 算法开源——你可以自己审计每一行代码
不卖"通过查重",卖"评标 + 监管双 AI 下安全过审"。
---
附录:本文引用的官方数据来源
- 科大讯飞《AI 赋能公共资源交易,打造"合肥模式"新标杆》(2025 年 7 月 11 日,微信公众号)
- 合肥市公共资源交易监督管理局公开通报(2025 年 8 月)
- 安徽省发改委《公共资源交易领域 AI 应用指引》(2025 年 9 月)
作者声明:本文所有"小李 / 小张"案例均为客户场景脱敏改写,不指向任何具体公司 / 项目 / 个人。所有引用的监管数据均来自官方公开渠道。