ShieldAI 专注于用户输入内容与模型输出内容的合规检测,双层智能检测架构覆盖全链路, 误报率低于0.5%,检出率超过95%,响应延迟小于100ms。
从用户输入到模型输出,每一个环节都有专业的合规检测能力保驾护航
DFA规则引擎+多API语义分类+越狱检测三重机制,覆盖关键词、语义、对抗攻击全场景检测。
调用OpenAI Moderation和Azure Content Safety API,结合PII检测和事实核查,确保输出安全。
专项检测角色扮演、字符翻转、多语言攻击、渐进式攻击等六大主流绕过手段。
绿区放行、黄区升级审核、红区拦截的三级策略,基于F-beta优化实现精准决策控制。
支持中文、英文、日文、韩文等多语言内容审核,通过多API融合降低跨语言误判。
每次拦截均提供触发规则、匹配类别、置信度分数等可解释理由,便于审计和申诉。
领域白名单+上下文感知+动态阈值+用户反馈闭环四维误报控制体系,误报率<0.5%。
对接多个内容审核API,通过加权投票机制融合各API结果,降低单一API误判风险。
输入检测与输出过滤两层独立工作,全面覆盖用户输入和模型输出的合规检测
接收用户请求文本
DFA规则 + 语义分类 + 越狱检测
延迟 < 20ms
快速拦截已知恶意请求,减少后续API调用
经过安全检测的请求进入大模型处理
大模型生成内容与推理
对生成内容进行深度安全过滤
Moderation API + PII + 事实核查
延迟 < 30ms
合规内容交付用户
大语言模型面临前所未有的内容安全挑战,用户输入与模型输出两端均需严格的合规检测
恶意用户通过精心构造的输入,试图覆盖系统指令,诱导AI输出有害或违规内容。
通过虚构叙事场景包装恶意请求,在所有成功绕过攻击中占比超过82%。
AI可能无意中输出个人隐私、商业机密或API密钥等敏感信息。
利用低资源语言绕过常规检测系统,增加检测难度和覆盖盲区。
在多轮对话中逐步升级恶意意图,绕过单次检测的局限性。
模型可能生成看似可信但实际错误的信息,误导用户决策。
基于API调用+本地规则引擎的混合架构,在保障安全的同时实现高效响应
覆盖已知攻击类型
行业领先水平
本地规则+API调用
多API冗余保障
本地规则优先拦截
系统从设计之初即融入中国法规要求,覆盖内容审核、数据安全、AI标识、算法备案全维度
网络运营者安全保护义务
数据分类分级保护
个人信息处理规范
内容安全+标识+备案
合成内容显著标识
平台内容治理责任
在交互界面插入"AI生成"标签,确保用户可感知。
在文件元数据中嵌入数字水印,支持技术提取和溯源。
记录生成时间、模型版本、输入摘要等元数据,支持内容溯源。
立即申请试用 ShieldAI 内容风控系统,体验双层智能检测架构带来的全方位合规保护
contact@shieldai.com
400-888-0000
北京市海淀区中关村