购买后在附件下载敏感词库
该敏感词库从70W多词组中整理出来的,外加18W多组常用分词、2W多字的拼音扩展、14066个左右拆字、4000组繁简转化,4850组同音同形字,1160组异形字……
购买【敏感词库】,并赠送【程序数据包】,加入【敏感词库交流群】获取更新提示。
不要问这个【敏感词库】有多少条数据。
本库采用类正则整理,如果匹配一条词句算一个,这个库能匹配上百亿个敏感词。
例如:可以下文字去toolgood.com测试。拼接后的脏词有26303904组(约2630W)。
c|C|⒞|c|ⓒ|C|C|ℂ|Ⓒ|с|С|𝐜|𝑐|𝚌|𝒸|𝒄|𝓬|𝕔|𝖼|𝗰|𝘤|𝙘|𝐂|𝐶|𝙲|𝒞|𝑪|𝓒|𝖢|𝗖|𝘊|𝘾|©
a|A|⒜|ā|á|ǎ|à|a|ⓐ|A|A|Ⓐ|а|А|𝐚|𝑎|𝚊|𝒶|𝒂|𝓪|𝕒|𝖺|𝗮|𝘢|𝙖|𝐀|𝐴|𝙰|𝒜|𝑨|𝓐|𝔸|𝖠|𝗔|𝘈|𝘼|Α|α
o|O|⒪|ō|ó|ǒ|ò|o|ⓞ|O|O|Ⓞ|о|О|𝐨|𝑜|𝚘|𝒐|𝓸|𝕠|𝗈|𝗼|𝘰|𝙤|𝐎|𝑂|𝙾|𝒪|𝑶|𝓞|𝕆|𝖮|𝗢|𝘖|𝙊|Ο|ο|σ
㚷|伱|你|倪|呢|妮|妳|尼|您|拟|昵|汝|沵|泥|祢|迩|铌|鉨|your|you|亻尓|女尓|ni
㐷|吗|嘛|妈|娘|嫲|嬷|杩|溤|犘|犸|玛|痲|码|祃|蔴|蚂|马|骂|鰢|鷌|麻|嚒|ma
注:坚线为分隔符。
如果不会解析类正则,可以购买《正则转DFA算法》。
如果感觉自己算法比较费内存,可以购买《ToolGood 内容审核系统》源码学习 或 购买《ToolGood.TextFilter开源代码优化详解》学习
敏感词类型:
免费领取方法: 加QQ1665690808,发送申请人照片,要求手执【免费领取敏感词库】纸条,并且站在带公司Logo的墙前(或校门口)。