
敏感词库
该敏感词库从70W多词组中整理出来的,外加18W多组常用分词、2W多字的拼音扩展、14066个左右拆字、4000组繁简转化,4850组同音同形字,1160组异形字……
购买【敏感词库】,并赠送【程序数据包】,加入【敏感词库交流群】获取更新提示。
不要问这个【敏感词库】有多少条数据。
本库采用类正则整理,如果匹配一条词句算一个,这个库能匹配上百亿个敏感词。
例如:可以下文字去toolgood.com测试。拼接后的脏词有26303904组(约2630W)。
c|C|⒞|c|ⓒ|C|C|ℂ|Ⓒ|с|С|𝐜|𝑐|𝚌|𝒸|𝒄|𝓬|𝕔|𝖼|𝗰|𝘤|𝙘|𝐂|𝐶|𝙲|𝒞|𝑪|𝓒|𝖢|𝗖|𝘊|𝘾|©
a|A|⒜|ā|á|ǎ|à|a|ⓐ|A|A|Ⓐ|а|А|𝐚|𝑎|𝚊|𝒶|𝒂|𝓪|𝕒|𝖺|𝗮|𝘢|𝙖|𝐀|𝐴|𝙰|𝒜|𝑨|𝓐|𝔸|𝖠|𝗔|𝘈|𝘼|Α|α
o|O|⒪|ō|ó|ǒ|ò|o|ⓞ|O|O|Ⓞ|о|О|𝐨|𝑜|𝚘|𝒐|𝓸|𝕠|𝗈|𝗼|𝘰|𝙤|𝐎|𝑂|𝙾|𝒪|𝑶|𝓞|𝕆|𝖮|𝗢|𝘖|𝙊|Ο|ο|σ
㚷|伱|你|倪|呢|妮|妳|尼|您|拟|昵|汝|沵|泥|祢|迩|铌|鉨|your|you|亻尓|女尓|ni
㐷|吗|嘛|妈|娘|嫲|嬷|杩|溤|犘|犸|玛|痲|码|祃|蔴|蚂|马|骂|鰢|鷌|麻|嚒|ma
注:坚线为分隔符。
如果不会解析类正则,可以购买《正则转DFA算法》。
如果感觉自己算法比较费内存,可以购买《ToolGood 内容审核系统》源码学习 或 购买《ToolGood.TextFilter开源代码优化详解》学习
敏感词类型:

免费领取方法: 加QQ1665690808,发送申请人照片,要求手执【免费领取敏感词库】纸条,并且站在带公司Logo的墙前(或校门口)。
付费200元可获得
- 文字 918个
- 图片 1张
-
附件
2个 15.60MB
敏感词库.zip
95.98MB赠送:网上的敏感词库.7z
暂时还没有评论
推荐这个作品
1. 作者会看到你的帮忙,并真心感谢你
2. 创作者为这件作品开启了「有偿推荐」,每次由你带来的购买,你将获得20%的收益分成,即40.00元