简单快速的 PHP 词库工具

ISherry 发布于2019-06-27 10:47 / 3637人阅读

摘要：在上找了半天也没找到我需要的轮子，只好自己撸了一个词库工具简单。支持大词库，我自己的词库跑起来轻轻松松。还支持回调式替换哦快速。使用了高大上的树进行匹配，查找耗时跟文本长度相关，跟词库大小关系不大，速度杠杠的。

这么说吧，假如你有一段文本，还有一个巨大的关键词库（几十万起步），现在需要从文本中找出这些关键词，甚至要基于关键词对应的值做一些替换，怎么弄？

在这个简单又常见的需求面前，strtr str_replace preg_replace 什么的集体歇菜了，因为词库太大。

scws？一开始我也这么弄的，可惜它只能帮你把词库中的词找出来，不能基于关键词对应的值进行处理。虽然可以利用词库的属性字段，但它只支持两个字节，显然不能满足需求。

在 Google 上找了半天也没找到我需要的轮子，只好自己撸了一个词库工具：SimpleDict

简单。纯 PHP 实现，不用安装扩展，也不依赖 xcache memcache redis 之类的缓存。

实用。支持大词库，我自己 40W 的词库跑起来轻轻松松。还支持回调式替换哦！

快速。使用了高大上的 trie 树进行匹配，查找耗时跟文本长度相关，跟词库大小关系不大，速度杠杠的。词典保存成二进制文件，使用时只维持一个文件句柄，避免了传统 trie 树内存开销巨大的弊端。

欢迎有需要的朋友试用 :P

云服务器 GPU云服务器简单的php 简单的php商城 php简单的投票简单的php登录

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/20798.html

详细说明Python中的信息清洁工具flashtext

　　FlashText是GitHub上的另一个开源系统Python库，如同以前提到的，他在获得关键字和更换关键字每日任务上具有非常高的特性。本文详细说明一下下flashtext的应用，所需要的可以了解一下　　在平时的些的较小规模的信息的过虑、清理环节中应用比较多的是正则匹配，但随着数据量级的扩大，正则匹配也显得有一些力不从心了。　　正则匹配在这个10k的词库文件中检索15k个关键字的时长大概是0....

89542767 2023-01-10 11:39 评论0 收藏0
VicWord 一个纯php的分词

摘要：安装分词说明含有种切分方法长度优先切分。效果最好可自定义词典，自己添加词语到词库，词库支持文本格式和二级制格式二进制格式词典小，加载快含有个词，欢迎大家补充词语到，格式词语词性获取方法百度搜索这个词语结果数量，如果你有更好的方法欢迎补充。安装 composer require lizhichao/word github: https://github.com/lizhichao/.....

yangrd 2019-07-01 12:42 评论0 收藏0
Trie树 php 实现敏感词过滤

摘要：在树中，每个节点表示一个状态，每条边表示一个字符，从根节点到叶子节点经过的边即表示一个词条。查找一个词条最多耗费的时间只受词条长度影响，因此的查找性能是很高的，跟哈希算法的性能相当。 Last-Modified: 2019年5月10日15:25:35 参考文章 c++ 使用map实现Trie树关键词过滤扩展，用于检查一段文本中是否出现敏感词，基于Double-Array Trie...

王笑朝 2019-07-01 12:46 评论0 收藏0
推荐两个实用技术

摘要：今天这篇文章给大家推荐两个实用的技术。比如关键词过滤，我们经常用的方案是自己维护一个敏感关键词库，然后对用户提交上来的数据进行分析。今天这篇文章给大家推荐两个实用的技术。极速智能的反垃圾云服务 - 网易易盾基于二进制高效的对象序列化类库 - MessagePack 极速智能的反垃圾云服务。首先解释一个互联网术语 - UGC。 UGC 全称 User Generated Co...

gself 2019-06-27 14:53 评论0 收藏0
详细说明Python中的信息清洁工具flashtext

　　FlashText是GitHub上的另一个开源系统Python库，如同以前提到的，他在获得关键字和更换关键字每日任务上具有非常高的特性。本文详细说明一下下flashtext的应用，所需要的可以了解一下　　在平时的些的较小规模的信息的过虑、清理环节中应用最多的是正则匹配，但随着数据量级的扩大，正则匹配也显得有一些力不从心了。　　正则匹配在这个10k的词典中查寻15k个关键字的时长大概是0.165...

89542767 2023-01-06 13:46 评论0 收藏0