摘要:项目中用到了,安装好记录下。是的首字母缩写即简易中文分词系统。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。下载完成后,将放到安装目录的下。
导语
关于分词,现在有很多解决方法,根据自己需要进行选择。项目中用到了 SCWS ,安装好记录下。
SCWSSCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。
如上,SCWS 是一套分词系统。虽然这套系统可能有些过时,算法不是很精确,但在某些特定场合还是比较实用的
下载扩展首先根据自己的 PHP 版本,下载相应的扩展。
下载完成后,将 php_scws.dll 放到 PHP 安装目录的 etc/ 下。
首先新建目录,用于存放规则集文件和词典文件。如:D:/scws/ 。
然后在这里下载规则集文件,下载后解压,将 etc/ 目录中的 *.ini 文件放到 D:/scws/ 中。
接着在这里下载词典文件,将 *.xdb 文件放到 D:/scws/ 中。
在 pnp.ini 中添加 extension=php_scws.dll,同时可以写上配置参数:scws.default.fpath = "D:/scws/" 。
测试到此如果一切顺利便安装成功,下面进行测试
set_charset("utf8"); $obj->add_dict(ini_get("scws.default.fpath") . "/dict.utf8.xdb"); $obj->set_rule(ini_get("scws.default.fpath") . "/rules.utf8.ini"); $obj->set_duality(true); $obj->set_ignore(true); $obj->set_multi(2); $obj->send_text($string); $array = $obj->get_result(); foreach ($array as $key => $value) { $data .= $value["word"] . ","; } echo rtrim($data, ",");// 安能,摧眉折腰,摧眉,眉折,折腰,事,权贵,使我,我,不得,开心,颜
参考资料:SCWS、SCWS分词扩展在windows下的安装方法。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/29958.html
摘要:开始之前强烈推荐先浏览一下的官方文档简介是一个高性能全功能的全文检索解决方案。旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己的全文搜索引擎。一定要重建索引。否则不会报错,但是搜索结果会不正确。 开始之前强烈推荐先浏览一下 xunsearch 的官方文档 Xunsearch简介 Xunsearch 是一个高性能、全功能的全文检索解决方案。Xunsearch 旨在帮助一般开发者...
摘要:在上找了半天也没找到我需要的轮子,只好自己撸了一个词库工具简单。支持大词库,我自己的词库跑起来轻轻松松。还支持回调式替换哦快速。使用了高大上的树进行匹配,查找耗时跟文本长度相关,跟词库大小关系不大,速度杠杠的。 这么说吧,假如你有一段文本,还有一个巨大的关键词库(几十万起步),现在需要从文本中找出这些关键词,甚至要基于关键词对应的值做一些替换,怎么弄? 在这个简单又常见的需求面前,s...
摘要:默认的系统管理员的为,我们添加用户的时候最好使用以上的,范围的最好保留给系统用。临时修改主机名新主机名永久修改主机名文件中修改文件存放的是域名与的对应关系添加一个新主机名到原文地址 安装 Git 安装: sudo apt-get install git 安装 Nginx 安装: sudo apt-get install nginx 启动: sudo /etc/init.d/ngi...
阅读 3066·2023-04-25 18:54
阅读 2591·2021-11-02 14:40
阅读 3176·2021-09-23 11:58
阅读 2424·2019-08-30 13:50
阅读 1231·2019-08-29 12:46
阅读 3117·2019-08-28 17:51
阅读 679·2019-08-26 11:47
阅读 897·2019-08-23 16:17