资讯专栏INFORMATION COLUMN

PHP使用elasticsearch搜索安装及分词方法

zzzmh / 3556人阅读

摘要:一背景为什么会用到这个搜索是因为我在看乌云的漏洞案例库时候,搜索即为不方便。在搜索当中分词插件是中文分词最好用的一个,安装也极为方便。那我们选择用作为分词器后,它是可以把中华人民共和国作为一个词,把中华作为一个词。

一、背景

为什么会用到这个ES搜索?
是因为我在看乌云的漏洞案例库时候,搜索即为不方便。

比如说说我要搜索一个 SQL注入

那mysql匹配的时候是like模糊匹配,搜索必须要有SQL注入这四个字,连续的才能查找到那这样会不太方便。

然后我就想着做一个分词,搜索起来会方便不少,第一个想到的就是ES搜索了。

怎么去用ES呢?

二、安装ES搜索

我们只需要一个JAVA环境并且把Java的环境变量配置好,我相信这些JAVA环境大家之前都配置过,这里不多说。

那现在只需要下载ES的文件,也不需要编译,下载下来就行了,把他放到一个目录。
下载地址: https://www.elastic.co/downlo...

三、 安装head

head是基于node开发的,所以需要先安装node
node下载地址:http://cdn.npm.taobao.org/dis...

在电脑任意一个目录下(不要在elasticsearch目录里面),执行一下命令,

git clone https://github.com/mobz/elasticsearch-head.git  
cd elasticsearch-head/  
npm install  

3、修改部分配置
修改两个地方:
文件:elasticsearch-headGruntfile.js

connect: {
    server: {
        options: {
            port: 9100,
            hostname: "*",
            base: ".",
            keepalive: true
        }
    }
}

增加配置,文件:elasticsearch-5.6.0configelasticsearch.yml

http.cors.enabled: true  
http.cors.allow-origin: "*"  

4、输入 npm run start 启动

5、访问head管理页面: http://localhost:9100/

四、安装composer

就是我们需要安装composer,安装composer干什么呢?

下载地址:https://getcomposer.org/Compo...

下载之后,直接下一步下一步就安装好了。

因为我们PHP如果调用ES搜索的接口,我们是需要去下载一个类库。

1. 在当前目录下载composer.phar
curl -sS https://getcomposer.org/installer | php
2. 在当前目录下创建一个composer.json的文件
{
    "require": {
        "elasticsearch/elasticsearch": "~2.0@beta"
    }
}
3. 安装依赖
php composer.phar install

五、安装分词插件

就是说我们需要安装一个分词插件。
在ES搜索当中Ik分词插件是中文分词最好用的一个,安装也极为方便。

我们只需要到GitHub上把他对应版本的这个,文件下载下来,然后解压到ES的插件目录,然后重新启动一下ES搜索服务,就可以了。

下载地址:https://github.com/medcl/elas...

怎么去验证这个插件有没有安装成功呢?
我们可以通过下面的URL,做分词测试。
http://localhost:9200/你的库名/_analyze?analyzer=ik_max_word&pretty=true&text=中华人民共和国

我们可以在这个URL中输入,中华人民共和国; 默认的分词器他会把中华人民共和国分别以以 中、华、人、民、共、和、国。

那我们选择用IK作为分词器后,它是可以把 中华人民共和国 作为一个词,把中华作为一个词。

六、导入数据

现在说一下怎么把数据库中的数据导入到ES中,

首先需要建立这样一个库,
然后把数据按照固定的格式插入到ES搜索中。下面是我的一个代码示例

 $maxId limit 0,300";
    get_conn();
    @$result_bugs = mysql_query($sql);
    while (@$row = mysql_fetch_assoc(@$result_bugs)) {
        $rtn[] = $row;
    }

    foreach ($rtn as $val) {
        $params = array();
        $params["body"] = array(
            "id" => $val["id"],
            "wybug_id" => $val["wybug_id"],
            "wybug_title" => $val["wybug_title"],
        );
        $params["index"] = "wooyun";
        $params["type"] = "title";
        $client->index($params);
    }

    return (count($rtn) == 300) ? $val["id"] : false;
}

set_time_limit(0);
$client = ElasticsearchClientBuilder::create()->setHosts(["localhost"])->build();
//删除所有数据
$client->indices()->delete(["index" => "wooyun"]);

$a = true;
$maxId = 0;
while ($a) {
    $maxId = create_index($maxId, $client);
    if (empty($maxId)) {
        $a = false;
    }
}
七、查询数据
setHosts(["localhost"])->build();
    //查询数据的拼装
    $params = array();
    $params["index"] = "wooyun";
    $params["type"] = "title";
    $params["body"]["query"]["match"]["wybug_title"] = $keyword;
    $params["from"] = $page;
    $params["size"] = $size;
    //执行查询
    $rtn = $client->search($params)["hits"];
    //结果组装组装数据
    $data["total"] = $rtn["total"];
    $data["lists"] = array_column($rtn["hits"], "_source");
    $data["lists"] = formartData(array_column($data["lists"], "id"));

    return $data;
}

function formartData($ids)
{
    $ids = implode($ids, ",");
    $sql = "select * from bugs where id in($ids)";
    $data = mysql_query($sql);

    $rtn = [];
    while (@$row = mysql_fetch_assoc(@$data)) {
        $rtn[] = $row;
    }

    return $rtn;
}

$q0 = isset($_GET["q"]) ? $_GET["q"] : "SQL注入";
$num = "15"; //每页显示15条
$page = isset($_GET["page"]) ? intval($_GET["page"]) : 1;
$offset = ($page - 1) * $num;
$esData = search($q0, $offset, $num);

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/30696.html

相关文章

发表评论

0条评论

zzzmh

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<