资讯专栏INFORMATION COLUMN

怎么样使用 Redis 来存储和查询 ip 数据

ygyooo / 1625人阅读

摘要:今天我的朋友佛手给我打了个电话,他们网站的业务要根据客户的地址快速定位客户的地理位置。其中是我们要查询的结果,当然你也可以把和包括进去。我这里就用来特指查询结果了。这样我们的查询就很简单了,只需要用查询出离最近对应的两个即可。

今天我的朋友佛手给我打了个电话,他们网站的业务要根据客户的 ip 地址快速定位客户的地理位置。网上已经有一大堆类似的 ip 地址库可以用,但问题是这些地址库的数据表结构大多如下所示

+--------------+------------------+------+-----+---------+----------------+
| Field        | Type             | Null | Key | Default | Extra          |
+--------------+------------------+------+-----+---------+----------------+
| ip_id        | int(11) unsigned | NO   | PRI | NULL    | auto_increment |
| ip_country   | varchar(50)      | NO   |     | NULL    |                |
| ip_startip   | bigint(11)       | NO   | MUL | NULL    |                |
| ip_endip     | bigint(11)       | NO   | MUL | NULL    |                |
| country_code | varchar(2)       | NO   |     | NULL    |                |
| zone_id      | int(11)          | NO   |     | 0       |                |
+--------------+------------------+------+-----+---------+----------------+

最核心的部分是三个:ip_startipip_endip 以及 ip_id。其中 ip_id 是我们要查询的结果,当然你也可以把 zone_idip_country 包括进去。我这里就用 ip_id 来特指查询结果了。

面对这个表,没什么其它办法,你的查询语句只能是

sqlSELECT * FROM who_ip WHERE ip_startip <= {ip} AND ip_endip >= {ip}

其中 {ip} 是你要查询的 ip 地址,为了方便查询,在 php 中我们一般要用 ip2long 函数把它转换为一个整数。现在问题来了,这个表有 400 万条数据,无论你怎么优化它的索引结构(实际上我觉得这没啥用),在以上查询语句中都要耗费 2 秒以上的时间,对于一个高频使用的接口,这显然是不可忍受的。

REDIS 可以解决这个问题吗?

实际上这也是佛手同学最关心的问题,因为我们知道Redis有强大数据结构和超快的速度,那么我们能设计出适应这种查询场景的结构吗?

范围查询,我首先想到的就是Redis里面的Sorted Sets结构,这也是redis中唯一可以指定范围(SCORE值)查询的结构了,所以基本上我们的希望都寄托在它身上了。

最简单粗暴的方法就是把ip_startipip_endip都转化为Sorted Sets里的Score,然后把ip_id定义为Member。这样我们的查询就很简单了,只需要用ZRANGESCORE查询出离ip最近SCORE对应的两个ip_id即可。然后再分析,如果这两个ip_id是相同的,那么说明这个ip在这个地址段,如果不同的话证明这个ip地址没有被任何地址段所定义,是一个未知的ip。

基本逻辑是没有问题的,但是最大的问题还是性能上的挑战。根据我的经验,一个SET里面放10万条数据以上就已经很慢了,如果放到400万这种量级,我非常怀疑它跟mysql相比还有优势吗?

我设计的存储结构

我的解决方案是把这个地址库切分,每一片区最多保存65536个地址。也就是说如果一个ip地址段为188.88.77.22 - 188.90.78.10,那么我们就把它切分为

188.88.77.22 - 188.88.77.255
188.89.0.0 - 188.89.255.255
188.90.0.0 - 189.90.78.10

也就是我们保证每一个ip地址段都被保存在xxx.xxx.0.0 - xxx.xxx.255.255的一个区段中,这个区段的理论极限是保存65536个值,实际上要远小于这个数字。而这样的区段理论上也有65536个,这都是ip地址的设计所限,当然实际上也远小于这个值。

因此这样的设计基本上就能满足我们的性能需要了。以下是我用php写的数据切分程序

phpconnect(REDIS_HOST, REDIS_PORT);
        $redis->select(REDIS_DB);
    }

    $key = "ip:" . $page;
    $redis->zAdd($key, $offset, $value);
}

$page = 0;
do {
    $offset = $page * MYSQL_PAGESIZE;
    $count = 0;

    $res = mysql_query("SELECT * FROM " . MYSQL_TABLE . " LIMIT " . MYSQL_PAGESIZE . " OFFSET {$offset}");

    while ($ip = mysql_fetch_assoc($res)) {
        $start = $ip[MYSQL_COLUMN_START];
        $end = $ip[MYSQL_COLUMN_END];
        $value = $ip[MYSQL_COLUMN_ID];

        $startOffset = $start % 65536;
        $endOffset = $end % 65536;

        $start -= $startOffset;
        $end -= $endOffset;

        $startPage = $start / 65536;
        $endPage = $end / 65536;

        for ($i = $startPage; $i <= $endPage; $i ++) {
            if ($i == $startPage) {
                add_ip($i, $startOffset, "s:" . $value);

                if ($i != $endPage) {
                    add_ip($i, 65535, "e:" . $value);
                }
            }

            if ($i == $endPage) {
                add_ip($i, $endOffset, "e:" . $value);

                if ($i != $startPage) {
                    add_ip($i, 0, "s:" . $value);
                }
            }

            if ($i != $endPage && $i != $startPage) {
                add_ip($i, 0, "s:" . $value);
                add_ip($i, 65535, "e:" . $value);
            }
        }

        echo ($page * MYSQL_PAGESIZE + $count) . "
";
        $count ++;
    }

    $page ++;
} while ($count = MYSQL_PAGESIZE);

查询程序也非常简单

phpconnect(REDIS_HOST, REDIS_PORT);
$redis->select(REDIS_DB);

$ip = ip2long("173.255.218.70");
$offset = $ip % 65536;
$page = ($ip - $offset) / 65536;


// 取出小于等于它的最接近值
$start = $redis->zRevRangeByScore("ip:" . $page, 0, $offset, array(
    "limit" => array(0, 1)
));

// 取出大于等于它的最接近值
$end = $redis->zRangeByScore("ip:" . $page, $offset, 65535, array(
    "limit" => array(0, 1)
));

if (empty($start) || empty($end)) {
    echo "unknown";
    exit;
}

$start = $start[0];
$end = $end[0];

list ($startOp, $startId) = explode(":", $start);
list ($endOp, $endId) = explode(":", $end);

if ($startId != $endId) {
    echo "unknown";
    exit;
}

echo $startId;

转载自我的博客:http://70.io/develop/use-redis-to-store-ip-data.html

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/20618.html

相关文章

  • 阿里云服务器 如何处理网站高并发流量问题?(含教程)

    摘要:阿里云哪个节点服务器好一下看看负载均衡它是对多台云服务器进行流量分发的负载均衡服务,让整个服务器群来处理网站的请求。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。原文流量大的网站如何处理高并发流量问题很多平台一旦做大了,平台的流量就会陡增,同时并发访问的流量也会暴增,原本规划的硬件配置就无法满足当下的流量问题。 那么如何处理好高并发的流量问题呢? 小编将这些分为2个方...

    waterc 评论0 收藏0
  • Redis在项目中一个类分时图应用场景设计

    摘要:需求项目有一个保存实时抓拍图片的功能需要统计摄像头下每个时间点比如一分钟保存的图片个数并通过线型图显示到页面上这很类似股票的分时线图的功能所以我参考了一些网上的文章采用来实现这个功能先交代一下项目里数据的一个情况摄像头个数在个左右单个摄像头 需求: 项目有一个保存实时抓拍图片的功能,需要统计摄像头下每个时间点(比如一分钟)保存的图片个数,并通过线型图显示到页面上.这很类似股票的分时K...

    kuangcaibao 评论0 收藏0

发表评论

0条评论

ygyooo

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<