如何爬取外卖平台商家订单

wenhai.he 发布于2019-08-19 18:39 / 3486人阅读

摘要：标签餐饮外卖，美团，饿了么，百度，爬虫，数据挖掘爬虫定时抓取外卖平台订单的解决方案想必很多人都在美团，饿了么，百度上点过外卖吧，每家平台都不定期的发力进行各种疯狂打折活动，好多人都是三个都安装的一起比价的策略。

标签:餐饮外卖，美团，饿了么，百度，爬虫，数据挖掘

爬虫定时抓取外卖平台订单的解决方案

想必很多人都在美团，饿了么，百度上点过外卖吧，每家平台都不定期的发力进行各种疯狂打折活动，好多人都是三个app都安装的一起比价的策略。而作为大的餐饮企业为了扩大自己的订单量，也是三家都会上自己的商户，但是这三家平台因为竞争的原因都不支持订单批量导出功能。这个爬虫程序就是这个原因而开发出来的。

想了解客户就要收集销售数据

定位客户，了解客户有很多种渠道，其中收集订单信息是比较客观的数据，我们能从中知道客户的年龄分布，地理位置分布，喜欢的口味，消费的层次，购买套餐后还喜欢哪些单点等等问题都能逐渐积累的订单数据中挖掘出来，刚开始这项艰巨的工作是由运营的童鞋们开始的，她们每天兢兢业业的Ctrl+C , Ctrl+V的拷贝下来百度，美团，饿了么后台数据，然后Excel大神生成各种报表，供我们做分析。但平淡的日子总是渐渐枯燥起来，随着订单越来越来，公司配送点也越来越多，（三个外卖平台 +自有微信商城） X 配送点 X 每个配送点的订单的数据就是运营童鞋们的噩梦。

重复劳动就应该让机器去做

当运维童鞋正在苦逼复制各种订单数据时，我已经想到用爬虫技术爬取外卖平台上的订单了，这件事并不能，之前学习Nodejs时候，还写过一个爬虫在@煎蛋爬取无聊图和美女图呢:>于是开始调研这三家外卖平台的后台系统。

三家后台采用的页面技术

平台	后台展现	页面使用的数据接口	可能的抓取方案
美团外卖	网页 and 桌面程序	restful api	请求获取json 或者抓取网页
百度外卖	桌面程序内嵌webkit	动态页面	抓取网页
饿了么	桌面程序内嵌webkit	restful api	请求获取json 或者抓取网页

其中百度外卖后台页面非常{{BANNED}}，采用动态页面生成页面还能接受， 订单部分数据特意生成 一大段js代码，

由页面执行渲染后才显示出来，这也是后来在抓取时一个坑。

如何抓取数据

爬虫技术简单说就是用程序模拟人在上网，浏览需要的网页，然后把网页上需要的内容下载提取出来，转换成结构化的数据保存起来。这些外卖后台也是一样，基本上都如下面的流程。

人工操作流程

抽象出软件执行流程

三家外卖平台抓取的细节都不一样，但总体上可以用下面的方式表示

更细化一下的表示

核心代码为

/*  爬虫任务的父类
*   定义抓取流程，各步骤的内容
*   抽取出统一的json to csv生成代码
*/
class FetchTask {
    /*  account:{username:String,password:String}
        option:{beginTime:moment,endTime:moment}
    */
    constructor(account,option) {
        this.account = account;
        let end = moment().subtract(1,"days").endOf("day");
        let begin = moment().subtract(option.beforeDays, "days").startOf("day");
        logger.info(`Start fetch ${account.name} from ${begin.format("YYYY-MM-DD")} to ${end.format("YYYY-MM-DD")} orders`);
        this.option = {
            beginTime: begin,
            endTime: end
        };
        this.columns = {};
    }
    //  任务执行主方法 
    run() {
        return this.preFetch().then(this.fetch.bind(this)).then(this.postFetch.bind(this));
    }
    // 抓取前的准备工作
    preFetch() {
        logger.info(`preFetch ${this.account.name}`);
        return this.login();
    }
    // 保存登录凭证
    setToken(token){
        this.token = token;
        logger.info(`${this.account.name} gets token :${JSON.stringify(token)}`);
    }
    //  执行抓取
    fetch() {
        logger.info(`fetch ${this.account.name}`);
        return this.fetchPageAmount().then(this.fetchPages.bind(this));
    }
    //  登录步骤需要子类实现
    login() {
        return;
    }
    //  抓取分页总数
    fetchPageAmount(){
        return 0;
    }
    //  抓取所有分页上的数据
    fetchPages(pageAmount) {
        let tasks = [];
        for (let pageNum = 1; pageNum <= pageAmount; pageNum++) {
            tasks.push(this.fetchPage(pageNum));
        }
        return promise.all(tasks).then((result)=> {
            return _.flatten(result);
        });
    }
    //  抓取之后的操作，主要是对原始数据转换，格式转换，数据输出
    postFetch(orders){
        logger.info(`postFetch ${this.account.name}`);
        return this.convertToReport(orders).then(this.convertToCSV.bind(this));
    }
    //  原始数据格式转换
    convertToReport(orders){
        return orders;
    }
    //  在postFetch中将数据转换成csv格式并生成文件
    convertToCSV(orders) {
        logger.info(`convertToCSV ${this.account.name}`);
        let option = {
            header: true,
            columns: this.columns,
            quotedString: true
        };
        var begin = this.option.beginTime.format("YYYY-MM-DD");
        var end = this.option.endTime.format("YYYY-MM-DD");
        let reportFile = this.account.name + begin + "_" + end + "_" + uuid.v4().substr(-4, 4) + ".csv";
        let reportPath = path.resolve(__dirname, "../temp", reportFile);
        return new promise(function (resolve, reject) {
            stringify(orders, option, function (err, output) {
                if (err) {
                    reject(err);
                }
                fs.appendFile(reportPath, output, {
                    encoding: "utf8",
                    flag: "w+"
                }, function (err) {
                    if (err) return reject(err);
                    logger.info("Generate a report names " + reportPath);
                    resolve(reportPath);
                });
            });
        });
    }
}
module.exports = FetchTask;

每天凌晨6点钟自动执行抓取任务,定时执行是由later定时库实现的

const ElemeTask = require("./lib/eleme_task");
const BaiduTask = require("./lib/baidu_task");
const MeituanTask = require("./lib/meituan_task");
const mail = require("./lib/mail");
const logger = require("./lib/logger");
const promise = require("bluebird");
const moment = require("moment");
const config = require("config");
const accounts = config.get("account");
const later = require("later");

function startFetch() {
    let option = {beforeDays: 1};
    let tasks = [];
    accounts.forEach((account)=> {
        switch (account.type) {
            case "meituan":
                tasks.push(new MeituanTask(account, option).run());
                break;
            case "eleme":
                tasks.push(new ElemeTask(account,option).run());
                break;
            case "baidu":
                tasks.push(new BaiduTask(account,option).run());
                break;
        }
    });
    promise.all(tasks).then((files)=> {
        logger.info("Will send files :" + files);
        mail.sendMail(option, files);
    }).catch((err)=> {
        logger.error(err);
    });
}
later.date.localTime();
let schedule = later.parse.recur().on(6).hour();
later.setInterval(startFetch,schedule);
logger.info("Waimai Crawler is running");

按这个结构就是可以实现各个平台上的抓取任务了，因为不想把文章写成代码review，细节可以直接
访问waimai-crawler

云服务器 GPU云服务器外卖平台的云服务器推荐外卖平台小程序需要多大云服务器短信平台商家云服务器商家如何注册

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/79815.html

机器学习在美团配送系统的实践：用技术还原真实世界

摘要：可以说，美团要建设的就是配送系统的超级大脑。美团超脑配送系统目前互联网技术，很大部分还是针对线上产品和系统研发，整个流程可以在线上全部完成，而这也正是配送技术最大的不同和挑战。在2018 AI开发者大会（AI NEXTCon）上，美团配送AI方向负责人何仁清，分享了美团在即时配送领域中机器学习技术的最新进展，以及如何通过大数据和机器学习手段，建立对线下真实世界各种场景的感知能力，还原...

hearaway 2019-06-26 18:40 评论0 收藏0

发表评论

登陆后可评论

0条评论

wenhai.he

男|高级讲师

我要关注我要私信

TA的文章

恒创科技：香港云服务器32元/月起,独立服务器买2个月送1个月

阅读 1705·2021-08-13 15:03
vue抽奖组件之九宫格

阅读 2150·2019-08-30 15:54
第七集: 从零开始实现一套pc端vue的ui组件库( 懒加载v-lazy )与'骨架屏模板

阅读 3599·2019-08-26 10:30
Node.js docker 镜像体积优化实践

阅读 1089·2019-08-26 10:22
超详细的webpack原理解读

阅读 2803·2019-08-23 14:42
React中受控与非受控组件

阅读 1860·2019-08-22 11:16
我不该动你的，Event Loops（深坑）

阅读 1083·2019-08-21 18:33
JavaScript 内存管理及 V8 优化

阅读 3221·2019-08-21 17:28

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

如何爬取外卖平台商家订单

相关文章

机器学习在美团配送系统的实践：用技术还原真实世界

发表评论

0条评论

wenhai.he

男|高级讲师

TA的文章

恒创科技：香港云服务器32元/月起,独立服务器买2个月送1个月

vue抽奖组件之九宫格

第七集: 从零开始实现一套pc端vue的ui组件库( 懒加载v-lazy )与'骨架屏模板

Node.js docker 镜像体积优化实践

超详细的webpack原理解读

React中受控与非受控组件

我不该动你的，Event Loops（深坑）

JavaScript 内存管理及 V8 优化

最新活动