Bulk Upsert for MySQL & PostgreSQL

2450184176 发布于2019-07-25 12:38 / 1820人阅读

摘要：什么是简而言之，就是，不存在就插入，存在就更新。当然也有功能，和的类似。然而，命令不支持，这使一些增量的工作非常不方便。五把表清空上面过程确实很麻烦，如果使用的话，只需要简单的相关链接

什么是 Upsert

"UPSERT" is a DBMS feature that allows a DML statement"s author to atomically either insert a row, or on the basis of the row already existing, UPDATE that existing row instead, while safely giving little to no further thought to concurrency. One of those two outcomes must be guaranteed, regardless of concurrent activity, which has been called "the essential property of UPSERT".

简而言之，就是，不存在就插入，存在就更新。

单记录 Upsert

MySQL有INSERT...ON DUPLICATE KEY UPDATE语法，可以实现Upsert：

INSERT INTO customers (id, first_name, last_name, email) VALUES (30797, "hooopo1", "wang", "hoooopo@gmail.com") 
ON DUPLICATE KEY UPDATE 
first_name = VALUES(first_name), last_name = VALUES(last_name);

PostgreSQL 从 9.5 也有了INSERT ... ON CONFLICT UPDATE语法，效果和 MySQL 类似：

INSERT INTO customers (id, first_name, last_name, email) VALUES (30797, "hooopo1", "wang", "hoooopo@gmail.com") 
ON CONFLICT(id) DO  UPDATE 
SET first_name = EXCLUDED.first_name, last_name = EXCLUDED.last_name;

批量 Upsert

之前研究 MySQL 里如何插入最快，里面提到 LOAD INFILE 方式批量插入，并且 MySQL 的 bulk insert 是支持 REPLACE 语意的，即批量插入的同时还可以 upsert。

LOAD DATA LOCAL INFILE "/Users/hooopo/data/out/product_sales_facts.txt"
REPLACE INTO TABLE product_sale_facts FIELDS TERMINATED BY "," (`id`,`date_id`,`order_id`,`product_id`,`address_id`,`unit_price`,`purchase_price`,`gross_profit`,`quantity`,`channel_id`,`gift`)

当然 PostgreSQL 也有 Copy功能，和 MySQL 的 LOAD INFILE 类似。然而，copy 命令不支持 Upsert，这使一些增量 ETL 的工作非常不方便。

不过有一种利用 staging 表的方式实现 bulk upsert，大致步骤如下：

一. 目标表

二. 把增量数据批量插入中间表

CREATE TABLE IF NOT EXISTS staging  LIKE customers INCLUDING DEFAULTS INCLUDING CONSTRAINTS INCLUDING INDEXES;
COPY staging (id, email, first_name, last_name)
        FROM STDIN
          WITH
            DELIMITER ","
            NULL "N"
            CSV;

三. 把目标表中与 staging 表冲突部分删掉

DELETE FROM customers
USING staging
WHERE customers.id = staging.id

四. 把 staging 表批量插入到目标表，因为冲突部分已经删掉，所以这步不会有任何冲突。

INSERT INTO customers (SELECT * FROM staging);

五. 把 staging 表清空

TRUNCATE TABLE staging;

上面过程确实很麻烦，如果使用 kiba-plus 的话，只需要简单的 DSL：

destination Kiba::Plus::Destination::PgBulk2, { :connect_url => DEST_URL,
                                :table_name => "customers",
                                :truncate => false,
                                :columns => [:id, :email, :first_name, :last_name],
                                :incremental => true,
                                :unique_by => :id
                              }

发表评论

登陆后可评论

0条评论

2450184176

男|高级讲师

我要关注我要私信

TA的文章

手写网站服务器~用Python手动实现一个简单的服务器，不借助任何框架在浏览器中输出任意内容

阅读 2781·2021-11-17 09:33
radwebhosting：美国VPS五折，1核512M/15GB SSD/1TB流量/100Mbp

阅读 3121·2021-10-25 09:44
100 个基本 Python 面试问题第二部分(21-40)

阅读 1227·2021-10-11 10:59
1.Flutter开发工具准备与开发环境搭建

阅读 2423·2021-09-27 13:34
WebHorizon：$10.56/年-256MB/5G SSD/200GB/日本VPS

阅读 2926·2021-09-07 10:19
移动端下开启控制台

阅读 2156·2019-08-29 18:46
CSS常用布局简洁解决方案

阅读 1547·2019-08-29 12:55
前端面试系列--css

阅读 943·2019-08-23 17:11

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

Bulk Upsert for MySQL & PostgreSQL

相关文章

【Trafodion使用技巧篇】Trafodion数据加载介绍

发表评论

0条评论

2450184176

男|高级讲师

TA的文章

手写网站服务器~用Python手动实现一个简单的服务器，不借助任何框架在浏览器中输出任意内容

radwebhosting：美国VPS五折，1核512M/15GB SSD/1TB流量/100Mbp

100 个基本 Python 面试问题第二部分(21-40)

1.Flutter开发工具准备与开发环境搭建

WebHorizon：$10.56/年-256MB/5G SSD/200GB/日本VPS

移动端下开启控制台

CSS常用布局简洁解决方案

前端面试系列--css

最新活动