python 使用流式游标读取mysql怎么不会内存溢出

佚名 7年前 (2019-05-15) 随笔 2248人围观抢沙发百度已收录

使用过java读取mysql大数据量的人应该都知道，如果查询时不开游标不设置一次性区大小的话，会一次性的把所有记录都拉取过来再进行后续操作，数据量一大就很容易出现OOM 如果用python去读取mysql也会遇到同样的问题那么这么在python中来设置使用游标呢也很简单这里使用pymysql来举例子普通创建mysql链接是这样的 import pymysql db = pymysql.connect("localhost","user","password","dbname" ) cursor = db.cursor() sql = "select * from xxx"try: cursor.execute(sql) results = cursor.fetchall() for row in results: xxx....except: pass db.close() 想用游标来控制数据拉取的话，只需要稍加修改就可以 import pymysql db = pymysql.connect("localhost","user","password","dbname",cursorclass=pymysql.cursors.SSCursor ) cursor = db.cursor() sql = "select * from xxx"try: cursor.execute(sql) result = cursor.fetchone() while True: if result: xxx.... result = cursor.fetchone() else: breakexcept: pass db.close() 这是一条一条读，当然也可以通过设置fetch的大小来一次读一定量的条数我们来看看cursorclass这个参数是怎么说的默认值是Cursor，返回的数据是元组形式的 DictCursor，除了返回是词典形式外，其他的与Cursor都相同 SSCursor，是服务端游标，结果集合储存在服务端并且传输行数通过fetch控制，其他与Cursor相同，最好只用在处理很大的数据结果集合上 SSDictCursor，除了返回是词典形式外，其他的与SSCursor相同

这里有两点需要注意下：

使用pymysql.cursors.SSCursor代替默认的cursor。可以使用以上代码，或者这样写：conn.cursor(pymysql.cursors.SSCursor)
使用fetchone去每次只获得一行，别使用fetchall。也可以使用fetchmay，但是这样其实是多次调用fetchone。

对于SSCursor有一个错误的理解，就是SSCursor是服务端一次性读出所有数据然后一条一条返给客户端，其实不是这样的，这个cursor实际上没有缓存下来任何数据，它不会读取所有所有到内存中，它的做法是从储存块中读取记录，并且一条一条返回给你。这里有一个更适合的名字：流式游标。

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

因为SSCursor是没有缓存的游标，这里有几条约束：

这个connection只能读完所有行之后才能处理其他sql。如果你需要并行执行sql，在另外一个connection中执行，否则你会遇到 error 2014 , "Commands out of sync; you can't run this command now."
必须一次性读完所有行，每次读取后处理数据要快，不能超过60s，否则mysql将会断开这次连接（ error2013 , “Lost connection to MySQL server during query），也可以修改 SET NET_WRITE_TIMEOUT = xx 来增加超时间隔。

参考：Techualization: Retrieving million of rows from MySQL（原文更加详细）

整理自：
https://www.jianshu.com/p/80b81a68fd72 https://blog.csdn.net/cowcomic/article/details/82988178