面试题：如何造10w条测试数据，在数据库插入10w条不同数据

如题所述

推荐答案 2023-07-27

前言

面试题：如果造10w条测试数据，如何在数据库插入10w条数据，数据不重复

最近面试经常会问到sql相关的问题，在数据库中造测试数据是平常工作中经常会用到的场景，一般做压力测试，性能测试也需在数据库中先准备测试数据。那么如何批量生成大量的测试数据呢？

由于平常用python较多，所以想到用python先生成sql，再执行sql往数据库插入数据。

使用语言：python 3.6

插入数据

首先我要插入的 SQL 语句，需每条 id 不重复 ,下面是执行单个插入语句

INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

10w 太多执行时间长，用 python 先生成 1w条测下执行时间。

首先要生成多个inert 语句，这里我用 python 语言写段生成sql的文本。

用 %s 替换需要变的字段值，如果有多个值都需要变，可以用多个%s替换对应值，我这里设计的表，只要id不一样就可以插入成功。
用for 循环，每次循环 id 加1，这样 id 就可以保证不会重复，否则插入数据库时有重复的无法写入成功。
a 是追加写入
每条sql后面分号隔开
每次写入数据，最后面加\n 换行
python3
作者：上海-悠悠 QQ群717225969
for i in range(10000):

a = "INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘);"%str(i+1)

with open("a.txt", "a") as fp:

fp.write(a+"\n")

执行python代码，在本地生成一个 a.text 文件，打开生成的数据，部分如下

INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘2‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘3‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘4‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

......

INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘10000‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

如果id是手机号呢，如何生成10w个不同手机号？

可以按手机号前3位开头的号码段生成，比如186开头的，先用初始数据 1860000000，再这个数字基础上每次加1

加到 18600099999，这样号码段1860000000-18600099999就是10w个手机号了。

把id换成手机号后，修改代码如下

python3
作者：上海-悠悠 QQ群717225969
for i in range(10000):

a = "INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘);"%str(i+1860000000)

with open("a.txt", "a") as fp:

fp.write(a+"\n")

只需在上面基础上把 str(i+1) 改成 str(i+1860000000) 就可以生成手机号了

INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1860000000‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1860000001‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1860000002‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

把生成的文本复制出来，多个INSERT INTO 对应的 sql 一次性贴到 navicat 客户端执行

执行完成花了5分钟左右，也就是说10w条得50分钟，这太慢了，要是数据更多，会等太久，不是我们想要的效果！

批量执行

由于单个执行，花费时间太长，现在需要优化下改成一个 inert 语句，改成批量插入数据，只写一个 insert into 这样一次性批量写到数据库，会快很多。

可以将SQL语句进行拼接，使用 insert into table () values (),(),(),()然后再一次性插入。

批量执行要么全部成功，要么一个都不会写入成功，当写的 SQL 语法有问题时就不会写入成功了。

需注意：

拼接 sql ,多个values 值中间用英文逗号隔开
value 值要与数据表的字段一一对应
一定要注意最后一条数据后面不是逗号，改成分号
python3
作者：上海-悠悠 QQ群717225969
insert_sql = "INSERT INTO apps.apiapp_card VALUES "

with open("b.txt", "a") as fp:

fp.write(insert_sql+"\n")

for i in range(10000):

a = "(‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘),"%str(i+10001)

with open("b.txt", "a") as fp:

fp.write(a+"\n")

执行完成后，复制 b.text 文件的内容，需注意的是这里一定要改成；结尾，否则语法报错

部分数据内容展示如下

INSERT INTO apps.apiapp_card VALUES

(‘10001‘, ‘‘, ‘test123‘, ‘2019-12-17‘),

(‘10002‘, ‘‘, ‘test123‘, ‘2019-12-17‘),

......

(‘20000‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

复制生成的 INSERT INTO 到 navicat 客户端执行

执行完成，最后看的测试结果，1w条数据只用了0.217秒，速度明显提高不少。

10w数据插入

接着测下，当生成10 w条数据的时候，会花多少时间？

作者：上海-悠悠 QQ群717225969
python3
insert_sql = "INSERT INTO apps.apiapp_card VALUES "

with open("b.txt", "a") as fp:

fp.write(insert_sql+"\n")

for i in range(100000):

a = "(‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘),"%str(i+100000)

with open("b.txt", "a") as fp:

fp.write(a+"\n")

使用python脚本执行后生成的数据如下

INSERT INTO apps.apiapp_card VALUES

(‘100000‘, ‘‘, ‘test123‘, ‘2019-12-17‘),

(‘100001‘, ‘‘, ‘test123‘, ‘2019-12-17‘),

......

(‘199999‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

直接插入mysql 这时候会有报错：Err 1153 - Got a packet bigger than ‘max_allowed_packet‘ bytes

报错原因：由于数据量较大，mysql 会对单表数据量较大的 SQL 做限制，10w条数据的字符串超出了max_allowed_packet

的允许范围。

解决办法：需修改mysql 数据库的max_allowed_packet的值，改大一点

max_allowed_packet

先在 navicat 输入命令查看 max_allowed_packet 最大允许包

show global variables like ‘max_allowed_packet‘;

查看到 value 值是 4194304，最大限制是 40 M,我们只需的sql字符串太大了，超出了这个范围。

在 navicat 客户端我们无法直接修改对应 value值，需登录到mysql，用命令行修改。

我这里 mysql 是搭建在 docker 上，需先进容器，登录到mysql.

操作步骤如下：

docker exec 进docker容器

mysql -uroot -p 输入密码后登录mysql

set global max_allowed_packet=419430400; 设置最大允许包 400M

show global variables like ‘max_allowed_packet‘; 查看前面设置是否生效

[root@VM_0_2_centos ~]# docker exec -it 934b30a6dc36 /bin/bash

root@934b30a6dc36:/# mysql -uroot -p

Enter password:

Welcome to the MySQL monitor. Commands end with ; or \g.

Your MySQL connection id is 303822

Server version: 5.7.27 MySQL Community Server (GPL)

Copyright (c) 2000, 2019, Oracle and/or its affiliates. All rights reserved.

Oracle is a registered trademark of Oracle Corporation and/or its

affiliates. Other names may be trademarks of their respective

owners.

Type ‘help;‘ or ‘\h‘ for help. Type ‘\c‘ to clear the current input statement.

mysql> show global variables like ‘max_allowed_packet‘;

+--------------------+-----------+

| Variable_name | Value |

+--------------------+-----------+

| max_allowed_packet | 4194304 |

+--------------------+-----------+

1 row in set (0.00 sec)

mysql> set global max_allowed_packet=419430400;

Query OK, 0 rows affected (0.00 sec)

mysql> show global variables like ‘max_allowed_packet‘;

+--------------------+-----------+

| Variable_name | Value |

+--------------------+-----------+

| max_allowed_packet | 419430400 |

+--------------------+-----------+

1 row in set (0.00 sec)

mysql>

从上面的查询结果可以看到，已经生效了。

再次重新执行上面10w条数据，查看运行结果总共花11秒左右时间。

受影响的行: 100000

时间: 11.678s

上面的方法只能临时生效，当重启mysql后，你会发现又还原回去了。

这里还有一种永久生效的方法，需修改my.cnf配置文件

在[mysqld]部分添加一句，如果有就修改对应的值：

max_allowed_packet=40M

这里的值，可以用 M单位，修改后，需要重启下mysql就可以生效了

使用python执行

如果不用 navicat 客户端，直接用python去执行，会花多少时间呢？

先封装连接mysql的方法，然后拼接执行的sql语句，拼接的时候需注意，最后的字符，需改成；

在执行代码前先获取当前的时间戳，代码执行完成后再次获取一次时间戳。两次的时间间隔，就是执行的时间了，时间单位是s

python 执行 mysql 代码参考如下

import pymysql

‘‘‘
python3
作者：上海-悠悠 QQ群717225969

pip install PyMySQL==0.9.3

‘‘‘

dbinfo = {

"host": "192.168.1.x",

"user": "root",

"password": "123456",

"port": 3306}

class DbConnect():

def init(self, db_cof, database=""):

self.db_cof = db_cof

# 打开数据库连接

self.db = pymysql.connect(database=database,

cursorclass=pymysql.cursors.DictCursor,

**db_cof)

# 使用cursor()方法获取操作游标
self.cursor = self.db.cursor()
def select(self, sql):
# SQL 查询语句
# sql = "SELECT * FROM EMPLOYEE # WHERE INCOME > %s" % (1000)
self.cursor.execute(sql)
results = self.cursor.fetchall()
return results
def execute(self, sql):
# SQL 删除、提交、修改语句
# sql = "DELETE FROM EMPLOYEE WHERE AGE > %s" % (20)
try:
# 执行SQL语句
self.cursor.execute(sql)
# 提交修改
self.db.commit()
except:
# 发生错误时回滚
self.db.rollback()
def close(self):
# 关闭连接
self.db.close()
if name == ‘main‘:

import time

insert_sql = "INSERT INTO apps.apiapp_card VALUES "

insert_values = "".join(["(‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘), \n"%str(i+100000) for i in range(100000)])

# 拼接sql

sql = insert_sql + insert_values[:-3]+";"

# print(sql)

# 执行sql

time1 = time.time()

db = DbConnect(dbinfo, database="apps")

db.execute(sql)

db.close()

time2 = time.time()

print("总过耗时：%s" % (time2-time1))

使用python执行结果：总过耗时：1.0816256999969482,结果超出我的想象，10w条数据居然只要1秒钟！
面试题：如何造10w条测试数据，在数据库插入10w条不同数据
标签：sql 语句提高names数据==commandatiblewhere

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WOtXzWXeBWezteWWjeX.html

相似回答

oracle数据库怎么把一张表的10万条数据插入到另外一张有数据的表答：create table XX as select a1.*(需要列全字段) from a1 union all select a2.*（列全对应a1字段的a2表中的字段） from a2 仅供参考

使用JDBC在MySQL数据库中如何快速批量插入数据答：public class DbStoreHelper { private String insert_sql; private String charset; private boolean debug; private String connectStr; private String username; private String password; public DbStoreHelper()

如何在数据库中入数据?答：1、设计数据库表结构：首先，你需要设计数据库的表结构，确定需要存储哪些数据以及它们之间的关系。这包括确定表名、字段名、字段类型、约束条件等。2、创建数据库表：在数据库管理系统中创建表，使用 SQL 语句来定义表的结构。可以使用工具如 MySQL Workbench 或 Navicat 来图形化地创建表。3、插入数据...

向Oracle数据库表中插入1000000条记录什么方法比较快 1、默认自动提交...答：那么就不必要在意了，否则如果你将来业务代码里可能要通过主键排序，那这时要加事务，虽然oracle并发控制不会主键冲突，但连续的主键就不能保证了。如果只是找个时间导入数据的话，直接把所有其他用户都断掉，然后1000条更新一次就好。如果有blob,clob这种字段，还是100-200一次比较好 ...

如何同时往数据库中插入多条记录???答：不同数据库之间略有不同，以几大主流数据库（oracle，sqlserver，mysql）为例。oracle（以插入三条为例），结尾分号不可省略，否则会报错。insert into test values (1,'张三');insert into test values (2,'李四');insert into test values (3,'王五');sqlserver（以插入三条为例），语法同...

如何在数据库中插入新记录?答：向access数据库插入一条新记录有三类方法：1. 直接在表中的末行输入数据这种方法适合于单用户操作数据库，直观，方便，快捷。2. 在窗体中插入新记录当数据库有多位用户时，由于可以设计布局以适应用户的需求和技能，使用窗体可以更加方便、快捷和准确地输入数据。窗体的设计决定了输入或编辑数据的方式...

在数据库里面插入数据的语句怎么写?答：用insert语句：　INSERT INTO table1(id, name, address) VALUES(1, ygl, 'beijing')，该语句主要适用于sql和PL/SQL。

...数据,可以将参数分在任意多个表里,怎么设计数据库表?答：1、打开需要操作的Excel表格，准备工作表，并编辑好筛选条件 2、选中表格，依次点击—数据—高级。3、选择将筛选结果复制到其他位置—验证，列表区域是否为选中区域，否则需重新选择。4、选择条件区域。5、复制到任意单元格——确定。6、选中原工作表——格式刷。7、鼠标移动至现有工作表——当鼠标形成小...

c#。如何向数据库同时插入多条数据答：因为数据库的限制，所以只能一次插入一条数据，多条的都是通过循环去完成的，DataAdapter所做的一次多条更新插入其实也是通过记录rowstate的状态去循环完成的，而且局限性很大，效率也不高，一般都不会用的，目前最快的应该是开启事务，循环插入，最后再一起提交是效率最高的。

大家正在搜

大数据测试面试题数据库调优面试题数据库开发面试题数据库常见面试题数据库索引面试题数据库优化面试题数据库面试题基础知识 oracle数据库面试题 mysql数据库面试题