比如两个列表
test1 = ['a1', 'b2']
test2 = ['a1_001', 'a1_002', 'a1_003', 'a2_001', 'a3_001', 'b2_001']
只取test2列表中所有元素的前2位跟另一个数组做比较,最终过滤出来的结果是['a2_001', 'a3_001']
我自己写的是用循环来处理,但是当数据量高达几百万,循环百万次需要花个把小时,效率太低.
之前写一个小脚本检查两个文件中的内容重复,直接导入成集合,然后做差集,上千万数据分分钟就能搞定,但是现在两组数据长度不一样,这总方法貌似行不通
本人自学python半年,接触的太浅,望大佬提点一二!
老哥,用你这个方法处理35W数据花了600s,这个效率也不太高,因为我的test2列表有上百万数据,只要涉及到循环就慢的1B,感谢老哥回答!