pandas整合多份csv文件-白红宇

pandas整合多份csv文件

阅读量：800 次

发布时间：2023-02-26

本文共 1385 字，大约阅读时间需要 4 分钟。

在数据处理项目中，我们需要将来自不同文件的信息进行整合，特别是当这两个文件都包含ISBN编号时。以下将详细介绍如何高效地完成这一过程。

数据整合目标

我们的目标是将user和book两个CSV文件中的相关信息整合到一个新的数据框train中。具体来说，我们希望train数据框包含来自user文件的id字段，以及来自book文件的isbn字段。

处理步骤

为了实现这一目标，我们可以按照以下步骤进行：

1. 准备数据框

首先，我们将train数据框初始化为user和book文件列名的副本。这样，我们可以确保train数据框包含我们需要整合的所有列名。

train = train_df.copy()for use in list(user.columns[1:].values):    train[use] = Nonefor bo in list(book.columns[1:].values):    train[bo] = None

2. 使用`tqdm`显示进度

处理大量数据时，使用tqdm可以帮助我们跟踪进度，避免长时间不知道数据处理情况。

for i in tqdm(range(len(test))):    test_isbn = test.loc[i][1]    book_hang = book[book.ISBN == test_isbn].index.tolist()[0]    for bo in list(book.columns.values):        try:            test[bo][i] = book.loc[book_hang][book.columns.get_loc(bo)]        except:            print(bo)

3. 提取与整合数据

接下来，我们逐行处理test数据集中的每一行，提取对应的ISBN并找到book文件中对应的记录。然后，我们将book文件中的每个字段值填入train数据框中。

for i in tqdm(range(len(test))):    test_isbn = test.loc[i][1]    book_hang = book[book.ISBN == test_isbn].index.tolist()[0]    for bo in list(book.columns.values):        try:            test[bo][i] = book.loc[book_hang][book.columns.get_loc(bo)]        except:            print(bo)

优化与考虑因素

在实现上，我们需要注意以下几点：

性能优化：由于book文件可能包含大量数据，逐行查询可能会影响性能。可以考虑将book文件中的数据预先转换为字典，以便快速查找。

异常处理：在提取数据时，可能会遇到某些字段不存在的情况。我们可以通过try-except语句来处理这些异常，确保不会因为少量错误而影响整体流程。

进度显示：使用tqdm不仅能显示进度，还能提升用户体验，减少等待时间。

通过以上步骤，我们可以高效地将user和book文件中的信息整合到一个新的数据框中，满足实际需求。

转载地址：http://jvvfk.baihongyu.com/

你可能感兴趣的文章