sách gpt4 ai đã đi

python - 如何拆分数据框单元格中的数据并在拆分时执行 Pandas groupby?

In lại 作者:太空宇宙 更新时间:2023-11-04 09:26:33 26 4
mua khóa gpt4 Nike

我使用 FourSquare API 生成了一些数据,其中列出了东伦敦不同地区附近的公园。它在数据框中,df。

Location,Parks,Borough
Aldborough Hatch,Fairlop Waters Country Park,Redbridge
Ardleigh Green,Haynes Park,Havering
Bethnal Green,"Haggerston Park, Weavers Fields",Tower Hamlets
Bromley-by-Bow,"Rounton Park, Grove Hall Park",Tower Hamlets
Cambridge Heath,"Haggerston Park, London Fields",Tower Hamlets
Dalston,"Haggerston Park, London Fields",Hackney

sử dụngdf = pd.read_clipboard(sep=',')导入数据

我想做的是按自治市镇列分组并计算该自治市镇中不同的公园,例如“Tower Hamlets”= 5 和“Hackney”= 2。我将为此创建一个新的数据框简单地列出数据框中每个行政区的公园总数。

我知道我能做到:

df.groupby(['Borough', 'Parks']).size()

但我需要用分隔符“,”分割公园,以便将它们视为一个自治市镇的独特、不同的实体。

你有什么建议?

Cảm ơn!

1 Câu trả lời

数据科学的第一条规则是将数据清理成有用的格式。

重新格式化 DataFrame 使其可用:

df.Parks = df.Parks.str.split(',\s*') # per user piRSquared
df = df.explode('Parks') # pandas v 0.25

cleaned DataFrame

现在 DataFrame 的格式正确,可以更轻松地进行分析

df.groupby('Borough').Parks.nunique()

Borough
Hackney 2
Havering 1
Redbridge 1
Tower Hamlets 5
  • 那是三行代码,但现在 DataFrame 是一种有用的格式,可以轻松提取更多见解。

情节

df.groupby(['Borough']).Parks.nunique().plot(kind='bar', title='Unique Parks Counts by Borough')

nhập mô tả hình ảnh ở đây

关于python - 如何拆分数据框单元格中的数据并在拆分时执行 Pandas groupby?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57363046/

26 4 0
太空宇宙
Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Nhận phiếu giảm giá Didi Taxi miễn phí
Mã giảm giá Didi Taxi
Giấy chứng nhận ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com