pandas, 熊貓對groupby的用法有什么詳細解釋?不知道小伙伴們今天來看看邊肖的分享吧!
在熊貓中,社交領域根據用戶畫像(性別、年齡)對用戶進行細分,對用戶使用和偏好的研究主要由groupby完成。
Groupby的基本原則:
在pandas中,分組操作的代碼非常簡單,只需要一行代碼。這里上面的數據集是按照公司字段劃分的:in [5]: group=data。分組依據(公司)。
將上述代碼輸入ipython后,您將獲得一個DataFrameGroupBy對象。
In [6]: group
Out[6]: pandas.core.groupby.generic.DataFrameGroupBy object at0x000002B7E2650240
那么這個生成的DataFrameGroupBy是什么呢?groupby on data之后發(fā)生了什么?ipython返回的結果是它的內存地址,不利于直觀理解。為了了解群體內部的情況,
在這里,組被轉換成列表的形式:
In [8]: list(group)
Out[8]:
[(A, company salary age
3 A 20 22
6 A 23 33),
(B, company salary age
4 B 10 17
5 B 21 40
8 B 8 30),
(C, company salary age
0 C 43 35
1 C 17 25
2 C 8 30
7 C 49 19)]
轉換成列表后,可以看出列表由三個元組組成。在每個元組中,第一個元素是一個組(這里是按公司分組的,所以最后分為A、B、C),第二個元素是對應組下的一個DataFrame。
整個過程可以說明如下:
總結一下,groupby的流程就是根據groupby(這里是company)的領域,把原來的數據幀分成若干個分組的數據幀,分組的數據幀有多少就有多少。
因此,一系列操作(如agg、apply等。)之后的groupby都是基于子數據幀操作。
pandas,以上就是本文為您收集整理的pandas最新內容,希望能幫到您!更多相關內容歡迎關注。