여유로움
[11.17 수] 빅데이터 분석기사 실기 - Pandas (6~9강) 본문
1. 데이터 정렬하기
|
# [1-31] 'subscriber' 가 가장 많은 5개의 채널을 알아봅니다.
df.sort_values('subscriber',ascending=False).head(5)
# [1-32] 'view'가 가장 많은 5개 채널을 알아봅니다
df.sort_values('view', ascending=False).head(5)
# [1-35] 'category'로 오름차순, 'subscriber'로 내림차순 정렬해 봅니다.
df.sort_values(['category','subscriber'],ascending=[True, False]) #Category 오름차순 기준으로 subscriber 내림차순
|
2. Boolean Indexing *개념이해 중요
|
# [1-37] 카테고리가 '음악/댄스/가수'인 채널의 subscriber TOP5를 알아봅니다.
df[df['category']=='음악/댄스/가수'].sort_values('subscriber',ascending=False).head(5)
|
3. Series의 value가 목록에 포함된 내용인지 확인(isin)
|
# [1-36] 'category'별 채널의 개수를 알아봅니다.
df['category'].value_counts()
# [1-40] 카테고리가 'TV/방송' 이거나 '게임'인 채널의 개수를 확인합니다.
df[(df['category']=='TV/방송') | (df['category']=='게임')] <=같은 결과물=> df[df['category'].isin(['TV/방송','게임'])]
# [1-41] 카테고리가 '음악/댄스/가수'인 채널의 subscriber TOP5를 알아봅니다. (isin 활용)
df[df['category'].isin(['음악/댄스/가수'])].sort_values('subscriber', ascending=False).head(5)
# [1-43] video가 30000이상 35000이하인 채널을 알아봅니다.
df[(df['video']>=30000) & (df['video']<=35000)]
|
4. Series의 str Accessor 사용
|
# [1-44] title에 'KBS'가 포함된 채널 명 목록을 만들어 봅니다.
df.loc[df['title'].str.contains('KBS'),'title'].to_numpy() #multi-access
# 대소문자 구분 없이 검색 하려면?
df.loc[df['title'].str.upper().str.contains('KBS'),'title'].to_numpy() #multi-access
|
5. 통계값 알아보기
|
# 소수점 아래 2째자리까지 표시되도록 설정하기
pd.options.display.float_format = '{:,.2f}'.format
# [1-45] subscriber, view, video에 대한 통계값을 알아봅니다. (describe 사용)
df.describe()
# [1-49] 'video'의 분산과 표준편차를 구합니다.
print(df['video'].var(), df['video'].std())
# [1-50] 'subscriber'의 최대, 최소값을 구합니다.
print(df['subscriber'].max(), df['subscriber'].min())
# 최빈값 ( 결과는 series )
df['subscriber'].mode()[0]
# [1-51] 'subscriber'의 Q1, Q2, Q3(25% 50%, 75%) 를 구합니다.
df['subscriber'].quantile([0.25, 0.5, 0.75])
# IQR = Q3-Q1(3분위수-1분위수)
|
6. 그룹별 통계치 구하기
그룹별 통계치 구하기
|
# [1-52] category 별 subscriber, view, video에 대한 평균을 표시합니다.
df.groupby('category').mean()
# [1-53] category 별 view, video에 대한 합계를 표시합니다.
df.groupby('category')[['view']].sum()
|
출처 : 유튜브 채널 EduAtoZ
'셀프스터디 > 빅데이터 분석기사' 카테고리의 다른 글
[11.24 수] 빅데이터 분석기사 실기 - Pandas (24~29강) (0) | 2021.11.24 |
---|---|
[11.23 화] 빅데이터 분석기사 실기 - Pandas (21~23강) (0) | 2021.11.23 |
[11.22 월] 빅데이터 분석기사 실기 - Pandas (17~20강) (0) | 2021.11.22 |
[11.21 일] 빅데이터 분석기사 실기 - Pandas (10~16강) (0) | 2021.11.21 |
[11.16 화] 빅데이터 분석기사 실기 - Pandas (1~5강) (0) | 2021.11.16 |