목록셀프스터디 (16)
여유로움

1. 머신러닝(Machine Learning) 과정 2. Machine Learning - 전처리 1-1.문제지와 실제 dtype차이 확인 문제지 요구사항에 제시된 column의 dtype이 file에서 읽어온 데이터와 동일한지 확인하여 문제지에 제시된 것에 맞도록 변환 숫자가 아닌 문자가 포함되어 있는 경우 object로 표기되며 이때는 해당 문자를 찾아 없애야 함 일단 astype('int'), astype('float') 등을 사용하여 변환해 보고, 무엇 때문에 변환이 안되는지 오류 메시지를 확인함 오류메시지에 따라 불필요한 문자를 제거함 (Series.replace(regex=True) 또는 Series.str.replace() 사용) astype()을 사용하여 숫자형 데이터로 변경함 날짜/시간 ..
1. 통계 분석 개요 모집단(population): 연구 대상 데이터 전체 집합 모수(parameter) : 모집단의 특성을 나타내는 수치 표본(sample) : 모집단에서 추출한 일부 데이터 통계량(statistic) : 표분의 특성을 나타내는 수치 # [1] 평균, 분산, 표준편차 구하기 # Delta Degrees of Freedom (ddof=1) : pandas - 표본이 기준, 모분산/모표준편차는 ddof=0으로 주어야 함 s = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) print('표본평균:', s.mean()) print('표본분산:', s.var()) print('표본표준편차:', s.std()) print('모분산:', s.var(ddof=0)) pr..
1. 파일 읽어오기 csv 파일 : pd.read_csv('파일이름', encoding='cp949', low_memory=False) encoding='cp949' : 한글이 포함되어 있는 경우 encoding 방식을 지정 low_memory=False : column에 여러 type의 데이터가 섞여 있으면 DtypeWarning이 발생하며 이때, dtype option으로 타입을 명시해주거나 low_memory=False를 사용한다. # [4-1] 제과점에 대한 파일 './data_03/bread_data.csv'을 # encoding='cp949' 를 사용하여 읽어와 df라는 이름을 붙인다 # low_memory=False 또는 dtype={'건물소유구분명': object, '전통업소지정번호': o..
1. 결측치 확인 # [3-23] df의 행별 결측치를 조사합니다. df.isna().sum(axis=0) # [3-24] '측정일시'를 index로 설정하고, # index 기준으로 오름차순 정렬해서 df1으로 이름 붙입니다. # 그래프에서 y축으로 사용하려고 합니다. df1 = df.set_index('측정일시').sort_index() df1.head() df['컬럼명'] : 1개의 컬럼을 Series로 반환 df[['컬럼명1', '컬럼명2', ...]] : 여러개의 컬럼을 DataFrame으로 반환 df['행이름1':'행이름N'] : 행이름1 ~ 행이름 N 전까지를 반환 df[조건] : 행 중에서 조건이 True인 행을 반환 # [3-26] df1에서 '측정소명', '년', '월', '일','오존..
1. 사용 라이브러리 import import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 2. 파일 준비하기 data_day_2016.xlsx, data_day_2017.xlsx, data_day_2018.xlsx, data_day_2019.xlsx 파일을 가져와 df로 합치기작업 각 파일에 기록되어 있는 내용 측정일시, 측정소명, 이산화질소농도, 오존농도, 이산화탄소농도, 아황산가스, 미세먼지, 초미세먼지의 측정치 # [3-1] './data_01/data_day_2016.xlsx' 파일을 가져와 df2016이라는 이름을 부여합니다. df2016 = pd.read_excel('./data_01..

1. CSV 파일 가져오기 csv 파일 가져오기 csv 파일은 컬럼 구분이 콤마(,) 로 이루어진 파일 df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴 DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장, index는 제외하고 저장하기 위해서는 index=False로 지정 # [2-1] drinks.csv 파일을 DataFrame으로 불러오기 합니다. df = pd.read_csv('./data_01/drinks.csv') # [2-2] df의 데이터 모습을 확인하기 위해 첫 5개 데이터를 출력합니다 df.head(5) # [2-3] df의 컬럼명을 한글로 변경합니다. # ['국가', '맥주', ..
1. 데이터 정렬하기 DataFrame.sort_values(컬럼명, ascending=True) DataFrame.sort_values([컬럼명1, 컬럼명2, ...], ascending=[...]) 오름차순이 기본이며, ascending=False를 사용하여 내림차순 지정 1차기준, 2차기준 등 여러 개 기준이 존재하는 경우 1차기준 정렬 된 후, 1차기준이 같은 것 내부에서 2차기준으로 정렬됨 정렬방법은 각 기준별로 부여하거나, 1개만 부여할 수 있음 # [1-31] 'subscriber' 가 가장 많은 5개의 채널을 알아봅니다. df.sort_values('subscriber',ascending=False).head(5) # [1-32] 'view'가 가장 많은 5개 채널을 알아봅니다 df.sor..
1. 라이브러리 가져오기 import pandas as pd 2. 파일 읽어오기 엑셀파일 : pd.read_excel('파일이름', engine='openpyxl') #engine은 colab 환경에서 실행할 때 추가 CSV 파일 : pd.read_csv('파일이름', engine='openpyxl') #engine은 colab 환경에서 실행할 때 추가 # [1-1] youtube_rank.xlsx 파일을 DataFrame 으로 읽어 df라는 이름을 붙입니다 import pandas as pd df = pd.read_excel('data_01/youtube_rank.xlsx', engine='openpyxl') print(type(df)) # 원본을 복사하여 둡니다 original = df.copy() ..