목록셀프스터디 (16)
여유로움
인간은 정말로 망각의 동물이다 회사에서 나름 반 년 넘는 기간동안 파이썬 공부를 했음에도, Cos Pro 1급 준비한다고 따로 좀 더 공부를 했음에도..! 아직도 손에 안익은 파이썬 함수가 많다. 다시 까먹지 않도록 잘 정리해둬야지. 1. map() : 객체 내 원소들에게 함수를 각각 적용한 결과 값을 반환하는 함수 [형태] map(적용할 함수, 대상 객체(iterable)) → 결과값은 인덱싱/슬라이싱 불가! map의 대상 객체가 'iterable' 해야 한다는 것은 객체 속 요소들을 순차적으로 접근 가능해야 한다는 의미로, 튜플, 리스트(문자열), range 등등의 객체를 생각하면 된다. 그리고 map의 결과 값은 그 자체로 인덱싱이나 슬라이싱은 불가하므로, 필요하다면 list(), tuple() 등..
#데이터 설명 : 유방암 발생여부 예측 (종속변수 diagnosis : B(양성) , M(악성) ) 1, 0 #문제타입 : 분류유형 #평가지표 : f1-score trainData url : https://raw.githubusercontent.com/Datamanim/datarepo/main/cancer/train.csv testData url : https://raw.githubusercontent.com/Datamanim/datarepo/main/cancer/test.csv subData url : https://raw.githubusercontent.com/Datamanim/datarepo/main/cancer/submission.csv import pandas as pd train = pd.re..
#1주차 예상문제 1 #데이터 설명 : 고객의 신상정보 데이터를 통한 회사 서비스 이탈 예측 (종속변수 : Exited) #문제타입 : 분류유형 #평가지표 : f1-score traindata = 'https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/train.csv' testdata = 'https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/test.csv' submissiondata = 'https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/submission.csv' import pandas as pd train = ..
1. 데이터 불러오기 # [0] 사용 라이브러리 import import pandas as pd # 데이타가 많은경우 모두 출력 안되고 ... 으로 생략해서 출력됨. pd.set_option('max_rows',500) #출력할 max row를 지정 pd.set_option('max_columns',20) #출력할 max columns를 지정 #출력 format 지정 - 소수점아래 4자리까지 pd.set_option('display.float_format', '{:.4f}'.format) # [1] 학습 데이터 X_train.csv 가져오기 X = pd.read_csv('bigdata/X_train.csv', encoding='cp949') print(X.head(2)) # [2] 학습 데이터 y_tra..

1. 회귀/분류모델 사용을 위한 import (외워둘 것) from sklearn.linear_model import LogisticRegression from sklearn.neighbors import KNeighborsClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from xgboost import XGBClassifier 1-1). 로지스틱 회귀(Logistic Regression) 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법 https://ko.wikipedia.org/wiki/%EB%A1%9C%EC%A7..

[개념복습] 회귀 분석 (지도학습) : 독립변수(X)와 종속변수(Y) 간 관계를 분석하는 모델 선형 회귀(Linear Regression) 로지스틱 회귀(Logistic Regression) [개념] 변수 feature 간의 선형 관계로 예측 값 추측. 실제 값과 가장 오차가 작은 유일한 직선을 찾음 X, Y가 이항분포를 이룰 때 종속변수가 범주형(선형회귀와 다른 특징) [활성화 함수] 선형 함수 시그모이드 함수(0 또는 1 출력)_이진 로지스틱 회귀 소프트맥스(결과 값 합이 1)_여러 개를 분류할 때 (독립변수 1개) 단순 선형회귀, (독립변수 2개 이상) 다중 선형회귀 다항 로지스틱 회귀(범주가 2개 이상일 때) [관련개념] 최소 제곱법(일차함수 기울기, 절편을 알아냄) 경사하강법(해당 함수의 최소값..

1. 지도학습과 비지도학습 지도학습(Supervised) 입력, 출력 데이터가 제공되는 학습 이미 알려진 사례를 바탕으로 일반화된 모델 구축 종류 : Regression, Classification 회귀(Regression) : 숫자화 된 데이터로 예측하는 것 (학습에서 주어진 것 이외의 작은 값, 사잇값, 큰 값이 있을 수 있음) 분류(Classification) : 어떤 데이터에 대한 category를 예측하는 것 (학습에서 주어진 것 이외에 다른 category 없음) 비지도학습(Unsupervised) 입력은 주어지지만 출력은 제공되지 않음 기계가 알아서 학습하여 결과를 찾아내는 방법 종류 : Clustering, Demension Reduction, Association(연관) 군집화(Clust..

[개념복습] object타입 => 연,월,일,시간 타입으로 변경 df['컬럼명'] = pd.to_datetime(df['컬럼명'], format='포맷형태') %Y : 4글자 년도 %y : 2글자 년도 %m : 2글자 월 %d : 2글자 일 %X : 00:00:00 형태 시간 [유형1 문제1] import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/weather/weather2.csv") df.head(5) #Q1. 여름철(6월,7월,8월) 이화동이 수영동보다 높은 기온을 가진 시간대는 몇개인가? df['time'] = pd.to_datetime(df['time'],format='%Y-%m..