2.Data handling 2
drive.mount(): drive의 파일을 노트북 파일 시스템과 연결 시킴 pd.read_csv(): 파일을 읽어 가져옴 .head(n): 파일에서 상위 n개의 행 가져옴 .merge(df, on=기준, how=) inner: 두 데이터 세트...
drive.mount(): drive의 파일을 노트북 파일 시스템과 연결 시킴 pd.read_csv(): 파일을 읽어 가져옴 .head(n): 파일에서 상위 n개의 행 가져옴 .merge(df, on=기준, how=) inner: 두 데이터 세트...
sklearn.impute: 결측치 처리하는 모듈 simple imputer, KNN imputer, Missingindicator 등 있음 random.randn(m): 평균이0이고 표준편차가 1인 m개의 난수 형성 .round(x): 소수점 x자리까지 반올림 ...
Number 정수(int), 부동소수점(float), 복소수(complex)를 표현할 수 있는 자료형 Sequence 문자열(str), 리스트(list), 튜플(tuple)등의 자료형 Mapping Key, Value 쌍으로 구성된 자료형: {“key”: “value”...
우리가 모두 알고 있듯이, 컴퓨터는 정보에 대한 개념이 없음 문자도 숫자로 바꿔줘야 하고, 우리가 흔히 사용하는 카테고리의 경우도 모두 숫자로 바꿔줘야함 Label Encoding, One-hot Encoding
연속형 변수들은 왜도가 높거나 정규분포가 아닐 가능성 높음 * **왜도: 한쪽으로 치우침 데이터에 따라 변수의 값들을 단순한 몇 개의 그룹(Bin)으로 나누는게 효율적 이산화를 적용하기 위해서는 변수에 결측치가 존재하지 않아야 함 ...