본문 바로가기

전체 글

(8)

SQL 데이터 그룹화 와 JOIN SQL 데이터 그룹화1. Group BY 절Group by : 특정 칼럼 값을 기준으로 테이블의 전체 행을 그룹별로 나눔 Group by 절에 명시되지 않은 칼럼은 그룹함수와 함께 사용 불가Group by 사용 규칙그룹핑 전에 where 절을 사용해 그룹 대상 집합 선정Group by 절에 select 절에서 나열 된 칼럼 이름 반드시 명시 (Group by절에 명시한 칼럼명은 select 절에 필수적을 명시할 필요 없음)xxxxxxxxxx SELECT deptno, AVG(sal), MIN(sal), MAX(sal) FROM professor GROUP BY deptno;2. 다중 칼럼을 이용한 그룹핑: 하나 이상의 칼럼을 사용해 그룹을 나누고 그룹별로 다시 서브 그룹 나눔xxxxxxxxxxselect..

YOLO 모델 논문 리뷰 YOLO 모델 논문리뷰¶You Only Look Once : Unified, Real-Time Object Detection¶ 1. Introduction¶You Only Look Once : 전체 이미지를 보는 횟수가 1회¶Unified : Classification 과 Localization 이 동시에 일어남¶Real-Time Object Detection : 속도 개선, 실시간¶(1) Object Detection¶ 1. Object Classification¶ : 이미지 내 single object의 Object class를 정의, output값은 class probability 2. Object Localization¶ : 이미지 내 single object의 위치를 포함하는 bounding b..

DACON 타이타닉 생존자 예측 모델 타이타닉 데이터를 활용한 데이터 분석¶ 1. 라이브러리 및 데이터¶Library & Data¶ In [ ]: import pandas as pd #판다스 패키지 불러오기 from sklearn.linear_model import LogisticRegression # 로지스틱 회귀 모델 불러오기 from sklearn.tree import DecisionTreeClassifier # 의사결정 나무 모델 불러오기 pd.read_csv()¶ csv파일 읽는 함수 In [ ]: from google.colab import drive drive.mount('/content/drive') Drive already mounted at /content/drive; to attempt to forcibly..

1118 Lv 4-2. 교차검증과 모델 앙상블을 활용한 와인 품질 분류하기 Lv 4. 교차검증과 모델 앙상블을 활용한 와인 품질 분류하기 3. 모델링 (1) 파이썬 XGBoost 개념 XGBoost (Extreme Gradient Boosting) : Boosting 기법을 이용하여 구현한 Gradient Boost 알고리즘이 병렬학습이 지원되도록 구현한 라이브러리 *Boosting : 여러개의 성능이 높지 않은 모델을 조합해서 사용하는 앙상블 기법 -> 성능이 낮은 예측 모형들의 학습 에러에 가중치를 두고, 순차적으로 다음 학습 모델에 반영하여 강한 예측모형 만듬 XGBoost의 장점 1. 기존 boosting 모델 대비 빠른 수행시간(병렬 처리) 2. 과적합 규제 지원(Regression) 3. 분류와 회귀 tast 에서 높은 예측 성능 4. Early Stopping(조기..

1118 Lv 4-1. 교차검증과 모델 앙상블을 활용한 와인 품질 분류하기 Lv 4. 교차검증과 모델 앙상블을 활용한 와인 품질 분류하기 1. EDA (1) 파이썬 seaborn pairplot seaborn pairplot: 데이터에 들어 있는 각 컬럼들의 모든 상관 관계를 출력 3차원 이상의 데이터-> pairplot 함수를 사용해 분포도 그릴 수 있음. pairplot: 격자 형태로 각 집합의 조합에 대해 히스토그램, 분포도 그림 [실습 코드] (2) 파이썬 seaborn distplot seaborn displot : 데이터의 히스토그램을 그리는 함수 히스토그램: 수치형 데이터 분포 시각화 방법 -> 변수를 여러개의 bin으로 분할하여 bin당 관측수를 막대그래프로 표현 [실습 코드] (3) 파이썬 seaborn heatmap 히트맵(Heat Map) : 두개의 범주형 ..

1112 LV3. 교차검증과 LGBM 모델을 활용한 와인 품질 분류하기 LV3. 교차검증과 LGBM 모델을 활용한 와인 품질 분류하기 1. EDA (1) 파이썬 EDA 기초 : 기본적인 데이터 불러오기, 데이터 정보 관측하기, 데이터 크기 파악하기 데이터 피쳐 알아보기 1) read_csv() 메서드로 csv 파일을 Pandas DataFrame class로 불러오기 df = pd.read_csv('경로') 2) info() 메서드로 데이터의 피쳐수, 컬럼명, 결측치 여부, Dtype 정보 알 수 있음 df.info() 3) shape 속성 : 데이터의 행 개수, 열 개수 출력 가능 df.shape 4) head() 메서드 : 데이터 대략적 정보 파악 df.head() [실습 코드] (2) 파이썬 결측치 유무 확인하기 isnull().sum() : EDA 과정..

1105 Lv2. 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기 2. Lv2. 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기 1. 전처리 (1) 파이썬 결측치 대체 평균 df.fillna({'칼럼명':int(df['칼럼명'].mean)}, inplace=True) : 결측치 들을 각 피쳐의 평균값으로 대체하는 코드 [실습 코드] (2) 파이썬 결측치 대체 보간법 피쳐의 정보성을 강조하기 위한 보간법을 사용해 결측치 채우기 Lv.2 의 따릉이 데이터의 피쳐 : 기상정보, 시간 순서대로 -> 결측치들을 이전 행(직전 시간), 다음 행(직후시간)의 평균으로 보간하는 것이 합리적 df.interpolate(inplace =True) [실습 코드] 2. 모델링 (1) 파이썬 랜덤포레스트 개념, 선언 랜덤 포레스트: 여러개의 의사결정나무를 만..

1028 Lv1. 의사결정회귀나무로 따릉이 데이터 예측하기 1. Lv1. 의사결정회귀나무로 따릉이 데이터 예측하기 1. EDA (1) 파이썬 라이브러리 불러오기 import [라이브러리] as [사용할 이름] : 데이터 분석을 위해 사용할 파이썬 라이브러리 불러오기 (matplotlib, pandas, numpy) ex) import numpy as np(2) 파이썬 파일 불러오기(read_csv) import pandas as pd data = pd.read_csv('파일경로/파일이름.csv') : 데이터가 있는 csv 파일을 불러오기 위해선 pandas 라이브러리 불러와야함 read_csv() 함수로 원하는 파일을 불러옴 -> pandas의 DataFrame 자료형으로 볼러옴 (3) 파이썬 행 열 갯수 관찰하기(shape) [DataFrame ..

이전 1 다음

티스토리툴바