데이터 분석에 앞서 이상치, 결측치를 확인해야 한다. 이상치, 결측지에 관한 포스팅은 다음으로 미루고 실습위주로 한다. 분석은 전 포스팅에 이어서 한다. 결측치 확인 및 결측치 채우기 패키지library(VIM) 결측치 확인> VIM::aggr(fullDT,+ prop=FALSE,+ numbers=TRUE,+ sortVars= TRUE,+ cex.axis = .7) Variables sorted by number of missings: Variable Count Cabin 1014 Survived 418 Age 263 Embarked 2 Fare 1 PassengerId 0 Pclass 0 Name 0 Sex 0 SibSp 0 Parch 0 Ticket 0 Variable Count Cabin 1014 ..
kaggle titanic 데이터 출처 : https://www.kaggle.com/c/titanic 패키지library(data.table) 기본적으로 data.table형식으로 진행 데이터 불러오기> getwd() # 지정된 디렉토리 확인 / [1] "C:/R/kaggle" > train test ncol(train)[1] 12> ncol(test)[1] 11 > colnames(train) [1] "PassengerId" "Survived" "Pclass" "Name" "Sex" [6] "Age" "SibSp" "Parch" "Ticket" "Fare" [11] "Cabin" "Embarked" > colnames(test) [1] "PassengerId" "Pclass" "Name" "Sex" "..
- Total
- Today
- Yesterday
- data.table
- 빅데이터분석전문가
- data.frame
- 리눅스
- subset
- 데이터형태
- 병합
- R
- 벡터
- 함수
- Kaggle
- 실기
- vector
- ADP
- 데이터구조
- Titanic
- ADSP
- RStudio
- 데이터분석
- 빅데이터
- 빅데이터분석
- 우분투
- Jupyter notebook
- rbase
- 16.04
- Bigdata
- 분석
- 실습
- 타입
- 기초
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |