데이터 분석에 앞서 이상치, 결측치를 확인해야 한다. 이상치, 결측지에 관한 포스팅은 다음으로 미루고 실습위주로 한다. 분석은 전 포스팅에 이어서 한다. 결측치 확인 및 결측치 채우기 패키지library(VIM) 결측치 확인> VIM::aggr(fullDT,+ prop=FALSE,+ numbers=TRUE,+ sortVars= TRUE,+ cex.axis = .7) Variables sorted by number of missings: Variable Count Cabin 1014 Survived 418 Age 263 Embarked 2 Fare 1 PassengerId 0 Pclass 0 Name 0 Sex 0 SibSp 0 Parch 0 Ticket 0 Variable Count Cabin 1014 ..
kaggle titanic 데이터 출처 : https://www.kaggle.com/c/titanic 패키지library(data.table) 기본적으로 data.table형식으로 진행 데이터 불러오기> getwd() # 지정된 디렉토리 확인 / [1] "C:/R/kaggle" > train test ncol(train)[1] 12> ncol(test)[1] 11 > colnames(train) [1] "PassengerId" "Survived" "Pclass" "Name" "Sex" [6] "Age" "SibSp" "Parch" "Ticket" "Fare" [11] "Cabin" "Embarked" > colnames(test) [1] "PassengerId" "Pclass" "Name" "Sex" "..
- Total
- Today
- Yesterday
- ADP
- 분석
- 빅데이터분석전문가
- 데이터분석
- RStudio
- data.table
- Bigdata
- vector
- 기초
- 실습
- 실기
- 병합
- 데이터형태
- Kaggle
- subset
- 빅데이터
- 16.04
- 리눅스
- 타입
- R
- 벡터
- data.frame
- Jupyter notebook
- 빅데이터분석
- rbase
- 데이터구조
- Titanic
- 우분투
- ADSP
- 함수
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |