데이터 분석에 앞서 이상치, 결측치를 확인해야 한다. 이상치, 결측지에 관한 포스팅은 다음으로 미루고 실습위주로 한다. 분석은 전 포스팅에 이어서 한다. 결측치 확인 및 결측치 채우기 패키지library(VIM) 결측치 확인> VIM::aggr(fullDT,+ prop=FALSE,+ numbers=TRUE,+ sortVars= TRUE,+ cex.axis = .7) Variables sorted by number of missings: Variable Count Cabin 1014 Survived 418 Age 263 Embarked 2 Fare 1 PassengerId 0 Pclass 0 Name 0 Sex 0 SibSp 0 Parch 0 Ticket 0 Variable Count Cabin 1014 ..
1. Jupyter project Jupyter는 40여 가지의 다양한 프로그래밍 언어를 지원하고 오픈소스 소프트웨어이다. 개방형 표준 및 대화식 컴퓨팅을 위한 서비스를 개발하기 위해 존재한다.최초에는 Ipython notebook이라는 이름으로 Python 언어만 지원하였지만 이후에 다양한 언어를 지원하면서 Jupyter notebook으로 이름을 변경하였다. 2. AnacondaAnaconda는 세계에서 가장 유명한 파이썬(Python) 데이터 과학 플랫폼이다. 한 번의 클릭으로 모든 데이터 과학 패키지를 쉽게 설치하고 패키지, 종속성 및 환경을 관리할 수 있다. Anaconda에 Jupyter notebook이 포함되어있어서 Anaconda를 설치하면 Jupyter notebook를 사용할 수 있다..
- Total
- Today
- Yesterday
- 실습
- subset
- R
- 리눅스
- RStudio
- Kaggle
- vector
- 함수
- 기초
- rbase
- 빅데이터
- 우분투
- 빅데이터분석전문가
- 16.04
- data.frame
- 데이터분석
- ADP
- 실기
- Jupyter notebook
- 빅데이터분석
- ADSP
- Bigdata
- data.table
- 병합
- Titanic
- 데이터구조
- 타입
- 분석
- 벡터
- 데이터형태
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |