데이터 분석에 앞서 이상치, 결측치를 확인해야 한다. 이상치, 결측지에 관한 포스팅은 다음으로 미루고 실습위주로 한다. 분석은 전 포스팅에 이어서 한다. 결측치 확인 및 결측치 채우기 패키지library(VIM) 결측치 확인> VIM::aggr(fullDT,+ prop=FALSE,+ numbers=TRUE,+ sortVars= TRUE,+ cex.axis = .7) Variables sorted by number of missings: Variable Count Cabin 1014 Survived 418 Age 263 Embarked 2 Fare 1 PassengerId 0 Pclass 0 Name 0 Sex 0 SibSp 0 Parch 0 Ticket 0 Variable Count Cabin 1014 ..
kaggle titanic 데이터 출처 : https://www.kaggle.com/c/titanic 패키지library(data.table) 기본적으로 data.table형식으로 진행 데이터 불러오기> getwd() # 지정된 디렉토리 확인 / [1] "C:/R/kaggle" > train test ncol(train)[1] 12> ncol(test)[1] 11 > colnames(train) [1] "PassengerId" "Survived" "Pclass" "Name" "Sex" [6] "Age" "SibSp" "Parch" "Ticket" "Fare" [11] "Cabin" "Embarked" > colnames(test) [1] "PassengerId" "Pclass" "Name" "Sex" "..
Data.frame(데이터 프레임)데이터 프레임 형식은 스프레드시트와 같은 형태로 보여지기 때문에 데이터 분석시 자주 사용된다. 또한 분석시 여러가지 장점이 있으며, 아래와 같은 특징이 있다.(1) 행과 열로 구성되어 있고, 2차원 구조이다.(2) 여러 개의 데이터 유형을 가질 수 있다.(3) 하나의 열은 하나의 데이터 유형만 갖는다.(4) 다른 열은 다른 데이터 유형을 가질 수 있다. 1. to make data.frame (데이터 프레임 생성)기본적으로 데이터 프레임은 벡터의 조합으로 생성할 수 있다. 응용방법을 통해 다양하게 생성 할 수 있지만 여기서는 기본적인 방법만 소개한다. # 벡터열로 데이터 프레임 조합 (vector1, vector2, matrix1,....) - 여기서 matrix는 벡터..
Matrix (행렬)(1) 행(row)과 열(column)로 구성됨, 2차원 구조(2) 벡터처럼 하나의 데이터 유형만 가짐(3) 벡터화, 재사용규칙이 적용됨(4) 벡터의 확장(5) 열순으로 채워진다. 1. to make matrix(행렬 만들기)(1). rbind(vector1, vector2, ...) : 행 합치기(2). cbind(vector1, vector2, ...) : 열 합치기(3). matrix(vector, nrow = , ncol = , byrow = TRUE)(4). dim(vector) 2. slicing(추출)(1) matrix[row, col] 3. 연산 수행 전치행렬 t(A) 역행렬 solve(A) 곱셉 A%*%B n차 대각선(단위) 행렬 diag(n)
1. 모집단 (Population) - 전체의 집합을 모집단(Population)이라고 한다. 2. 표본 (Sample) - 모집단에서 일부의 자료를 추출한 자료를 표본(Sample)이라고 한다. 3. 모집단과 표본의 관계 우리가 알고자 하는 즉, 관심의 대상이 되는 전체의 집단인 모집단(Population)을 정확히 알기 위해서는 모집단 전체를 전부 조사(전수조사) 해야 하나 이는 불가능하거나 경제적으로 곤란한 경우가 많다. 그래서 시간과 경제적 측면에서 모집단에서 일부의 자료를 추출한 표본(Sample)을 조사, 분석하여 모집단의 특성을 추측하거나 최종적인 결론(의사결정)을 한다. 예를 들어 한국 대학생과 일본 대학생의 IQ를 비교하고자 한다면, 모든 대학생들의 IQ를 측정하는 것은 불가능하기 때문에..
- Total
- Today
- Yesterday
- 빅데이터분석
- data.frame
- 실기
- ADP
- Kaggle
- vector
- 리눅스
- 데이터분석
- Bigdata
- 타입
- ADSP
- Titanic
- 데이터형태
- 함수
- Jupyter notebook
- 병합
- 벡터
- 데이터구조
- 실습
- 분석
- RStudio
- 16.04
- rbase
- 우분투
- R
- subset
- 빅데이터
- 빅데이터분석전문가
- 기초
- data.table
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |