Detect Matches> library(data.table)> library(stringr) # 함수 실습을 위해 간단한 데이터테이블을 만든다.> string string member old1: mother 502: father 553: grandmother 804: grandfather 845: son 1 146: daughter 1 207: son 2 158: daughter 2 189: uncle 40 # str_detect(string, pattern) : 문자열(string)에서 pattern을 비교하여 진릿값(TRUE/FALSE) 를 알려준다.> str_detect(string$member, "mo")[1] TRUE FALSE TRUE FALSE FALSE FALSE FALSE FALSE ..
데이터 분석에 앞서 이상치, 결측치를 확인해야 한다. 이상치, 결측지에 관한 포스팅은 다음으로 미루고 실습위주로 한다. 분석은 전 포스팅에 이어서 한다. 결측치 확인 및 결측치 채우기 패키지library(VIM) 결측치 확인> VIM::aggr(fullDT,+ prop=FALSE,+ numbers=TRUE,+ sortVars= TRUE,+ cex.axis = .7) Variables sorted by number of missings: Variable Count Cabin 1014 Survived 418 Age 263 Embarked 2 Fare 1 PassengerId 0 Pclass 0 Name 0 Sex 0 SibSp 0 Parch 0 Ticket 0 Variable Count Cabin 1014 ..
kaggle titanic 데이터 출처 : https://www.kaggle.com/c/titanic 패키지library(data.table) 기본적으로 data.table형식으로 진행 데이터 불러오기> getwd() # 지정된 디렉토리 확인 / [1] "C:/R/kaggle" > train test ncol(train)[1] 12> ncol(test)[1] 11 > colnames(train) [1] "PassengerId" "Survived" "Pclass" "Name" "Sex" [6] "Age" "SibSp" "Parch" "Ticket" "Fare" [11] "Cabin" "Embarked" > colnames(test) [1] "PassengerId" "Pclass" "Name" "Sex" "..
- Total
- Today
- Yesterday
- 실습
- Kaggle
- ADSP
- Bigdata
- 병합
- 타입
- subset
- 빅데이터분석
- R
- 분석
- vector
- Titanic
- ADP
- data.frame
- data.table
- 벡터
- 우분투
- rbase
- 실기
- 함수
- RStudio
- 빅데이터
- 기초
- 데이터분석
- 리눅스
- Jupyter notebook
- 빅데이터분석전문가
- 16.04
- 데이터형태
- 데이터구조
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |