KoNLP한글을 텍스트마이닝 하기 위해 필요한 KoNLP패키지 설치 및 Java 세팅을 하는 법을 알아보자. Java 세팅JDK 1.8다운로드 위에 링크에서 화살표로 표시된 곳을 체크하고 운영체제에 맞는 파일을 다운받습니다. Windows 64비트용 Java 설치 후 세팅자바 환경변수 설정 1. 시스템 메뉴에서(내컴퓨터 우클릭 속성) “고급 시스템 설정” 2. 환경변수 3. 새로만들기 4. 시스템 변수 편집 변수 이름 : Path 변수 값 : %JAVA_HOME%\bin (직접 버전 확인 후 입력) Rstuido에서 KoNLP, rJava 설치 > install.package("KoNLP")> install.package("rJava")
Detect Matches> library(data.table)> library(stringr) # 함수 실습을 위해 간단한 데이터테이블을 만든다.> string string member old1: mother 502: father 553: grandmother 804: grandfather 845: son 1 146: daughter 1 207: son 2 158: daughter 2 189: uncle 40 # str_detect(string, pattern) : 문자열(string)에서 pattern을 비교하여 진릿값(TRUE/FALSE) 를 알려준다.> str_detect(string$member, "mo")[1] TRUE FALSE TRUE FALSE FALSE FALSE FALSE FALSE ..
데이터 분석에 앞서 이상치, 결측치를 확인해야 한다. 이상치, 결측지에 관한 포스팅은 다음으로 미루고 실습위주로 한다. 분석은 전 포스팅에 이어서 한다. 결측치 확인 및 결측치 채우기 패키지library(VIM) 결측치 확인> VIM::aggr(fullDT,+ prop=FALSE,+ numbers=TRUE,+ sortVars= TRUE,+ cex.axis = .7) Variables sorted by number of missings: Variable Count Cabin 1014 Survived 418 Age 263 Embarked 2 Fare 1 PassengerId 0 Pclass 0 Name 0 Sex 0 SibSp 0 Parch 0 Ticket 0 Variable Count Cabin 1014 ..
kaggle titanic 데이터 출처 : https://www.kaggle.com/c/titanic 패키지library(data.table) 기본적으로 data.table형식으로 진행 데이터 불러오기> getwd() # 지정된 디렉토리 확인 / [1] "C:/R/kaggle" > train test ncol(train)[1] 12> ncol(test)[1] 11 > colnames(train) [1] "PassengerId" "Survived" "Pclass" "Name" "Sex" [6] "Age" "SibSp" "Parch" "Ticket" "Fare" [11] "Cabin" "Embarked" > colnames(test) [1] "PassengerId" "Pclass" "Name" "Sex" "..
- Total
- Today
- Yesterday
- 벡터
- vector
- RStudio
- 16.04
- 분석
- data.table
- R
- 타입
- 빅데이터분석전문가
- 우분투
- ADP
- Kaggle
- Bigdata
- Titanic
- Jupyter notebook
- subset
- 데이터구조
- data.frame
- ADSP
- 실기
- 데이터분석
- 빅데이터
- 기초
- 실습
- 함수
- 병합
- 데이터형태
- 빅데이터분석
- 리눅스
- rbase
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |