KoNLP한글을 텍스트마이닝 하기 위해 필요한 KoNLP패키지 설치 및 Java 세팅을 하는 법을 알아보자. Java 세팅JDK 1.8다운로드 위에 링크에서 화살표로 표시된 곳을 체크하고 운영체제에 맞는 파일을 다운받습니다. Windows 64비트용 Java 설치 후 세팅자바 환경변수 설정 1. 시스템 메뉴에서(내컴퓨터 우클릭 속성) “고급 시스템 설정” 2. 환경변수 3. 새로만들기 4. 시스템 변수 편집 변수 이름 : Path 변수 값 : %JAVA_HOME%\bin (직접 버전 확인 후 입력) Rstuido에서 KoNLP, rJava 설치 > install.package("KoNLP")> install.package("rJava")
Detect Matches> library(data.table)> library(stringr) # 함수 실습을 위해 간단한 데이터테이블을 만든다.> string string member old1: mother 502: father 553: grandmother 804: grandfather 845: son 1 146: daughter 1 207: son 2 158: daughter 2 189: uncle 40 # str_detect(string, pattern) : 문자열(string)에서 pattern을 비교하여 진릿값(TRUE/FALSE) 를 알려준다.> str_detect(string$member, "mo")[1] TRUE FALSE TRUE FALSE FALSE FALSE FALSE FALSE ..
데이터 분석에 앞서 이상치, 결측치를 확인해야 한다. 이상치, 결측지에 관한 포스팅은 다음으로 미루고 실습위주로 한다. 분석은 전 포스팅에 이어서 한다. 결측치 확인 및 결측치 채우기 패키지library(VIM) 결측치 확인> VIM::aggr(fullDT,+ prop=FALSE,+ numbers=TRUE,+ sortVars= TRUE,+ cex.axis = .7) Variables sorted by number of missings: Variable Count Cabin 1014 Survived 418 Age 263 Embarked 2 Fare 1 PassengerId 0 Pclass 0 Name 0 Sex 0 SibSp 0 Parch 0 Ticket 0 Variable Count Cabin 1014 ..
kaggle titanic 데이터 출처 : https://www.kaggle.com/c/titanic 패키지library(data.table) 기본적으로 data.table형식으로 진행 데이터 불러오기> getwd() # 지정된 디렉토리 확인 / [1] "C:/R/kaggle" > train test ncol(train)[1] 12> ncol(test)[1] 11 > colnames(train) [1] "PassengerId" "Survived" "Pclass" "Name" "Sex" [6] "Age" "SibSp" "Parch" "Ticket" "Fare" [11] "Cabin" "Embarked" > colnames(test) [1] "PassengerId" "Pclass" "Name" "Sex" "..
Data.frame(데이터 프레임)데이터 프레임 형식은 스프레드시트와 같은 형태로 보여지기 때문에 데이터 분석시 자주 사용된다. 또한 분석시 여러가지 장점이 있으며, 아래와 같은 특징이 있다.(1) 행과 열로 구성되어 있고, 2차원 구조이다.(2) 여러 개의 데이터 유형을 가질 수 있다.(3) 하나의 열은 하나의 데이터 유형만 갖는다.(4) 다른 열은 다른 데이터 유형을 가질 수 있다. 1. to make data.frame (데이터 프레임 생성)기본적으로 데이터 프레임은 벡터의 조합으로 생성할 수 있다. 응용방법을 통해 다양하게 생성 할 수 있지만 여기서는 기본적인 방법만 소개한다. # 벡터열로 데이터 프레임 조합 (vector1, vector2, matrix1,....) - 여기서 matrix는 벡터..
Matrix (행렬)(1) 행(row)과 열(column)로 구성됨, 2차원 구조(2) 벡터처럼 하나의 데이터 유형만 가짐(3) 벡터화, 재사용규칙이 적용됨(4) 벡터의 확장(5) 열순으로 채워진다. 1. to make matrix(행렬 만들기)(1). rbind(vector1, vector2, ...) : 행 합치기(2). cbind(vector1, vector2, ...) : 열 합치기(3). matrix(vector, nrow = , ncol = , byrow = TRUE)(4). dim(vector) 2. slicing(추출)(1) matrix[row, col] 3. 연산 수행 전치행렬 t(A) 역행렬 solve(A) 곱셉 A%*%B n차 대각선(단위) 행렬 diag(n)
- Total
- Today
- Yesterday
- 벡터
- 분석
- Titanic
- 빅데이터분석전문가
- 리눅스
- 16.04
- ADP
- R
- Bigdata
- 실기
- 빅데이터
- 실습
- 데이터분석
- Jupyter notebook
- 함수
- data.table
- 데이터형태
- RStudio
- 병합
- ADSP
- 빅데이터분석
- 우분투
- Kaggle
- subset
- 타입
- vector
- rbase
- 기초
- 데이터구조
- data.frame
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |