KoNLP한글을 텍스트마이닝 하기 위해 필요한 KoNLP패키지 설치 및 Java 세팅을 하는 법을 알아보자. Java 세팅JDK 1.8다운로드 위에 링크에서 화살표로 표시된 곳을 체크하고 운영체제에 맞는 파일을 다운받습니다. Windows 64비트용 Java 설치 후 세팅자바 환경변수 설정 1. 시스템 메뉴에서(내컴퓨터 우클릭 속성) “고급 시스템 설정” 2. 환경변수 3. 새로만들기 4. 시스템 변수 편집 변수 이름 : Path 변수 값 : %JAVA_HOME%\bin (직접 버전 확인 후 입력) Rstuido에서 KoNLP, rJava 설치 > install.package("KoNLP")> install.package("rJava")
데이터 분석에 앞서 이상치, 결측치를 확인해야 한다. 이상치, 결측지에 관한 포스팅은 다음으로 미루고 실습위주로 한다. 분석은 전 포스팅에 이어서 한다. 결측치 확인 및 결측치 채우기 패키지library(VIM) 결측치 확인> VIM::aggr(fullDT,+ prop=FALSE,+ numbers=TRUE,+ sortVars= TRUE,+ cex.axis = .7) Variables sorted by number of missings: Variable Count Cabin 1014 Survived 418 Age 263 Embarked 2 Fare 1 PassengerId 0 Pclass 0 Name 0 Sex 0 SibSp 0 Parch 0 Ticket 0 Variable Count Cabin 1014 ..
kaggle titanic 데이터 출처 : https://www.kaggle.com/c/titanic 패키지library(data.table) 기본적으로 data.table형식으로 진행 데이터 불러오기> getwd() # 지정된 디렉토리 확인 / [1] "C:/R/kaggle" > train test ncol(train)[1] 12> ncol(test)[1] 11 > colnames(train) [1] "PassengerId" "Survived" "Pclass" "Name" "Sex" [6] "Age" "SibSp" "Parch" "Ticket" "Fare" [11] "Cabin" "Embarked" > colnames(test) [1] "PassengerId" "Pclass" "Name" "Sex" "..
1. 모집단 (Population) - 전체의 집합을 모집단(Population)이라고 한다. 2. 표본 (Sample) - 모집단에서 일부의 자료를 추출한 자료를 표본(Sample)이라고 한다. 3. 모집단과 표본의 관계 우리가 알고자 하는 즉, 관심의 대상이 되는 전체의 집단인 모집단(Population)을 정확히 알기 위해서는 모집단 전체를 전부 조사(전수조사) 해야 하나 이는 불가능하거나 경제적으로 곤란한 경우가 많다. 그래서 시간과 경제적 측면에서 모집단에서 일부의 자료를 추출한 표본(Sample)을 조사, 분석하여 모집단의 특성을 추측하거나 최종적인 결론(의사결정)을 한다. 예를 들어 한국 대학생과 일본 대학생의 IQ를 비교하고자 한다면, 모든 대학생들의 IQ를 측정하는 것은 불가능하기 때문에..
- Total
- Today
- Yesterday
- data.table
- 우분투
- vector
- R
- 함수
- ADP
- Bigdata
- 리눅스
- 기초
- ADSP
- 데이터구조
- rbase
- Jupyter notebook
- 실습
- 데이터분석
- 분석
- 병합
- 실기
- data.frame
- 빅데이터분석
- 빅데이터
- 데이터형태
- 타입
- Titanic
- Kaggle
- subset
- 벡터
- 16.04
- RStudio
- 빅데이터분석전문가
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |