zkvn99

[R] 데이터 다루기 본문

Language/R

[R] 데이터 다루기

zkvn1103 2023. 3. 28. 12:38

파일 가져오기

 

txt 파일

read.table("원시 데이터 경로", header = FALSE, skip = 0, nrows = -1, sep = "", ...)

header - 원시 데이터의 1행이 변수명인지 판단

skip - 특정 행까지 제외하고 데이터를 가져옴

nrows - 특정 행까지 데이터를 가져옴

sep - 데이터의 구분 문자를 지정

 

csv 파일

read.csv("원시 데이터 경로")

xlxs 파일 (readxl 패키지 설치 및 로드)

install.packages('readxl')
library(readxl) 

read_excel("원시 데이터 경로")
read_excel("원시 데이터 경로", sheet = n)

xml 파일 (xml 패키지 설치 및 로드)

install.packages("XML")
library(XML)

xmlToDataFrame("원시 데이터 경로")

JSON 파일 (jsonlite 패키지 설치 및 로드)

install.packages("jsonlite")
library(jsonlite)

fromJSON("원시 데이터 경로")

데이터 확인

data() // 데이터 전체 확인하기
str(변수명) // 데이터 요약 확인하기
ncol() // 데이터 프레임 열 개수
nrow() // 데이터 프레임 행 개수
dim() // 데이터 프레임 열 및 행 개수
ls() // 데이터 세트 컬럼명 확인
head(변수명, n = 수량) 데이터 앞부분 값 확인
tail(변수명, n = 수량) 데이터 뒷부분 값 확인

데이터 값

mean() // 평균
median() // 중앙값
min() // 최솟값
max() // 최댓값
range() // 최댓값에서 최솟값의 범위
quantili(데이터 프레임명$변수명, probs = n) // 분위수
var() // 분산
sd() // 표준편차

첨도와 왜도 (psych 패키지 설치 및 로드)

install.packages("psych")
library(psych)

kurtosi() // 첨도 (0보다 작으면 정규분포 대비 완만한 분포)
skew() // 왜도 (0보다 크면 오른쪽으로 긴 꼬리를 가지는 분포)

빈도 분석 (descr 패키지 설치 및 로드)

install.packages("descr")
library(descr)

freq(iris$Sepal.Length, plot = F) // plot = F는 막대 그래프 출력 제외

막대 그래프

install.packages("descr")
library(descr)
freq(변수명, plot = T, main = "그래프 제목")

막대 그래프 (패키지 없이)

barplot(변수명, ylim = c(y축 범위), main = "그래프 제목", xlab = "x축 제목", ylab = "y축 제목", names = c("컬럼 제목",...), col = c("컬러",...), ...)

barplot(dist_GENDER, ylim = c(0, 14), main = "BARPLOT", xlab = "GENDER", ylab = "FREQUENCY", names = c("Femail", "Male"), col = c("pink", "navy"))

그 외

boxplot(변수명) // 상자 형태
hist(변수명) // 히스토그램
pie(변수명) // 파이차트
plot(x,y) // 산점도

산점도 행렬 (psych 패키지 사용)

install.packages("psych")
library(psych)
data(iris)
pairs.panels(iris)

'Language > R' 카테고리의 다른 글

[R] 데이터 탐색  (0) 2023.04.04
[R] 데이터 프레임  (0) 2023.03.14
[R] 변수, 함수  (0) 2023.03.07