Rでの文字列操作
概要
開発者がよく使う言語と比べるとその程度は少ないが、Rでも文字列を扱うことは意外と多い。データが膨大で好き勝手な程、こんな些細なテクニックがすごく重要になる。
チップ
nchar()
関数は単純に文字列の長さを返す。他の言語を先に接した人は、多分九隅中八位length
を最初に打ったことだろう。substring()
関数はその名から簡単に推測できるように、部分文字列を返す関数だ。例には"Oh My God"の7番目から10番目の"God"を返した。gsub()
関数は文字列の一部を他の文字列で全部変えてくれる関数だ。当然ながら大文字小文字を区別する。casefold()
関数は大文字を全部小文字に変えてくれる関数だ。普通、統計や言語学の方では大文字小文字の区別まで必要ないので、便利に使える。strsplit()
関数は与えられた文字列を何かの基準で分割し、そのベクトルを返す関数だ。見ての通り、空白も可能だし、更には’‘をインプットして一文字単位で切り出してくれる。paste0()
関数は与えられた文字列を空白なしで繋げてくれる関数だ。
確かにただのpaste()
関数でオプションを使うこともできるが、コードがすっきりして見やすくなる。
コード
OMG<-"Oh My God"
nchar(OMG)
substring(OMG,7,10)
gsub('God','Girl', OMG)
casefold(OMG)
strsplit(OMG,' ')