logo

Rでの文字列操作 📂R

Rでの文字列操作

概要

開発者がよく使う言語と比べるとその程度は少ないが、Rでも文字列を扱うことは意外と多い。データが膨大で好き勝手な程、こんな些細なテクニックがすごく重要になる。

チップ

20180517_102158.png

  • nchar() 関数は単純に文字列の長さを返す。他の言語を先に接した人は、多分九隅中八位lengthを最初に打ったことだろう。
  • substring() 関数はその名から簡単に推測できるように、部分文字列を返す関数だ。例には"Oh My God"の7番目から10番目の"God"を返した。
  • gsub() 関数は文字列の一部を他の文字列で全部変えてくれる関数だ。当然ながら大文字小文字を区別する。
  • casefold()関数は大文字を全部小文字に変えてくれる関数だ。普通、統計や言語学の方では大文字小文字の区別まで必要ないので、便利に使える。
  • strsplit() 関数は与えられた文字列を何かの基準で分割し、そのベクトルを返す関数だ。見ての通り、空白も可能だし、更には’‘をインプットして一文字単位で切り出してくれる。
  • paste0() 関数は与えられた文字列を空白なしで繋げてくれる関数だ。

確かにただのpaste()関数でオプションを使うこともできるが、コードがすっきりして見やすくなる。

コード

OMG<-"Oh My God"
 
nchar(OMG)
substring(OMG,7,10)
gsub('God','Girl', OMG)
casefold(OMG)
strsplit(OMG,' ')