dplyr

データフレームに対する操作

列の選択

select()

これらの関数は select() の中で使う

all_of(x) 変数 x に記録されたカラムを選択する

# 1,3,5行目を抽出
df %>% slice(c(1,3,5))

# 最初の3行を抽出
df %>% slice_head(n = 3)

# 最後の2行を抽出
df %>% slice_tail(n = 2)

# ランダムに3行を抽出
df %>% slice_sample(n = 3)

# ランダムに全体の30%を抽出
df %>% slice_sample(prop = 0.3)

# valが小さい方から2行を抽出
df_num %>% slice_min(val, n = 2)

# valが大きいほうから2行を抽出
df_num %>% slice_max(val, n = 2)

# 各行を3回ずつ複製
df %>% slice(rep(1:n(), each = 3))

以下の3つは全て同じ結果を返す。カラム x の値ごとにレコード数をカウントする。

df %>%
  group_by(x) %>%
  summarize(n = n())

df %>%
  group_by(x) %>%
  tally()

df %>%
  count(x)

add_count() と add_tally() は、上の例の summarize() を mutate() に変えたもの、元の df の行数は変えずにグループごとのカウント列を追加する

df %>%
  group_by(x) %>%
  mutate(n = n())

df %>%
  group_by(x) %>%
  add_tally()

df %>%
  add_count(x)