rvest
スクレイピングするためのパッケージ
取り出したい要素の確認
スクレイピングしたいウェブページをブラウザ(Chrome)で開く → F12 を押すと、デベロッパーツールが開く → Elements タブの中でソースコードの一部をマウスでポイントするとウェブページの対応する部分の色が変わる → 取り出したい要素のソースの場所がわかったら、右クリック → Copy > Copy to XPath
でその要素へのXPathが取得できる
# ウェブページのソースを取得
html <- rvest::read_html("https://www.npfc.int/vessels/1536")
# xpath を使って特定の要素をテキストとして取り出す
html_node(html, xpath = "/html/body/div/div/div/div/div/div/div/section/div/div[3]/div/div[2]" ) %>%
html_text2()
# その要素がテーブルである場合にデータフレームとして取り出す
html_node(html, xpath = "/html/body/div/div/div/div/div/div/div/section/div/div[3]/div/div[4]/div[1]" ) %>%
html_table()
#page > div > div > div > div > section > div > div.region.region-content > div > div.col-sm-6.bs-region.bs-region–top-left > div.field.field–name-vty-id.field–type-entity-reference.field–label-above > div.field__items document.querySelector("#page > div > div > div > div > section > div > div.region.region-content > div > div.col-sm-6.bs-region.bs-region–top-left > div.field.field–name-vty-id.field–type-entity-reference.field–label-above > div.field__items”)
/html/body/div[2]/div[1]/div/div/div/div/div/div/section/div/div[3]/div/div[2]/div[6]/div[2]
/html/body/div[2]/div[1]/div/div/div/div/div/div/section/div/div[3]/div/div[2]/div[6]/div[1]
/html/body/div[2]/div[1]/div/div/div/div/div/div/section/div/div[3]/div/div[2]/div[6]/div[2]