超簡単!h1とmeta titleとmeta descriptionをnokogiriぶっこ抜くruby!

最近SEOってる私です。

手始めに、htmlの改善をやろうとしていますが、取ってくるのが面倒でした。

先輩のアドバイスなどを元に、nokogiriでぶっこ抜くrubyを簡易的に作りました。


# # h1 title descriptionを抜き出すファイル。 # nokogiriをinstallして有れば使えるはず。 # ex) ruby get_meta.rb http://google.com # require 'open-uri' require 'nokogiri' ARGV.each do |uri| html = open(uri).read doc = Nokogiri::HTML.parse(html) print doc.title + "t" print doc.xpath('/html/head/meta[@name="description"]/@content').to_s + "t" doc.css("h1").each do |h1| print h1.text end print "n" end

引数にどんどんURLを書き足せばいくらでもぶっこ抜けます(^ω^)

ちょっと作り変えて配列にするとか、外部ファイル読み込むとかそのへんは自由に作って下さい☆

参考

nokogiriを使ったスクレイピング入門 @gaaamiiのブログ