htslurp.sh Ver.0.5
2009年1月16日 Ver.0.5 リリース
- 取り込んだウェブページから削除すべき大文字の <HTML> および </HTML> が取り除かれないようになっていた問題の修正
- 書き出す HTML の文法的な誤りを修正
ダウンロード
これは何か
htslurp.sh は複数のウェブページを一括ダウンロードし、単一の HTML に結合するシェルスクリプトです。
実行に必要な環境
bash シェルスクリプトを実行できる環境が必要です。一般的な GNU/Linux ディストリビューションでは標準のインストールで必要なものがほぼそろうと思いますが、wget と nkf は追加しなければならないかもしれません。Microsoft Windows では Cygwin 環境下でたぶん動くんじゃないかと思います。Apple Mac OS X では、標準の sed がバカなので、MacPorts をセットアップし、port コマンドで wget、nkf に加え gsed(GNU SED)を導入してください。
使い方
htslurp.sh をダウンロードして適当な場所に保存します。コマンドライン上で、ダウンロードしたいウェブページの URL を引数として htslurp.sh を実行してください。
- 使用例その一(URL を直接入力する)
- $ htslurp.sh http://www.google.com/ http://www.yahoo.com/
この例では生成された HTML が標準出力に表示されます。
- 使用例その二(テキストファイルに記述した URL を渡し、結果を HTML ファイルに保存する)
- $ htslurp.sh `cat srclist.txt` > dstfile.html
この例では、srclist.txt に URL を列記して(例えば改行区切りで)おき、cat コマンドで内容を htslurp.sh に渡しています。リダイレクト(>)で結果を dstfile.html に保存しています。dstfile.html は取得したウェブページの内容が結合された HTML ファイルになります。
なお、htslurp.sh は指定したウェブページに貼り付けられた画像ファイルなどはダウンロードしません。それらのファイルごと保存しておきたい場合は、生成した HTML ファイルをウェブブラウザで開き、Mozilla Firefox なら「Web ページ、完全」、あるいは Apple Safari のウェブアーカイブ形式、Microsoft Internet Explorer の MHTML 形式などで保存し直してください。
また、htslurp.sh はもとの HTML に含まれていた外部スタイルシートへのリンクや style 要素を削除します。その代わり、デフォルトでは生成された HTML ファイルと同じディレクトリにあるべき slurp.css という名前のスタイルシートを読み込むようになっています。上記ダウンロード一覧に最低限の内容を持つ slurp.css があります。これを生成した HTML ファイルと同じディレクトリにおいてください。これによって生成された HTML 全体に統一的なスタイルを適用することが出来ます。
使用上の注意
- htslurp.sh に HTML でないデータを指し示す URL を渡すのはたぶん無駄な行為です。
- htslurp.sh はもとの HTML から script 要素を削除します。いくつものウェブページを結合すると、それをウェブブラウザで開くときにいくつもの javascript を一度に実行してのっぴきならなくなることを避けるためですが、javascript によって生成される部分は閲覧できません。
スクリプトの権利について
このスクリプトはごく小さいもので、さして創造的な部分もなく、「シェルスクリプトでこういうこともできる」ということを示すサンプルのつもりで公開しています。従って、著作権法上の保護の対象になるものではなく、改変、再頒布も含め、自由に扱っていただいてかまいません。
関連する記事
更新履歴
- 2009-01-01 Ver.0.4 初公開版