htslurp.sh Ver.0.5

2009年1月16日 Ver.0.5 リリース

ダウンロード

これは何か

htslurp.sh は複数のウェブページを一括ダウンロードし、単一の HTML に結合するシェルスクリプトです。

実行に必要な環境

bash シェルスクリプトを実行できる環境が必要です。一般的な GNU/Linux ディストリビューションでは標準のインストールで必要なものがほぼそろうと思いますが、wget と nkf は追加しなければならないかもしれません。Microsoft Windows では Cygwin 環境下でたぶん動くんじゃないかと思います。Apple Mac OS X では、標準の sed がバカなので、MacPorts をセットアップし、port コマンドで wget、nkf に加え gsed(GNU SED)を導入してください。

使い方

htslurp.sh をダウンロードして適当な場所に保存します。コマンドライン上で、ダウンロードしたいウェブページの URL を引数として htslurp.sh を実行してください。

使用例その一(URL を直接入力する)
$ htslurp.sh http://www.google.com/ http://www.yahoo.com/

この例では生成された HTML が標準出力に表示されます。

使用例その二(テキストファイルに記述した URL を渡し、結果を HTML ファイルに保存する)
$ htslurp.sh `cat srclist.txt` > dstfile.html

この例では、srclist.txt に URL を列記して(例えば改行区切りで)おき、cat コマンドで内容を htslurp.sh に渡しています。リダイレクト(>)で結果を dstfile.html に保存しています。dstfile.html は取得したウェブページの内容が結合された HTML ファイルになります。

なお、htslurp.sh は指定したウェブページに貼り付けられた画像ファイルなどはダウンロードしません。それらのファイルごと保存しておきたい場合は、生成した HTML ファイルをウェブブラウザで開き、Mozilla Firefox なら「Web ページ、完全」、あるいは Apple Safari のウェブアーカイブ形式、Microsoft Internet Explorer の MHTML 形式などで保存し直してください。

また、htslurp.sh はもとの HTML に含まれていた外部スタイルシートへのリンクや style 要素を削除します。その代わり、デフォルトでは生成された HTML ファイルと同じディレクトリにあるべき slurp.css という名前のスタイルシートを読み込むようになっています。上記ダウンロード一覧に最低限の内容を持つ slurp.css があります。これを生成した HTML ファイルと同じディレクトリにおいてください。これによって生成された HTML 全体に統一的なスタイルを適用することが出来ます。

使用上の注意

スクリプトの権利について

このスクリプトはごく小さいもので、さして創造的な部分もなく、「シェルスクリプトでこういうこともできる」ということを示すサンプルのつもりで公開しています。従って、著作権法上の保護の対象になるものではなく、改変、再頒布も含め、自由に扱っていただいてかまいません。

関連する記事

更新履歴