su postgres
initdb -D /opt/local/var/db/pgsql/data/
にて初期化
httpd.conf
を編集
Macなら
/private/etc/httpd/httpd.conf
対象とするディレクティブに
「Includes」をついか
<Directory "/Library/WebServer/Documents">
<Limit GET POST HEAD OPTIONS>
Options FollowSymLinks MultiViews Includes
Order allow,deny
Allow from all
</Limit>
</Directory>
それから、拡張子を有効に下記2行のコメント#を削除
AddType text/html .shtml
AddHandler server-parsed .shtml
apache再起動
hoge.shtml
に下記のように記述
<!--#include virtual="/footer.html" -->
<!--#include file="/footer.html" -->
<hr>
<pre>
<!--#printenv -->
</pre>
以上。
<!--#include
※途中でスペースなど入ると動作しない。
mkdir /usr/local/src/pgkakasiw/
curl http://www.oss.ecl.ntt.co.jp/tsearch2j/source/pgkakasiw-1.1.tar.gz > pgkakasiw-1.1.tar.gz
tar xfz pgkakasiw-1.1.tar.gz
cd pgkakasiw-1.1
more README.pgkakasiw
READMEによると、postgresqlをインストールしたディレクトリをMakefileで編集する必要あり
vi Makefile
↓に変更
top_builddir = /usr/local/src/postgresql-7.4.8
make
sudo make install
関数を使用するDBに追加する
postgresユーザになって
上記ディレクトリから
psql -e -f pgkakasiw.sql sampledb
(ドキュメントでは、psql -e -f create_pgkakasiw.sql sampledb となっていたが間違えか?)
tsearch2の関数も追加
(tsearch2.sql がある場所を指定して)
psql -e -f /usr/local/share/postgresql/contrib/tsearch2.sql sampledb
アクセスされるURLを調べてみると、以前にこのブログにも書いた、3月末のクローラの大量アクセスのページがインデックスされたようだ。
かれこれ、2ヶ月も反映されるまでに時間がかかったようだ。
ずいぶんとおそい。
加えて、再びAskのクローラのアクセスが大量にはじまっている。
2ヶ月周期のようにみえる。
結局トータルで、420082ページGetしていった。
とにかく、サイト内ページへのリンクの辿るスピードは、これまでのクローラーで最速。
一日、3500〜4000ページに始まり、ピーク時には、43000ページほどをGetしていた。
今日、AskJeevesが買収されたニュースがあったが、それと、クローリング終了は関係ないかっ。
Webサーバ稼働を24時間しっぱなしでも、以前と同じように全く問題なし。
不調の時には、1アクセスの度、「アクティブモニタ」に見えるシステムのCPUか同率が100%を超える様のこともあったが、いまは10%以下。
ダウングレードして、7.2.1をインストールしようかと思うが、めんどくさいし、とくにウィルス感染の心配もないので後まわし。
本日もAsk Jeevesのロボットが頻繁にきている。
サーバログに残っている検索エンジンのロボットが辿ったページのユニーク数を調べてみる。(つまり、同一URLのアクセスは1カウントとして、何種類のページをGetしたか)
Yahoo! : 15,861 (最初に訪れておよそ4ヶ月、おもに巡回が始まって3ヶ月))
msnbot : 3,466 (最初に訪れておよそ6ヶ月、おもに巡回が始まって1ヶ月)
Ask Jeeves : 67,009 (最初に訪れておよそ6ヶ月、おもに巡回が始まって3ヶ月)
Googlebot : 67 (最初に訪れておよそ6ヶ月)
(全体のページは、およそ75万ページ)
取得したページからリンクされるサーバ内の下層、上層のページへどれだけ辿っていくのかが比較できる。
(Googlebotが極端に少ないのは別の原因が考えられるので別途調査中。)
Ask Jeevesは突出してクローリングがはやい。
かといって、サーチエンジンからサーバへジャンプしてくるユーザはほとんどYahoo!サーチ
モニター電源をいれても、ディスプレイがスリープ状態で、無反応にまでなっていたので、電源ボタン長押しで強制再起動しました。
(起動後、StartupItemとして自動起動するPostgreSQLが立ち上がっておらず、再度再起動で正常起動しました)
24時間起動しっぱなしで、Apache(1.3.3)、PostgreSQL(7.4.3)、PHP(4.3.10)で、Webサーバとしているが、稼働して7ヶ月目ではじめてです。
もうちょっと、強固なシステムかと思っていましたが、デスクトップPCとしてブラウジングやプログラミング等にも使用し、純粋なサーバ用途でつかってないので、仕方ないのかもしれません。
原因は、コンソールから種々のログを見てみましたが、私が帰宅する1時間30分程度前からダウンしていたようです。(深夜のファンの轟音が近所迷惑!!)
今日は(昨日から)、Askのロボットにお越しいただき、午後からはMSNのロボットにもお越しいただいていたので、少々忙しく稼働していたようですが、それにしてもWebサーバとしては、たいしたトラフィックでは無いレベル。
(10/Mar Askが、11855hit)
原因は、もう少し詳しく見る予定ですが、やはり、ウィルス対策アプリケーション「Virex 7.5.app」が、バックグラウンドで行っているプロセスが怪しいように思います。
なぜか、Apacheのログのクラッシュ時の最後に下記のような形跡
1行目がApacheのログ2行目以降がおかしな文字列
------------------------------
XX.XXX.XXX.XXX - - [11/Mar/2005:00:12:06 +0900] "GET XXXXXX HTTP/1.1" 200 3244 "-" "XXXXXX"
mp.330) [accessed by process 341] could not be scanned due to error 2
2005-03-10 20:35:44 VShieldCore reports: [Active Scanner] AV Engine reports object (/usr/local/pgsql/data/global/pgstat.tmp.330) [accessed by process 341] could not be scanned due to error 2
2005-03-10 20:35:48 VShieldCore reports: [Active Scanner] AV Engine reports object (/usr/local/pgsql/data/global/pgstat.tmp.330) [accessed by process 341] could not be scanned due to error 2
2005-03-10 20:35:49 VShieldCore reports: [A
------------------------------
タイムスタンプが時系列におかしいし、なんでこんな所に書き込まれているのか??
Virexのログの最後には
-------------------------------
2005-03-11 01:08:09 VShieldCore reports: [Active Scanner] AV Engine reports object (/usr/local/pgsql/data/global/pgstat.tmp.330) [accessed by process 341] could not be scanned due to error 2
-------------------------------
ということは、帰宅するちょうど10分くらい前までは動いていたのかな??
やっぱり、Virex 7.5.appは、なにか問題を引き起こすようだ。
ググってみると、ちらほら、不具合に関する情報もあるし。
どうも、バージョンダウンして、7.2あたりが良さそうだ。
とりあえず、Virexの環境設定から、すべてのチェックボックスを外して、活動停止状態で様子見。
しかし、こんな状態で、旅行にでも出かけていたらどうなっちゃうの?? この轟音は。
psql [DB名] -c 'select [列1], [列2], [列3] from [テーブル名] Limit 1000' > ~/out.txt