2005年3月30日水曜日

サーチエンジン「SUZAKU(朱雀)」

Linuxのサーバー上で稼動するフリーのサーチエンジン「SUZAKU(朱雀)」バージョン2が公開されました。
1. SUZAKUとは
SUZAKU(朱雀) は、インターネット/イントラネットを対象にした、フリーの
ロボット型サーチエンジンです。
SUZAKU には、以下のような特徴があります。
・MySQL、Ruby、erubyなどのフリーソフトをベースにしたシステムです。
・SUZAKU は、以下の機能がワンセットになっています。
・ホームページのリンクを自動的に探索し、ダウンロード&インデックス化
 する機能
・キーワードに該当するホームページを検索する機能
・ブラウザによるシステムの管理機能
・ホームページのリンクの探索を、指定された同一サイト内に限定する機能
 があります。これにより、特定ジャンルのホームページ群を対象とした、
 独自のサーチエンジンを構築することができます。
・プラットフォームには、LinuxベースのPCサーバーを想定しています。高速
 検索が可能な MySQL をデータベースに使用しており、中小規模のサーチ
 エンジンであれば、十分に実用的なシステムを構築することができます。
例えば、ADSL + PCサーバー(Linux) + SUZAKU を使って、独自のサーチ
 エンジンを自前のサーバー上に構築し、外部に公開することができます。
・ホームページのダウンロード&インデックス化の処理を実行中でも、
 キーワードによる検索を行うことができます。
・ダウンロード先のサーバーを分散し、相手のサーバーに過度の負荷をかけ
 ないようにする機能や、robots.txt による探索制限に従う機能を実装して
 います。
・プログラム本体は、Ruby および eruby で記述されており、ソースは公開
 されています。スクリプト言語による比較的コンパクトなシステムであり、
 改造も容易です。[linux-usersメーリングリストより。]
以前のバージョンを少し動かしたことがあるのですが、サイトデータ収集ロボットに
少し難があったので導入をあきらめていたのですが、今回久々にバージョンアップされたので再度検討してみようかと。。

1 件のコメント:

  1. サーチロボット実況中継

    若干古いが、CNETにサーチエンジンの考察が乗っていたので掲載しておく。 htt...

    返信削除