Shim-Crawler
English Page
現在進行中のクローラ情報はこちら
 
Shim-Crawler
Shim-Crawlerは、ウェブ上を自動的に巡回してウェブページを収集する クローラと呼ばれる プログラムの一種です。Shim-Crawlerは東京大学近山・田浦研究室が開発・運用してお り、集めたページは大量のドキュメントの分類など、研究の目的以外では使われません。
我々はクローラが他のホストに迷惑をかけないよう努力して参りますが、不本意に迷惑 となる場合があるかも知れません。そのような場合は申し訳ありませんが、我々にご連 絡をいただければ直ちにしかるべき対処を行います。ご協力よろしくお願いいたします。
 
収集拒否方法
  1. <meta> タグを利用する
    クローラは <meta name="robots" content="nofollow, noindex">というタグが あった場合、nofollow(リンク解析を行わない)、noindex(このページを破棄する)という 動作をします。Shim-Crawlerもこの規則に従っています。
  2. robots.txt に書く
    Shim-Crawlerはrobots.txtの規約に従って、 次のようなシーケンスを見付けると、そのパスの下はアクセスしません。
    User-agent: *
    Disallow: /cgi-bin
    
    User-agent: Shim-Crawler
    Disallow: /
    
    また他の機関でも同じプログラムを用いたクローラが運用されており、Shim-Crawlerを含む 全てのクローラのアクセスを拒否するためには robots.txt に以下のように記述します。
    User-agent: *
    Disallow: /cgi-bin
    
    User-agent: LC-Crawler
    Disallow: /
    
  3. 我々に連絡をとる
    それでもShim-Crawlerの挙動がおかしい、あるいは不快に感じられた方は我々にご連絡 ください。しかるべき対処を致します。
 
収集ポリシーについて
  1. 1 IPアドレスにつき1分間1回のみ接続を行う
    ウェブホストにかかる負担をなるべく軽減するため、 1 IPアドレスに対して1分間1回の接続が行われるようにしています。 ただし,/robots.txtへアクセスした直後は除きます. つまりサーバには最初に/robots.txtに対するリクエストが届き, その直後に1つリクエストが届きます.それ以降は1分に1回です. 1回の接続で, keep-aliveを利用して最大5個までのリクエストを出すことがあります. また, /robots.txtファイルにCrawl-Delay項目がある場合、 指定された時間間隔とデフォルトの1分の 最大値を用いてページを集めます.

  2. robots.txtファイルの内容を守る
    Shim-Crawlerはrobots.txtファイルの中身を解析し、Disallowされたパスを 収集しません. User-Agentには, Shim-Crawler, LC-Crawlerのどちらか(または*) を用いてください.
  3. アクセスに不快を感じるホストに対してはアクセスをしない
    直接ご連絡をいただいたホストやIPアドレスに関してはそれ以降アクセスを行わないよ うに致します。
 
ページの収集目的 (編集中)
研究以外の目的では使いません。

1. ウェブクラフの解析によるウェブコミュニティの発見
2. ウェブページのクラスタリング
3. ブログの解析
4. ニュースサイトの収集 ※ニュースサイトに関しては10秒間に1回アクセスを行っています。
 
現在進行中のクローラに関する情報
以下のマシンを用いてクロールをしています.
tako(dot)logos.ic.i.u-tokyo.ac.jp <133_11_238_6>
taz(dot)logos.ic.i.u-tokyo.ac.jp <133_11_238_7>

 
クローラのIPアドレス
tako(dot)logos.ic.i.u-tokyo.ac.jp <133_11_238_6>
taz(dot)logos.ic.i.u-tokyo.ac.jp <133_11_238_7>
 
 
連絡先