Screenshot 2022-06-13 20.44

Whoogle Searchを運用してみようとしたがうまくいかなかった

2022年06月13日

Whoogle SearchというGoogleを使ったメタサーチエンジンを設置しようとしたのですが、うまくいきませんでした。

benbusby/whoogle-search: A self-hosted, ad-free, privacy-respecting metasearch engine

Googleをそのまま使う場合と比べてWhoogleを使った場合

  • (自宅にRaspberry Piを設置して運用したりしない限り)自分のIPアドレスがGoogleに漏れない
  • Cookieやビーコン、転送URLでのトラッキングを防げる
  • トラッキングを基にしたパーソナライズを避けた検索結果が得られる
  • 広告が出ない

といった利点があり、設置を試みました。

まず思い出したのがOracle Cloudの無料枠で、こちらはAMD1コア、1GBのRAM、480Mbpsの帯域幅の仮想マシンを1台もらえます。

ふつうの仮想マシンでの設置自体は簡単で、80番ポートと443番ポートを開けておいて

git clone https://github.com/benbusby/whoogle-search.git
cd whoogle-search
docker-compose up

で5000番ポートにWhoogleが立つので、あとはnginxやApacheでリバースプロキシを立てればよいです。

が、Oracle Cloudに設置したWhoogleインスタンスはすぐにレートリミットに引っかかってしまい、しかも2時間ほど放置しても解決しませんでした。次はメンテナがおすすめしているHerokuへの設置を試してみました。

Screenshot 2022-06-13 21.08.43

ボタンひとつでデプロイできて、環境変数で変更する設定はGUIから変更ができて便利なのですが、Herokuもいくつか問題があり、まずサーバーが米国かヨーロッパにしかありません。レスポンスは悪くはないのですが良くもないという具合。

また無料枠を使う場合30分何もしていないとスリープに入ってしまい、アクセスすると10秒ほどで起きるのですが検索エンジンでは致命的。何かしら起こし続ける方法を考える必要があります。またこれも無料枠限定の問題ではあるのですが、カスタムドメインを使う場合SSLが使えないのも致命的で、結局Herokuを使うのもやめてしまいました。

悩ましい検索エンジン問題

Googleを直接使うのはいろいろ問題があると思っており、またBing系のメタサーチエンジンは日本語のクエリーを入れた際の品質がよろしくないので、選択肢としてはこんな感じ……

  • Startpage
  • Searxの公開インスタンス
  • Whoogleの公開インスタンス
  • Brave Search

Brave Searchは独自インデックスなのですが日本語のクエリでも少なくともBingよりは良好な結果が出ているように見えます。今後に期待。

Startpageはこちらもアメリカとヨーロッパにしかサーバーが無いようなのですが、Google系のメタサーチエンジンとしてはよく使われています。レスポンスはHerokuのアメリカサーバーに設置したWhoogleと比べてもよくないので、そこが欠点ですね。

Whoogleには日本の近くに設置されている公開インスタンスはないようなのですが、Searxにはシンガポールに設置されているインスタンスがあります。

SearXNG and searx instances

少し使ってみたところレスポンスも良く、設定画面で簡単に使う検索エンジンを変えられるのもユニークです。しばらくはSearxとBrave Searchを併用するようにしてみます。