2017年8月1日火曜日

ojizoの目標、まず1,000万ドキュメント

ojizo(旧Nyafoo!)を公開して1か月が経ちました。一度、インデックスを設計し直したためゼロから再開しましたが、また200万ドキュメントを超えるようになりました。

今の目標は、1,000万ドキュメントをインデックスすることです。

これも根拠があって、昔のgooなどの検索エンジンでも1,000万件を超えるドキュメントをインデックスしていました。まずは、ここを目指そうと思っています。

現在、1週間で200万ドキュメントぐらいをクロールしています。今のペースなら、8月末に1,000万ドキュメントを達成できるでしょう。

elasticsearch自体は数千万ドキュメントを扱えます。ストレージは、5台のクラスタで500GBを確保しました。設計上は、検索インデックスを収めているクラスタを10台に増やせば、160TBまで拡張可能です。

オープンソースとクラウドで、どこまで行けるのか。試せるだけ試してみたいと思います。

はじめてのクラスタ破損

朝、目覚めのコーヒーを入れ、iPadでFessの管理画面に入ると。 帯が赤い。 クラスタ破損です。 一気に目が覚めました。 ざっとインデックスを眺めると、Fess.2017xxxxは正常。 .crawlerも正常。 .suggest関連がいくつか破損したようです。 ...