投稿

8月, 2017の投稿を表示しています

インデックスが1,000万件を超えました

イメージ
こんばんは。nyafooです。
本日、ojizoのインデックスが1,000万件を突破しました。目標をひとつ達成です。

7月のはじめの頃は30万件余りでしたから、1か月半で30倍ぐらいのインデックスを集めたことになります。

これまでに、
・業界団体に加盟しているマスコミ
・上場企業
・国、省庁、自治体
・金融機関
・観光協会
・公共交通機関
などを登録してきました。

今はレジャー施設を強化しています。

オリジナルの検索エンジンを作る、と途方もない目標を立てましたが、毎日コツコツとインデックスを延ばしてゆきたいと思います。

これからもojizoをよろしくお願いいたします。

ojizoをchromeに登録する

イメージ
chromeにojizoを登録する方法です。
メニューから「設定」を選びます。
「検索エンジン」→「検索エンジンの管理」を選びます。
「その他の検索エンジン」→「追加」を選びます。
「検索エンジンの編集」で以下のように入力します。 検索エンジン:ojizo キーワード:http://ojizo.jp URL:http://ojizo.jp/search/?q=%s

これで、検索エンジンにojizoを追加できます。

「ホワイトリスト+ブラックリスト」のハイブリッド検索になります

おはようございます、nyafooです。

ojizoの開発を始めて1か月半。ホワイトリスト方式の検索エンジンに挑戦しています。この1か月で、elasticsearchのクラスタ運営など、かなり勉強しました。

すでに、ojizoのインデックスは700万件を超えていますが、やはり広大なネットをまんべんなく網羅するのは大変です。

そこで、従来のojizoエンジンに加え、ブラックリストを加えたGoogleカスタム検索を表示するようにしました。

ojizoで検索して、検索結果が気に入らないときは「▼Google検索結果を表示」をクリックしてください。ブラックリストを加えたカスタム検索が表示されます。

検索結果が無かった場合は、Googleベースの結果が表示されます。

1か月やってみて、「ojizoでヒットしなかったら、すぐGoogleに行ける」方が現実的と判断しました。

でも、ojizoのオリジナル検索も強化し続けますよ。まだまだ頑張ります。
これからもojizoをよろしくお願いいたします。

ojizo(旧Nyafoo!)が目指すもの

こんにちは、ojizoです。
今日はojizoが目指すものを書きたいと思います。

カッコいい理由から、ビジネスへの期待、個人の思いなど、多面的な目標があります。

まずはカッコいい理由。
インターネットは自由に発言できる空間です。
肩書きにとらわれない、自由闊達な意見が飛び交い、建設的な議論が進むと期待されていました。
その側面は、半分実現できたと考えています。
しかし、そうではない面もありました。
他人、弱者、隣国への嗤いや憎悪、真実と虚構が入り混じるページが、検索エンジンの上位に表示されるのも、現状であります。
マスコミにミスや誘導が無いとは言いませんが、検索エンジンにもダイバーシティが必要なのは言うまでもありません。

続いてビジネスへの期待です。
検索広告は、ヤフーだけで1000億円以上の売上がある巨大市場です。
Googleはヤフーより売上が大きいはずですから、少なくとも2000億円の市場規模があると考えました。
この市場は上位2社の寡占です。
なので、特徴のあるシステムで0.1%のシェアを取れれば、それだけでビジネスとして成り立ちます。
この巨大市場に、数万円のクラウドとオープンソースで挑めるなら、やらない手はありません。

ojizoはURLホワイトリストを採用しています。
これも、1年余り試行錯誤して至った方針になります。
まず、ホワイトリストで巡回先を制限することで、クロール対象が「有限」になります。
無限のURLを相手にすると、無限の設備を想定しなければなりません。
制限を作ることは、市場チャレンジャーには有利な設定なんです。
それから、巡回先の平均的な品質が担保できているため、単純なアルゴリズムでも、満足できる検索結果が得られます。

ビジネスモデルの組み立てに当たり、独自のコンテンツを展開して会員課金を得ようとしています。
今、お願いしているクリエイターが多忙のため、きちんと契約や原稿料の振込みができておりません。これも、近日中にきちんと発表したいと思います。

あと、個人の思いとしては、とにかく楽しいんです。
URLを設定して、クロールを眺めて、形態素の辞書をいじって…。
そうやってシステムを成長させる楽しみがあります。

日本発のオープンソースを母体にした、Web検索エンジンがどこまで行けるのか。
ojizoの発展にご期待ください。

目標インデックスの3分の1に届きそう

おはようございます。
起きてインデックスを確認したら、325万件に増えていました。
今日中に目標である1000万件の3分の1に行けるかな。

インデックスのサイズはレプリカシャードも含めて130GB、
それでもパフォーマンスが落ちないFessやelasticsearchは凄い。

ここまで、チューニングらしいチューニングはしていません。
クローラーの割り当てメモリを1024MBに増やしたぐらいです。
基本の完成度が高いので、下手にパラメーターを変えると、かえって不安定になってしまうことも。

今月末までに1000万件に行けるといいな。

ojizoの目標、まず1,000万ドキュメント

ojizo(旧Nyafoo!)を公開して1か月が経ちました。一度、インデックスを設計し直したためゼロから再開しましたが、また200万ドキュメントを超えるようになりました。

今の目標は、1,000万ドキュメントをインデックスすることです。

これも根拠があって、昔のgooなどの検索エンジンでも1,000万件を超えるドキュメントをインデックスしていました。まずは、ここを目指そうと思っています。

現在、1週間で200万ドキュメントぐらいをクロールしています。今のペースなら、8月末に1,000万ドキュメントを達成できるでしょう。

elasticsearch自体は数千万ドキュメントを扱えます。ストレージは、5台のクラスタで500GBを確保しました。設計上は、検索インデックスを収めているクラスタを10台に増やせば、160TBまで拡張可能です。

オープンソースとクラウドで、どこまで行けるのか。試せるだけ試してみたいと思います。