13.5. Indeksowanie tekstu o określonej strukturze z wykorzystaniem biblioteki Ferret

Problem

Chcemy przeszukiwać tekst o określonej strukturze. Na przykład, chcemy przeszukiwać tylko nagłówki artykułów prasowych, a nie ich treść.

Rozwiązanie

Do tokenizacji i przeszukiwania tekstu o określonej strukturze można wykorzystać bibliotekę Ferret. Jest to przeniesiona do języka Ruby wersja biblioteki Javy — Lucene, dostępna w postaci gemu ferret.

Poniżej pokazano sposób, w jaki można utworzyć i zapisać indeks z wykorzystaniem biblioteki Ferret. W pokazanym przykładzie utworzymy możliwy do przeszukiwania indeks przydatnych pakietów języka Ruby zapisanych w postaci zbioru plików binarnych w katalogu ruby_packages/.

require 'rubygems' require ...

Get Ruby. Receptury now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.