lucene最新書籤
lucene 入门实例 
lucene 入门实例 
moyuhappy 收藏於 2010/01/25
》构造index
2>查询
查询很怪异,一些只出现1,2 次的不会出现。
//start
import
分類:其他
Lucene搜尋引擎入門 ─ 安裝Web Application 
Lucene搜尋引擎入門 ─ 安裝Web Application 
Lucene是一個成熟的免費開放原始碼工具程式庫,由Apache基金會提供。相較於自己寫搜尋引擎,Lucene提供了一個好用的API,讓網路應用程式開發者做全文索引(index)和搜尋。它能處理諸如 word、html、pdf、excel等文件格式的全文搜尋,但如果要搜尋其他格式的文件,則需要特定的Extractor支援才行。
Lucene是一個成熟的免費開放原始碼工具程式庫,由Apache基金會提供。相較於自己寫搜尋引擎,Lucene提供了一個好用的API,讓網路應用程式開發者做全文索引(index)和搜尋。它能處理諸如 word、html、pdf、exc... 繼續閱讀...
Lucene是一個成熟的免費開放原始碼工具程式庫,由Apache基金會提供。相較於自己寫搜尋引擎,Lucene提供了一個好用的API,讓網路應用程式開發者做全文索引(index)和搜尋。它能處理諸如 word、html、pdf、exc...繼續閱讀
分類:網站設計
Tsung's Blog | Search Engine - Apache Lucene 入手指南 
Tsung's Blog | Search Engine - Apache Lucene 入手指南 
Open Source Search Engine 很多, 但是要找到穩定又支援 Unicode, 評價又不錯的, 目前看到的就是 Apache Lucene, 主要是 Java base, 其它語言的版本暫不比較(有些語言的版本是要付費, 而且速度並不比 Java 快).
主要原因是有很多大廠在用, 目前使用 Lucene 的站比較紅的有 Joost, Digg, CNet 等, 參考自: WikiPedia Lucene. (我猜目前最多企業使用的應該是 SQL Like 吧!. Orz..)
本篇先研究將環境建立, 和基本如何 build index, query search 的功能, 其它深入的, 以後有空研究再慢慢寫吧~ :)
分類:其他
Hi! I’m clsung » 快快樂樂學 Ruby - 再談 Ferret 
Hi! I’m clsung » 快快樂樂學 Ruby - 再談 Ferret 
但是最後讓我再來試 Ferret 的原因,卻還是第一個:中文。
原先 lukhnos 的文章中的 regex 可以適當地處理 ASCII、歐語以及 CJK(UTF-8 碼)字元,雖然我不確定有沒有包含越南(CJKV?)不過 UTF-8 碼的 regex 就在這裡了,要自己改也是沒什麼問題。那對於 Big5 碼呢?其實現在的時代,用 Big5 碼的人逐步減少了,不過還是在國內佔大宗吧?像聯合新聞網、中時電子報還有自由電子報都還在使用 Big5 。雖然我們 *現在* 使用的軟體大多在處理這些語料時會先轉為 UTF-8 再分析,但也不能就此就把 Big5 丟到一邊去1。
所以我改了 lukhnos 的 GENERIC_ANALYSIS_REGEX ,加上 Big5 的部份,有關 code range 可以參考 O’Reilly 的這篇論文:
ruby search engine 
ruby search engine 
tby 收藏於 2005/12/19
Ferret is a soon-to-be-high-performance, full-featured text search engine library written entirely in pure Ruby (with an optional C extension). It is a full port of the Apache Lucene Java project.
ruby search engine adapted from apache Lucene ...
ruby search engine adapted from apache Lucene




標籤:

群組:

標籤:



訂閱