2010-03-22 10:48?來(lái)源
</result>
</response>
這時(shí)候其實(shí)還有一個(gè)問(wèn)題,就是關(guān)鍵詞有時(shí)候匹配的并不是一個(gè)詞。我們知道英文單詞是以空格分開的,但漢語(yǔ)詞匯卻復(fù)雜多了,甚至有些句字人閱讀起來(lái)都會(huì)有歧義。lucene是外國(guó)人的玩藝兒,沒(méi)有內(nèi)置的中文分詞系統(tǒng),這樣一來(lái)你搜中文時(shí),只要有相臨的字串匹配,都會(huì)命中。這樣會(huì)造成匹配度的下降,再來(lái)不良用 戶體驗(yàn)。也許你覺(jué)得這沒(méi)什么,挺好,一個(gè)結(jié)果不漏。但是你想想,各大搜索引擎都不是白癡,你的結(jié)果頁(yè)匹配度不高,會(huì)影響你關(guān)鍵字的權(quán)重的吧。
不多說(shuō)了,請(qǐng)出國(guó)人的開源分詞系統(tǒng)庖丁解牛(paoding)。sourceforge曾因嫌中國(guó)人只索取不貢獻(xiàn)而屏蔽掉中國(guó)的IP,看到庖丁解牛,作為中 國(guó)人我都感到驕傲了。誰(shuí)說(shuō)中國(guó)人不貢獻(xiàn)了?庖丁解牛跟商業(yè)中文分詞軟件相比應(yīng)該還有差距,但足夠我們做關(guān)鍵詞優(yōu)化用了。你需要在solr 的schema.xml 配置文件里加上相關(guān)配置,在庖丁的配置文件中也要配好字典路徑,這樣你的搜索引擎就大功告成了。
下面要做前端的優(yōu)化設(shè)計(jì)了。你可以做一些流行關(guān)鍵詞的標(biāo)簽放在主頁(yè)上,這些標(biāo)簽頁(yè)指向你的搜索結(jié)果頁(yè)面。效果可參考我部署的一個(gè)案例:http://www.kaoly.com/t-%E9%BB%84%E9%87%91%E7%9F%BF%E5%B7%A5.html 。說(shuō)明一下,一些免費(fèi)CMS系統(tǒng)也有標(biāo)簽功能,甚至也有搜索功能,但其搜索功能是沒(méi)法跟lucene比的,而其標(biāo)簽更多的是手動(dòng)或半自動(dòng)維護(hù),相關(guān)度也難 以跟搜索引擎直接去搜相比。你想,如果你的搜索引擎算法好,能更接近大型搜索引擎,那你預(yù)先搜出來(lái)的結(jié)果肯定也是你所有內(nèi)容中最合大型搜索引擎胃口的。這 道理相信大家都明白。更不要說(shuō)標(biāo)簽建立的方便性,你發(fā)現(xiàn)好的關(guān)鍵詞,可以隨時(shí)加一個(gè)標(biāo)簽,簡(jiǎn)單到只需做個(gè)鏈接就可以了。相信常見(jiàn)的免費(fèi)CSM系統(tǒng)沒(méi)有這么 好的功能。即使它能自動(dòng)搜索創(chuàng)建標(biāo)簽,那它的標(biāo)簽的相關(guān)度也比不上搜索引擎,因?yàn)樗皇菍W鏊阉饕娴模皇菫槟闾峁┝艘恍?shí)用的附加的小功能。 本文“”來(lái)源:http://www.coweal.com/keji/design/13568.html,轉(zhuǎn)載必須保留網(wǎng)址。
編輯: