主頁 > 快速排名 > 常見問題 > 解構(gòu)電商、O2O:探秘搜索系統(tǒng)的“簡(jiǎn)歷”

解構(gòu)電商、O2O:探秘搜索系統(tǒng)的“簡(jiǎn)歷”

POST TIME:2018-12-03 21:29

 

之前的文章探討過用戶端背后系統(tǒng)的邏輯和結(jié)構(gòu)情況,后續(xù)我會(huì)考慮逐步解構(gòu)每個(gè)相關(guān)系統(tǒng)的情況。今天跟大家聊一聊搜索系統(tǒng),搜索系統(tǒng)在所有電商系統(tǒng)里面復(fù)雜度和難度是可以排的上前列的。關(guān)于算法方面介紹的文章很多,這里不做贅述,只解構(gòu)下搜索系統(tǒng)的基本邏輯和實(shí)現(xiàn)。對(duì)于產(chǎn)品來說不免難免溝通時(shí)“露怯”,了解搜索系統(tǒng)的基本知識(shí)和結(jié)構(gòu)是有須要的。

搜索系統(tǒng)的“基本介紹”

搜索系統(tǒng),顧名思義提供大數(shù)據(jù)查找篩選的系統(tǒng)功能。在電商和O2O領(lǐng)域作為一個(gè)主要的流量入口起到了至關(guān)重要的作用。

“基本介紹”:指標(biāo)

對(duì)于搜索來說,主要的指標(biāo)為準(zhǔn)確率和召回率。我們以下圖為例解釋下什么叫做準(zhǔn)確率和召回率。

圖中整體的部分為所有商品數(shù)據(jù)的全集,其中包孕不相關(guān)和相關(guān)的內(nèi)容。

準(zhǔn)確率:搜索結(jié)果中相關(guān)內(nèi)容的比例,即圖中A的部分召回率:搜索結(jié)果占整體內(nèi)容的比例,即A+B

由此我們可以看出,最完美的結(jié)果是A足夠大且B足夠小,但實(shí)際實(shí)現(xiàn)中會(huì)發(fā)現(xiàn)兩個(gè)指標(biāo)是相反的(召回率越高準(zhǔn)確率會(huì)越低)。需要通過規(guī)則來平衡這塊部分。

“基本介紹”:基礎(chǔ)結(jié)構(gòu)

搜索系統(tǒng)主要的組成部分有幾塊:

切詞邏輯詞庫基礎(chǔ)信息加權(quán)規(guī)則排序展示邏輯

整體流程如下

名詞解釋:

query:是查詢的意思,這里指用戶在搜索框輸入的內(nèi)容。切詞:又叫分詞,是按照詞庫/詞典將一段文本進(jìn)行切分以便機(jī)器識(shí)另外過程。詞庫:指用于切詞的詞庫。加權(quán):將檢索結(jié)果集根據(jù)必然的維度、規(guī)則進(jìn)行打分就叫做加權(quán)。索引:商品信息存儲(chǔ)時(shí)需要建立索引,索引作為每個(gè)商品的標(biāo)識(shí)便利在大數(shù)據(jù)量的情況下快速查找篩選?!盎窘榻B”:應(yīng)用場(chǎng)景

搜索的應(yīng)用一般有兩種:全文檢索和suggest。其中suggest的規(guī)則比全文檢索要簡(jiǎn)單一些。辦事上由于suggest一般支持模糊查詢的情況,所以要考慮辦事上是否要獨(dú)立還是公用一套。

搜索系統(tǒng)的“工作履歷”:流程解構(gòu)切詞/詞庫

切詞,又叫分詞。用于將用戶輸入的無結(jié)構(gòu)化字符釀成機(jī)器可識(shí)另外詞組。市面上有很多成熟的切詞組件。切詞邏輯有很多種,按照字符、概率等,電商和O2O一般使用字符串切詞的方式處理。關(guān)于切詞的方法最基礎(chǔ)的有最大正相匹配、最大逆向匹配、雙向匹配等,具體的內(nèi)容可以百度查詢。切詞工具按照詞庫中的詞典進(jìn)行切分,一般開源的切詞工具都有默認(rèn)的詞庫和自定義詞庫兩種情況。用戶可通過添加自定義詞庫來完善增補(bǔ)。

這里面需要強(qiáng)調(diào)的是切詞時(shí)候的過濾,尤其生鮮類非標(biāo)品情況下特別需要注意。

單字詞、助詞之類的是否要過濾掉。如米、面、油等別號(hào)情況的處理,尤其是生鮮類。好比在北京叫油菜,在上海叫上海青,在重慶叫漂兒白檢索結(jié)果集

按照切出的詞語進(jìn)行匹配,匹配到的商品信息集合為檢索結(jié)果集。結(jié)果集需要做檢索、過濾、標(biāo)記三個(gè)步驟。

檢索

檢索項(xiàng)包孕但不限于:

商品名稱商品標(biāo)題、副標(biāo)題商品描述商品參數(shù)、規(guī)格商品品牌(生鮮副食品類尤為重要,好比五得利面粉、鵬程五花肉)商品品類(一級(jí)類、二級(jí)類)別號(hào)關(guān)聯(lián)商品促銷類型

成熟的電商系統(tǒng)不但僅實(shí)現(xiàn)用戶的基本商品檢索,還會(huì)按照query進(jìn)行意圖分析來進(jìn)行query轉(zhuǎn)換。以生鮮電商舉例,當(dāng)用戶搜索“豬肉”時(shí),用戶希望獲得的不是含有豬肉詞語的商品,而是豬肉的各個(gè)部位、豬肉級(jí)別等。這時(shí)應(yīng)該轉(zhuǎn)化為后臀尖、前臀尖、里脊,一級(jí)白條等詞語進(jìn)行檢索,而不是匹配豬肉。意圖分析主要有兩個(gè)方面

行為模式分析用戶畫像分類

過濾

獲取的結(jié)果集需要經(jīng)過去重、過濾的處理。此部分行為可以在加權(quán)打分后進(jìn)行處理,也可以擺設(shè)在初選結(jié)果后處理。

同一個(gè)商品被多個(gè)詞語命中需要去重現(xiàn)實(shí)中的電商搜索可能會(huì)按照差別的場(chǎng)景構(gòu)建所謂的“小搜索”,如根據(jù)類目、根據(jù)品類、根據(jù)定制化場(chǎng)景等。所以針對(duì)差別的搜索場(chǎng)景可能會(huì)有單獨(dú)的過濾去重條件,也可以在構(gòu)建數(shù)據(jù)的時(shí)候使用差別的庫進(jìn)行處理。O2O場(chǎng)景需要根據(jù)必然區(qū)域概念(城市、商圈等)進(jìn)行過濾售罄商品需要過濾下線商品需要過濾

標(biāo)記

在檢索完成后需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)記,以便后續(xù)做加權(quán)時(shí)使用。此步也可以在做加權(quán)處理的時(shí)候同步進(jìn)行。

加權(quán)

加權(quán)的目的是為了按照模型確定結(jié)果集各個(gè)商品的排序優(yōu)先級(jí)。加權(quán)的維度有很多,按照差別的場(chǎng)景考慮也會(huì)有所區(qū)別。

加權(quán)因子主要分為幾個(gè)維度:

相關(guān)度商業(yè)化因素個(gè)性化因素報(bào)答因素?cái)?shù)據(jù)模型統(tǒng)計(jì)

相關(guān)度

標(biāo)簽:林芝 九江 烏魯木齊 東營(yíng) 鹽城



收縮
  • 微信客服
  • 微信二維碼
  • 電話咨詢

  • 400-1100-266