中文字幕免费观看色网视频,国产福利小视频

主頁(yè) > 知識(shí)庫(kù) > 基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎

基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎

基于 Mysql 實(shí)現(xiàn)一個(gè)搜索引擎

前言：

其實(shí) Mysql 很早就支持全文索引了，只不過一直只支持英文的檢索，從5.7.6 版本開始，Mysql 就內(nèi)置了 ngram 全文解析器，用來(lái)支持中文、日文、韓文分詞。

Mysql 全文索引采用的是倒排索引的原理，在倒排索引中關(guān)鍵詞是主鍵，每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件，這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí)，排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞，就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。

本文測(cè)試，基于 Mysql 8.0 版本，數(shù)據(jù)庫(kù)引擎采用的是 InnoDB

一、ngram 全文解析器

ngram 就是一段文字里面連續(xù)的 n 個(gè)字的序列。ngram 全文解析器能夠?qū)ξ谋具M(jìn)行分詞，每個(gè)單詞是連續(xù)的 n 個(gè)字的序列。例如，用 ngram 全文解析器對(duì)“你好靚仔”進(jìn)行分詞:

n=1: '你', '好', '靚', '仔' 
n=2: '你好', '好靚', '靚仔' 
n=3: '你好靚', '好靚仔' 
n=4: '你好靚仔'

MySQL 中使用全局變量 ngram_token_size 來(lái)配置 ngram 中 n 的大小，它的取值范圍是1到10，默認(rèn)值是 2。通常 ngram_token_size 設(shè)置為要查詢的單詞的最小字?jǐn)?shù)。如果需要搜索單字，就要把 ngram_token_size 設(shè)置為 1。在默認(rèn)值是 2 的情況下，搜索單字是得不到任何結(jié)果的。因?yàn)橹形膯卧~最少是兩個(gè)漢字，推薦使用默認(rèn)值 2。

可以通過以下命令查看 Mysql 默認(rèn)的 ngram_token_size 大?。?/p>

show variables like 'ngram_token_size'

有兩種方式可以設(shè)置全局變量 ngram_token_size 的值：

（1）啟動(dòng) mysqld 命令時(shí)指定：

mysqld --ngram_token_size=2

（2）修改 Mysql 配置文件 my.ini，末尾增加一行參數(shù)：

ngram_token_size=2

二、創(chuàng)建全文索引

1、建表時(shí)創(chuàng)建全文索引

CREATE TABLE `article` (
  `id` bigint NOT NULL,
  `url` varchar(1024) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',
  `title` varchar(256) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',
  `source` varchar(32) COLLATE utf8mb4_general_ci DEFAULT '',
  `keywords` varchar(32) COLLATE utf8mb4_general_ci DEFAULT NULL,
  `publish_time` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`),
  FULLTEXT KEY `title_index` (`title`) WITH PARSER `ngram`
) 

ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;

2、通過 alter table 方式

ALTER TABLE article ADD FULLTEXT INDEX title_index(title) WITH PARSER ngram;

3、通過 create index 方式

CREATE FULLTEXT INDEX title_index ON article (title) WITH PARSER ngram;

三、檢索方式

1、自然語(yǔ)言檢索（NATURAL LANGUAGE MODE）

自然語(yǔ)言模式是 MySQL 默認(rèn)的全文檢索模式。自然語(yǔ)言模式不能使用操作符，不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。

示例：

select * from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE);

// 不指定模式，默認(rèn)使用自然語(yǔ)言模式
select * from article where MATCH(title) AGAINST ('北京旅游');

可以看出，該模式下根據(jù)“北京旅游”搜索，可以搜索出包含“北京”的或者包含“旅游”的內(nèi)容，因?yàn)樗歉鶕?jù)自然語(yǔ)言分成了兩個(gè)關(guān)鍵詞。

上面示例中返回的結(jié)果會(huì)自動(dòng)按照匹配度排序，匹配度高的在前面，匹配度是一個(gè)非負(fù)浮點(diǎn)數(shù)。

示例：

// 查看匹配度
select * , MATCH(title) AGAINST ('北京旅游') as score from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE);

2、布爾檢索（BOOLEAN MODE）

布爾檢索模式可以使用操作符，可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。

示例：

// 無(wú)操作符
// 包含“約會(huì)”或“攻略”
select * from article where MATCH(title) AGAINST ('約會(huì) 攻略' IN BOOLEAN MODE);

// 使用操作符
// 必須包含“約會(huì)”，可包含“攻略”
select * from article where MATCH(title) AGAINST ('+約會(huì) 攻略' IN BOOLEAN MODE);

更多操作符示例：

'約會(huì) 攻略' 
無(wú)操作符，表示或，要么包含“約會(huì)”，要么包含“攻略”

'+約會(huì) +攻略'
必須同時(shí)包含兩個(gè)詞

'+約會(huì) 攻略'
必須包含“約會(huì)”，但是如果也包含“攻略”的話，匹配度更高。

'+約會(huì) -攻略'
必須包含“約會(huì)”，同時(shí)不能包含“攻略”。

'+約會(huì) ~攻略'
必須包含“約會(huì)”，但是如果也包含“攻略”的話，匹配度要比不包含“攻略”的記錄低。

'+約會(huì) +(>攻略 技巧)'
查詢必須包含“約會(huì)”和“攻略”或者“約會(huì)”和“技巧”的記錄，但是“約會(huì) 攻略”的匹配度要比“約會(huì) 技巧”高。

'約會(huì)*'
查詢包含以“約會(huì)”開頭的記錄。

'"約會(huì)攻略"'
使用雙引號(hào)把要搜素的詞括起來(lái)，效果類似于like '%約會(huì)攻略%'，
例如“約會(huì)攻略初級(jí)篇”會(huì)被匹配到，而“約會(huì)的攻略”就不會(huì)被匹配。

四、與 Like 對(duì)比

全文索引和 like 查詢對(duì)比，有以下優(yōu)點(diǎn)：

like 只是進(jìn)行模糊匹配，全文索引卻提供了一些語(yǔ)法語(yǔ)義的查詢功能，會(huì)將要查的字符串進(jìn)行分詞操作，這決定于 Mysql 的詞庫(kù)。
全文索引可以自己設(shè)置詞語(yǔ)的最小、最大長(zhǎng)度，要忽略的詞，這些都是可以設(shè)置的。
用全文索引去某個(gè)列查一個(gè)字符串，會(huì)返回匹配度，可以理解為匹配的關(guān)鍵字個(gè)數(shù)，是個(gè)浮點(diǎn)數(shù)。

而且全文檢索的性能也是優(yōu)于 like 查詢的

以下是以 50w 左右數(shù)據(jù)進(jìn)行的測(cè)試：

// like 查詢
select * from article where title like '%北京%';

// 全文索引查詢
select * from article where MATCH(title) AGAINST ('北京' IN BOOLEAN MODE);

可以看出 like 查詢是 1.536s，全文索引查詢是 0.094s，快了16倍左右。

全文索引能快速搜索，但是也存在維護(hù)索引的開銷。字段長(zhǎng)度越大，創(chuàng)建的全文索引也越大，會(huì)影響DML語(yǔ)句的吞吐量。數(shù)據(jù)量不大的情況下可以采用全文索引來(lái)做搜索，簡(jiǎn)單方便，但是數(shù)據(jù)量大的話還是建議用專門的搜索引擎 ElasticSearch 來(lái)做這件事。

以上就是基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎的詳細(xì)內(nèi)容，更多關(guān)于 Mysql 實(shí)現(xiàn)搜索引擎的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！希望大家以后多多支持腳本之家！

您可能感興趣的文章:

mysql字符集和數(shù)據(jù)庫(kù)引擎修改方法分享
MySQL修改字符集的實(shí)戰(zhàn)教程
MySQL查看與修改字符集的方法實(shí)例教程
mysql 啟動(dòng)1067錯(cuò)誤及修改字符集重啟之后復(fù)原無(wú)效問題
Linux下MySQL 5.5/5.6的修改字符集編碼為UTF8的方法
Mysql數(shù)據(jù)庫(kù)支持的存儲(chǔ)引擎對(duì)比
Mysql中存儲(chǔ)引擎的區(qū)別及比較
MySQL 學(xué)習(xí)總結(jié) 之初步了解 InnoDB 存儲(chǔ)引擎的架構(gòu)設(shè)計(jì)
MySQL修改默認(rèn)引擎和字符集詳情

標(biāo)簽：山西揚(yáng)州福州阿里溫州三明無(wú)錫定西

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎》，本文關(guān)鍵詞基于,Mysql,實(shí)現(xiàn),一個(gè),簡(jiǎn)易,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。