久久这里只有精品免费,欧美成人性影视在线h版

主頁(yè) > 知識(shí)庫(kù) > Mysql實(shí)現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實(shí)例

Mysql實(shí)現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實(shí)例

一、前言

今天一個(gè)同事問(wèn)我，如何使用 Mysql 實(shí)現(xiàn)類(lèi)似于 ElasticSearch 的全文檢索功能，并且對(duì)檢索關(guān)鍵詞跑分？我當(dāng)時(shí)腦子里立馬產(chǎn)生了疑問(wèn)？為啥不直接用es呢？簡(jiǎn)單好用還賊快。但是聽(tīng)他說(shuō)，數(shù)據(jù)量不多，客戶(hù)給的時(shí)間非常有限，根本沒(méi)時(shí)間去搭建es，所以還是看一下 Mysql 的全文檢索功能吧！

MySQL 從 5.7.6 版本開(kāi)始，MySQL就內(nèi)置了ngram全文解析器，用來(lái)支持中文、日文、韓文分詞。在 MySQL 5.7.6 版本之前，全文索引只支持英文全文索引，不支持中文全文索引，需要利用分詞器把中文段落預(yù)處理拆分成單詞，然后存入數(shù)據(jù)庫(kù)。本篇文章測(cè)試的時(shí)候，采用的 Mysql 5.7.6 ，InnoDB數(shù)據(jù)庫(kù)引擎。mysql全文檢索

二、全文解析器ngram

ngram就是一段文字里面連續(xù)的n個(gè)字的序列。ngram全文解析器能夠?qū)ξ谋具M(jìn)行分詞，每個(gè)單詞是連續(xù)的n個(gè)字的序列。
例如，用ngram全文解析器對(duì)“你好世界”進(jìn)行分詞:

n=1: '你', '好', '世', '界' 
n=2: '你好', '好世', '世界' 
n=3: '你好世', '好世界' 
n=4: '你好世界'

MySQL 中使用全局變量 ngram_token_size 來(lái)配置 ngram 中 n 的大小，它的取值范圍是1到10，默認(rèn)值是 2。通常ngram_token_size設(shè)置為要查詢(xún)的單詞的最小字?jǐn)?shù)。如果需要搜索單字，就要把ngram_token_size設(shè)置為 1。在默認(rèn)值是 2 的情況下，搜索單字是得不到任何結(jié)果的。因?yàn)橹形膯卧~最少是兩個(gè)漢字，推薦使用默認(rèn)值 2。

咱們看一下Mysql默認(rèn)的ngram_token_size大小：

show variables like 'ngram_token_size'

ngram_token_size 變量的兩種設(shè)置方式：

1、啟動(dòng)mysqld命令時(shí)指定

mysqld --ngram_token_size=2

2、修改mysql配置文件

[mysqld] 
ngram_token_size=2

三、全文索引

以某文書(shū)數(shù)據(jù)為例，新建數(shù)據(jù)表 t_wenshu ，并且針對(duì)文書(shū)內(nèi)容字段創(chuàng)建全文索引，導(dǎo)入10w條測(cè)試數(shù)據(jù)。

1、建表時(shí)創(chuàng)建全文索引

CREATE TABLE `t_wenshu` (
 `province` varchar(255) DEFAULT NULL,
 `caseclass` varchar(255) DEFAULT NULL,
 `casenumber` varchar(255) DEFAULT NULL,
 `caseid` varchar(255) DEFAULT NULL,
 `types` varchar(255) DEFAULT NULL,
 `title` varchar(255) DEFAULT NULL,
 `content` longtext,
 `updatetime` varchar(255) DEFAULT NULL,
 FULLTEXT KEY `content` (`content`) WITH PARSER `ngram`
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

2、通過(guò) alter table 方式

ALTER TABLE t_wenshu ADD FULLTEXT INDEX content_index (content) WITH PARSER ngram;

3、通過(guò) create index 方式

CREATE FULLTEXT INDEX content_index ON t_wenshu (content) WITH PARSER ngram;

四、檢索模式

自然語(yǔ)言檢索

（IN NATURAL LANGUAGE MODE）自然語(yǔ)言模式是 MySQL 默認(rèn)的全文檢索模式。自然語(yǔ)言模式不能使用操作符，不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢(xún)。

布爾檢索

（IN BOOLEAN MODE）剔除一半匹配行以上都有的詞，例如，每行都有this這個(gè)詞的話，那用this去查時(shí)，會(huì)找不到任何結(jié)果，這在記錄條數(shù)特別多時(shí)很有用，原因是數(shù)據(jù)庫(kù)認(rèn)為把所有行都找出來(lái)是沒(méi)有意義的，這時(shí)，this幾乎被當(dāng)作是stopword(中斷詞)；布爾檢索模式可以使用操作符，可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢(xún)。

   ● IN BOOLEAN MODE的特色：
      ·不剔除50%以上符合的row。
      ·不自動(dòng)以相關(guān)性反向排序。
      ·可以對(duì)沒(méi)有FULLTEXT index的字段進(jìn)行搜尋，但會(huì)非常慢。
      ·限制最長(zhǎng)與最短的字符串。
      ·套用Stopwords。

   ● 搜索語(yǔ)法規(guī)則：
     +   一定要有(不含有該關(guān)鍵詞的數(shù)據(jù)條均被忽略)。
     -   不可以有(排除指定關(guān)鍵詞，含有該關(guān)鍵詞的均被忽略)。
     >   提高該條匹配數(shù)據(jù)的權(quán)重值。
        降低該條匹配數(shù)據(jù)的權(quán)重值。
     ~   將其相關(guān)性由正轉(zhuǎn)負(fù)，表示擁有該字會(huì)降低相關(guān)性(但不像-將之排除)，只是排在較后面權(quán)重值降低。
     *   萬(wàn)用字，不像其他語(yǔ)法放在前面，這個(gè)要接在字符串后面。
     " " 用雙引號(hào)將一段句子包起來(lái)表示要完全相符，不可拆字。

查詢(xún)擴(kuò)展檢索

注釋?zhuān)海╓ITH QUERY EXPANSION）由于查詢(xún)擴(kuò)展可能帶來(lái)許多非相關(guān)性的查詢(xún)，謹(jǐn)慎使用！

五、檢索查詢(xún)

1）查詢(xún) content 中包含“盜竊罪”的記錄，查詢(xún)語(yǔ)句如下

select caseid,content, MATCH ( content) AGAINST ('盜竊罪') as score from t_wenshu where MATCH ( content) AGAINST ('盜竊罪' IN NATURAL LANGUAGE MODE)

2）查詢(xún) content 中包含“尋釁滋事”的記錄，查詢(xún)語(yǔ)句如下

select caseid,content, MATCH ( content) AGAINST ('尋釁滋事') as score from t_wenshu where MATCH ( content) AGAINST ('尋釁滋事' IN NATURAL LANGUAGE MODE) ;

3）單個(gè)漢字，查詢(xún) content 中包含“我”的記錄，查詢(xún)語(yǔ)句如下

select caseid,content, MATCH ( content) AGAINST ('我') as score from t_wenshu where MATCH ( content) AGAINST ('我' IN NATURAL LANGUAGE MODE) ;

備注：因?yàn)樵O(shè)置的全局變量 ngram_token_size 的值為 2。如果想查詢(xún)單個(gè)漢字，需要在配置文件 my.ini 中修改 ngram_token_size = 1 ，并重啟 mysqld 服務(wù)，此處不做嘗試了。

4）查詢(xún)字段 content 中包含 “危險(xiǎn)駕駛”和“尋釁滋事”的語(yǔ)句如下：

select caseid,content, MATCH (content) AGAINST ('+危險(xiǎn)駕駛 +尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險(xiǎn)駕駛 +尋釁滋事' IN BOOLEAN MODE);

5）查詢(xún)字段 content 中包含 “危險(xiǎn)駕駛”，但不包含“尋釁滋事”的語(yǔ)句如下：

select caseid,content, MATCH (content) AGAINST ('+危險(xiǎn)駕駛 -尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險(xiǎn)駕駛 -尋釁滋事' IN BOOLEAN MODE);

6）查詢(xún)字段 conent 中包含“危險(xiǎn)駕駛”或者“尋釁滋事”的語(yǔ)句如下：

select caseid,content, MATCH (content) AGAINST ('危險(xiǎn)駕駛 尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('危險(xiǎn)駕駛 尋釁滋事' IN BOOLEAN MODE);

六、總結(jié)

1）使用 Mysql 全文索引之前，搞清楚各版本支持情況；

2）全文索引比 like + % 快 N 倍，但是可能存在精度問(wèn)題；

3）如果需要全文索引的是大量數(shù)據(jù)，建議先添加數(shù)據(jù)，再創(chuàng)建索引；

4）對(duì)于中文，可以使用 MySQL 5.7.6 之后的版本，或者 Sphinx、Lucene 等第三方的插件；

5）MATCH()函數(shù)使用的字段名，必須要與創(chuàng)建全文索引時(shí)指定的字段名一致，且只能是同一個(gè)表的字段不能跨表；

到此這篇關(guān)于Mysql實(shí)現(xiàn)全文檢索、關(guān)鍵詞跑分的文章就介紹到這了,更多相關(guān)Mysql全文檢索、關(guān)鍵詞跑分內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

PHP+MySQL+sphinx+scws實(shí)現(xiàn)全文檢索功能詳解
mysql 全文檢索中文解決方法及實(shí)例代碼
深度解析MySQL 5.7之中文全文檢索
MySQL 全文檢索的使用示例

標(biāo)簽：臺(tái)灣鷹潭北京合肥鎮(zhèn)江阜新日照貴州

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Mysql實(shí)現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實(shí)例》，本文關(guān)鍵詞 Mysql,實(shí)現(xiàn),全文檢索,關(guān)鍵詞,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。