最近忙于業(yè)務開發(fā)、交接和游戲,加上碰上了不定時出現(xiàn)的猶豫期和困惑期,荒廢學業(yè)了一段時間。天冷了,要重新拾起開始下階段的學習了。之前接觸到的一些數(shù)據(jù)搜索項目,涉及到請求模擬,基于反爬需要使用隨機的 User Agent
,于是使用 Redis
實現(xiàn)了一個十分簡易的 UA
池。
背景
最近的一個需求,有模擬請求的邏輯,要求每次請求的請求頭中的 User Agent
要滿足下面幾點:
- 每次獲取的
User Agent
是隨機的。
- 每次獲取的
User Agent
(短時間內(nèi))不能重復。
- 每次獲取的
User Agent
必須帶有主流的操作系統(tǒng)信息(可以是 Uinux
、 Windows
、 IOS
和安卓等等)。
這里三點都可以從 UA
數(shù)據(jù)的來源解決,實際上我們應該關(guān)注具體的實現(xiàn)方案。簡單分析一下,流程如下:
在設計 UA
池的時候,它的數(shù)據(jù)結(jié)構(gòu)和環(huán)形隊列十分類似:
上圖中,假設不同顏色的 UA
是完全不同的 UA
,它們通過洗牌算法打散放進去環(huán)形隊列中,實際上每次取出一個 UA
之后,只需要把游標 cursor
前進或者后退一格即可(甚至可以把游標設置到隊列中的任意元素)。最終的實現(xiàn)就是:需要通過中間件實現(xiàn)分布式隊列(只是隊列,不是消息隊列)。
具體實現(xiàn)方案
毫無疑問需要一個分布式數(shù)據(jù)庫類型的中間件才能存放已經(jīng)準備好的 UA
,第一印象就感覺 Redis
會比較合適。接下來需要選用 Redis
的數(shù)據(jù)類型,主要考慮幾個方面:
UA
支持這幾個方面的 Redis
數(shù)據(jù)類型就是 List
,不過注意 List
本身不能去重,去重的工作可以用代碼邏輯實現(xiàn)。然后可以想象客戶端獲取 UA
的流程大致如下:
結(jié)合前面的分析,編碼過程有如下幾步:
準備好需要導入的 UA
數(shù)據(jù),可以從數(shù)據(jù)源讀取,也可以直接文件讀取。
- 因為需要導入的
UA
數(shù)據(jù)集合一般不會太大,考慮先把這個集合的數(shù)據(jù)隨機打散,如果使用 Java
開發(fā)可以直接使用 Collections#shuffle()
洗牌算法,當然也可以自行實現(xiàn)這個數(shù)據(jù)隨機分布的算法, 這一步對于一些被模擬方會嚴格檢驗 UA
合法性的場景是必須的 。
- 導入
UA
數(shù)據(jù)到 Redis
列表中。
- 編寫
RPOP + LPUSH
的 Lua
腳本,實現(xiàn)分布式循環(huán)隊列。
編碼和測試示例
引入 Redis
的高級客戶端 Lettuce
依賴:
dependency>
groupId>io.lettuce/groupId>
artifactId>lettuce-core/artifactId>
version>5.2.1.RELEASE/version>
/dependency>
編寫 RPOP + LPUSH
的 Lua
腳本, Lua
腳本名字暫稱為 L_RPOP_LPUSH.lua
,放在 resources/scripts/lua
目錄下:
local key = KEYS[1]
local value = redis.call('RPOP', key)
redis.call('LPUSH', key, value)
return value
這個腳本十分簡單,但是已經(jīng)實現(xiàn)了循環(huán)隊列的功能。剩下來的測試代碼如下:
public class UaPoolTest {
private static RedisCommandsString, String> COMMANDS;
private static AtomicReferenceString> LUA_SHA = new AtomicReference>();
private static final String KEY = "UA_POOL";
@BeforeClass
public static void beforeClass() throws Exception {
// 初始化Redis客戶端
RedisURI uri = RedisURI.builder().withHost("localhost").withPort(6379).build();
RedisClient redisClient = RedisClient.create(uri);
StatefulRedisConnectionString, String> connect = redisClient.connect();
COMMANDS = connect.sync();
// 模擬構(gòu)建UA池的原始數(shù)據(jù),假設有10個UA,分別是UA-0 ... UA-9
ListString> uaList = Lists.newArrayList();
IntStream.range(0, 10).forEach(e -> uaList.add(String.format("UA-%d", e)));
// 洗牌
Collections.shuffle(uaList);
// 加載Lua腳本
ClassPathResource resource = new ClassPathResource("/scripts/lua/L_RPOP_LPUSH.lua");
String content = StreamUtils.copyToString(resource.getInputStream(), StandardCharsets.UTF_8);
String sha = COMMANDS.scriptLoad(content);
LUA_SHA.compareAndSet(null, sha);
// Redis隊列中寫入UA數(shù)據(jù),數(shù)據(jù)量多的時候可以考慮分批寫入防止長時間阻塞Redis服務
COMMANDS.lpush(KEY, uaList.toArray(new String[0]));
}
@AfterClass
public static void afterClass() throws Exception {
COMMANDS.del(KEY);
}
@Test
public void testUaPool() {
IntStream.range(1, 21).forEach(e -> {
String result = COMMANDS.evalsha(LUA_SHA.get(), ScriptOutputType.VALUE, KEY);
System.out.println(String.format("第%d次獲取到的UA是:%s", e, result));
});
}
}
某次運行結(jié)果如下:
第1次獲取到的UA是:UA-0
第2次獲取到的UA是:UA-8
第3次獲取到的UA是:UA-2
第4次獲取到的UA是:UA-4
第5次獲取到的UA是:UA-7
第6次獲取到的UA是:UA-5
第7次獲取到的UA是:UA-1
第8次獲取到的UA是:UA-3
第9次獲取到的UA是:UA-6
第10次獲取到的UA是:UA-9
第11次獲取到的UA是:UA-0
第12次獲取到的UA是:UA-8
第13次獲取到的UA是:UA-2
第14次獲取到的UA是:UA-4
第15次獲取到的UA是:UA-7
第16次獲取到的UA是:UA-5
第17次獲取到的UA是:UA-1
第18次獲取到的UA是:UA-3
第19次獲取到的UA是:UA-6
第20次獲取到的UA是:UA-9
可見洗牌算法的效果不差,數(shù)據(jù)相對分散。
小結(jié)
其實 UA
池的設計難度并不大,需要注意幾個要點:
- 一般主流的移動設備或者桌面設備的系統(tǒng)版本不會太多,所以來源
UA
數(shù)據(jù)不會太多,最簡單的實現(xiàn)可以使用文件存放,一次讀取直接寫入 Redis
中。
- 注意需要隨機打散
UA
數(shù)據(jù),避免同一個設備系統(tǒng)類型的 UA
數(shù)據(jù)過于密集,這樣可以避免觸發(fā)模擬某些請求時候的風控規(guī)則。
- 需要熟悉
Lua
的語法,畢竟 Redis
的原子指令一定離不開 Lua
腳本。
總結(jié)
以上所述是小編給大家介紹的使用Redis實現(xiàn)UA池的方案,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉(zhuǎn)載,煩請注明出處,謝謝!
您可能感興趣的文章:- lua讀取redis數(shù)據(jù)的null判斷示例代碼
- 利用Lua定制Redis命令的方法詳解
- Go語言中通過Lua腳本操作Redis的方法
- 利用nginx+lua+redis實現(xiàn)反向代理方法教程
- 詳解利用redis + lua解決搶紅包高并發(fā)的問題
- 簡介Lua腳本與Redis數(shù)據(jù)庫的結(jié)合使用