主頁 > 知識庫 > Python入門學習之Python流處理過程

Python入門學習之Python流處理過程

熱門標簽:鄭州智能外呼系統(tǒng)運營商 佛山防封外呼系統(tǒng)收費 不錯的400電話辦理 徐州天音防封電銷卡 哈爾濱外呼系統(tǒng)代理商 湛江電銷防封卡 電話機器人適用業(yè)務 南昌辦理400電話怎么安裝 獲客智能電銷機器人

Faust是一個流處理庫,將kafka流中的思想移植到Python中

它被用于Robinhood去構建高性能的分布式系統(tǒng)和實時數(shù)據(jù)通道,每天處理數(shù)十億的數(shù)據(jù)。

Faust同時提供流處理和事件處理同類型的工具分享例如:Kafka Streams, Apache Spark/Storm/Samza/Flink

它不需要使用一個DSL,僅需要用到Python!這意味著你在做流處理的時候可以使用所有你喜歡的Python庫:

NumPy, PyTorch, Pandas, NLTK, Django, Flask, SQLAlchemy等等。

由于需要使用新的async/await語法和變量類型注釋方法,F(xiàn)aust需要使用Python3.6以上的版本。

這里有一個處理輸入命令流的示例:

這個agent裝飾器定義了一個“流處理器”,它本質上是一個Kafka topic,并且可以對接收到的每個事件做一些處理。

agent是一個async def的函數(shù)因此它還可以異步執(zhí)行其他操作如web請求。

這個系統(tǒng)可以持久化狀態(tài),執(zhí)行方式類似于數(shù)據(jù)庫。表被命名成分布式的key/value儲存,你可以使用常規(guī)的Python字典來做這件事。

在每臺機器上的本地用c++編寫的超快嵌入式數(shù)據(jù)庫(被稱為RocksDB)存儲表。

表還可以存儲可選的“窗口”聚合計數(shù),以便跟蹤“前一天的單擊次數(shù)”或“前一個小時的單擊次數(shù)”。與Kafka流一樣,我們支持滾動、跳躍和滑動時間窗口,舊窗口可以過期以阻止數(shù)據(jù)填充。

為了提高可靠性使用Kafka topic作為“預寫日志”

當一個密鑰被更改時,我們將其發(fā)布到更新的日志上。備用節(jié)點使用這個更新日志來保存數(shù)據(jù)的精確副本,并在任何節(jié)點發(fā)生故障時支持立即恢復。

對于用戶來說,表只是一個字典,但是數(shù)據(jù)在重新啟動和跨節(jié)點復制之間存在,所以在故障發(fā)生時其他節(jié)點可以自動接管。

您可以通過URL統(tǒng)計頁面瀏覽數(shù)量:

發(fā)送到Kafka topic的數(shù)據(jù)是分區(qū)的,這意味著點擊數(shù)將用URL的這種方式進行分片。因此,同一個URL的每個計數(shù)都會立刻被傳遞給同一個Faust worker實例。

Faust支持任何類型的流數(shù)據(jù)字節(jié)、Unicode和序列化結構,同時也支持使用現(xiàn)代Python語法的“模型”來描述流中的keys和value是如何被序列化的。

Faust是靜態(tài)類型的,使用mypy類型檢查器,所以您在編寫應用程序時可以充分利用靜態(tài)類型的優(yōu)勢。

Faust源代碼很小,組織良好,是學習Kafka流實現(xiàn)的好資源。

在引言頁學習更多關于Faust的知識.jpg

去閱讀更多關于Faust,系統(tǒng)請求,安裝指導,論壇資源等等,或者直接訪問快速開始的教程。在一個編寫流處理的應用中去查看關于Faust應用,然后通過使用者手冊深入探討。深層次的信息都根據(jù)不同主題在這個手冊中進行說明

Faust簡介

Faust非常容易使用。在學習其他的流處理方法時,你總是需要從一個復雜的hello-world工程和相應的基礎要求開始學習。Faust僅僅需要Kafka,剩下的就是只需要Python,如果你知道Python的話你就可以直接使用Faust去做流處理的工作了,并且它可以整合和他相關的一切。

這兒有一個簡單的應用程序你可以做:源代碼是Python的

您可能會被async和await這兩個關鍵字嚇到,但是您在使用Faust時不需要知道asyncio是如何工作的:只要模仿這些例子就可以得到您想要的結果。

示例應用程序啟動兩個任務:一個是處理流,另一個是向流發(fā)送事件的后臺線程。在實際的應用程序中,您的系統(tǒng)將向Kafka topic發(fā)布事件,您的處理器可以從Kafka topic獲取事件信息,并且只需要后臺線程將數(shù)據(jù)輸入到我們的示例中。

高可用性

Faust是高度可用的,并且可以在網(wǎng)絡問題和服務器崩潰中生存下來。在節(jié)點失敗的情況下,它可以自動恢復,并且表將接管備用節(jié)點。

分布式的

根據(jù)您的應用程序的需要啟動更多實例。

快速

一個單內核的Faust worker實例已經(jīng)可以每秒處理數(shù)萬個事件,我們有理由相信,一旦我們能夠支持一個更優(yōu)化的Kafka客戶端,吞吐量就會增加。

靈活性

Faust就是Python,而流是一個無限的異步迭代器。如果您知道如何使用Python,那么您已經(jīng)知道如何使用Faust,它可以與您喜歡的Python庫一起使用,比如Django、Flask、SQLAlchemy、NTLK、NumPy、Scikit、TensorFlow等等。

安裝

您可以通過Python包或從源文件中安裝Faust

使用pip安裝它:

綁定

Faust還定義了一組setuptools擴展,可以用來安裝Faust,并且有一個給定特性的依賴關系。

您可以在您的需求中或在pip命令行中使用方括號來指定它們。使用逗號分隔多個包:

以下的綁定均是有效的:

商店

最優(yōu)化

傳感器

事件循環(huán)

調試

下載并從源文件中安裝

您可以這樣安裝它:

如果當前沒有使用virtualenv,則必須以特權用戶的身份執(zhí)行最后一個命令。

使用開發(fā)版本

您可以使用以下pip命令安裝Faust的最新版本:

常見問題

Faust可以在Django/Flask/etc上使用嗎?

使用gevent

這種方法適用于任何可以與gevent一起工作的阻塞Python庫。

使用gevent需要您安裝aiogevent模塊,您可以將其作為Faust的包進行安裝:

然后要真正的使用gevent作為事件循環(huán),您要么在faust程序中使用-L faust --loop>

命令:

要么在你腳本的前面加入import mode.loop.gevent

警告

非常重要的是,它位于模塊的最頂端,并且在導入庫之前執(zhí)行。

Faust可以在Tornado上使用嗎?

可以!使用tornado.platform.asyncio

鏈接:http://www.tornadoweb.org/en/stable/asyncio.html

Faust可以在Twisted上使用嗎?

可以!使用asyncio反應器實現(xiàn):

鏈接:https://twistedmatrix.com/documents/17.1.0/api/twisted.internet.asyncioreactor.html

是否支持Python3.5或者更早的版本?

目前還沒有支持Python 3.5的計劃,但是歡迎您為這個項目做出貢獻。

以下是實現(xiàn)這一目標所需的一些步驟

  • 源代碼轉換以重寫變量注釋到注釋

示例,代碼:

  • 重寫異步函數(shù)的源代碼轉換

示例,代碼:

必須重寫:

你將支持Python2嗎?

目前還沒有支持Python 2的計劃,但是歡迎您為項目做貢獻(上面問題中的細節(jié)也與Python 2相關)。

在本地運行Faust應用程序時,我得到的打開文件的最大數(shù)量超過了RocksDB的錯誤。我該怎么解決這個問題呢

您可能需要增加打開文件的最大數(shù)量的限制。

資源

編碼規(guī)范

在項目代碼庫、問題跟蹤器、聊天室和郵件列表中進行交互的每個人都應該遵循《Faust行為準則》。

作為這些項目的貢獻者和維護者,為了培養(yǎng)開放和受歡迎的社區(qū),我們承諾尊重所有通過報告問題、發(fā)布特性請求、更新文檔、提交合并請求或補丁和其他活動的人。

我們致力于使參與這些項目的每個人都無騷擾體驗,不論其經(jīng)驗水平、性別、性別認同和表現(xiàn)、性取向、殘疾、個人外貌、體型、種族、種族、年齡、宗教或國籍。

參與者不良行為包括:

  • 性化的語言或意象的使用
  • 個人人身攻擊
  • 惡意破壞或侮辱/侮辱性的評論
  • 公共或者私人的騷擾
  • 未經(jīng)明確許可,發(fā)布他人的私人信息,如住址或電子地址
  • 其他不道德或不專業(yè)的行為。

項目維護人員有權利和責任刪除、編輯或拒絕評論、提交、代碼、wiki編輯、問題和其他與行為準則不一致的貢獻。通過采用這一行為準則,項目維護者承諾在管理這個項目的每個方面都公平、一致地應用這些原則。不遵守或執(zhí)行行為準則的項目維護者可能被永久地從項目團隊中刪除。

當個人代表項目或社區(qū)時,此行為準則適用于項目空間和公共空間。

可以通過創(chuàng)建一個問題或聯(lián)系一個或多個項目負責人來舉報虐待、騷擾或其他不可接受行為。

以上就是Python入門學習Python流處理過程的詳細內容,更多關于Python入門的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • Python讀取實時數(shù)據(jù)流示例
  • 對Python捕獲控制臺輸出流的方法詳解
  • Python 處理文件的幾種方式
  • Python文件和流(實例講解)

標簽:蘭州 廣西 紹興 安康 懷化 呂梁 蕪湖 吉安

巨人網(wǎng)絡通訊聲明:本文標題《Python入門學習之Python流處理過程》,本文關鍵詞  Python,入門,學,習之,流,處理,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python入門學習之Python流處理過程》相關的同類信息!
  • 本頁收集關于Python入門學習之Python流處理過程的相關信息資訊供網(wǎng)民參考!
  • 推薦文章