摘要:為了解決現有的亂序數據流聚合查詢處理技術不能在降低查詢處理延遲,同時保障聚合查詢結果的最終正確性的局限性問題,本研究設計了混合嵌入分布式流處理模塊和分布式批處理模塊的亂序數據流分布式聚合查詢處理技術。該技術一方面基于用戶給定的結果質量,限制自適應地優化流處理模塊所用的緩沖區大小,從而盡可能降低流處理的查詢處理延遲;另一方面基于備份于分布式數據存儲系統的歷史流數據,并以批處理的方式實現對極其晚到流元組的查詢處理,從而保障聚合查詢結果的最終正確性。基于真實的亂序數據流數據集對該技術進行測試分析表明:該技術在平均查詢處理時延、查詢結果精度和系統可擴展性方面,比目前最好的基于緩存的亂序數據流處理技術均具有顯著優勢。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社