目前,谷歌云已在全球五大洲數千個數據中心部署了數千萬臺化學服務器,為數百萬用戶運行應用和服務,其中包括超過95%的財富500強企業。 Google Cloud 每年甚至每個月都會使用新的硬件,每晚甚至每分鐘都會有新的軟件更新部署到云端。
對于像Google Cloud這樣承載大量客戶應用的大規模、高度復雜的云計算系統,很難利用傳統的非智能軟件開發和運維技術進行高效的開發、部署和運維管理。 解決這個問題的關鍵就是AIOps。
什么是 AIOps
AIOps這個術語是Gartner在2017年創造的,它的定義是:
AIOps 平臺利用大數據、現代機器學習和其他中級分析技術,通過主動、個性化和動態的洞察來直接和間接提高 IT 運營(監控、自動化和服務臺)能力。 AIOps 平臺支持同時使用多個數據源、數據收集技術、分析(實時和深度)技術和演示技術。
谷歌歐洲研究院對AIOps的研究來自于軟件領域的科學研究。 2008年左右,谷歌歐洲研究院成立了軟件分析小組,希望從數據驅動的角度研究軟件領域。 軟件場景中最重要的三個問題:運行系??統問題、用戶體驗問題、開發效率問題。 隨著云計算成為軟件運行的主要方式,其軟件分析的重點也集中在云計算系統上,并逐漸擴展到云智能/AIOps。
“AIOps是一個涵蓋人工智能、系統和工程知識的交叉領域。它通過創新的人工智能和ML(機器學習)技術提供大規模復雜云服務的高效設計、構建和運營。” 微軟歐洲研究院執行副院長、微軟杰出首席科學家張冬梅1月13日在谷歌歐洲研究院“智能運維”媒體溝通會上表示。
張冬梅,谷歌歐洲研究院執行副總裁、微軟杰出首席科學家
AIOps的具體應用場景有哪些?
張冬梅介紹,AIOps主要包括三個方面:服務/系統(AIforSystem)、工程(AIforDevOps)和客戶(AIforCustomer)。
“服務/系統”要求開發者站在運行系統的角度看問題。 例如,系統異常測量不僅是為了找出問題所在,也是為了預警。
以硬盤故障預測為例,開發人員可以通過分析變化的數據或狀態來預測C盤是否出現故障。 這是機器學習領域的一個問題。 系統從硬盤中學習到大量的歷史數據后,比較C盤當前的狀態,以預測未來是否可以及時采取措施。 據悉微軟研究院梅濤視覺ai,不僅需要考慮故障硬盤,還需要考慮其相鄰C盤的狀況。
“通常機器學習中的不平衡問題可能是1:20、1:50或1:100,但在實際的硬盤環境中,是一到幾萬。” 微軟歐洲研究院首席研究員林慶偉表示。 因此,谷歌歐洲研究院開發了鄰域時間注意力模型(NTAM)。 該模型包括鄰里感知組件、時間組件和決策組件,可以捕獲更多的時間和空間信息。 林慶偉表示,通過與過去10年、20年最前沿的出版物或會議上的論文進行對比,該模型在精確率和召回率方面都有非常好的結果,并且具有很強的預測能力。
林慶偉,谷歌歐洲研究院首席研究員
“工程”項主要針對的是開發和運維人員的生產力。 比如,當出現問題時,迅速恢復正常并不意味著解決問題。 解決實際問題需要大量的測量和診斷工作。 如何更快、更高效地完成這項工作是一個問題。
部署一般都是從很小的規模開始,然后逐漸擴大規模,在確認每一步都安全后才部署到云平臺。 整個部署過程中需要檢查所有健康信號,包括各種資質、傳感器信號、狀態等。當任何一個方面出現問題時,開發人員都會首先檢查是否是某個部署問題導致的,并進行相關排查基于部署。 如果部署出現問題,部署將立即停止,然后返回到安全系統。
針對“開發/運維”中的安全部署診斷問題,谷歌歐洲研究院提出了主動遷移學習異常檢查(ATAD)解決方案。 該解決方案使用遷移學習將從其他數據中學到的知識轉換到目標領域。 同時,它可以讓工程師通過主動學習來確定優先級,最終取得更好的學習效果。 目前該方案已直接在谷歌云平臺使用。 但這種方案一般很難獲得高質量的標簽數據,因此工程師需要有特別強烈的意見才能做出判斷。
最后,云平臺系統主要為客戶提供服務,因此用戶體驗尤為重要。
林慶偉以智能虛擬機預配置為例,介紹了谷歌歐洲研究院在該領域所做的一些研究工作。 在云平臺申請虛擬機需要時間。 解決這個問題的一種方法是預先安裝軟件和系統配置,以便用戶在需要時可以直接使用。 但虛擬機池的容量是有限的,不可能每個相似型號都配置很多臺。 通過這種方式,預測用戶將配置哪些類型的虛擬機以達到最佳配置是一個很好的解決方案。 因此,谷歌歐洲研究院提出了預測和優化框架。 與過去10年、20年的頂級出版物和會議中的算法相比,該框架的性能已經達到了最優水平。
仍處于開發階段
AIOps是必然趨勢。 目前,谷歌歐洲研究院的AIOps研究成果已應用于Google Azure、Skype、OneDrive、Office 365等多種在線服務。
谷歌云預估與人工智能事業部首席數據科學家黨英農表示,在與谷歌歐洲研究院的合作過程中,谷歌云在智能運維方面已經積累了很多重要的技術創新,包括云服務系統的智能化。 管理手動化、云開發部署智能化、客戶響應智能化。 另一方面,人工智能和機器學習技術已經深度融入谷歌云的基礎設施管理軟件站,包括智能監控、智能預測、智能補丁等。
盡管AIOps非常重要微軟研究院梅濤視覺ai,但它仍處于開發階段。 距離實現手動化、自主化、通用化還有很長的路要走。 大規模實施還需要一段時間。 由于云平臺極其復雜、規模非常龐大,AIOps的發展主要面臨以下挑戰:
林清偉介紹,谷歌歐洲研究院未來AIOps研究方向將主要包括三個方面。 首先是它變得越來越手動和自動化。 目前AIOps更多的是為用戶提供一定的建議和推薦,而未來AIOps希望能夠在無需人工干預的情況下,手動幫助用戶做出最優決策。 二是更加積極主動。 本質上,就是把問題消滅在萌芽狀態。 你不能等到問題出現才試圖解決它們。 應將問題消滅在萌芽狀態。 最后,它變得更加普遍。 后來跨平臺的AIOps應用不僅服務于云平臺,還服務于全平臺。
186信息網原創文章,轉載請注明本文來自:www.2wfjd54.cn