發布日期:2023/03/02

人工智慧 (AI) ─ 或者更具體地說是機器學習 (ML) ─ 和自動化是許多客戶在 2022 年的重要話題。他們對人工智慧和自動化感興趣的常見原因是:提高效率、減少人工處理、大幅減少人為錯誤,以及 (尤其是使用機器學習) 識別出「未知的未知事物」。
這些都是很棒的優點,而且為了提高效率,這篇部落格文章的標題圖片是使用 DALL-E 產生的:我要求它使用一個 Splunk 儀表板顯示一些複雜的機器學習預測。
除了 DALL-E,2022 年最引人注目的事情之一就是 OpenAI 如何真正向人們展示機器學習的可能性。DALL-E 和 ChatGPT 都展示了一些令人難以置信的創新。尤其,和 ChatGPT 有關的話題真的很有趣。有沒有人發現他們的 LinkedIn 資料被 ChatGPT 拿去用了?看看它如何為 Splunk 寫出近乎完美的電梯簡報。

值得慶幸的是,2022 年的 OpenAI 比 1973 年電影 《超世紀諜殺案》(Soylent Green) 中對反烏托邦的預測結果好多了,儘管兩者都引起了一些過度信任技術的觀點。
那麼,2023 年我們可以在人工智慧和自動化方面看到什麼?以下是我們今年對這個重點領域的一些想法:
1.人們:對資料科學技能的需求仍然存在,但您可能會看到有資料總監 (Data Champions) 出現,他們是企業資料方面的專家。
2.彌平營運差距:從實驗轉向生產,會出現資料科學專案眾所周知的差距,但今年預計會有更多資料科學平台和營運平台緊密結合的情形出現。
3.讓事情簡單化:儘管大型語言模型 (LLM) 令人興奮,但今年最大的成功可能來自那些重視影響力而非使用新型分析的組織。
4.監管:更嚴格的監管,特別是在歐盟地區。意味著您需要在分析和自動化之間取得更好的平衡。
5.宣傳與炒作:最熱門的自動化和 AI 主題大肆宣傳與炒作:LLM 的廣泛採用,以及對因果人工智能 (Causal AI) 和 ML 模型的惡意攻擊。
人們
儘管 ML 的進步速度極快,但資料方面的關鍵技能在今年及以後仍將非常重要。
說來可能不怎麼令人興奮,但您應該了解資料對於成功使用人工智慧和自動化非常重要。在 AI 或自動化方面真正取得成功的客戶,都是聘請專家處理他們的企業資料,也就是資料總監 (Data Champion)。他們知道哪些來源和特徵的品質好,並能夠準確地指出資料在組織中與什麼有關。如果您想讓您的流程易於理解、合乎規範並對業務有價值,那麼讓組織中的人了解您正在將資料匯入 AI 流程,而且能藉此補充輸出結果是非常重要的。
我們應該多談一下人的角色。保持真人在循環中驗證 AI 系統輸出或確認自動化做出的決策也很重要。話題回到 ChatGPT。看看這些圖片,就不難了解為什麼讓真人來驗證 AI 系統的輸出很重要。這個說法很具說服力……


此外,沒有真人參與進階自動化可能會有風險。例如,根據複雜分析的輸出自動執行回應,而不是由操作員手動評估分析操作就決定採取行動,造成的風險可能更大。人們普遍擔心的是,分析時使用的 ML 會提出錯誤的建議,自動採取行動後會擾亂業務服務。
自動化其實不需要無所不在;您應該專注於組織中已經有通用解決方法的使用案例,而不是讓所有的事情自動化。做起來很簡單,例如透過自動化分類流程為您的分析師提供更豐富的輸入結果以進行評估,但由他們決定後續行動應該怎麼做。
那麼,該怎麼辦?在組織裡識別出您的資料總監,並讓他們參與 ML 的分析輸出的評估和分類,而不是以完全自動化為目標。
彌平營運差距
許多組織執行的資料科學環境,與其營運分析環境是分開的。有時投資的資料科學僅是實驗專案,有時因為資料科學技術堆疊的計算要求與營運分析堆疊的計算要求不同。若能將這兩種環境更緊密地結合起來,就能夠從資料科學獲得更深入的營運洞察力,但這一點通常很難實現。
我預計今年廠商和客戶會做出更多努力,消除資料科學技術與營運技術之間的一些整合障礙。
這些缺乏整合的情況有辦法緩解。您可以將資料科學堆疊當成真正的實驗平台,凸顯出在營運堆疊中成功但卻不如擴展式機器學習準確的技術。或者,您可以考慮在 UI 層進行整合,或者在多個平台之上建置一些以 REST 為基礎的服務,如此一來您就可以一次將多種結果集回傳給用戶。
除了這些技術挑戰之外,決定什麼是您希望以 AI 或自動化解決的業務問題也很重要。如果沒有套上這個框架,您的研究專案將進入無止盡的狀態,可能會浪費大量時間和金錢。
那麼,該怎麼辦?擁有設計良好的治理系統,是保護自己免受技術孤島和研究專案受到影響的好方法。不過這裡會出現一些陷阱,那就是:不要指望企業領導者能夠決定最佳的方向。在嘗試避免昂貴的 AI 和自動化實驗時,信任您的資料專家以更底層、更技術層面的方式進行管理是成功的關鍵。將責任 (或自由?) 交給真正了解可用資料以及使用資料的系統環境的人,他們可以真正幫助推動創新和採用 AI 和自動化等技術。
讓事情簡單化
把事情簡單化!比起使用 LLM 等新穎或複雜的技術,不如保持 ML 處理易於理解。我們曾經在產品中寫過一個標題為「假設我是 5 歲小孩一樣向我解釋」的章節,我還是這麼認為。如果東西很難用簡單的術語解釋,那麼用更簡單的技術來處理資料可能更安全。
技術和軟體檔案庫的進展使建立複雜分析的能力變得更親民了,這是一項偉大的壯舉。然而,也許比這更重要的是,這種可用性確實引起了人們注意到資料處理透明的重要性。在我的職業生涯中有許多例子,在這些案例中,組織內只有一個人知道特定分析的工作原理,這是非常危險的,特別是如果該分析對業務非常重要時!
那麼,該怎麼辦呢?透過經常性的反饋循環,讓用戶始終處於任何 AI 或自動化專案的核心。如果用戶跟不上,那麼表示事情變得太不透明了。藉此您可以從只用特定分析工作的知識孤島,移轉到稍微大一點,包含特定演算法、檔案庫、框架或技術的知識範疇。
監管
歐盟在幾年前發布了世界上第一個監管 AI 系統的法案,對 AI 的使用和應用的審查越來越嚴格。
原因之一是源於人工智慧系統的複雜性。人工智慧的可解釋性是我們是否能信任複雜系統的輸出的關鍵。提供決策背後的基本原理非常重要,我鼓勵您觀看 John Brockman 研討會「可能的想法」中的這個片段,其中 Stuart Russell 談到了採用人工智慧系統作出不當決策的一些風險 。
使這些問題雪上加霜的是,如果您處理的資料中還有個人資料,那麼您可能會建立一個包含或持續存在偏見的系統。然而,對於大多數 Splunk 使用案例,即使是那些使用個人資料的案例而言,發生這種情況的風險也相當低。從 Splunk 的使用方式可以解釋這一點。它通常是在高度可操作的環境中使用,例如在安全或網路操作中心。這意味著來自 Splunk 的任何分析輸出,迴路中通常都有一個真人存在;無論是顯示預測的 IT 中斷的儀表板,還是識別潛在網路攻擊的警示,都需要一個真人在採取行動之前對這些訊息進行分類。除此之外,我們客戶自動執行的操作通常是常見的日常工作,例如我們的電子書《Splunk SOAR 的 5 個自動化使用案例》中描述的工作,執行如補充警示或分類惡意軟體警示等。
那麼,該怎麼辦?即使您沒有在風險場景中使用人工智慧或自動化,就資料及其在組織中的處理方式進行公開討論也很重要。
如果連您都不能談論組織內部如何使用資料,您將如何與監管機構談論它?
此外,報告時任何使用資料的自動化流程,都應詳細說明使用的資料、資料的來源 (特別是個人資料)、做出的決策 (尤其是如果這些決策影響客戶、員工或民眾),如果過程中出現錯誤、不正確的結果或不確定性,則還有失效安全的保護。
宣傳與炒作
那麼,大型語言模型 (LLM) 呢?不要過度相信炒作。LLM 不會很快取代 Google,但它們可能會幫助您的孩子撰寫學校論文或幫助您起草給客戶的電子郵件。雖然 ChatGPT 使用的 LLM 提供的推理看起來很有說服力,但很難驗證 LLM 的答案是否準確。此外,最佳化 LLM 的搜尋還需要一些時間 ─ 儘管 Microsoft 投入的 100 億美元很可能會加快這項研究的速度。
那麼……Causal AI (因果 AI) 會變得更強大嗎?某些宣傳與炒作的內容是可以相信的。因果 AI 比 ML 或深度學習更易於解釋,因此可以為一般人提供比其他技術更好的推理。但它成為主流還需要一段時間,我預計今年會看到一些使用案例逐漸進入營運用途,例如自動根本原因分析。
那麼,我們會看到對 ML 處理程序的惡意攻擊嗎?不要過度相信炒作。惡意行為者對模型或資料集搞鬼,就像宣稱學校惡霸故意亂寫你的作業,只是為了給你惹麻煩一樣。如果一個惡意行為者比組織更了解組織內部的進階分析過程,那麼我們應該給那個惡意行為者鼓掌 ─ 他們顯然有很多時間來處理分析資料和過程,然後發送一些網路釣魚電子郵件和使用 mimikatz,肯定能更快更容易地就獲取憑證……
對了,說到這裡,我打算使用 ChatGPT 來撰寫我的下一篇文章,同時重溫一下我對因果推理的知識。另外,我會將下一個機器學習專案中的任何錯誤歸咎於破壞我模型的惡意行為者,而不是我自己不給力……
祝快樂 Splunking!
從我們的2023 年預測系列中閱讀更多其他主題的資訊。
作者
Greg Ainslie-Malik
Greg 是一名重回本業的數學家,也是 Splunk 技術諮詢團隊的一員,專注於如何從機器學習和進階分析中獲取價值。作為 Splunk 機器學習工具包 (MLTK) 的產品經理,他幫助制定了核心 Splunk 平台中的機器學習策略。他一個特別的職業亮點是與世界經濟論壇合作,提供有關 AI Procurement in a Box 專案的主題專業知識。
在 Splunk 工作之前,他在 Deloitte 工作了多年,在此之前 BAE Systems Detica 擔任資料科學家。在找到一份合適的工作之前,他花了太長時間在大學攻讀數學學位,包括「PWM 過程的數學分析」博士學位。
當他不工作時,他通常會帶著他的三個小伙子四處走動,同時認為工作比在家要輕鬆得多……