為做好種種商業預測,越來越多企業現在求助于計算機算法——這種技術能以驚人速度完成超大規模分析過程。
算法能讓預測更準確,但也會帶來風險,尤其是在我們不理解這些算法的情況下。一個例子是社交媒體。很多社交網站通過算法決定推送哪些廣告和鏈接,如果設計算法時過于側重點擊量,“騙點擊”的內容就會充斥網站。雖然點擊量上升了,但整體用戶滿意度可能直線下降。
這類問題可以避免。問題根源通常并非算法本身有漏洞,而是使用不當。為避免犯錯,管理者須首先了解算法的功能和局限:它能解決哪些問題,不能解決哪些問題。
為何“聰明”算法反誤事?
越來越多證據顯示,將算法“人格化”更易讓人們接受。例如在自動答復系統中,真實人聲要比模擬人聲的傳達效果好。然而根本問題在于,人們通常像對待人類同事一樣對待算法和計算機,可算法和人類有兩大不同:
算法極其“單純”。在最新的《復仇者聯盟》(Avengers)電影中,鋼鐵俠托尼·斯塔克(Tony Stark)設計了人工智能防御系統奧創(Ultron)。奧創的任務是保衛地球,但它完全按字面意思解讀任務要求,認為拯救地球的最佳方法就是毀滅人類。在很多方面,奧創就像典型的算法,完全按命令行事,不顧及其他問題。如果使用算法時不夠謹慎,我們就會遇上麻煩。
社交網站如果突然充斥騙點擊內容,就可能是落入了類似陷阱。這些網站目標明確,即提供對用戶最有吸引力的內容。在設計算法時,網站管理者將這個目標替換為:找到用戶最愿意點擊的內容。這個指令邏輯上并不算錯,因為人們顯然會點擊感興趣的內容。但由于只根據潛在點擊量篩選內容,網站迅速充滿無聊和帶攻擊性的內容,導致聲譽受損。人們會理解網站管理者希望“最大化優質內容點擊量”,而非“即便損害質量也要最大化點擊量”;相反,算法則只按字面意思執行指令。
算法是個黑箱。在莎士比亞作品《愷撒大帝》(Julius Caesar)中,一名預言者警告愷撒:“當心3月15日”。這句話意思明確:愷撒最好有所防范。但同時又讓人完全無法理解:當心什么?為什么?愷撒對這個信息非常困惑,于是把預言者打發走,宣稱:“他是個夢囈者,我們走吧。”最終,3月15日確實是愷撒大帝倒霉的日子,他在這天被刺。問題是預言者提供的是不完整信息,而且沒法猜到缺失的是什么,也不知道這條信息有多重要。
和莎翁筆下的預言者一樣,算法有時能非常準確地預見未來,但不會告訴你事件背后的原因。算法可以通讀《紐約時報》文章,告訴你哪篇在Twitter上會火,但解釋不了人們為什么要轉發;算法可以告訴你哪位員工最可能成功,但不能告訴你哪種特質對成功最重要。
為更好地管理算法,認識到上述兩項局限是第一步。現在我們再看看還需要做什么。
明確所有目標
每個人都有自己的目標和計劃,但很少有人會不擇手段。為了某些未明言的軟性目標,我們會做出權衡取舍:例如為了明天的聲譽放棄一部分今天的利益,或為實現組織內部平等付出短期代價。但算法只會一門心思追求給定目標。因此在設計算法時,你必須明確想要達到的所有目標。
如果你在意某個軟性目標,就要明確指出、清晰定義,并設定其在總體目標中的權重。由于軟性目標較難衡量,實施算法所得結論時要特別留意。
我們最近對軟性目標的重要性有了切身體會。本文作者之一與美國西海岸某市政府合作,幫助其提升餐飲業督查效率。幾十年來,該市的做法基本是隨機抽查,并重點關照有違規經營記錄的單位。不過,選擇督查哪些餐館,很適合交給算法決定。除違規歷史外,我們的算法發現了很多相關變量,幫助政府衛生部門更易發現違規餐館,提高督查效率。
政府對此非常感興趣,希望采用算法。我們問對方有何問題或顧慮,一陣尷尬的沉默后,有人舉手。“我不知道該怎么說,”她說,“但有個問題應該討論一下。”她告訴我們,在有些人口密集的社區,違規經營更常見。這些社區低收入少數族裔比例較高,她不希望算法篩選出的餐館集中于這些社區。這涉及公平,即屬于軟性問題。我們的解決方法很簡單:設置各區域督查餐館數量上限。這樣做既能實現硬性目標,即找到最有可能違規的餐館,又照顧了軟性目標,即保證較落后區域得到公平對待。
為找到軟性目標,我們特別注意給每個人機會說出任何顧慮。我們發現,人們經常通過表達擔憂來提出軟性目標,所以明確征求意見能促進開放和高質量的討論。讓人們坦率表達觀點,把平時私下說的話擺在桌面上,這點很關鍵。這讓很多問題浮出水面,不過我們遇到最多的還是公平問題,以及敏感局面處理問題。
明確核心目標和其他考量后,設計者可以讓算法做出權衡取舍。為此,設計者通常須列出多項目標,并按重要性排序。
盡量避免短視
一家受歡迎的快消品公司從中國低價采購,然而銷往美國。該公司運用算法預測哪些產品最好賣,銷量迅速提升。但良好勢頭只維持了幾個月,消費者開始要求退貨。
盡管算法未能成功預測消費者的反應,但驚人的高退貨率本可以預見到。公司當然關注質量,但在設計算法時,沒有明確將質量設為影響消費者滿意度的重要因素,而過于關注銷量。調整后的新算法既能準確預測產品銷售情況,同時也能預測產品的受歡迎程度和可持續度。公司現在推出的產品在亞馬遜等平臺上獲得極高評價,退貨率大幅下降。
這家公司最初設計算法時落入了常見陷阱:算法關注當下掌握的數據,而這些數據通常與短期結果相關,這造成算法本身有短視傾向。在短期利益和長期成功及企業整體目標間可能存在張力,這對于人類不言自明,對算法則不然,除非你明確告訴它。
解決這個問題的方法是,在設置目標時明確定義長期目標。而在按照算法的預測采取行動時,管理者也要考慮算法的建議是否符合長期目標。
過于關注點擊量而導致內容質量低劣的網站,其采用的算法也有短視問題。算法根據當下目標(讓用戶點擊鏈接)推薦內容,卻未能考慮更重要的長期目標,即用戶滿意度和黏性。
選用合適數據源
要選擇合適的數據源,應注意以下兩點:
數據應盡可能全面。企業常有的誤解,是把大數據看作“大量的數據”,例如從1萬名客戶擴展到100萬名。但這樣只理解對了一半。設想你把數據做成表格,每行對應一名客戶,那么客戶人數即為圖表長度;而你掌握的每名客戶的情況,即每行中的數據,決定了圖表寬度。雖然數據總量能夠提升預測準確度,但數據寬度才能讓大數據發揮全部威力。做預測最關鍵的就是信息的全面性。事件的每個新細節都是一條線索,能夠補充已掌握的情報。文字記錄就是典型的“寬”數據,每個字都可以成為線索。
數據多元性很重要。從上文可以推出,數據應盡可能多元,即各個數據源相關度低。這能讓算法的預測能力再上臺階。可以把每組數據看作一個朋友的推薦:如果朋友口味太相似,那么多幾個朋友推薦也不太有價值;反之,如果每個朋友視角不同,帶來的價值就大得多。
了解算法的局限
算法就是利用已有數據在稍有差異的情境中做預測,這些差異可能包括人員、時間等,對象事件也可能不同。本質上,你在尋求把某項結論移植到另一個情境中。因此聰明的做法是,列出算法可能在新情境中失效的原因,并評估這些潛在原因。例如,某個算法根據外部網站評論和違規歷史,預測波士頓哪些餐館可能違反衛生法規。而換到佛羅里達州的奧蘭多,該算法效果可能就沒那么好,因為那里天氣更熱,食品安全問題與波士頓有差別。
同樣要記住,相關性不等于因果性。假設某個算法預測,較短的Twitter發言比較長發言轉發率高。這絕不是說你應該縮短Twitter發言:這只是一項預測,而非建議。這項預測成立,是因為較短的Twitter發言更可能具備很多其他特征,使之更易被轉發,而僅僅縮短你的發言,并不必然滿足那些條件,所以不一定能得到更多轉發。
eBay曾多年通過谷歌打廣告,發現看到廣告的人比沒看到的人更可能消費。但eBay忽略的是,這些展示次數達數百萬的廣告,并不必然是人們訪問其網站的原因。畢竟,這些廣告針對的本來就是eBay用戶。為區分相關性和因果性,eBay進行大規模試驗,隨機選擇廣告展示對象,結果證明大多數情況下廣告不起作用,因為看到廣告的人已經知道eBay,無論如何都會在上面消費。
算法有很強預測能力。但在做因果推論時,你必須多加留意,因為算法不能取代對照試驗。不過在有些方面,算法能取得驚人成功:發現人類觀察不到的細微規律,并利用這些規律形成準確洞察,助力決策。留給我們的課題是:了解算法的風險和局限,并通過高效管理,釋放它的巨大潛力。
深圳網站建設-本文轉載自網絡,版權歸原作者所有!
文章轉載請保留網址:http://waterplane.cn/news/industry/2089.html