首頁 > 科技 > > 正文
2020-01-04 17:21:03

谷歌DeepMind基于人工智能的乳腺癌檢測還不是一個自動診斷專家

如果你“相當正確”——意思是正確多于錯誤——你能得到多少學分?

如果你是一個人工智能算法,你會得到很多贊譽。人工智能程序不一定要有一個明確的答案,只是一個概率性的答案,一個正確答案的百分比可能性,不管這個任務是執行自然語言翻譯還是診斷癌癥。

的最新例證艾未未的概率achievementsis在本周出版的《自然》雜志,題為“國際評估乳腺癌篩查的人工智能系統,”,是由一群31學者從谷歌谷歌健康單元,其DeepMind單元,和倫敦帝國理工學院,由作者斯科特?梅耶麥金尼戈t . Sieniek Varun Godbole,喬納森·戈德溫(DeepMind首席執行官黛米斯是作者之一)。

另外,谷歌的谷歌健康學者Shravya Shetty, m.s.和Daniel Tse, M.D.也在博客上發表了評論

谷歌谷歌健康團隊,其DeepMind單元,和倫敦帝國理工學院的三個三個不同的深度學習神經網絡,組成的,從頂部,Facebook艾未未的“RetinaNet”,加上谷歌“MobileNetV2”,緊隨其后的是現在標準ResNet-v2-50中間部分,最后對底層ResNet-v1-50。每個人都以不同的方式挑選出乳房x光檢查中可疑的區域,然后將這些發現匯總起來,得出一個關于癌癥或無癌癥的概率決定。

頭條新聞是,谷歌的科學在事后數年的乳房x光檢查中戰勝了英國和美國的放射學家,并宣布是否存在癌癥,顯示了“絕對的減少……誤報和……在錯誤的否定中?!比斯ぶ悄芗夹g甚至擊敗了一個由六名受委托進行這項任務的放射科醫生組成的小組,他們查看了500張乳房x光片,并給出了診斷結果。

結果是在人工智能工具方面的一個重要貢獻,可能對醫生非常有用。但這并不意味著它可以取代人類的評估。仔細研究一下這些數字是很重要的,因為它們有很多看跌期權和買入期權。

考慮設置??茖W家們從英國三家不同的醫院收集了13918名女性的數據,這些女性在2012年至2015年期間接受了乳腺癌篩查,并在年齡和體檢等方面達到了一定的標準。這就是他們用來訓練系統的東西。另外26000個案例在系統被訓練之后被用來測試系統。他們還對美國西北紀念醫院(Northwestern Memorial hospital) 2001年至2018年收集的數據進行了同樣的處理,后者的樣本要小得多。


科學家們訓練了一組巧妙的神經網絡,它們由三種不同的神經網絡組成,每一種神經網絡都以不同的細節水平來觀察乳房x線照片。這種深度學習設置的細節令人著迷,或許代表了機器學習網絡結合的最新技術。其中一個是ResNet V-1 50,這是一種經典的圖像識別方法,由何開明和他在微軟的同事在2015年開發。第二種網絡是由Facebook人工智能研究學者在2017年開發的RetinaNet。第三個是去年谷歌科學家公布的MobileNet V2神經網絡。這是一個非常棒的混合方法,展示了代碼共享和開放的科學出版物如何豐富每個人的工作。詳細信息包含在補充材料紙中,該補充材料紙鏈接到主要自然紙的底部。

現在,棘手的部分來了:訓練有素的網絡所判斷的病例中,是否有乳腺癌病例在隨后的活組織檢查中得到確認,這是“基本事實”。換句話說,診斷不僅僅是圖像上的東西是什么樣子的,而是后續的醫學測試通過明確提取一塊癌變組織發現了什么。在這種情況下,答案是明確的是或不是癌癥的存在。

但是上面描述的三種深度學習神經網絡的精致集合并不能產生一個是或否的答案。它產生一個從0到1的分數,作為一個“連續值”,而不是一個二元判斷。換句話說,人工智能可以是非常正確的,也可以是非常錯誤的,這取決于它與正確值的距離,0或1,在任何給定的情況下。

為了將這個概率分數與人類做出判斷時的行為匹配起來,McKinney和他的同事必須將人工智能的概率分數轉換成二進制值。他們通過一組單獨的驗證測試來挑選出每個人的答案。對人類判斷的“優越性”的比較,是人工智能在其產生的更廣泛的總答案集合中給出的答案的選擇。

正如作者解釋,“人工智能系統本身產生一個連續得分表示癌癥存在的可能性,”所以,“支持與預測人類的讀者,我們閾值這個分數產生類似的二進制篩選決策,”“閾值”在這種情況下,是否意味著挑選一個比較:“對于每一個臨床指標,我們使用了驗證設置為選擇一個不同的操作點;這相當于一個分數閾值,將積極的決定和消極的決定區分開來?!?/p>


與英國的數據相比,人工智能在預測癌癥方面的表現與人類差不多。正如報告所說,這個術語是“非劣”的,意思是,它并不比人類的判斷更差。人工智能網絡做得更好的地方是所謂的“特異性”,這是一個統計術語,意思是神經網絡在避免假陽性方面做得更好,也就是說,在疾病不存在的情況下預測疾病。這當然很重要,因為被誤診為癌癥對女性來說意味著過多的壓力和焦慮。

但是,再次強調,要注意細則。在這種情況下,人類的得分來自醫生,他們必須根據乳房x光片來判斷是否需要進行進一步的檢查,比如活檢??梢韵胂?,在診斷的早期階段,醫生可能會給出一個過于寬泛的評估,以便讓病人進行進一步的檢測,從而避免未被發現的癌癥的風險。這是醫生決定病人下一步去哪里和機器猜測未來幾年的結果概率之間的根本區別。

換句話說,坐在病人面前的醫生通常不會去猜測未來幾年的結果概率,而是去決定病人下一步的關鍵步驟是什么?例如,即使人工智能根據乳房x光檢查確定某個特定病例患癌的幾率很低,患者是否希望醫生謹慎行事,開出活檢處方,以確保安全,而不是感到遺憾?他們可能非常欣賞這種謹慎。

科學家們在總結部分寫道,即使人工智能發現了醫生們漏掉的病例,它也漏掉了醫生們發現的幾個癌癥病例。這一點在附加的“讀者研究”中體現得尤為明顯。在這項研究中,6名人類放射科醫生研究了500例癌癥篩查。研究人員發現了“一個被所有6名放射科醫生遺漏,但被人工智能系統正確識別的癌癥樣本”,但也“一個被所有6名放射科醫生發現,但被人工智能系統遺漏的癌癥樣本”。


有些令人不安的是,作者寫道,人工智能在每種情況下成功或失敗的原因尚不完全清楚:“盡管我們無法確定這些情況之間的明確模式,但這些邊緣情況的存在表明,人工智能系統和人類讀者在得出準確結論方面可能發揮互補作用?!?/p>

也許,但肯定的是,人們想知道更多關于三種深度學習神經網絡是如何進行它們的概率猜測的??梢哉f,他們看到了什么?這個問題,網絡代表什么,在研究中沒有涉及,但在如此敏感的應用中,這對人工智能來說是一個至關重要的問題。

綜上所述,我們面臨的一個大問題是:對于一個能夠比一些必須進行初步評估的醫生更準確地預測未來癌癥發展概率的系統,我們應該付出多大的努力?如果這些概率分數能夠幫助醫生在一些“邊緣案例”中做出決定,那么,幫助醫生使用人工智能的價值將是非常高的,即使在這一點上人工智能并不能真正取代醫生。

順便說一句,這項研究同時考察了英國和美國的數據,得出了一些關于比較醫療體系質量的令人困惑的發現??偟膩碚f,英國醫生的準確性水平似乎明顯高于美國醫生。從對檢測的初步審查來看,他們得出的結論是,某些東西將被證明是癌癥。

考慮到使用的數據集的差異——在英國有13981個數據來自三家醫院,而在美國只有一家醫院有3097個數據,真的很難知道如何獲得這些不同的結果。顯然,與人工智能一樣有趣的是,人類醫生在兩種不同醫療系統中的相對能力。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

相關推薦

福彩快乐十分app 网易快猜的新马快乐8 券商融券10万一天利息 私募股权类fof基金 陕西11选5推荐 专家 网上购买体育彩票 泛亚电子竞技英雄时时乐 北京体彩快中彩号码统计器 湖北快3大中小走势图 福彩生肖6十1走势图 北京pk赛车开奖记