最新消息-成功大學數據所

CATEGORIES

2024-01-23: 【喜訊】恭喜數據所許志仲老師指導研究助理蔡其翰&研究生馬欣蒂參加Kaggle比賽奪得金牌！

成大數據所許志仲副教授指導研究助理蔡其翰(kaggle name : fate)與研究生馬欣蒂(kaggle name : cindy ma)組成的團隊，日前參加全球最大數據科學競賽平台Kaggle舉辦的年度盛事,在眾多選手中脫穎而出,奪得該競賽的最高榮譽金牌。這項極具競爭力的國際賽事,每年吸引來自全球數以萬計的頂尖數據科學家參賽,奪金之險峻可想而知。本次獲勝的競賽是在kaggle上的UBC 舉辦的Ovarian Cancer Subtype Classification and Outlier Detection (UBC-OCEAN)競賽。台灣每年平均能獲得金牌的人數皆於3-5人之間，其翰與欣蒂能獲此殊榮實屬不易。
UBC-OCEAN這個競賽是由UBC主辦的，主要是對卵巢癌不同亞型及異常型做分類。由主辦方的說明影片得知，卵巢癌主要是透過病理組織切片來判斷的，但卵巢癌是一個包括5種主要亞型的癌症，不同亞型有不同的嚴重度與治療方法，目前領域專家對不同亞型判斷的kappa coefficient有0.89，然而普通的病理學家kappa coefficient大概只有0.54-0.67(判斷一致性低)，所以主辦方出於這個原因辦了這個競賽。

這個競賽的困難點有幾個：
1.Data來自各大洲的二十幾個醫學中心(training data只有13個醫學中心)，這些來自各個醫學中心的病理切片染色方法不盡相同
2.Data包括Whole Slide Imaging(WSI)以及Tissue Microarray(TMA)，training data有5百多個WSI以及25個TMA案例，但我們主要預測的TMA佔大多數
3.要預測罕見的亞型Outlier，但training data完全沒有Outlier案例

本團隊研究方法主要是把WSI切成tiles (原始 WSI尺寸很大，此為常見手法)，然後用模型預測tiles得到預測值與真實亞型的不一致性當成偽標籤，再把偽標籤當成輔助損失 (aux loss)，與真實亞型一起重新訓練；最後用偽標籤當成是否微異常值的判斷標準，如果不是異常值再判斷是屬於何種亞型。
我們是金牌區少數不用External Data (競賽官方之外data)的團隊，也是少數不用Multiple instance learning方法的團隊；我想我們獲勝的關鍵在於預測TMA的Outlier的案例的能力比其他隊伍更好，才能在眾多頂尖隊伍的夾殺下，獲得第9名(金牌)的成績。

Kaggle是一個數據科學競賽平台，舉辦各式各樣的競賽，吸引全球數據科學家和頂尖工程師參與，甚至包括像任職Nvidia、META、Microsoft、Google這樣的頂尖AI公司的工程師，共同挑戰各種數據科學問題。要取得佳績,選手必須在限定的時間內,對給定的大量資料進行處理、特徵工程,並設計出創新且高效的AI模型。每場競賽都會有新難題需要解決。獲獎選手展現了對各種演算法的靈活運用,以及針對實際複雜問題建模與優化的能力。
其翰表示,能夠代表台灣拿下金牌,實現他從事數據科學研究以來的目標。這不僅是團隊的最大榮耀,也展現台灣已經有能力與世界一流高手一決高下的實力。

競賽網址：https://www.kaggle.com/competitions/UBC-OCEAN
排行榜　：https://www.kaggle.com/competitions/UBC-OCEAN/leaderboard

News

最新消息