法律資料分析:從入門到精通 蘇豐文教授

Описание к видео 法律資料分析:從入門到精通 蘇豐文教授

法律資料分析:從入門到精通 蘇豐文教授

自然語言處理(Natural Language Processing,NLP)已在一般生活中進行多種運用,例如偵測詐騙郵件、人名辨別、機器翻譯、語音辨識等等。自引入機器學習(Machine Learning)演算法後,我們開始從過去的制式程式語言規則,轉變為以統計機率呈現資料趨勢,讓機器理解自然語言特性。

隨著自然語言處理進入專業領域,有時學者會選擇最能減少資料亂度(Entropy,或稱「熵」)的標註,來決定決策樹模型,使機器學會分析句式、理解整個句子的語意。

然而在標註過程中,除了中文本質上相較英文等各單詞分離的語言,更容易發生斷詞分歧外;層出不窮的新生詞彙、繁複的指代詞、錯綜的句式結構…均構成標註的障礙。倘發生標註失準或標註偏見殘留,將造成句意中重要因素漏未判斷、悖離現實、加深偏見等錯誤結果。也因此斷詞、詞彙的中立化(neutralize)或除偏(debiasing)成為採行自然語言處理必須關注的議題

Комментарии

Информация по комментариям в разработке