一文看懂自然語言處理NLP
NLP為什么重要?
“語言理解是人工智能領域皇冠上的明珠”——比爾·蓋茨
在人工智能出現之前,機器智能處理結構化的數據(例如 Excel 里的數據)。但是網絡中大部分的數據都是非結構化的,例如:文章、圖片、音頻、視頻…
在非結構數據中,文本的數量是最多的,他雖然沒有圖片和視頻占用的空間大,但是他的信息量是最大的。為了能夠分析和利用這些文本信息,我們就需要利用 NLP 技術,讓機器理解這些文本信息,并加以利用。
什么是自然語言處理NLP?
每種動物都有自己的語言,機器也是!
自然語言處理(NLP)就是在機器語言和人類語言之間溝通的橋梁,以實現人機交流的目的。人類通過語言來交流,狗通過汪汪叫來交流。機器也有自己的交流方式,那就是數字信息。
不同的語言之間是無法溝通的,比如說人類就無法聽懂狗叫,甚至不同語言的人類之間都無法直接交流,需要翻譯才能交流。
而計算機更是如此,為了讓計算機之間互相交流,人們讓所有計算機都遵守一些規則,計算機的這些規則就是計算機之間的語言。
既然不同人類語言之間可以有翻譯,那么人類和機器之間是否可以通過“翻譯”的方式來直接交流呢?
NLP 就是人類和機器之間溝通的橋梁!
為什么是“自然語言”處理?
自然語言就是大家平時在生活中常用的表達方式,大家平時說的「講人話」就是這個意思。
比如:
自然語言:我背有點駝(非自然語言:我的背部呈彎曲狀)
自然語言:寶寶的經紀人睡了寶寶的寶寶(微博上這種段子一大把)
NLP的4個典型應用
情感分析
互聯網上有大量的文本信息,這些信息想要表達的內容是五花八門的,但是他們抒發的情感是一致的:正面/積極的 – 負面/消極的。
通過情感分析,可以快速了解用戶的輿情情況。
聊天機器人
過去只有 Siri、小冰這些機器人,大家使用的動力并不強,只是當做一個娛樂的方式。但是最近幾年智能音箱的快速發展讓大家感受到了聊天機器人的價值。
而且未來隨著智能家居,智能汽車的發展,聊天機器人會有更大的使用價值。
語音識別
語音識別已經成為了全民級的引用,微信里可以語音轉文字,汽車中使用導航可以直接說目的地,老年人使用輸入法也可以直接語音而不用學習拼音…
機器翻譯
目前的機器翻譯準確率已經很高了,大家使用 Google 翻譯完全可以看懂文章的大意。傳統的人肉翻譯未來很可能會失業。
NLP的2種途徑、3個步驟
NLP可以使用傳統的機器學習方法來處理,也可以使用深度學習的方法來處理。2 種不同的途徑也對應著不同的處理步驟。詳情如下:
方式 1:傳統機器學習的NLP流程
語料預處理
中文語料預處理 4 個步驟(下文詳解)
英文語料預處理的 6 個步驟(下文詳解)
特征工程
特征提取
特征選擇
選擇分類器
方式 2:深度學習的 NLP 流程
語料預處理
中文語料預處理 4 個步驟(下文詳解)
英文語料預處理的 6 個步驟(下文詳解)
設計模型
模型訓練
英文 NLP 語料預處理的 6 個步驟
中文NLP語料預處理的 4個步驟
自然語言處理(NLP)就是在機器語言和人類語言之間溝通的橋梁,以實現人機交流的目的。