search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

淺談自然語言處理之語言學 – 發明語言

淺談自然語言處理 – 2

上一篇: 自然語言處理簡史 – 開端

語言學 – 發明語言

對你來說,人能夠發明一門語言可能不是什麼十分能讓人驚訝的事情,因為你隨時隨地都能見到語言的某些部分產生變化,比如社交網路上產生的新的流行語,或者你和你的朋友交流時會用暗號來拿過去發生過的事情開玩笑。指環王的作者托爾金為了寫他的小說,創造了精靈語、矮人語以及其他一系列奇幻世界的語言。僅為了寫小說、憑一個人就能創造一系列有著豐富底蘊的語言的托爾金在許多人眼中十分酷,但更加厲害的是,其實他不是為數不多的有創造語言能力的天才。事實上,只要被放在合適的環境和在合適的年齡,誰都可以創造新的語言。

指環王里被刻在至尊魔戒上的精靈語什麼是語言?

在說語言是怎麼被創造出來的之前,我想稍微談談什麼是語言。如果語言只是一種交流的方式的話,那其他動物有沒有語言呢?狗會叫,鳥能唱歌,蜜蜂能通過跳舞和化學物質來告訴同伴幾公裡外有敵人或者食物。所以人的交流方式和動物的有什麼區別?如今的共識是只有大腦占體重比例最大的人類才擁有學習和發明如此複雜的交流系統。雖然有些動物,如KanziChantek學會了美國手語,他們的語言水平只相當於四歲的人類兒童。智能是通往擁有語言能力的第一步,而語言是一種複雜到足夠能表達紛繁的人類思維的通訊系統。

語言能力是天生的么?

人擁有許多其他動物無法擁有的能力。我們能做飯,研究數學,務農等等。這些普遍被認為是一項科技,而不是人與生俱來的能力。語言是否也如眾多人類科技一樣,是被某個人偶爾發現的?或者語言其實是人與生俱來的、不用正規的教學就能掌握的能力?科學家至今仍在爭論這個話題,但有一定的證據表明,至少某一些語言能力是被印刻在我們每個人的腦子裡,而不是後天教會的。

全人類語言的共性

每個人不論生長在哪兒,走路的方式都多多少少一樣,仔細想想的話這點其實很神奇,這表明每個人走路時用到的肌肉和腦內部分都和其他人的有一些共通性。同理,對於語言來說,如果我們能夠在全人類的所有語言中找到一些共性,那這些共性就能夠為「語言能力是被刻在基因里的」這一論點提供有力的證據。

據全球最佳的語言學方面網站–民族語言網的統計,全世界一共現存6909種仍被使用中的語言(引用自Number of languages)。每個語言都和其他的有所不同,比如語言中句子成分的先後順序就不一定一樣。日語中的動詞是被放在句子的末尾,而英語中的動詞通常在主語和賓語之間。例如:

I ate an apple.
我 吃了 一個 蘋果
私 は リンゴ を 食べた。
我 (話題提示詞) 蘋果 (賓語提示詞) 吃了.

又例如Linguistics Society指出的,在威爾士語中,動詞通常是在句子的一開始的,之後才是主語和賓語。

The student bought the book.
這個學生買了這本書。
prynodd y myfyriwr y llyfr
買了 這個 學生 這本 書

語言中的發音似乎也非常的隨機,它的證據之一是,不同語言中對同一個動物的叫法都不一樣,並且幾個世紀之前詞的發音和現在相比也發生了很大的改變。語法也不例外,如果你學過語法或者嘗試過和不以中文為母語的人解釋中文語法的話,你很快就會發現其實很多事情你也說不清。我曾經學英語的時候我老師就把「英文語法就這樣的」當作很多事情的解釋。

所以,在6909種現存語言和無數的消亡的語言中,有任何共性么?

答案是肯定的,事實上科學家們發現了好些,以下列出其中的四個共性:

  • 所有的語言都有名詞,動詞,物體,和代詞(如你、我、他)
  • 所有的語言都至少有兩個母音(如a,i,u,e,o之類的)
  • 所有的語言都至少有三種不同大小的語法單位:詞、短語、以及句。
  • 如果一個語言會把形容兩個物體的代詞和單數代詞區分開的話(如中文中形容兩個物體的代詞有:我們,他們等),那這個語言一定也會把兩個以上物體的代詞和單數代詞區分開。(摘自)

這些證據表明語言的基礎結構是存在於我們的基因中的,這也是史上著名的語言學家諾姆·喬姆斯基所提出的普遍文法中最重要的理念。而更加神奇的是,當新的語言被發明出來的時候,他們也必定會遵循同樣的這些共性。

發明一種語言

在哥倫布發現新大陸后不久的十六世紀起,殘酷的奴隸貿易從非洲綁架了1000萬餘人。這些不幸的非洲奴隸們大多都在種植園上度過了他們剩下的一生,他們來自於不同的區域和部落,並且互相之間語言不通。事實上奴隸主會有意的把說不同語言的非洲奴隸們放在同一個種植園上,因為如果奴隸之間語言不通,互相之間無法溝通的話他們就不會團結起來引發叛亂了。由於要和其他奴隸工作並要從奴隸主這邊接受命令,許多第一代的非洲人奴隸們從奴隸主這邊學會了一些語言的碎片,這些碎片大多是詞、短語、以及殘破的句子,辭彙量非常有限並且沒有系統的語法結構。

這種語言的碎片被稱作混雜語言、皮欽語(pidgin),或者俗稱洋涇浜。世界各地都能找到皮欽語,只要去那些兩批或者更加多的說不同語言的人互相接觸的地方就可以了。在皮欽語中,不同語言中的詞會被借用來當作新的用法,例如中提到的,夏威夷皮欽語中的「brah」是英語中兄弟的意思(現在也在英語俚語中被經常用到),而」cockaroach」、蟑螂的意思在那裡變成了偷竊。

話說回美國的種植園,當奴隸們結婚的時候,他們一般也是和自己說不同語言的人結的婚。夫妻們之間以及和孩子們的交流都是用的皮欽語,而那些從小聽混合語言長大的孩子們接下來做的事情讓研究者們大為驚訝。

當那些小孩聽到支離破碎的詞和短語時,他們自發的試圖填補那些空缺的語法部分。比如如果他們父母說的混合語言句子中似乎少了一個暗指的賓語時,小孩們會把賓語填上。如果家長們不知道一些詞怎麼說,小孩們會試著把其他片語合起來。根據《語言的本能》中記載的,」go」、」stay」、」came」之類的簡單的英文單詞在夏威夷克里奧耳語中,會被系統性的用作如助動詞、介詞、用來標記主格和賓格之類的格標記、以及關係代詞等。甚至我們熟悉的英文中表過去式的「-ed」也有可能是從do的過去式「did」演變過來的,所以古老的英語中可能會把「he cooked」寫成「he cook-did」

不僅如此,當那些奴隸的小孩們聚在一起的時候,他們各自的語言開始融合成一種新的語言。如果孩子們不喜歡一個詞的發音會怎麼樣?他們就直接想一個新的發音拿來用。如果他們覺得某個語法不符合他們的邏輯的話,他們就會用一種符合他們自己邏輯的語法說話,無論那種新的語法符不符合原來的語法。這種語言被稱作克里奧爾語(Creole),克里奧爾原意為「混合」,而克里奧爾語指的是母語環境為皮欽語的人們所說的語言。那些孩子們發明了自己的全新的語言,以及自己的一整套辭彙、新的語法、之後也生下了新的使用這些語言的人們。

奴隸家庭的照片

這些奴隸的孩子們正是新語言的締造者。

克里奧爾語對我們當今的語言有著重大的影響,比如在美國時常聽到的美式黑人英語就有可能是一種基於英語的克里奧爾語,」Don』t nobody know the answer, Ain』t nothing going on.」之類的句式在美式黑人英語中完全符合它的語法,但並不符合普通英語語法。克里奧爾語給我們展示了語言是如何被借用、創造、並不斷的改變的,並且所有被創造出來的克里奧爾語都仍舊符合其他人類語言的共性,比如之前提到的「所有語言都有三種不同大小的語法單位」之類的。即使克里奧爾語的發明者們大多國小都沒上過,他們仍然用他們的克里奧爾語給我們展示了人類神奇的語言天賦。

在下一篇語言學相關的文章里,我打算說一說孩子學習語言時的趣事,我們能從孩子學習語言的過程中看到人類是怎麼樣理解語言的,並且這些理解能夠如何幫助我們自然語言處理的研究。如果你有其他感興趣的話題,請聯繫我。謝謝閱讀!

引用:

The Language Instinct

History of African American English in the U.S.

Pidgin language example

Nigerian Pidgin Wiki

圖片源:

The Ring

Chantek

Slave family



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦