Mozilla Common Voice 台灣譯做「同聲計劃」或者香港嘅「共享聲音」,目標係收集不同年齡人士嘅香港廣東話聲音去幫助訓練語音系統。要知道現時呢一樣嘢係無開源嘅系統化數據庫,亦即係話就算你想寫返個軟件例如幫助聽障嘅朋友將語音變成文字顯示,有豉油無雞都係無辦法做得到。但係只要有越多唔同年齡口音嘅香港人參與 Common Voice 以廣東話幫手錄音或者驗證錄音,就可以令個數據庫越黎越龐大同豐富,到最後儲夠 10,000 小時經已驗證好嘅錄音,Mozilla 就會將佢開放出黎,等人人都有得用。其實 2020年6月經已有第一批 1GB 整理好可以使用嘅數據,而寫緊呢篇文章嘅時候數據經已去到 3GB,但樣本梗係越多越好,有興趣嘅話你都可以下載啲數據黎研究吓。而 10,000 小時係製作一個訓練語音轉文字系統嘅基本要求,只係依傢已經驗證咗嘅 3GB 錄音只係等於 50 個小時,距離 10,000 小時嘅目標好遠。所以好希望作為香港人嘅你可以幫吓手,一齊錄音或者驗證錄音,咁樣香港嘅廣東話先至可以有效咁樣保存落去,造福人群。

以下我將會介紹貢獻香港廣東話畀 Mozilla Common Voice 嘅方法,有需要嘅話按圖就可以放大㗎嘞。

註冊帳戶

請先去 Common Voice 網站,留意最右上角嘅位置顯示「ZH-HK」就係香港嘅廣東話嘅介面,再點擊右上角「登入/註冊」註冊返個帳戶。

之後會見到呢個畫面,你可以選擇使用電郵地址、Log in with Firefox、Log in with GitHub 或 Log in with Google 去註冊。如果你選擇使用電郵地址註冊,請輸入你嘅電郵地址,再點擊「Enter」。

出現「Send me an email to continue」嘅訊息,再次點擊。

之後會出現以下畫面,與此同時 Mozilla 會將一條登入連結寄去你嘅郵箱,請於15 分鐘之內點擊果條連結就可以登入你嘅戶口,以後你亦都可以用同樣嘅方法登入你嘅戶口。

剩低嘅三個登入方式只要你預先登入 Firefox、GitHub 或者 Google 再點擊佢哋就可以註冊同登入,因為實在太簡單,所以我就唔多寫嘞。

填寫個人檔案

之後系統會引導你填寫個人檔案,又或者你可以點擊右上角三粒點點咁嘅菜單,去搵到「個人檔案」呢個功能:

  • 「帳戶名稱」可以自己作返個有型嘅花朵
  • 「在排行榜上顯示個人檔案」如果選擇「公開」嘅話,你可以睇到響全球所有貢獻者入面你嘅排名。你亦可以選擇「隱藏」
  • 「年齡」填寫自己嘅年齡
  • 「性別」可以選擇「男性」、「女性」或者「其他」
  • 「母語」請選擇「中文(香港)」

再點擊「儲存」就可以保存個人檔案。

留意返填寫正確嘅資料對訓練出一個好嘅語音系統係非常之咁重要。填寫咗嘅個人資料係唔會同個數據庫有直接嘅連結,所以可以放心。

如果你想進一步搞靚你個戶口,可以點擊左手邊嘅「頭像」去添加個靚樣;去「設定」編輯你嘅登入電郵;「刪除個人檔案」係畀你決定係唔係刪除唔玩 Common Voice 果陣時用嘅(希望你唔會啦),而「下載我的數據」係可以畀你隨時下載返自己嘅個人資料。

開始錄音

註冊完帳戶再填寫好個人檔案,係時候去貢獻嘞!你可以點擊網站左上角嘅「參與貢獻」,會直接去到錄音嘅介面。又或者點擊右上角三粒點點咁嘅菜單再選取「控制台」就可以見到屬於你自己嘅統計。你可以睇到自己經已錄咗幾多段音或者驗證咗幾多段綠音、「貢獻紀錄」睇返你大概響一日嘅幾多點貢獻過畀 Common Voice,同埋響全球所有貢獻者入面你嘅排名。如果你想知道香港嘅排行榜,去「貢獻者排行榜」選擇返「中文(香港)」就可以睇到。好啦返番去錄音先,點擊「幫我哋達到 1,200」就可以開始錄音㗎啦。

吖仲有一樣嘢,錄音梗係要有咪(Gag 好爛),無咪嘅話 Common Voice 個系統係會偵測到㗎!

以下就係錄音嘅介面,首先因為係錄音,所以左上角係會表示係「講」。你會見到中間白色部份有一句句子。首先點擊錄音圖示(紅字 1),然後用香港廣東話講出呢句句子,完成後再點擊「停止」鍵,系統就會畀下一句句字你錄。假設你唔鍾意錄果句句子,可以點擊「略過」唔錄(紅字 2),甚至可以「舉報」(紅字 3)一啲有問題嘅句子。而右手邊「錄音片段」(紅字 4)嘅位置就係畀你去聽返自己講過句子或者重錄。

當你講夠五句句子就可以貢獻畀 Common Voice 啦。如果你唔肯定自己錄成點,可以點擊打橫三角型圖示(紅字 5)確認有無正確咁樣講出句子,想重錄可以點擊圓型重錄圖示(紅字 6)。假如你想開心 share,可以點擊 share 圖示(紅字 7) 邀請朋友參與呢個咁有意義嘅活動。一切都無問嘅話,點擊「提交」,你所錄嘅五句句子就會提交畀 Mozilla Common Voice,成為香港廣東話聲音嘅其中一位代表。

另外 Common Voice 係有鍵盤快捷鍵㗎,響錄音或者驗證錄音嘅左下角搵「捷徑」就會出現教學指示,方便唔鍾意吓吓都用滑鼠嘅朋友。

驗證錄音

驗證錄音可以響網站左上角嘅「參與貢獻」,再點擊「聽」。又或者點擊右上角三粒點點咁嘅菜單再選取「控制台」,然後再點擊「幫我哋達到 2,400」。

進入驗證錄音介面,點擊播放圖示(紅字 1)會播出錄音,發音與顯示文字正確相乎的話,點擊「啱」(紅字 2)、否則的話點擊「錯」(紅字 3)。如果你唔想聽果句句子,可以點擊「略過」(紅字 4),又或者覺得句句子有問題就點擊「舉報」(紅字 5)。「錄音片段」(紅字 6)係畀你睇返自己嘅進度。

留意驗證錄音同錄音唔同之處係佢無得返番轉頭再 check,如果你判斷咗條錄音係「啱」就唔會可以返轉頭話去佢「錯」,故此唔肯定嘅話,不如聽多幾時先至決定係啱定係錯。至於無聽過段錄音嘅話系統係唔會畀你點擊「啱」定「錯」所以唔好諗住求期就算。驗證錄音亦係以五句句子為單位,有餘力可以繼續驗證。而為咗方便起見亦一樣有鍵盤快捷鍵,響左下角搵「捷徑」就會出現教學指示。

訂立個人目標

五句五句咁講同聽好容易會唔知自己做咗幾多嘢,不如畀返個目標自己啦!響講或聽完之後點擊「訂立目標,開始貢獻」,又或者響「控制台」點擊「訂立個人目標」,就會去到「目標」頁面。

記得訂立目標嘅時候要一定要選取語言「中文(香港}」,再點擊「訂立目標」。

你可以選擇建立每日或者每週嘅目標。

選擇好後點擊「確認目標」。

最後你可以響社交媒體同朋友分享你嘅目標,並鼓勵佢嘅一齊加入 Common Voice。

你可以重新執行以上步驟去修改你嘅目標,只係留意返如果你原本係每日目標改做每週目標或者倒轉,系統係會提示你有機會唔見咗之前啲進度㗎,呢樣要留心返。

以上就係貢獻香港廣東話聲音嘅介紹,事實上 Mozilla Common Voice 本身個網站介面都幾直觀吓,應該唔會太難上手嘅。只係要留意有時候某啲瀏覽器會幫你轉咗去台灣,要人手響瀏覽器嘅設定入面嘅語言加入「中文(香港)」並置頂,以後入去 Common Voice 網站至會係香港介面,記得見到「ZH-HK」先至開始貢獻吖。

如果你對 Mozilla Common Voice 有任何疑問,可以參閱介紹常見問題,去 Common Voice in Hong Kong Telegram group 聯絡志同道合嘅朋友,又或者去開源香港了解更多。

Tagged in: