Ang paggamit ng trigram ranking bilang panukat sa pagkakahalintulad at pagkakapangkat ng mga wika / Trigram ranking: Metric for language similarity and clustering

Added Title

Trigram ranking: Metric for language similarity and clustering

College

College of Computer Studies

Department/Unit

Computer Technology

Document Type

Article

Source Title

Malay

Volume

26

Issue

1

First Page

65

Last Page

80

Publication Date

2014

Abstract

Ang trigram ay tatlong magkakasunod na titik na bahagi ng isang salita. Bilang halimbawa, ang mga trigram na mabubuo sa salitang “tatlo” ay ang mga sumusunod: tat, atl, at tlo. Iminumungkahi sa pag-aaral na ito ang paggamit ng trigram ranking, isang prosesong gumagamit ng trigram, bilang panukat sa pagkakahalintulad ng mga wika. Sa prosesong ito, [1] kinokolekta ang mga dokumentong gagamitin bilang training data; [2] ginagawan ng trigram profile gamit ang training data; at [3] kinokompyut ang pagkakahalintulad gamit ang ranggo ng mga trigram. Iminumungkahi rin ang paggamit ng k-means clustering para pangkatin ang mga wika ayon sa kanilang trigram ranking. Sa pag-aaral na ito, kumolekta ng mga teksto mula sa Internet gamit ang mga awtomatikong pamamaraan: [1] paggamit ng isang xml to text converter para mangolekta ng mga artikulo mula sa English at Tagalog Wikipedia, [2] paggamit ng isang webcrawler para mangolekta ng mga artikulo mula sa mga pahayagan, [3] paggamit ng isang twitter API para kumolekta ng mga tweet, at [4] paggamit ng isang bot para mangolekta ng game chat mula sa Ragnarok, isang online na laro. Kumolekta rin ng mga dokumento mula sa isang parallel na korpus at isang mula naman sa online na korpus. Saklaw sa pag-aaral na ito ang walong wika: Bikol, Cebuano, Hiligaynon, Iloko, Pampanga, Pangasinan, Tagalog, at Waray. Batay sa resulta, galing sa iisang subgrupo ang mga pares ng wika na may magkakalapit na trigram ranking: [1] galing sa iisang subgrupo ang Bikol, Cebuano, Hiligaynon, Tagalog, at Waray at [2] galing naman sa iisang subgrupo ang Iloko at Pangasinan; samantalang [3] nahihiwalay naman ang Pampanga sa isang subgrupo. Maaari ring gamitin ang metrong ito upang sukatin ang pagkakahalintulad ng iba pang wika ng Pilipinas1.

A trigram is a 3-letter sequence of a word. As an example, the lists of trigrams that can be generated from the word “tatlo” are the following: tat, atl, and tlo. Presented in this research is trigram ranking, a metric for language similarity. It involves [1] collecting huge amounts of texts as training data, [2] generating trigram profiles from the training data, [3] and computing for language similarity using trigrams. Also presented is the use of k-means clustering to group languages based on their trigram ranking. In this study, the Internet was mined for texts using automatic means: [1] an XML to text converter was used to gather English and Filipino Wikipedia articles; [2] a webcrawler was used to collect online news articles; [3] a twitter API was used to collect tweets; and [4] a bot was used to collect chat logs from Ragnarok, an online game. Documents from a parallel corpus and documents from an online corpus were also collected. The following languages were used as test bed: Bikol, Cebuano, Hiligaynon, Iloko, Pampanga, Pangasinan, Tagalog, and Waray. Based on the results, language pairs with trigram rankings close to each other come from the same subfamily of languages: [1] Bikol, Cebuano, Hiligaynon, Tagalog, and Waray come from one subgroup; [2] Iloko and Pangasinan come from one subgroup; and [3] Pampanga comes from another subgroup. Trigram ranking can be used to measure which Philippine languages are closely-related.

html

Disciplines

Computer Sciences | South and Southeast Asian Languages and Societies

Keywords

Philippine languages; Similarity (Language learning); Linguistic analysis (Linguistics)

Upload File

wf_no

Share

COinS