Linguistik Digital - Video Material 1

Galih Muridan
5 Sept 202318:57

Summary

TLDRThis video script delves into the world of corpus linguistics, explaining what a linguistic corpus is and its significance in studying language through large sets of data. It highlights the importance of analyzing extensive textual data to draw conclusions and hypotheses about language use. The script also touches on the ethical considerations of using data from the internet, emphasizing the need for legality and respect for copyright. It discusses the accessibility of data on platforms like social media and the World Wide Web, and how this abundance of information has made corpus linguistics more relevant. The video also suggests methods for obtaining text data for analysis, such as downloading from reputable sources or using transcriptions of audio and video. Lastly, it introduces basic corpus analysis techniques like word frequency analysis and addresses the challenges of dealing with variations in spelling and phrasing within textual data.

Takeaways

  • 📚 Corpus linguistics is a method for studying language through large collections of texts, known as corpora.
  • 🔍 The definition of a corpus is simply a source of data for research, often a collection of texts from specific authors or sources.
  • 🌐 The internet, particularly the World Wide Web, is a significant source of textual data for linguistic corpora.
  • 📈 Corpus linguistics tends to analyze large amounts of data to draw conclusions and new findings about language use.
  • 🚫 There are ethical considerations when using data from the internet, including ensuring that data sources are legal and respecting copyright.
  • 📝 Data from social media is often publicly available and can be used for research, but it's important to understand the terms of service and privacy settings.
  • 🔑 There are various ways to find and download text data for linguistic analysis, including using search engines, accessing free ebook platforms, and copying from websites.
  • 📊 A common analysis in corpus linguistics is to examine word frequency, which is a fundamental aspect of studying language patterns.
  • ✍️ Variations in writing, such as abbreviations and different spellings, must be considered when analyzing data in corpus linguistics.
  • 🤔 The accuracy and naturalness of internet data are important considerations for linguistic research, as well as the potential for data to be chaotic and unusable.
  • 🏢 There is debate over the use of internet data by companies for advertising and product improvement without explicit user consent.

Q & A

  • What is corpus linguistics?

    -Corpus linguistics is a method or procedure for studying linguistics. It involves analyzing language through a collection of texts or data, often referred to as a corpus, which can be specific to certain authors, sources, or fields of discourse.

  • What distinguishes corpus linguistics from other linguistic studies?

    -Corpus linguistics tends to analyze large amounts of textual data from a specific source, allowing for the identification of linguistic patterns and characteristics that might not be evident in smaller samples.

  • Why is the size of the corpus important in corpus linguistics?

    -A large corpus allows for more accurate and statistically significant analyses of language use, enabling researchers to draw conclusions and hypotheses about linguistic phenomena based on extensive textual data.

  • Can corpus linguistics be applied to non-textual data such as videos or audio recordings?

    -While corpus linguistics primarily focuses on textual data, it can also be applied to other forms of data like videos and audio recordings. However, these require additional processing, such as transcription, to be analyzed effectively.

  • How does the World Wide Web influence corpus linguistics?

    -The World Wide Web provides a vast source of textual data for linguistic analysis. The exponential growth of information online has made it an invaluable resource for corpus linguistics, offering extensive data for studying language use.

  • What are the ethical considerations when using data from the internet for linguistic research?

    -Researchers must ensure that they use data legally and ethically, respecting copyright laws and obtaining necessary permissions. They should also consider whether data is publicly available or if it's meant for personal use only.

  • How can one obtain textual data for corpus linguistics research?

    -Textual data can be obtained through various means such as downloading from online databases, accessing free e-books, copying from websites, or using social media platforms. It's crucial to ensure that the data is legally accessible and used appropriately.

  • What is the significance of analyzing the frequency of words in corpus linguistics?

    -Analyzing word frequency provides insights into common vocabulary usage and can reveal patterns in language that may not be apparent through casual observation. It's a fundamental aspect of corpus linguistics that helps in understanding language structure and usage.

  • How does the accuracy and naturalness of internet data impact linguistic research?

    -The accuracy and naturalness of internet data are crucial for reliable linguistic research. Researchers must ensure that the data represents authentic language use to draw valid conclusions about linguistic phenomena.

  • What are some challenges in using internet data for linguistic studies?

    -Challenges include ensuring data accuracy, dealing with the chaotic nature of internet data, and obtaining permission for its use. Additionally, researchers must be aware of potential biases and the representativeness of the data collected.

  • How can researchers ensure that the data they use for linguistic analysis is representative of language phenomena?

    -Researchers can ensure data representativeness by selecting diverse and large corpora, verifying the authenticity of the data, and considering the demographic and contextual factors of the data source.

Outlines

00:00

📚 Introduction to Corpus Linguistics

The paragraph introduces the concept of corpus linguistics, emphasizing that it is not a branch of linguistics but a method for studying language. A corpus is defined as a collection of texts used for linguistic research, which can be specific to an author or a certain field. The paragraph discusses the practicality of manually counting words and sentences in a short text, but highlights the impracticality of doing so with vast amounts of data. Corpus linguistics is presented as a way to analyze linguistic aspects within large datasets, allowing for conclusions and new findings about language. It also touches on the limitations of corpus linguistics, noting that it focuses on text data that can be processed by machines, unlike video or audio data which contain more information but require transcription before analysis.

05:02

🌐 The Role of the Internet in Corpus Linguistics

This paragraph discusses the relationship between the internet and the World Wide Web, explaining that while the internet is a technology for connecting devices, the World Wide Web is the means of accessing information through it. The paragraph highlights the exponential growth of information on the internet, particularly during the 'expansion of the World Wide Web', making it a rich source for linguistic research. It also addresses the ethical considerations of using internet data for research, emphasizing the importance of ensuring that data is obtained legally and with respect to copyright. The paragraph also mentions the public nature of social media data and its potential use by companies for various purposes, including advertising algorithms and product improvement.

10:04

🔍 Sourcing Data for Linguistic Research

The paragraph outlines various methods for obtaining text data for linguistic research, including copying from websites, accessing Wikipedia, and downloading from online sources. It mentions the ease of accessing such data and suggests using search engines like Google to find corpora and free e-books. The paragraph also advises on the legality of downloading data and the importance of using it for personal or research purposes rather than commercial use. It encourages saving sources for future reference and analysis using corpus linguistics methods.

15:06

📊 Analyzing Data in Corpus Linguistics

This paragraph delves into the basics of data analysis in corpus linguistics, starting with word frequency analysis. It explains the importance of defining what constitutes a 'word' in different languages and the challenges of handling multiword expressions and variations in spelling. The paragraph also discusses the need to preprocess data to account for these variations and ensure accurate analysis. It mentions that while word frequency analysis is fundamental, there are more complex linguistic aspects that can be analyzed using corpus linguistics tools. The paragraph concludes by posing questions about the accuracy and naturalness of internet data for linguistic analysis and the implications of data piracy and corporate use of personal data on the internet.

Mindmap

Keywords

💡Corpus Linguistics

Corpus Linguistics refers to the study of language through the analysis of large collections of text, known as corpora. It is a methodological approach within linguistics that focuses on empirical data. In the video, corpus linguistics is described as a way to analyze linguistic aspects within a corpus, which could be a collection of texts from specific authors or sources, or related to particular fields of study. The video emphasizes the importance of analyzing large amounts of data to draw conclusions and hypotheses about language.

💡Korpus

Korpus is the Indonesian word for 'corpus,' which in linguistics is a body of text that is used to conduct linguistic analysis. The script mentions that a corpus is a source of data for research, typically a collection of texts that are specific to certain authors, sources, or fields. The video explains that corpus linguistics involves studying and analyzing these collections to understand language patterns and characteristics.

💡Data

Data in the context of the video refers to the raw material used for linguistic analysis. It can include written texts, videos, audio recordings, and more. The video script discusses how data, particularly textual data, forms the basis for corpus linguistics. It also touches upon the challenges of analyzing vast amounts of data, such as the millions of articles available online.

💡Frekuensi Kata

Frekuensi Kata translates to 'word frequency' in English. It is a fundamental concept in corpus linguistics where the occurrence of words within a text or a corpus is analyzed. The video mentions that analyzing word frequency is a basic yet crucial aspect of corpus linguistics, allowing researchers to identify patterns and trends in language use.

💡World Wide Web

The World Wide Web, often abbreviated as the Web, is the information space where documents and other digital resources are identified by URLs (Uniform Resource Locators) and can be accessed through the Internet. The video script discusses the Web as a source of vast amounts of textual data for linguistic research, highlighting the exponential growth of information available online.

💡Ethics

Ethics in the video script pertains to the moral principles that guide the use of data, especially from the Internet. The video raises questions about the legality and morality of using data from the Web for research purposes, emphasizing the need for researchers to ensure they are obtaining data from legal and ethical sources.

💡Transkrip

Transkrip in Indonesian means 'transcription' in English. Transcription is the process of converting spoken language into written form. The video mentions that while video and audio data contain rich information beyond text, they require transcription to be analyzed in corpus linguistics, which is a time-consuming process.

💡Variasi Penulisan

Variasi Penulisan translates to 'variations in writing' or 'spelling variations.' The video discusses how words can be written differently yet still represent the same concept, such as abbreviations or different spellings of the same word. This concept is important in corpus linguistics as it affects how data is processed and analyzed.

💡Analisis

Analisis is the Indonesian word for 'analysis.' In the context of the video, it refers to the process of examining linguistic data to understand language structure, usage, and other linguistic phenomena. The video describes various types of analysis that can be conducted within corpus linguistics, such as word frequency analysis.

💡Pembajakan

Pembajakan translates to 'piracy' or 'copyright infringement.' The video script addresses the issue of piracy on the Internet, discussing the implications of accessing and using copyrighted material without payment or permission. It raises ethical questions about the use of such materials for research or personal use.

💡Media Sosial

Media Sosial translates to 'social media.' The video mentions social media as a source of publicly available data for linguistic research. It also discusses the terms of service associated with social media platforms, implying that data shared on these platforms can be used by others, including researchers and corporations.

Highlights

Corpus linguistics is a method for studying linguistics through large collections of texts.

A corpus is a collection of texts that can be specific to an author or source, or represent a certain field of discourse.

Corpus linguistics tends to analyze large amounts of text data to identify linguistic patterns and characteristics.

It's impractical to manually analyze large datasets such as thousands of web articles or books with hundreds of pages.

Corpus linguistics allows for the analysis of linguistic aspects within vast amounts of text data.

Corpus linguistics focuses on text data that can be managed or processed by data processing applications.

Video and audio recordings contain more information than text as they include voice, gestures, and intonation.

Transcribing video and audio data is a time-consuming process that requires significant effort.

The World Wide Web is a vast source of text data for linguistic research due to its expansive growth.

The expansion of the World Wide Web has led to a dramatic increase in the amount of information available online.

Ethical considerations must be taken into account when using internet data, ensuring legality and respecting copyright.

Social media platforms often have terms of service that allow for public use of posted content.

There are various ways to access and download text data from the internet for linguistic analysis.

Free ebook sources like Project Gutenberg and Oxford can be used to build a corpus for linguistic study.

Basic corpus analysis often starts with examining word frequency within a text.

Defining what constitutes a 'word' can vary by language and may include multiword expressions or compounds.

Data cleaning is necessary to account for variations in spelling and compound words.

Advanced corpus linguistic analysis can explore larger linguistic units and their identification within texts.

The accuracy and naturalness of internet data are important considerations for linguistic research.

The phenomenon of piracy on the internet affects various forms of digital content.

Companies often use internet data for advertising and product improvement without explicit user consent.

Transcripts

play00:00

[Musik]

play00:00

Mari pertama kita mulai dengan

play00:03

linguistik corpus atau korpus itu apa

play00:08

pertama-tama corpus linguistik itu bukan

play00:11

suatu cabang atau bidang yang

play00:15

mempelajari suatu aspek dalam linguistik

play00:18

korpus linguistik adalah salah satu

play00:21

metode atau prosedur untuk mempelajari

play00:25

linguistik definisi korpus itu sendiri

play00:28

sederhananya adalah

play00:30

sumber-sumber data untuk penelitian

play00:33

biasanya corpus adalah kumpulan teks

play00:35

Kumpulan data yang merupakan spesifik

play00:39

oleh penulis tertentu atau berasal dari

play00:41

sumber tertentu yang cukup spesifik atau

play00:44

merupakan suatu bahasan bidang-bidang

play00:47

tertentu

play00:48

perangkat dari definisi korpus tersebut

play00:51

maka korpus linguistik adalah

play00:55

mempelajari

play00:56

bahasa mempelajari linguistik

play00:59

menganalisis aspek-aspek linguistik yang

play01:02

ada dalam suatu korpus

play01:07

pembeda korpus linguistik dengan

play01:09

penelitian linguistik lain adalah korpus

play01:12

linguistik punya tendensi untuk

play01:14

menganalisis suatu korpus atau data yang

play01:17

sumbernya memiliki jumlah teks yang

play01:20

banyak

play01:22

seperti contoh Berikut kita lihat di

play01:24

sini ada paragraf

play01:26

kita bisa dengan mudah secara manual

play01:28

secara sekilas menghitung Ada berapa

play01:31

kalimat di dalam paragraf ini

play01:34

setelah itu kalau kita niat sedikit kita

play01:37

bisa menghitung ada berapa Kata di dalam

play01:39

kalimat tersebut dalam paragraf tersebut

play01:44

namun bayangkan apabila data ini

play01:48

ada sebanyak ini

play01:52

Berapa jumlah katanya Berapa jumlah

play01:54

kalimatnya Bagaimana kita bisa tahu

play01:58

karakteristik-karakteristik yang

play01:59

menonjol dari data dengan paragraf

play02:03

sebanyak ini

play02:04

ini baru satu halaman

play02:07

belum kita bertemu dengan data-data yang

play02:10

sebanyak satu buku yang berisi 500

play02:14

halaman atau bertemu dengan data

play02:18

artikel online

play02:22

dari 5 tahun terakhir

play02:25

setiap bulan ada 5 artikel setiap tahun

play02:29

ada ribuan artikel

play02:31

ada berarti ada total 56 ribuan artikel

play02:34

yang mau kita teliti

play02:37

tidak mungkin kita mengajak mereka semua

play02:39

satu persatu corpus linguistik adalah

play02:42

salah satu metode untuk menganalisis

play02:45

aspek-aspek linguistik yang bisa kita

play02:47

temukan dalam jumlah data yang besar

play02:50

seperti ini

play02:52

sehingga kita bisa mengambil kesimpulan

play02:54

hipotesis atau

play02:56

temuan-temuan baru terkait bahasa yang

play03:00

kita

play03:00

analisis dalam suatu badan teks yang

play03:04

sangat banyak seperti ini

play03:08

namun harus kita ingat bahwa ada

play03:11

beberapa jenis data teks hanyalah salah

play03:14

satu data

play03:15

ada beberapa jenis data yang lain

play03:18

seperti video atau rekaman suara

play03:23

tentu saja video dan rekaman suara

play03:25

memiliki informasi yang lebih banyak

play03:27

dibanding teks karena tidak hanya teks

play03:30

video juga memiliki suara memiliki

play03:33

gesture memiliki gerakan-gerakan dari

play03:37

orang yang melakukan atau

play03:40

mengkomunikasikan sesuatu

play03:43

dan rekaman juga bisa melihat

play03:46

nada melihat intonasi kecepatan

play03:49

berbicara dan semacamnya

play03:53

rekaman suara juga bisa digunakan untuk

play03:55

analisis fonologi

play03:58

karena

play03:59

apa yang ada di teks itu belum tentu ada

play04:02

informasi bunyi

play04:05

namun

play04:06

korpus linguistik fokus pada data atau

play04:10

corpus yang dapat dikelola atau diproses

play04:14

oleh mesin mesin yang saya maksud adalah

play04:18

aplikasi-aplikasi pengolahan data

play04:21

aplikasi-aplikasi pengolahan data ini

play04:23

masih fokus pada teks saja jadi

play04:28

data-data video dan rekaman itu belum

play04:31

bisa dipakai apabila belum dilakukan

play04:34

proses terlebih dahulu oleh kita seperti

play04:39

contohnya adalah melakukan transkrip

play04:41

namun yang kita tahu pasti transkrip itu

play04:45

tidak mudah memakan waktu lama

play04:49

maka tenaga yang banyak juga oleh karena

play04:51

itu untuk linguistik pada kali ini kita

play04:55

fokus pada data-data teks yang sudah ada

play04:58

yang bisa digunakan oleh kita untuk

play05:02

melakukan analisis

play05:06

dalam pembahasan linguistik corpus dan

play05:09

dalam pembahasan data kita tidak akan

play05:11

terhindar dengan bahasa internet atau

play05:15

World Wide Web

play05:18

internet sangat dikaitkan dengan World

play05:21

Wide Web internet itu sendiri adalah

play05:24

sarana teknologi yang digunakan untuk

play05:27

menghubungkan perangkat ke perangkat

play05:29

lain sementara World Wide Web itu

play05:32

sendiri adalah cara kita untuk mengakses

play05:35

informasi menggunakan internet Oleh

play05:38

karena itu

play05:39

informasi-informasi yang kita bisa lihat

play05:41

teks website media sosial bahkan

play05:44

semuanya itu merupakan bagian dari World

play05:48

Wide Web yang diakses melalui internet

play05:50

begitu

play05:53

ada istilah juga di expansion of World

play05:56

Wide Web ini adalah salah satu periode

play05:59

waktu dalam suatu

play06:02

saat dimana jumlah website atau jumlah

play06:06

informasi yang ada di internet itu

play06:09

meningkat drastis dari yang hanya

play06:11

sedikit sampai mendunia karena semua

play06:14

orang bisa mengakses internet

play06:19

karena ada di expansion of World Wide

play06:23

Web ini informasi atau teks yang ada di

play06:27

internet itu sangat banyak dan bisa

play06:29

diakses oleh banyak orang

play06:32

sehingga membuat penelitian linguistik

play06:34

penelitian bahasa menjadi memiliki

play06:38

banyak sumber untuk memahami

play06:41

tuturan-tuturan dan kata-kata yang ada

play06:46

Oleh karena itu korpus linguistik

play06:49

dimulai bisa dibilang dimulai dan

play06:52

menjadi lebih penting

play06:53

sejak ada informasi yang meningkat

play06:57

secara drastis di internet atau di world

play07:01

wide

play07:02

sekarang kita lihat isu etis menggunakan

play07:05

data di internet seperti yang kita tahu

play07:08

data di internet itu juga tidak semuanya

play07:10

legal seperti halnya buku cetak Ibu juga

play07:14

sebenarnya banyak yang berbayar

play07:16

entah dibayar melalui sistem

play07:19

subscription atau membeli satuan kita

play07:22

bisa melihat banyak sekali tokoh-tokoh

play07:24

di internet yang menjual Ibu research

play07:26

dan semacamnya

play07:28

ada juga yang menyediakan Ibu secara

play07:30

gratis entah itu legal ataupun ilegal di

play07:35

sini adalah tugas kita pertama sebagai

play07:38

orang yang menggunakan data dari

play07:39

internet untuk memastikan bahwa tempat

play07:42

kita mengambil atau mengunduh data

play07:44

tersebut adalah tempat yang legal atau

play07:46

tempat mengunduh itu memiliki disklaimer

play07:50

atau informasi terkait copyright

play07:54

teks tersebut Apakah boleh Apakah boleh

play07:57

dengan persyaratan tertentu atau boleh

play08:01

tapi tidak boleh untuk komersial atau

play08:05

tidak boleh sama sekali hanya boleh

play08:08

diunduh untuk kebutuhan personal itu

play08:11

harus kita perhatikan

play08:12

[Musik]

play08:14

kemudian terkait data yang ada di media

play08:17

sosial itu sebenarnya sudah dapat secara

play08:20

publik biasanya data yang sudah

play08:23

di-upload pada media sosial itu sudah

play08:26

memenuhi terus of agreement menggunakan

play08:29

sosial media tersebut bahwa semua yang

play08:31

kita posting semua yang kita publikasi

play08:34

melalui media sosial pribadi atau tidak

play08:36

selama media sosial kita tidak private

play08:39

itu terbuka secara publik jadi semua

play08:42

orang bisa menggunakannya

play08:45

entah itu untuk sekedar kepo-kepo saja

play08:49

mencari tahu misalkan ada teman yang mau

play08:50

lihat

play08:51

atau orang lain yang mau tahu profil

play08:55

kita

play08:56

pribadi kita kesibukan kita kalau kita

play08:59

sudah membagikan itu ke internet itu

play09:02

sudah milik publik bisa digunakan oleh

play09:04

siapapun bisa dilihat oleh siapapun

play09:07

begitu juga digunakan oleh

play09:09

perusahaan-perusahaan besar untuk

play09:13

berbagai macam hal entah itu untuk

play09:15

mencari algoritma iklan atau

play09:18

mengimprovisasi data mereka

play09:20

mengimprovisasi produk mereka mencari

play09:23

review-review terkait masalah-masalah

play09:25

yang muncul padahal hal-hal yang mereka

play09:28

jual produk-produk mereka itu seringkali

play09:31

banyak perusahaan yang menggunakan data

play09:33

di internet dan

play09:35

menjadikannya sebagai corpus untuk

play09:37

penelitian mungkin tidak selalu

play09:40

penelitian linguistik tapi yang pasti

play09:43

data kita di internet itu digunakan oleh

play09:46

banyak pihak

play09:50

Lalu bagaimana kita mau mencari data

play09:52

kalau seperti itu banyak cara untuk

play09:54

mencari data

play09:56

mengunduh data teks begitu saja klik

play09:59

download gitu

play10:01

atau copy paste data dari suatu website

play10:04

artikel tertentu dari platform berita

play10:06

tertentu juga bisa dengan mengakses

play10:08

data-data tersebut kita copas kita pilih

play10:11

bagian-bagian yang mau kita ambil itu

play10:13

juga bisa kita Buka Wikipedia kita copas

play10:16

semua yang ada di Wikipedia tersebut

play10:18

juga bisa itu sangat mudah Namun kita

play10:21

juga bisa mendownload mencari tempat

play10:24

sumber-sumber korpus yang sudah tersedia

play10:26

di internet kalian bisa mencoba contoh

play10:29

ya menggunakan Google mencari beberapa

play10:32

kosakata tersebut Contoh pertama seperti

play10:34

melakukan corpus download begitu saya

play10:37

cukup akan muncul beberapa contoh yang

play10:40

bisa kita ambil atau karena kita

play10:44

fokus ke bahasa Prancis cari saja French

play10:47

corpus di Google pasti muncul beberapa

play10:50

gitu kita gunakan saja Google kita saya

play10:53

gunakan saja cara yang mudah dengan

play10:55

search begitu saja dengan kata kunci

play10:56

seperti korpus data teks File atau

play11:01

semacamnya Dan itu biasanya banyak

play11:03

tempat-tempat yang menyediakan

play11:07

beberapa website free ebook juga bisa

play11:09

kita akses

play11:11

dari saya ada contoh alat yang gutenberg

play11:14

ada Oxford ada juga teks request tapi

play11:18

rekan-rekan juga bisa mencari di Twitter

play11:20

mungkin ya Twitter atau dari postingan

play11:24

Facebook atau dari Story orang atau dari

play11:28

jarcoman broadcast WhatsApp gitu ya yang

play11:32

data gitu daftar tempat download ebook

play11:36

legal itu juga bisa yang pasti

play11:39

pada masa sekarang banyak sekali

play11:41

cara-cara untuk mengakses data

play11:43

mendownload mendownload hal seperti ini

play11:45

terlepas legal atau tidak Itu PR kita

play11:48

untuk mencari tapi yang pasti

play11:49

rekan-rekan bisa melakukan hal tersebut

play11:51

jadi apabila ada pernah lewat

play11:55

seperti itu utas-utas yang membahas free

play11:58

ebook untuk skripsi atau untuk

play12:01

penelitian ya atau tempat mencari

play12:04

paper-paper yang public gitu ya itu

play12:07

teman-teman sudah saatnya untuk men-save

play12:11

mungkin ya dijadikan

play12:14

sumber-sumber data tidak hanya untuk

play12:16

kapan-kapan saya baca saja tapi

play12:18

kapan-kapan saya analisis menggunakan

play12:21

linguistik corpus gitu

play12:26

terakhir saya akan menunjukkan beberapa

play12:28

contoh analisis yang bisa dilakukan

play12:31

dalam

play12:32

linguistik corpus biasanya analisis yang

play12:35

paling umum dan paling banyak bahasanya

play12:38

adalah melihat frekuensi kata

play12:41

analisis frekuensi kata adalah salah

play12:43

satu analisis yang paling mendasar dalam

play12:45

penelitian korpus linguistik tetapi ada

play12:49

masih ada banyak lagi hal yang bisa

play12:51

dilakukan dalam korupsi linguistik kita

play12:54

mulai dari hal yang paling basic dulu

play12:55

yaitu adalah mencari atau menganalisis

play12:58

frekuensi kata

play13:02

Namun pertama-tama kita harus bisa

play13:04

mendefinisikan Apa itu kata dalam setiap

play13:08

bahasa bisa jadi ada definisi yang

play13:10

berbeda untuk kata ada composition

play13:13

mungkin ada multiword ada kata majemuk

play13:16

itu kita harus cari tahu untuk setiap

play13:18

bahasa tapi yang pasti Dalam penelitian

play13:22

korpus linguistik dalam pengolahan data

play13:24

yang akan kita lakukan selama kuliah hal

play13:27

yang paling mudah untuk mengidentifikasi

play13:29

suatu kata adalah data yang dipisah oleh

play13:33

dua spasi seperti ini

play13:36

jadi Apit dua spasi dia tidak menempel

play13:39

dengan apapun oleh karena ini oleh

play13:41

karena itu data ini bisa dianggap

play13:43

sebagai satu kata

play13:48

pertanyaan berikutnya nanti kalau kata

play13:50

majemuk Bagaimana kalau kata yang

play13:52

terpisah bagaimana itu adalah PR kita

play13:56

untuk melakukan analisis dan mencari dan

play13:58

memperbaiki data

play14:00

terkadang dalam data juga ada variasi

play14:03

penulisan ya

play14:05

terutama untuk kata-kata yang unik

play14:08

seperti contoh dalam bahasa Inggris

play14:11

not ini bisa disingkat menjadi seperti

play14:14

ini

play14:16

Ar bisa disingkat menjadi seperti ini

play14:20

Apabila ini terjadi kata-kata tersebut

play14:25

akan dianggap sebagai satu kata tidak 2

play14:27

kata lagi not dan ART tidak akan

play14:30

terdeteksi oleh data tidak akan

play14:33

terdeteksi sebagai satu kata kita harus

play14:35

menganalisis dengan cara yang

play14:38

[Musik]

play14:40

ini baru membahas kata kemudian ada juga

play14:43

variasi penulisan dalam contoh bahasa

play14:45

Inggris ada however How ever ada variasi

play14:49

yang lain

play14:51

ini di luar hawaiver penulisan yang

play14:53

tepat Seperti apa karena kita memiliki

play14:55

variasi data

play14:57

kita tidak selalu menganalisis data yang

play15:00

formal Terkadang ada How ever yang

play15:03

muncul seperti ini dipisah oleh spasi

play15:06

atau however yang dipisah oleh Nanda

play15:10

strip seperti ini

play15:12

atau kita lihat contoh lain ice cream

play15:15

ice cream kalau kita cara menggunakan

play15:17

frekuensi dia hanya akan muncul sebagai

play15:21

tidak akan satu kesatuan ice cream kalau

play15:24

mau dicari dengan kesatuan harus

play15:27

diolah dengan cara yang berbeda

play15:30

nah ice cream ini pun bisa memiliki

play15:34

variasi yang lain Ice strip cream atau

play15:38

ice cream begitu saja tanpa spasi

play15:42

untuk analisis kata saja ada beberapa

play15:46

hal yang masih kita perlu perhatikan

play15:49

namun ini baru yang basic nanti lebih

play15:52

jauh kita akan menganalisis berbagai

play15:54

macam aspek-aspek lain satuan-satuan

play15:58

linguistik lain yang lebih besar dan

play16:00

bagaimana mencarinya Bagaimana

play16:02

mengidentifikasinya dengan aplikasi yang

play16:05

nanti akan kita pakai

play16:09

video ini hanyalah video pertama yang

play16:11

merupakan pembahasan dasar-dasar dalam

play16:15

penelitian korpus linguistik dan

play16:17

bagaimana kita melihat data bahwa tidak

play16:20

sesederhana mendownload lalu kita

play16:22

gunakan kita harus memperhatikan banyak

play16:24

hal namun memang ada banyak teknis yang

play16:26

belum dibahas dalam video ini

play16:28

tapi sebelum ke sana ada beberapa hal

play16:31

yang saya ingin diskusikan dengan

play16:33

rekan-rekan sekalian ada dua hal pertama

play16:36

terkait data di internet itu karena kita

play16:40

akan menggunakan data internet Menurut

play16:42

kalian apakah data di internet itu

play16:44

akurat dan Natural

play16:48

Apakah ada kekhawatiran bahwa data yang

play16:51

ada di internet itu berantakan dan tidak

play16:53

bisa dipakai

play16:55

Menurut kalian Bagaimana memastikan data

play16:58

tersebut sebagai data yang akurat dan

play17:00

dapat merepresentasikan fenomena bahasa

play17:04

Menurut kalian

play17:05

apa Data yang tepat dan akurat yang bisa

play17:10

digunakan untuk

play17:11

menganalisis bahasa Apakah kalian

play17:15

memiliki kriteria

play17:18

Dari mana kalian bisa mempertimbangkan

play17:20

kriteria tersebut silahkan didiskusikan

play17:24

2 Bagaimana pendapat kalian terkait satu

play17:28

fenomena pembajakan di internet ini

play17:30

tidak tertutup pada ibu saja tapi juga

play17:33

film lagu dan sebagainya

play17:36

Karena sekarang banyak sekali cara kita

play17:39

untuk mengakses hiburan pendidikan

play17:43

apapun itu di internet tanpa membayar

play17:46

padahal seharusnya itu bayar

play17:50

banyak caranya Menurut kalian

play17:53

Apa pendapatmu seperti itu apakah ini

play17:56

hal yang baik apakah ini hal yang buruk

play17:58

baik menurut siapa buruk menurut siapa

play18:00

silahkan dibahas

play18:03

kemudian pendapat kalian terkait

play18:05

perusahaan yang memanfaatkan data

play18:07

orang-orang di internet tanpa izin untuk

play18:10

iklan improvisasi produk dan sebagainya

play18:13

mungkin mereka bisa mengaku bahwa mereka

play18:16

menggunakan data tersebut dengan izin

play18:19

karena ada terus observice ketika kita

play18:21

login atau membuat akun media sosial

play18:25

tapi banyak juga yang tidak sadar

play18:27

terhadap hal tersebut

play18:29

Bagaimana menurut kalian apakah ini hal

play18:31

yang diperbolehkan apakah yang

play18:33

disalahkan itu bukan perusahaan tapi

play18:35

orang-orang yang menggunakannya silahkan

play18:37

dibahas

play18:43

[Musik]

Rate This

5.0 / 5 (0 votes)

Ähnliche Tags
LinguisticsCorpus AnalysisInternet DataEthicsDigital ResearchText AnalysisLanguage StudyData CollectionOnline PrivacyCopyright Issues
Benötigen Sie eine Zusammenfassung auf Englisch?