Linguistik Digital - Video Material 1
Summary
TLDRThis video script delves into the world of corpus linguistics, explaining what a linguistic corpus is and its significance in studying language through large sets of data. It highlights the importance of analyzing extensive textual data to draw conclusions and hypotheses about language use. The script also touches on the ethical considerations of using data from the internet, emphasizing the need for legality and respect for copyright. It discusses the accessibility of data on platforms like social media and the World Wide Web, and how this abundance of information has made corpus linguistics more relevant. The video also suggests methods for obtaining text data for analysis, such as downloading from reputable sources or using transcriptions of audio and video. Lastly, it introduces basic corpus analysis techniques like word frequency analysis and addresses the challenges of dealing with variations in spelling and phrasing within textual data.
Takeaways
- 📚 Corpus linguistics is a method for studying language through large collections of texts, known as corpora.
- 🔍 The definition of a corpus is simply a source of data for research, often a collection of texts from specific authors or sources.
- 🌐 The internet, particularly the World Wide Web, is a significant source of textual data for linguistic corpora.
- 📈 Corpus linguistics tends to analyze large amounts of data to draw conclusions and new findings about language use.
- 🚫 There are ethical considerations when using data from the internet, including ensuring that data sources are legal and respecting copyright.
- 📝 Data from social media is often publicly available and can be used for research, but it's important to understand the terms of service and privacy settings.
- 🔑 There are various ways to find and download text data for linguistic analysis, including using search engines, accessing free ebook platforms, and copying from websites.
- 📊 A common analysis in corpus linguistics is to examine word frequency, which is a fundamental aspect of studying language patterns.
- ✍️ Variations in writing, such as abbreviations and different spellings, must be considered when analyzing data in corpus linguistics.
- 🤔 The accuracy and naturalness of internet data are important considerations for linguistic research, as well as the potential for data to be chaotic and unusable.
- 🏢 There is debate over the use of internet data by companies for advertising and product improvement without explicit user consent.
Q & A
What is corpus linguistics?
-Corpus linguistics is a method or procedure for studying linguistics. It involves analyzing language through a collection of texts or data, often referred to as a corpus, which can be specific to certain authors, sources, or fields of discourse.
What distinguishes corpus linguistics from other linguistic studies?
-Corpus linguistics tends to analyze large amounts of textual data from a specific source, allowing for the identification of linguistic patterns and characteristics that might not be evident in smaller samples.
Why is the size of the corpus important in corpus linguistics?
-A large corpus allows for more accurate and statistically significant analyses of language use, enabling researchers to draw conclusions and hypotheses about linguistic phenomena based on extensive textual data.
Can corpus linguistics be applied to non-textual data such as videos or audio recordings?
-While corpus linguistics primarily focuses on textual data, it can also be applied to other forms of data like videos and audio recordings. However, these require additional processing, such as transcription, to be analyzed effectively.
How does the World Wide Web influence corpus linguistics?
-The World Wide Web provides a vast source of textual data for linguistic analysis. The exponential growth of information online has made it an invaluable resource for corpus linguistics, offering extensive data for studying language use.
What are the ethical considerations when using data from the internet for linguistic research?
-Researchers must ensure that they use data legally and ethically, respecting copyright laws and obtaining necessary permissions. They should also consider whether data is publicly available or if it's meant for personal use only.
How can one obtain textual data for corpus linguistics research?
-Textual data can be obtained through various means such as downloading from online databases, accessing free e-books, copying from websites, or using social media platforms. It's crucial to ensure that the data is legally accessible and used appropriately.
What is the significance of analyzing the frequency of words in corpus linguistics?
-Analyzing word frequency provides insights into common vocabulary usage and can reveal patterns in language that may not be apparent through casual observation. It's a fundamental aspect of corpus linguistics that helps in understanding language structure and usage.
How does the accuracy and naturalness of internet data impact linguistic research?
-The accuracy and naturalness of internet data are crucial for reliable linguistic research. Researchers must ensure that the data represents authentic language use to draw valid conclusions about linguistic phenomena.
What are some challenges in using internet data for linguistic studies?
-Challenges include ensuring data accuracy, dealing with the chaotic nature of internet data, and obtaining permission for its use. Additionally, researchers must be aware of potential biases and the representativeness of the data collected.
How can researchers ensure that the data they use for linguistic analysis is representative of language phenomena?
-Researchers can ensure data representativeness by selecting diverse and large corpora, verifying the authenticity of the data, and considering the demographic and contextual factors of the data source.
Outlines
📚 Introduction to Corpus Linguistics
The paragraph introduces the concept of corpus linguistics, emphasizing that it is not a branch of linguistics but a method for studying language. A corpus is defined as a collection of texts used for linguistic research, which can be specific to an author or a certain field. The paragraph discusses the practicality of manually counting words and sentences in a short text, but highlights the impracticality of doing so with vast amounts of data. Corpus linguistics is presented as a way to analyze linguistic aspects within large datasets, allowing for conclusions and new findings about language. It also touches on the limitations of corpus linguistics, noting that it focuses on text data that can be processed by machines, unlike video or audio data which contain more information but require transcription before analysis.
🌐 The Role of the Internet in Corpus Linguistics
This paragraph discusses the relationship between the internet and the World Wide Web, explaining that while the internet is a technology for connecting devices, the World Wide Web is the means of accessing information through it. The paragraph highlights the exponential growth of information on the internet, particularly during the 'expansion of the World Wide Web', making it a rich source for linguistic research. It also addresses the ethical considerations of using internet data for research, emphasizing the importance of ensuring that data is obtained legally and with respect to copyright. The paragraph also mentions the public nature of social media data and its potential use by companies for various purposes, including advertising algorithms and product improvement.
🔍 Sourcing Data for Linguistic Research
The paragraph outlines various methods for obtaining text data for linguistic research, including copying from websites, accessing Wikipedia, and downloading from online sources. It mentions the ease of accessing such data and suggests using search engines like Google to find corpora and free e-books. The paragraph also advises on the legality of downloading data and the importance of using it for personal or research purposes rather than commercial use. It encourages saving sources for future reference and analysis using corpus linguistics methods.
📊 Analyzing Data in Corpus Linguistics
This paragraph delves into the basics of data analysis in corpus linguistics, starting with word frequency analysis. It explains the importance of defining what constitutes a 'word' in different languages and the challenges of handling multiword expressions and variations in spelling. The paragraph also discusses the need to preprocess data to account for these variations and ensure accurate analysis. It mentions that while word frequency analysis is fundamental, there are more complex linguistic aspects that can be analyzed using corpus linguistics tools. The paragraph concludes by posing questions about the accuracy and naturalness of internet data for linguistic analysis and the implications of data piracy and corporate use of personal data on the internet.
Mindmap
Keywords
💡Corpus Linguistics
💡Korpus
💡Data
💡Frekuensi Kata
💡World Wide Web
💡Ethics
💡Transkrip
💡Variasi Penulisan
💡Analisis
💡Pembajakan
💡Media Sosial
Highlights
Corpus linguistics is a method for studying linguistics through large collections of texts.
A corpus is a collection of texts that can be specific to an author or source, or represent a certain field of discourse.
Corpus linguistics tends to analyze large amounts of text data to identify linguistic patterns and characteristics.
It's impractical to manually analyze large datasets such as thousands of web articles or books with hundreds of pages.
Corpus linguistics allows for the analysis of linguistic aspects within vast amounts of text data.
Corpus linguistics focuses on text data that can be managed or processed by data processing applications.
Video and audio recordings contain more information than text as they include voice, gestures, and intonation.
Transcribing video and audio data is a time-consuming process that requires significant effort.
The World Wide Web is a vast source of text data for linguistic research due to its expansive growth.
The expansion of the World Wide Web has led to a dramatic increase in the amount of information available online.
Ethical considerations must be taken into account when using internet data, ensuring legality and respecting copyright.
Social media platforms often have terms of service that allow for public use of posted content.
There are various ways to access and download text data from the internet for linguistic analysis.
Free ebook sources like Project Gutenberg and Oxford can be used to build a corpus for linguistic study.
Basic corpus analysis often starts with examining word frequency within a text.
Defining what constitutes a 'word' can vary by language and may include multiword expressions or compounds.
Data cleaning is necessary to account for variations in spelling and compound words.
Advanced corpus linguistic analysis can explore larger linguistic units and their identification within texts.
The accuracy and naturalness of internet data are important considerations for linguistic research.
The phenomenon of piracy on the internet affects various forms of digital content.
Companies often use internet data for advertising and product improvement without explicit user consent.
Transcripts
[Musik]
Mari pertama kita mulai dengan
linguistik corpus atau korpus itu apa
pertama-tama corpus linguistik itu bukan
suatu cabang atau bidang yang
mempelajari suatu aspek dalam linguistik
korpus linguistik adalah salah satu
metode atau prosedur untuk mempelajari
linguistik definisi korpus itu sendiri
sederhananya adalah
sumber-sumber data untuk penelitian
biasanya corpus adalah kumpulan teks
Kumpulan data yang merupakan spesifik
oleh penulis tertentu atau berasal dari
sumber tertentu yang cukup spesifik atau
merupakan suatu bahasan bidang-bidang
tertentu
perangkat dari definisi korpus tersebut
maka korpus linguistik adalah
mempelajari
bahasa mempelajari linguistik
menganalisis aspek-aspek linguistik yang
ada dalam suatu korpus
pembeda korpus linguistik dengan
penelitian linguistik lain adalah korpus
linguistik punya tendensi untuk
menganalisis suatu korpus atau data yang
sumbernya memiliki jumlah teks yang
banyak
seperti contoh Berikut kita lihat di
sini ada paragraf
kita bisa dengan mudah secara manual
secara sekilas menghitung Ada berapa
kalimat di dalam paragraf ini
setelah itu kalau kita niat sedikit kita
bisa menghitung ada berapa Kata di dalam
kalimat tersebut dalam paragraf tersebut
namun bayangkan apabila data ini
ada sebanyak ini
Berapa jumlah katanya Berapa jumlah
kalimatnya Bagaimana kita bisa tahu
karakteristik-karakteristik yang
menonjol dari data dengan paragraf
sebanyak ini
ini baru satu halaman
belum kita bertemu dengan data-data yang
sebanyak satu buku yang berisi 500
halaman atau bertemu dengan data
artikel online
dari 5 tahun terakhir
setiap bulan ada 5 artikel setiap tahun
ada ribuan artikel
ada berarti ada total 56 ribuan artikel
yang mau kita teliti
tidak mungkin kita mengajak mereka semua
satu persatu corpus linguistik adalah
salah satu metode untuk menganalisis
aspek-aspek linguistik yang bisa kita
temukan dalam jumlah data yang besar
seperti ini
sehingga kita bisa mengambil kesimpulan
hipotesis atau
temuan-temuan baru terkait bahasa yang
kita
analisis dalam suatu badan teks yang
sangat banyak seperti ini
namun harus kita ingat bahwa ada
beberapa jenis data teks hanyalah salah
satu data
ada beberapa jenis data yang lain
seperti video atau rekaman suara
tentu saja video dan rekaman suara
memiliki informasi yang lebih banyak
dibanding teks karena tidak hanya teks
video juga memiliki suara memiliki
gesture memiliki gerakan-gerakan dari
orang yang melakukan atau
mengkomunikasikan sesuatu
dan rekaman juga bisa melihat
nada melihat intonasi kecepatan
berbicara dan semacamnya
rekaman suara juga bisa digunakan untuk
analisis fonologi
karena
apa yang ada di teks itu belum tentu ada
informasi bunyi
namun
korpus linguistik fokus pada data atau
corpus yang dapat dikelola atau diproses
oleh mesin mesin yang saya maksud adalah
aplikasi-aplikasi pengolahan data
aplikasi-aplikasi pengolahan data ini
masih fokus pada teks saja jadi
data-data video dan rekaman itu belum
bisa dipakai apabila belum dilakukan
proses terlebih dahulu oleh kita seperti
contohnya adalah melakukan transkrip
namun yang kita tahu pasti transkrip itu
tidak mudah memakan waktu lama
maka tenaga yang banyak juga oleh karena
itu untuk linguistik pada kali ini kita
fokus pada data-data teks yang sudah ada
yang bisa digunakan oleh kita untuk
melakukan analisis
dalam pembahasan linguistik corpus dan
dalam pembahasan data kita tidak akan
terhindar dengan bahasa internet atau
World Wide Web
internet sangat dikaitkan dengan World
Wide Web internet itu sendiri adalah
sarana teknologi yang digunakan untuk
menghubungkan perangkat ke perangkat
lain sementara World Wide Web itu
sendiri adalah cara kita untuk mengakses
informasi menggunakan internet Oleh
karena itu
informasi-informasi yang kita bisa lihat
teks website media sosial bahkan
semuanya itu merupakan bagian dari World
Wide Web yang diakses melalui internet
begitu
ada istilah juga di expansion of World
Wide Web ini adalah salah satu periode
waktu dalam suatu
saat dimana jumlah website atau jumlah
informasi yang ada di internet itu
meningkat drastis dari yang hanya
sedikit sampai mendunia karena semua
orang bisa mengakses internet
karena ada di expansion of World Wide
Web ini informasi atau teks yang ada di
internet itu sangat banyak dan bisa
diakses oleh banyak orang
sehingga membuat penelitian linguistik
penelitian bahasa menjadi memiliki
banyak sumber untuk memahami
tuturan-tuturan dan kata-kata yang ada
Oleh karena itu korpus linguistik
dimulai bisa dibilang dimulai dan
menjadi lebih penting
sejak ada informasi yang meningkat
secara drastis di internet atau di world
wide
sekarang kita lihat isu etis menggunakan
data di internet seperti yang kita tahu
data di internet itu juga tidak semuanya
legal seperti halnya buku cetak Ibu juga
sebenarnya banyak yang berbayar
entah dibayar melalui sistem
subscription atau membeli satuan kita
bisa melihat banyak sekali tokoh-tokoh
di internet yang menjual Ibu research
dan semacamnya
ada juga yang menyediakan Ibu secara
gratis entah itu legal ataupun ilegal di
sini adalah tugas kita pertama sebagai
orang yang menggunakan data dari
internet untuk memastikan bahwa tempat
kita mengambil atau mengunduh data
tersebut adalah tempat yang legal atau
tempat mengunduh itu memiliki disklaimer
atau informasi terkait copyright
teks tersebut Apakah boleh Apakah boleh
dengan persyaratan tertentu atau boleh
tapi tidak boleh untuk komersial atau
tidak boleh sama sekali hanya boleh
diunduh untuk kebutuhan personal itu
harus kita perhatikan
[Musik]
kemudian terkait data yang ada di media
sosial itu sebenarnya sudah dapat secara
publik biasanya data yang sudah
di-upload pada media sosial itu sudah
memenuhi terus of agreement menggunakan
sosial media tersebut bahwa semua yang
kita posting semua yang kita publikasi
melalui media sosial pribadi atau tidak
selama media sosial kita tidak private
itu terbuka secara publik jadi semua
orang bisa menggunakannya
entah itu untuk sekedar kepo-kepo saja
mencari tahu misalkan ada teman yang mau
lihat
atau orang lain yang mau tahu profil
kita
pribadi kita kesibukan kita kalau kita
sudah membagikan itu ke internet itu
sudah milik publik bisa digunakan oleh
siapapun bisa dilihat oleh siapapun
begitu juga digunakan oleh
perusahaan-perusahaan besar untuk
berbagai macam hal entah itu untuk
mencari algoritma iklan atau
mengimprovisasi data mereka
mengimprovisasi produk mereka mencari
review-review terkait masalah-masalah
yang muncul padahal hal-hal yang mereka
jual produk-produk mereka itu seringkali
banyak perusahaan yang menggunakan data
di internet dan
menjadikannya sebagai corpus untuk
penelitian mungkin tidak selalu
penelitian linguistik tapi yang pasti
data kita di internet itu digunakan oleh
banyak pihak
Lalu bagaimana kita mau mencari data
kalau seperti itu banyak cara untuk
mencari data
mengunduh data teks begitu saja klik
download gitu
atau copy paste data dari suatu website
artikel tertentu dari platform berita
tertentu juga bisa dengan mengakses
data-data tersebut kita copas kita pilih
bagian-bagian yang mau kita ambil itu
juga bisa kita Buka Wikipedia kita copas
semua yang ada di Wikipedia tersebut
juga bisa itu sangat mudah Namun kita
juga bisa mendownload mencari tempat
sumber-sumber korpus yang sudah tersedia
di internet kalian bisa mencoba contoh
ya menggunakan Google mencari beberapa
kosakata tersebut Contoh pertama seperti
melakukan corpus download begitu saya
cukup akan muncul beberapa contoh yang
bisa kita ambil atau karena kita
fokus ke bahasa Prancis cari saja French
corpus di Google pasti muncul beberapa
gitu kita gunakan saja Google kita saya
gunakan saja cara yang mudah dengan
search begitu saja dengan kata kunci
seperti korpus data teks File atau
semacamnya Dan itu biasanya banyak
tempat-tempat yang menyediakan
beberapa website free ebook juga bisa
kita akses
dari saya ada contoh alat yang gutenberg
ada Oxford ada juga teks request tapi
rekan-rekan juga bisa mencari di Twitter
mungkin ya Twitter atau dari postingan
Facebook atau dari Story orang atau dari
jarcoman broadcast WhatsApp gitu ya yang
data gitu daftar tempat download ebook
legal itu juga bisa yang pasti
pada masa sekarang banyak sekali
cara-cara untuk mengakses data
mendownload mendownload hal seperti ini
terlepas legal atau tidak Itu PR kita
untuk mencari tapi yang pasti
rekan-rekan bisa melakukan hal tersebut
jadi apabila ada pernah lewat
seperti itu utas-utas yang membahas free
ebook untuk skripsi atau untuk
penelitian ya atau tempat mencari
paper-paper yang public gitu ya itu
teman-teman sudah saatnya untuk men-save
mungkin ya dijadikan
sumber-sumber data tidak hanya untuk
kapan-kapan saya baca saja tapi
kapan-kapan saya analisis menggunakan
linguistik corpus gitu
terakhir saya akan menunjukkan beberapa
contoh analisis yang bisa dilakukan
dalam
linguistik corpus biasanya analisis yang
paling umum dan paling banyak bahasanya
adalah melihat frekuensi kata
analisis frekuensi kata adalah salah
satu analisis yang paling mendasar dalam
penelitian korpus linguistik tetapi ada
masih ada banyak lagi hal yang bisa
dilakukan dalam korupsi linguistik kita
mulai dari hal yang paling basic dulu
yaitu adalah mencari atau menganalisis
frekuensi kata
Namun pertama-tama kita harus bisa
mendefinisikan Apa itu kata dalam setiap
bahasa bisa jadi ada definisi yang
berbeda untuk kata ada composition
mungkin ada multiword ada kata majemuk
itu kita harus cari tahu untuk setiap
bahasa tapi yang pasti Dalam penelitian
korpus linguistik dalam pengolahan data
yang akan kita lakukan selama kuliah hal
yang paling mudah untuk mengidentifikasi
suatu kata adalah data yang dipisah oleh
dua spasi seperti ini
jadi Apit dua spasi dia tidak menempel
dengan apapun oleh karena ini oleh
karena itu data ini bisa dianggap
sebagai satu kata
pertanyaan berikutnya nanti kalau kata
majemuk Bagaimana kalau kata yang
terpisah bagaimana itu adalah PR kita
untuk melakukan analisis dan mencari dan
memperbaiki data
terkadang dalam data juga ada variasi
penulisan ya
terutama untuk kata-kata yang unik
seperti contoh dalam bahasa Inggris
not ini bisa disingkat menjadi seperti
ini
Ar bisa disingkat menjadi seperti ini
Apabila ini terjadi kata-kata tersebut
akan dianggap sebagai satu kata tidak 2
kata lagi not dan ART tidak akan
terdeteksi oleh data tidak akan
terdeteksi sebagai satu kata kita harus
menganalisis dengan cara yang
[Musik]
ini baru membahas kata kemudian ada juga
variasi penulisan dalam contoh bahasa
Inggris ada however How ever ada variasi
yang lain
ini di luar hawaiver penulisan yang
tepat Seperti apa karena kita memiliki
variasi data
kita tidak selalu menganalisis data yang
formal Terkadang ada How ever yang
muncul seperti ini dipisah oleh spasi
atau however yang dipisah oleh Nanda
strip seperti ini
atau kita lihat contoh lain ice cream
ice cream kalau kita cara menggunakan
frekuensi dia hanya akan muncul sebagai
tidak akan satu kesatuan ice cream kalau
mau dicari dengan kesatuan harus
diolah dengan cara yang berbeda
nah ice cream ini pun bisa memiliki
variasi yang lain Ice strip cream atau
ice cream begitu saja tanpa spasi
untuk analisis kata saja ada beberapa
hal yang masih kita perlu perhatikan
namun ini baru yang basic nanti lebih
jauh kita akan menganalisis berbagai
macam aspek-aspek lain satuan-satuan
linguistik lain yang lebih besar dan
bagaimana mencarinya Bagaimana
mengidentifikasinya dengan aplikasi yang
nanti akan kita pakai
video ini hanyalah video pertama yang
merupakan pembahasan dasar-dasar dalam
penelitian korpus linguistik dan
bagaimana kita melihat data bahwa tidak
sesederhana mendownload lalu kita
gunakan kita harus memperhatikan banyak
hal namun memang ada banyak teknis yang
belum dibahas dalam video ini
tapi sebelum ke sana ada beberapa hal
yang saya ingin diskusikan dengan
rekan-rekan sekalian ada dua hal pertama
terkait data di internet itu karena kita
akan menggunakan data internet Menurut
kalian apakah data di internet itu
akurat dan Natural
Apakah ada kekhawatiran bahwa data yang
ada di internet itu berantakan dan tidak
bisa dipakai
Menurut kalian Bagaimana memastikan data
tersebut sebagai data yang akurat dan
dapat merepresentasikan fenomena bahasa
Menurut kalian
apa Data yang tepat dan akurat yang bisa
digunakan untuk
menganalisis bahasa Apakah kalian
memiliki kriteria
Dari mana kalian bisa mempertimbangkan
kriteria tersebut silahkan didiskusikan
2 Bagaimana pendapat kalian terkait satu
fenomena pembajakan di internet ini
tidak tertutup pada ibu saja tapi juga
film lagu dan sebagainya
Karena sekarang banyak sekali cara kita
untuk mengakses hiburan pendidikan
apapun itu di internet tanpa membayar
padahal seharusnya itu bayar
banyak caranya Menurut kalian
Apa pendapatmu seperti itu apakah ini
hal yang baik apakah ini hal yang buruk
baik menurut siapa buruk menurut siapa
silahkan dibahas
kemudian pendapat kalian terkait
perusahaan yang memanfaatkan data
orang-orang di internet tanpa izin untuk
iklan improvisasi produk dan sebagainya
mungkin mereka bisa mengaku bahwa mereka
menggunakan data tersebut dengan izin
karena ada terus observice ketika kita
login atau membuat akun media sosial
tapi banyak juga yang tidak sadar
terhadap hal tersebut
Bagaimana menurut kalian apakah ini hal
yang diperbolehkan apakah yang
disalahkan itu bukan perusahaan tapi
orang-orang yang menggunakannya silahkan
dibahas
[Musik]
浏览更多相关视频
02. Data Sets and Code Books
A Level English Language (9093) Paper 3: N-Gram Graphs (2022 Past Papers)
Book Recommendation System in Python with LLMs
Introducing Jamovi
How to import data and install packages. R programming for beginners.
What is data-driven marketing in 2024?! Learn digital marketing foundations & best practices
5.0 / 5 (0 votes)