Simulasi Data Distribusi Normal dan Tidak normal

distribusi normal

sumber:Fonlinecourses.science.psu.edu

Dalam penelitian, kadang kita dihadapkan pada jumlah data yang terbatas. sedangkan secara statistik mensyarakan data yang banyak atau minimal 30 data untuk memenuhi prasyarat parametrik. Pertanyaannya apakah memungkinkan kita melakukan simulasi data dengan jumlah terbatas sehingga menjadi lebih banyak. Jawabannya sangat memungkinkan. Bahkan jika kita hanya mengetahui nilai mean (rata-rata) dan standar deviasi dari suatu data, maka kita dapat melakukan simulasi sampai 1000 data atau lebih.  Misalnya kita mengetahui nilai mean = 20 dan standar deviasinya adalah 5, dari sebuah sampel yang berasal dari populasi yang berdistribusi normal. Untuk mendapatkan angka acak yang berdistribusi normal atau distribusi tertentu kita dapat menggunakan simulasi Monte Carlo dengan bantuan berbagai software yang tersedia.

Adapun langkah-langkah melakukan simulasi data untuk data terbatas yang mengikuti pola distribusi tertentu adalah sebagai berikut:

1.Tentukan nilai starting point

starting point diperlukan untuk mendapatkan angka acak selanjutnya. Walaupun demikian, angka starting point tidak terlalu berpengaruh terhadap simulasi data, dikarenakan angka starting point ini hanyalah satu angka diantara ribuan angka yang akan diperoleh berdasarkan hasil simulasi.

simulasi monte carlo 1

 

2. Tentukan distribusi populasi yang diharapkan

Sebelum melakukan simulasi data, kita harus menentukan asumsi distribusi dari populasi data yang kita harapkan. Misalnya kita berasumsi bahwa data akan mengikuti pola distribusi normal.

Kita perlu mengetahui berbagai distribusi sesuai dengan tipe skala datanya.

Jika skala datanya adalah numerik maka distribusi yang memungkinkan adalah: distribusi normal, log normal, exponential, dan lainnya.

Sedangkan, jika skala datanya adalah kategorik maka distribusi data yang memungkinkan adalah: distribusi binomial, distribusi uniform, distribusi multinomial, distribusi hipergeomertrik dan sebagainya.

simulasi monte carlo 2

 

3. Tentukan asumsi yang dibutuhkan untuk distribusi populasi

Setiap distribusi tentu memiliki parameter statistik tertentu. sebagai contoh, jika kita mengasumsikan data berdistribusi normal, maka minimal kita harus mengetahui dua parameter yaitu mean dan standar deviasi. kedua parameter ini akan digunakan untuk menggenerate data yang lainnya.

simulasi monte carlo 3

 

4. Running data berdasarkan asumsi

Setelah menentukan asumsi yang dibutuhkan, maka proses selanjutnya adalah running data tersebut. Kita dapat melakukan proses running/iterasi sampai 1000 bahkan sampai lebih dari 1000 kali. Jika kita melakukan running 1000 kali maka kita akan mendapatkan 1000 angka acak yang mengikuti pola distribusi yang kita pilih.

simulasi monte carlo 4

 

5. Buatlah laporan

Setelah data selesai dirunning, maka untuk menampilkan outputnya dapat mengklik laporan output apa saja yang diperlukan

simulasi monte carlo 5

Hasilnya adalah kita akan mendapatkan angka acak 1000 data yang mengikuti pola distribusi tertentu, misalnya distribusi normal. Tentunya parameter mean (rata-rata) dan standar deviasi akan mengikuti 1000 data hasil simulasi di atas. Diharapkan dengan semakin banyak proses iterasi, maka akan menghasilkan data yang smooth yang mendekati data populasi.

Demikian proses simulasi data terbatas menjadi simulasi monte carlo yang lebih banyak dengan menggunakan software Crystal ball dari oracle.

Ayat HIdayat Huang

Lecturer of Statistics and Research Methodology in Jakarta, Indonesia
Ayat HIdayat Huang

Latest posts by Ayat HIdayat Huang (see all)

Leave a Reply

Your email address will not be published. Required fields are marked *


*