Studi Tentang Distribusi Log-Normal Afnaria Pendidikan Matematika FKIP UISU Abstrak. Dalam teori peluang, distribusi log-normal merupakan distribusi dari suatu variabel acak yang logaritmanya berdistribusi normal. Suatu variabel dapat dimodelkan menjadi log-normal jika ia merupakan hasil perkalian dari banyak variabel acak positif yang saling bebas. Kedua parameter yang digunakan * dan s* menggambarkan data langsung dari skala originalnya, sehingga mudah untuk dihitung dan dibayangkan serta di estimasi. Semakin banyak bukti bahwa distribusi log-normal telah tersebar luas dalam ilmu fisika,biologi, ilmu sosial dan ekonomi. Namun kebanyakan orang lebih memilih menggunakan distribusi normal. Kata Kunci : distribusi log-normal, distribusi normal, transformasi logaritma
1. Pendahuluan Matematika tentunya penting dalam menganalisa dan menentukan karakter variasi acak dari, misalnya, ukuran dan berat seseorang dalam suatu populasi, tingkat sensitivitasnya terhadap suatu bahan kimia, dan waktu yang diperlukan untuk suatu kejadian, misalnya waktu yang diperlukan seseorang untuk sembuh dari suatu penyakit. Distribusi frekuensi dari data ini merupakan faktor utama untuk menentukan tipe analisa statistik yang valid yang dapat diambil dari sekumpulan data. Banyak penggunaan metode statistika seperti anova (analisis variansi) dan analisis regresi yang membutuhkan data yang terdistribusi normal, namun jarang distribusi frekuensi datanya yang diuji saat menggunakan tehnik ini. Distribusi Gaussian (normal) sering digunakan untuk menggambarkan variasi acak yang muncul pada data dari banyak bidang ilmu; kurva loncengnya dengan mudah menggambarkan dua nilai, yaitu mean aritmatika , dan deviasi standar s, sehingga data tersebut sering digambarkan dengan . Sebuah contoh lama distribusi normal diberikan oleh Quetelet, seorang Belgia yang merupakan pelopor statistika modern, dimana ia melakukan pengukuran bahu dari prajurit Skotlandia. Bagaimanapun, banyak pengukuran yang lebih kurang menunjukkan distribusi yang miring. Distribusi yang miring dapat terjadi saat nilai mean rendah, variansi tinggi dan nilainya tidak ada yang negatif, dalam hal ini, sebagai contoh, distribusi sumber mineral dalam bumi, atau lamanya infeksi suatu penyakit berbahaya. Distribusi miring ini merupakan distribusi log-
Seminar Nasional Matematika dan Terapan 2011
1
normal (Aitchison dan Brown 1957, Crow dan Shimizu 1988, Lee 1992, Johnson et al. 1994). Contoh yang sesuai dengan distribusi normal yang simetris dan distribusi log-normal yang miring diberikan pada gambar 1.
Gambar 1. Contoh dari distribusi normal dan log-normal
Dalam Biologi, variabel yang logaritmanya cenderung memiliki distribusi normal antara lain: ukuran jaringan makhluk hidup, panjang tonjolan inert spesimen biologis dalam arah pertumbuhan, pengukuran fisiologis tertentu, dll. Apakah perbedaan antara variabel normal dan log – normal? Bentuk variabel keduanya saling bebas berdasarkan variasi kekuatan yang diberikan. Perbedaan utamanya adalah bahwa distribusi normal memberikan efek penjumlahan, sedangkan distribusi log-normal memberikan efek perkalian. Distribusi log-normal biasanya digambarkan sebagai variabel log yang ditransformasi, digunakan sebagai parameter nilai ekspektasi, atau mean dan deviasi standar dari distribusinya. Penggambaran ini bisa menguntungkan, karena dari definisinya, distribusi log-normal dapat menjadi simetris kembali dalam bentuk log. Untuk mengetahui tentang sampelnya, kebanyakan orang lebih memilih data asli dari pada data yang telah ditransformasikan ke logaritma. Konsepsi ini menjadi fisibel dan dapat dianggap sebagai data log-normal pula, karena sifat –
2
Seminar Nasional Matematika dan Terapan 2011
sifat yang dikenal dari distribusi normal dapat dianalogikan dengan distribusi log-normal. 1.1 Sifat-Sifat Distribusi Log-normal Suatu variabel acak X dikatakan berdistribusi normal jika log(X) berdistribusi normal. Variabel bernilai positif dan distribusinya miring ke kiri. (Gambar 2)
Gambar 2. Distribusi log – normal dengan skala original
Gambar 3. Distribusi normal dengan skala logaritma
Diperlukan dua parameter untuk menggambarkan suatu distribusi log normal. Biasanya digunakan mean μ dan deviasi standar σ (atau varians σ2) dari log(X) (Gambar 3). Bagaimanapun tetap ada baiknya menggunakan nilai yang ditransformasikan balik (nilai dalam x, data terukur): α* : = eα , σ* : = eσ
Seminar Nasional Matematika dan Terapan 2011
(1)
3
Selanjutnya digunakan X ~ Λ(α* , σ*) sebagai ekspresi matematika, dimana X terdistribusi menurut hukum log-normal dengan median μ* dan deviasi standar σ*. Median dari distribusi log-normal ini adalah med(X) = α* = eα, karena μ adalah median dari log(X). Dengan demikian peluang bahwa X lebih besar dari μ* adalah 0.5, demikian pula peluang X yang lebih kecil dari μ*. Parameter σ*, yang disebut deviasi standar perkalian yang menentukan bentuk dari distribusinya. Gambar 4 menunjukkan kurva kepadatan untuk beberapa nilai σ*.
Gambar 4. Fungsi kepadatan untuk distribusi lognormal dengan beberapa σ*
Distribusi dikenali dari nilai ekspektasi μ dan deviasi standar σ. Dalam aplikasi dimana distribusi log-normal tidak begitu menggambarkan data, biasanya parameter-parameter ini tidak mudah diinterpretasikan dari pada dengan median α* (McAlister 1879) dan parameter bentuk σ*. Untuk distribusi log-normal, metode yang paling tepat (yaitu yang dianggap paling efisien) untuk mengestimasi parameter μ* dan σ* bergantung pada transformasi log. Mean dan deviasi standar empiris dari logaritma data dihitung dan selanjutnya ditransformasi balik, seperti pada persamaan (1). Estimator ini disebut * dan s*, dimana * adalah mean geometrik dari data (McAlister 1879); persamaan 4). Estimasi yang lebih robust namun kurang efisien dapat diperoleh dari median dan quartil data, seperti pada kotak di bawah ini. 1.2. Definisi dan sifat distribusi log-normal Variabel acak X berdistribusi log-normal jika log(X) berdistribusi normal. Biasanya, digunakan logaritma natural, namun basis yang lain juga akan menuju ke keluarga distribusi yang sama, dengan parameter yang di skalakan kembali. Fungsi kepadatan peluang dari variabel acak tersebut ditentukan sebagai
4
Seminar Nasional Matematika dan Terapan 2011
(2) Parameter pengganti bisa ditambahkan untuk mendefinisikan keluarga tiga dan parameter. Mean dan varians berturut-turut adalah , dengan demikian koefisien variasi adalah (3) Perkalian dari dua variabel acak terdistribusi log-normal mempunyai parameter bentuk (4) Karena ditambahkan varians ada variabel yang di transformasikan log. Estimasi: estimator yang paling efisien (maksimum likelihood) adalah (5) s* =
quartil q1 dan q2 mengarah ke
estimasi yang lebih robust (q1/q2)c untuk s*, dimana 1/c = 1.349 = 2 . φ-1(0,75), dimana φ-1 menyatakan fungsi invers distribusi normal standar. Jika mean dan deviasi standar s dari sampel tersedia, yaitu data diambil dalam bentuk ± s, parameter μ* dan s* dapat diestimasi berturut – turut dengan menggunakan /
dan
, dengan
, cv = koefisien
variasi. Dengan demikian, estimasi s* ini ditentukan hanya dengan cv (persamaan 3).
2. Perbandingan Distribusi Log-normal Contoh distribusi log-normal dari beberapa bidang ilmu pengetahuan. 2.1 Geologi dan pertambangan Dalam kerak bumi, konsentrasi elemen dan radioaktifnya biasanya mengikuti distribusi log-normal. Dalam geologi, nilai s* dari 27 contoh bervariasi dari 1,17 sampai 5,6 (Razumosky 1940). Tinjauan yang lebih dalam untuk data yang lebih luas dari batu karang yang berbeda menunjukkan bahwa nilai s* untuk emas dan uranium meningkat bersama dengan ukuran daerah yang diteliti. 2.2 Obat-obatan Beberapa contoh dalam obat-obatan yang sesuai dengan distribusi lognormal. Periode laten (waktu dari terinfeksi sampai gejala pertama) dari infeksi suatu penyakit telah sering menunjukkan terdistribusi log-normal (Sartwell
Seminar Nasional Matematika dan Terapan 2011
5
1950, Kondo 1977); hampir 70% dari 86 contoh yang ditinjau oleh Kondo (1977) muncul sebagai log-normal. dokumen Sartwell (1950) tentang 37 kasus sesuai dengan distribusi log-normal. Yang sangat mengesankan bahwa dari 5914 prajurit yang diberikan vaksin yang rusak pada hari yang sama, 1005-nya yang membentuk serum hepatitis. 2.3 Fisiologi tumbuhan Bukti yang meyakinkan disajikan dari fisiologi tumbuhan mengindikasikan bahwa distribusi log-normal sesuai dengan permeabilitas dan untuk mobilitas zat terlarut dalam kutikula tanaman (Baur 1997). Zat kimia yang disebut akselerator dapat mereduksi variabilitas dari mobilitasnya. Bagaimanapun juga, karena prinsip – prinsip yang mendasari permeabilitas tetap sama, karena itu hal ini mewakili distribusi log-normal. Dengan demikian, mengingat satu-satunya alasan statistik yang bisa mengakibatkan kesalahan klasifikasi, yang mungkin cacat untuk analisis selanjutnya. Satu pertanyaan yang masih tersisa: apakah prinsip – prinsip yang mendasari permeabilitas yang menyebabkan variabilitas-nya menjadi lognormal.
3. Distribusi normal atau log-normal? Mempertimbangkan pola dari distribusi normal dan log-normal sebagaimana koneksi dan perbedaan mereka, berguna untuk menggambarkan dan menjelaskan fenomena yang berkaitan dengan distribusi frekuensi dalam kehidupan. Beberapa aspek pentingnya adalah sebagai berikut: 3.1 Range variabilitas log-normal Seberapa jauh nilai s* dapat melampaui range yang digambarkan oleh Limpert E., et al (2001) yaitu dari 1,1 sampai 33? Untuk mencapai nilai s* setinggi mungkin, ditemukan satu nilai s* yang lebih besar dari 150 untuk energi hujan es dari awan (Federer et al. 1986, dihitung oleh W.A.S). Nilai dibawah 1,2 bahkan mungkin menjadi biasa ditemukan, sehingga menjadi bagian yang menarik dalam sains. Bagaimanapun juga distribusi log-normal ini sulit untuk dipisahkan dari distribusi normal, lihat gambar 1 dan 2, sehingga sampai sekarang masih diambil sebagai normal. Karena preferensi umum untuk distribusi normal, perlu ditentukan contoh data yang mengikuti distribusi normal namun tidak cocok untuk distribusi log-normal. Menariknya, ukuran original tidak dapat menemukan contoh yang dimaksud. Contoh yang ditemukan normal, namun bukan lognormal, yaitu data terdistribusi yang terdiri dari selisih, jumlah, mean, atau
6
Seminar Nasional Matematika dan Terapan 2011
fungsi lain dari ukuran original. Penemuan ini melahirkan pertanyaan tentang peran kesimetrian dalam variasi kuantitatif di alam.
4. Mengapa distribusi normal begitu populer Terlepas dari pertimbangan statistik, ada sejumlah alasan mengapa distribusi normal lebih dikenal dari pada distribusi log-normal. Yang utama adalah distribusi ini simetri, salah satu prinsip dasar yang disadari di alam dan budaya dan cara berpikir kita. Dengan demikian distribusi peluang didasarkan pada simetri mungkin memiliki lebih banyak daya tarik dari pada yang miring. Dua alasan berikutnya berkaitan dengan kesederhanaannya. Pertama, Aitchison dan Brown (1957, hal 2) menyatakan bahwa, “Manusia menganggap bahwa penjumlahan merupakan operasi yang lebih mudah daripada perkalian, dan tentunya tidak mengejutkan bahwa aturan penjumlahan error yang pertama dirumuskan”. Kedua, dibentuknya gambaran sampel normal ± s yang terkenal dan digunakan untuk menyajikan distribusi dasar, yang menjadikannya lebih mudah, sampai sekarang, untuk menangani distribusi normal dari pada distribusi log-normal. Alasan lainnya berkaitan dengan sejarah distribusi: distribusi normal telah dikenal dan diaplikasikan lebih dari dua kalinya distribusi log-normal. Untuk semua alasan ini, distribusi normal atau Gaussian lebih terkenal daripada distribusi log-normal bagi kebanyakan orang. Preferensi ini mengarah ke dua cara penggunaan untuk membuat data terlihat normal bahkan saat ia miring. Pertama, distribusi miring menghasilkan nilai yang besar yang mungkin tampak outlier. Pada prakteknya, sudah umum untuk menolak observasi tersebut dan melakukan analisis tanpa melibatkannya, sehingga mengurangi kemiringan namun mengaikbatkan bias. Kedua, data miring sering dikelompokkan bersama, dan mean-nya yang terdistribusi normal, digunakan untuk analisis selanjutnya. Tentunya, mengikuti prosedur mean yang merupakan fitur penting dari data yang masih belum diketahui.
5. Mengapa distribusi log-normal biasanya merupakan model yang lebih baik untuk data original Seperti yang dibahas sebelumnya, koneksi antara efek penjumlahan dan distribusi normal paralel dengan efek perkalian dan distribusi log-normal. Kapteyn (1903) telah lama mencatat bahwa jika data dari pengukuran satu dimensi dari alam sesuai dengan distribusi normal, dimensi dua dan dimensi tiga misalnya permukaan dan volume tidaklah simetri. Sejumlah efek mengarah ke distribusi log-normal sebagai model yang sesuai, yang telah digambarkan dalam berbagai paper (seperti Aitchison dan Brown 1957, Koch 1966, Crow dan Shimizu 1988). Menariknya, bahkan pada sistematika biologi,
Seminar Nasional Matematika dan Terapan 2011
7
sebagai bidang sains, jumlah spesies per keluarga dianggap sesuai dengan lognormal (Koch 1966). Pada bidang kimia, sebagai contoh, kecepatan reaksi sederhana bergantung pada perkalian konsentrasi dari molekul yang dilibatkan. Kondisi ekuilibrium juga diatur oleh faktor yang bertindak dengan cara perkalian. Dengan demikian, perbedaannya semakin jelas: alasan yang mengatur distribusi frekuensi di alam biasanya sesuai dengan distribusi log-normal, sedangkan orang-orang lebih memilih menggunakan distribusi normal. Untuk koefisien variasi yang kecil, distribusi normal dan log-normal keduanya sesuai. Dalam hal ini, tentunya akan dipilih distribusi yang paling sesuai dengan permasalahan untuk menunjukkan variabilitas yang meningkat, yang berkaitan dengan hukum yang mendukung alasan variabilitas. Tentunya dalam hal ini kebanyakan yang dipilih adalah log-normal.
6. Kesimpulan Paper ini menunjukkan peranan fundamental dari distribusi log-normal dan dilengkapi dengan beberapa kesimpulan dari beberapa paper yang * maupun s*, keduanya menggunakan distribusi lognormal. Baik menggambarkan data langsung dari skala originalnya, mereka mudah dihitung dan di-estimasi. Karakterisasi yang ditawarkan tidak memberikan kerugian yang signifikan. Semakin banyak bukti bahwa distribusi log-normal telah tersebar luas dalam ilmu fisika, biologi, ilmu sosial dan ekonomi. Namun, belum banyak orang yang mengetahui ini. Karena jika terjadi, maka akan semakin banyak orang yang lebih menyukai menggunakan distribusi lognormal atau distribusi normal perkalian dibandingkan distribusi Gauss untuk menggambarkan data original.
Daftar Pustaka Ahren LH. 1954. The log-normal distribution of the elements (A fundamental law of geochemistry and its subsidiary). Geochimica at Cosmochimica Acta 5: 49-73. Aitchison J, Brown JAC. 1957. The log-normal Distribution. Cambridge (UK): Cambridge University Press. Baur P. 1997. Lognormal distribution of water permeability and organic solute mobility in plant cuticles. Plant, Cell and Environment 20: 167 – 177. Crow EL, Shimizu K, eds. 1988. Log-normal Distributions: Theory and Application, New York: Dekker. Federer B, et al. 1986. Main results of grossversuch IV. Journal of climate and Applied Meteorology 25: 917-957. Johnson NI., Kotz S, Balkrishan N. 1994. Continuous Univariate Distributions. New York: Wiley. Kapteyn JC. 1903. Skew Frequency Curves in Biology and Statistics. Astronomical Laboratory, Gronigen (The Netherlands): Noordhoff. Koch AI. 1966. The logarithm in biology. I. Mechanisms generating the log-normal distribution exactly. Journal of Theoretical Biology 23: 276-290. Limpert E. 1993. Log-normal distributions in phytimedicine: A handy way for their characterization and application. Proceeding of the 6th International Congress of Plant Pathology; 28 July – 6 August, 1993; Montreal, National Research Council Canada.
8
Seminar Nasional Matematika dan Terapan 2011
Limpert E., Stahel W.A., Abbt M., 2001, Log-normal Distributions across the Sciences: Keys and Clues, American Institute of Biological Sciences. McAlister D. 1879. The law of geometric mean. Proceedings of the Royal Society 29: 367-376. Razumovsky NK. 1940. Distribution of metal values in ore deposits. Comptes Rendus (Doklady) de l’Academie des Sciences de l’URSS 9: 814-816. Kondo K. 1977. The lognormal distributions of the incubation time of exogenous diseases. Japanese Journal of Human Genetics 21: 217-237.
Seminar Nasional Matematika dan Terapan 2011
9