Contoh Of Both Linear Regression And The Moving Averages And Smoothing Techniques


Peramalan dengan Teknik Smoothing. Situs ini adalah bagian dari objek pembelajaran JavaScript E-lab untuk pengambilan keputusan JavaScript lain dalam seri ini dikategorikan di bawah area aplikasi yang berbeda di bagian MENU pada halaman ini. Seri waktu adalah urutan pengamatan yang Diperintahkan dalam waktu Inheren dalam pengumpulan data yang diambil dari waktu ke waktu adalah beberapa bentuk variasi acak Ada metode untuk mengurangi pembatalan efek karena variasi acak Teknik yang banyak digunakan adalah merapikan Teknik ini, jika diterapkan dengan benar, mengungkapkan secara lebih jelas tren yang mendasarinya. Masukkan deret waktu Row-wise secara berurutan, mulai dari sudut kiri atas, dan parameter s, lalu klik tombol Hitung untuk mendapatkan peramalan satu periode di depan. Blank tidak termasuk dalam perhitungan tapi angka nol. Dalam memasukkan data Anda untuk berpindah dari sel ke sel di matriks data gunakan tombol Tab bukan panah atau masukkan kunci. Fitur seri waktu, yang mungkin terungkap oleh examini. Ng grafiknya dengan nilai perkiraan, dan perilaku residu, pemodelan peramalan kondisi. Rata-rata Bergerak Rata-rata bergerak rata-rata di antara teknik yang paling populer untuk preprocessing deret waktu Mereka digunakan untuk menyaring suara putih acak dari data, untuk membuat rangkaian waktu Lebih halus atau bahkan untuk menekankan komponen informasi tertentu yang terdapat dalam deret waktu. Pemulusan Eksperimen Ini adalah skema yang sangat populer untuk menghasilkan Seri Sisa yang merapikan Sedangkan pada Moving Averages, pengamatan terakhir tertimbang secara merata, Exponential Smoothing memberikan bobot yang menurun secara eksponensial saat observasi semakin tua. Dengan kata lain, observasi terakhir diberi bobot yang relatif lebih tinggi dalam peramalan daripada pengamatan yang lebih tua. Pemulusan Eksponensial Ganda lebih baik dalam menangani tren Triple Exponential Smoothing lebih baik dalam menangani tren parabola. Rata-rata bergerak tertimbang secara eksponensial dengan konstanta pemulusan yang sesuai kira-kira secara sederhana. Rata rata bergerak yaitu Periode n, di mana a dan n berhubungan dengan. a 2 n 1 ATAU n 2 - a. Jadi, misalnya, rata-rata bergerak tertimbang secara eksponensial dengan konstanta pemulusan sama dengan 0 1 akan sesuai kira-kira dengan rata-rata pergerakan 19 hari Rata bergerak sederhana 40 hari akan sesuai kira-kira dengan rata-rata bergerak tertimbang eksponensial dengan konstanta pemulusan sama dengan 0 04878. Holt s Linear Exponential Smoothing Misalkan rangkaian waktu tidak musiman namun menunjukkan kecenderungan metode Holt memperkirakan arus Level dan tren saat ini. Tidak penting bahwa rata-rata pergerakan sederhana adalah kasus khusus dari perataan eksponensial dengan menetapkan periode rata-rata bergerak ke bagian integer 2 Alpha Alpha. Untuk sebagian besar data bisnis, parameter Alpha lebih kecil dari 0 40 Efektif Namun, seseorang dapat melakukan pencarian grid dari ruang parameter, dengan 0 1 sampai 0 9, dengan penambahan 0 1 Kemudian alfa terbaik memiliki Kesalahan Mutlak Mutlak Kesalahan MA yang terkecil. Bagaimana membandingkan beberapa metode pemulusan Meskipun ada Adalah indikator numerik untuk menilai keakuratan teknik peramalan, pendekatan yang paling banyak digunakan adalah dengan menggunakan perbandingan visual beberapa prakiraan untuk menilai keakuratannya dan memilih di antara berbagai metode peramalan. Dalam pendekatan ini, seseorang harus menggunakan plot, misalnya Excel pada grafik yang sama. Nilai asli dari variabel deret waktu dan perkiraan nilai dari beberapa metode peramalan yang berbeda, sehingga memudahkan perbandingan visual. Anda mungkin suka menggunakan Prakiraan Masa Lalu oleh Teknik Smoothing JavaScript untuk mendapatkan perkiraan perkiraan masa lalu berdasarkan teknik pemulusan yang hanya menggunakan parameter tunggal. Metode Holt, dan Winters masing-masing menggunakan dua dan tiga parameter, oleh karena itu bukanlah tugas yang mudah untuk memilih nilai optimal, atau mendekati nilai optimal dengan trial and error untuk parameter. Perataan eksponensial tunggal menekankan perspektif jarak pendek Menetapkan tingkat pengamatan terakhir dan didasarkan pada kondisi bahwa tidak ada kecenderungan regresi linier Ion, yang sesuai dengan garis kuadrat terkecil pada data historis atau data historis yang ditransformasikan, mewakili rentang panjang, yang dikondisikan pada tren dasar Pemulusan eksponensial linier Holt menangkap informasi tentang tren terkini Parameter dalam model Holt adalah parameter tingkat Harus dikurangi bila jumlah variasi data besar, dan parameter tren harus ditingkatkan jika arah tren terkini didukung oleh beberapa faktor penyebabnya. Peramalan Perkiraan Waktu bahwa setiap JavaScript di halaman ini memberikan satu langkah lebih maju. Perkiraan Untuk mendapatkan perkiraan dua langkah di depan cukup tambahkan nilai yang diperkirakan ke data rangkaian waktu akhir Anda lalu klik tombol Hitung yang sama Anda mungkin mengulangi proses ini beberapa kali untuk mendapatkan perkiraan jangka pendek yang dibutuhkan. Metode Seri Waktu. Metode seri waktu adalah teknik statistik yang memanfaatkan data historis yang terakumulasi selama periode waktu. Metode deret waktu mengasumsikan bahwa apa yang telah terjadi di Masa lalu akan terus terjadi di masa depan Karena seri waktu nama menyarankan, metode ini menghubungkan perkiraan hanya dengan satu faktor - waktu Mereka mencakup rata-rata bergerak, eksponensial smoothing, dan garis tren linier dan keduanya merupakan metode yang paling populer untuk jangka pendek. Peramalan di antara perusahaan jasa dan manufaktur Metode ini mengasumsikan bahwa pola historis yang dapat diidentifikasi atau tren permintaan dari waktu ke waktu akan berulang. Perkiraan Rata-rata. Perkiraan waktu dapat sesederhana dengan menggunakan permintaan pada periode saat ini untuk memprediksi permintaan pada periode berikutnya. Misalnya, jika permintaan 100 unit minggu ini, perkiraan permintaan minggu depan adalah 100 unit jika permintaan ternyata 90 unit, maka permintaan minggu berikutnya adalah 90 unit , Dan seterusnya Metode peramalan jenis ini tidak memperhitungkan perilaku permintaan historis yang hanya bergantung pada permintaan pada periode saat ini. Ini bereaksi langsung ke normal, acak m Ovements in demand. Metode rata-rata bergerak sederhana menggunakan beberapa nilai permintaan selama masa lalu untuk mengembangkan perkiraan. Hal ini cenderung mereda, atau kelancaran keluar, peningkatan acak dan penurunan ramalan yang hanya menggunakan satu periode Rata-rata pergerakan sederhana berguna untuk Meramalkan permintaan yang stabil dan tidak menampilkan perilaku permintaan yang diucapkan, seperti tren atau pola musiman. Rata-rata pergerakan dihitung untuk periode tertentu, seperti tiga bulan atau lima bulan, tergantung pada seberapa banyak keinginan peramal untuk memperlancar data permintaan. Semakin lama periode rata-rata bergerak, semakin halus formula untuk menghitung rata-rata bergerak sederhana yang menghasilkan Simple Moving Average. Perusahaan Klip Kertas Klip Instan menjual dan menjual perlengkapan kantor ke perusahaan, sekolah, dan agen dalam jarak 50 mil. Radius gudangnya Bisnis perlengkapan kantor kompetitif, dan kemampuan untuk menyampaikan pesanan segera merupakan faktor dalam mendapatkan pelanggan baru dan tetap tua. Kantor-kantor tertentu biasanya memesan tidak ketika mereka kehabisan persediaan, tapi ketika mereka benar-benar kehabisan hasilnya, mereka segera meminta pesanan mereka. Manajer perusahaan ingin memastikan cukup banyak pengemudi dan kendaraan tersedia untuk segera mengirimkan pesanan dan mereka memiliki cukup Persediaan dalam stok Oleh karena itu, manajer ingin dapat memperkirakan jumlah pesanan yang akan terjadi selama bulan depan yaitu untuk meramalkan permintaan pengiriman. Dari catatan pesanan pengiriman, manajemen telah mengumpulkan data berikut selama 10 bulan terakhir, Dari mana ia ingin menghitung rata-rata bergerak 3- dan 5 bulan. Mari kita asumsikan bahwa ini adalah akhir Oktober Prakiraan yang dihasilkan dari rata-rata pergerakan 3- atau 5 bulan biasanya untuk bulan berikutnya dalam urutan, Yang dalam kasus ini adalah November Rata-rata bergerak dihitung dari permintaan pesanan selama 3 bulan sebelumnya dalam urutan sesuai dengan rumus berikut. Rata-rata pergerakan 5 bulan dihitung dari metode pr Atau 5 bulan data permintaan sebagai berikut. Prakiraan rata-rata bergerak 3- dan 5 bulan untuk semua data permintaan bulan ditunjukkan pada tabel berikut. Sebenarnya hanya perkiraan bulan November berdasarkan permintaan bulanan terbaru yang akan digunakan oleh Manajer Namun, perkiraan sebelumnya untuk bulan sebelumnya memungkinkan kita membandingkan perkiraan dengan permintaan aktual untuk melihat seberapa akurat metode peramalan - yaitu, seberapa baik kinerjanya. Tiga dan Lima Bulan Rata-rata. Rata-rata perkiraan rata-rata bergerak Tabel di atas cenderung memperlancar variabilitas yang terjadi pada data aktual Efek pemulusan ini dapat diamati pada gambar berikut di mana rata-rata 3 bulan dan 5 bulan telah ditumpangkan pada grafik data asli. 5 bulan Rata bergerak pada angka sebelumnya menghaluskan fluktuasi ke tingkat yang lebih tinggi daripada rata-rata pergerakan 3 bulan Namun, rata-rata 3 bulan lebih dekat mencerminkan data terbaru yang tersedia untuk manajer persediaan kantor Secara umum, perkiraan penggunaan G rata-rata pergerakan periode lebih lambat lebih lambat bereaksi terhadap perubahan permintaan baru-baru ini daripada yang dibuat dengan menggunakan rata-rata bergerak jangka pendek Periode ekstra data akan mengurangi kecepatan perkiraan perkiraan Menetapkan jumlah periode yang tepat untuk digunakan dalam pergerakan. Perkiraan rata-rata seringkali memerlukan beberapa percobaan trial and error. Kerugian metode rata-rata bergerak adalah tidak bereaksi terhadap variasi yang terjadi karena suatu alasan, seperti siklus dan efek musiman. Faktor-faktor yang menyebabkan perubahan umumnya diabaikan. Pada dasarnya metode mekanis, yang mencerminkan data historis secara konsisten. Namun, metode rata-rata bergerak memang memiliki keuntungan karena mudah digunakan, cepat, dan relatif murah. Secara umum, metode ini dapat memberikan perkiraan yang baik untuk jangka pendek, namun Seharusnya tidak didorong terlalu jauh ke masa depan. Kami Memindahkan Bergerak Rata-rata. Metode rata-rata bergerak dapat disesuaikan agar lebih dekat mencerminkan fluktuasi data. Dalam metode rata-rata tertimbang bergerak, bobot ditugaskan ke data terbaru sesuai dengan rumus berikut. Data permintaan untuk Layanan Komputer PM yang ditunjukkan pada tabel untuk Contoh 10 3 nampak mengikuti tren linier yang meningkat Perusahaan ingin menghitung linier Garis tren untuk melihat apakah lebih akurat daripada perataan eksponensial eksponensial eksponensial dan eksponensial yang dikembangkan pada Contoh 10 3 dan 10 4. Nilai yang diperlukan untuk perhitungan kuadrat terkecil adalah sebagai berikut. Dengan menggunakan nilai ini, parameter untuk garis tren linier Dihitung sebagai berikut. Oleh karena itu, persamaan garis tren linier adalah. Untuk menghitung perkiraan untuk periode 13, misalkan x 13 pada garis tren linier. Grafik berikut menunjukkan garis tren linier dibandingkan dengan data aktual Garis tren tampak mencerminkan Eratnya data aktual - yaitu, menjadi sangat sesuai - dan dengan demikian akan menjadi model perkiraan yang baik untuk masalah ini Namun, kerugian dari garis tren linier adalah bahwa ia tidak akan melakukan adju Jika terjadi perubahan dalam tren, karena metode ramalan eksponensial eksponensial akan dimulai, diasumsikan bahwa semua perkiraan masa depan akan mengikuti garis lurus. Ini membatasi penggunaan metode ini ke kerangka waktu yang lebih singkat di mana Anda dapat yakin bahwa Tren tidak akan berubah. Seasonal Adjustments. A pola musiman adalah peningkatan berulang dan penurunan permintaan Banyak item permintaan menunjukkan perilaku musiman Penjualan pakaian mengikuti pola musiman tahunan, dengan permintaan untuk pakaian hangat meningkat di musim gugur dan musim dingin dan menurun di musim semi dan Musim panas karena permintaan akan pakaian dingin meningkat Permintaan untuk banyak barang ritel, termasuk mainan, perlengkapan olahraga, pakaian, peralatan elektronik, ham, kalkun, anggur, dan buah, meningkat selama musim liburan Permintaan kartu ucapan meningkat seiring dengan hari-hari istimewa seperti Hari Valentine dan Hari Ibu Pola musiman juga bisa terjadi setiap bulan, mingguan, atau bahkan setiap hari Beberapa restoran memiliki permintaan yang lebih tinggi di pasar. Vening daripada saat makan siang atau pada akhir pekan yang bertentangan dengan hari kerja Lalu Lintas - maka penjualan - di pusat perbelanjaan mengambil pada hari Jumat dan Sabtu. Ada beberapa metode untuk mencerminkan pola musiman dalam perkiraan seri waktu Kami akan menjelaskan salah satu metode sederhana yang menggunakan Faktor musiman Faktor musiman adalah nilai numerik yang dikalikan dengan perkiraan normal untuk mendapatkan perkiraan musiman disesuaikan. Salah satu metode untuk mengembangkan permintaan faktor musiman adalah membagi permintaan untuk setiap periode musiman dengan total permintaan tahunan, sesuai dengan Rumus berikut. Faktor musiman yang dihasilkan antara 0 dan 1 0, pada dasarnya, merupakan bagian dari total permintaan tahunan yang diberikan pada setiap musim. Faktor musiman ini dikalikan dengan permintaan perkiraan tahunan untuk menghasilkan perkiraan yang disesuaikan untuk setiap seasonputing Forecast with Musiman Adjustments. Wishbone Farms menumbuhkan kalkun untuk dijual ke perusahaan pengolahan daging sepanjang tahun. Namun, musim puncaknya jelas-jelas terjadi pada kuartal keempat. Tahun, dari bulan Oktober sampai Desember, Wishbone Farms telah mengalami permintaan kalkun selama tiga tahun terakhir yang ditunjukkan pada tabel berikut. Karena kita memiliki data permintaan tiga tahun, kita dapat menghitung faktor musiman dengan membagi total permintaan triwulanan selama tiga tahun. Dengan total permintaan sepanjang tiga tahun. Selanjutnya, kita ingin melipatgandakan perkiraan permintaan untuk tahun depan, 2000, oleh masing-masing faktor musiman untuk mendapatkan perkiraan permintaan untuk setiap kuartal. Untuk mencapai hal ini, kita memerlukan perkiraan permintaan untuk tahun 2000 In Kasus ini, karena data permintaan dalam tabel tampaknya menunjukkan tren yang meningkat secara umum, kami menghitung garis tren linier selama tiga tahun data dalam tabel untuk mendapatkan perkiraan perkiraan kasar. Dengan demikian, perkiraan untuk tahun 2000 adalah 58 17, Atau 58.170 kalkun. Dengan menggunakan perkiraan permintaan tahunan ini, perkiraan musiman yang disesuaikan, SF i, untuk tahun 2000 menunjukkan perkiraan kuartalan ini dengan nilai permintaan aktual dalam tabel, perkiraan perkiraan estan yang relatif baik Pasangan, yang mencerminkan variasi musiman dalam data dan kecenderungan kenaikan secara umum.10-12 Bagaimana metode rata-rata bergerak mirip dengan perataan eksponensial.10-13 Apa efek pada model pemulusan eksponensial akan meningkatkan konstanta pemulusan. Bagaimana cara menyesuaikan perataan eksponensial berbeda dari perataan eksponensial.10-15 Yang menentukan pilihan konstanta pemulusan untuk tren dalam model pemulusan eksponensial yang disesuaikan.10-16 Dalam contoh bab untuk metode deret waktu, perkiraan awal selalu diasumsikan sebagai Sama dengan permintaan aktual pada periode pertama Sarankan cara lain agar perkiraan awal dapat diturunkan dalam penggunaan aktual.10-17 Bagaimana model peramalan linier linier berbeda dari model regresi linier untuk peramalan.10-18 Dari seri waktu Model yang disajikan dalam bab ini, termasuk rata-rata bergerak dan rata-rata bergerak tertimbang, pemulusan eksponensial dan pemulusan eksponensial yang disesuaikan, dan garis tren linier, yang mana yang Anda lakukan Nsider the best Why.10-19 Keuntungan apa yang disesuaikan dengan eksponensial smoothing memiliki garis linier yang linier untuk perkiraan permintaan yang menunjukkan tren.4 KB Kahn dan JT Mentzer, Peramalan di Pasar Konsumen dan Industri, Journal of Business Forecasting 14, no 2 Musim panas 1995 21-28. Analisis regresi linier adalah teknik statistik statistik yang paling banyak digunakan, studi hubungan linier aditif antara variabel Biarkan Y menunjukkan variabel dependen yang nilainya ingin Anda prediksi, dan biarkan X 1, X k menunjukkan Variabel independen dari mana Anda ingin memprediksinya, dengan nilai variabel X i pada periode t atau pada baris t dari kumpulan data dilambangkan dengan X maka persamaan untuk menghitung nilai prediksi Y t adalah. Rumus ini memiliki Properti bahwa prediksi untuk Y adalah fungsi garis lurus dari masing-masing variabel X, yang memegang yang lain tetap, dan kontribusi dari variabel X yang berbeda terhadap prediksi adalah aditif. Lereng individu lurus - Hubungan linier dengan Y adalah konstanta b 1 b 2,, bk disebut koefisien dari variabel Yaitu, bi adalah perubahan dalam nilai prediksi Y per unit perubahan pada X i hal-hal lain yang sama Konstanta tambahan b 0 yang disebut intercept adalah prediksi bahwa model akan dilakukan jika semua X adalah nol jika memungkinkan. Koefisien dan intercept diperkirakan oleh kuadrat terkecil yaitu menyetaranya sama dengan nilai unik yang meminimalkan jumlah kesalahan kuadrat dalam Sampel data yang modelnya pas Dan kesalahan prediksi model biasanya diasumsikan independen dan identik terdistribusi normal. Hal pertama yang harus Anda ketahui tentang regresi linier adalah bagaimana regresi istilah aneh diterapkan pada model seperti Ini pertama kali dipelajari secara mendalam oleh ilmuwan abad ke-19, Sir Francis Galton Galton adalah seorang naturalis, antropolog, ahli astronomi, dan ahli statistik yang otodidak - dan karakter Indiana Jones yang nyata. Dia terkenal dengan penjelajahannya, dan dia menulis buku terlaris tentang bagaimana bertahan di padang gurun berjudul The Art of Travel Shifts and Contrivances Available in Wild Places, dan sekuelnya, The Art of Rough Travel From the Practical to the Peculiar Mereka masih dicetak dan masih dianggap sebagai sumber yang berguna. Mereka memberi banyak petunjuk praktis untuk tetap hidup - seperti bagaimana mengobati luka di mata atau mengekstrak kuda Anda dari pasir hisap - dan mengenalkan konsep kantong tidur ke Dunia Barat Klik pada Gambar ini untuk lebih jelasnya. Galton adalah pelopor dalam penerapan metode statistik untuk pengukuran di banyak cabang ilmu pengetahuan, dan dalam mempelajari data tentang ukuran relatif orang tua dan keturunan mereka di berbagai spesies tumbuhan dan hewan, dia mengamati fenomena berikut ini. Orang tua yang lebih besar dari rata-rata cenderung menghasilkan anak yang lebih besar dari rata-rata, tapi anak cenderung kurang besar daripada orang tua dalam hal posisi relatifnya di dalam generasinya sendiri. N Jadi, misalnya, jika ukuran orang tua adalah x penyimpangan standar dari mean di dalam generasinya sendiri, maka Anda harus meramalkan bahwa ukuran anak akan rx r kali x penyimpangan standar dari mean di dalam himpunan anak-anak dari mereka. Orang tua, dimana r adalah bilangan yang kurang dari 1 dalam besaran r adalah apa yang akan didefinisikan di bawah ini sebagai korelasi antara ukuran induk dan ukuran anak. Hal yang sama berlaku untuk pengukuran fisik dan manusia, Sebagian besar pengukuran kemampuan kognitif dan fisik yang dapat dilakukan pada orang tua dan keturunannya Berikut adalah gambaran pertama dari garis regresi yang menggambarkan efek ini, dari ceramah yang disampaikan oleh Galton pada tahun 1877. Simbol R pada grafik ini yang nilainya adalah 0 33 Menunjukkan koefisien kemiringan, bukan korelasi, walaupun keduanya sama jika kedua populasi memiliki standar deviasi yang sama, seperti yang akan ditunjukkan di bawah ini. Geo menyebut fenomena ini sebagai regresi terhadap biasa-biasa saja yang dalam mod Istilah ern adalah regresi terhadap rata-rata Bagi pengamat nampaknya hal ini mungkin menunjukkan bahwa generasi selanjutnya akan menunjukkan variabilitas yang kurang - secara harfiah lebih biasa-biasa saja - daripada yang sebelumnya, tapi itu bukan kasus Ini adalah fenomena statistik murni Kecuali setiap anak Adalah ukuran yang sama persis dengan induknya dalam hal relatif yaitu kecuali jika korelasinya sama persis dengan 1, prediksi harus kembali ke mean tanpa memandang biologi jika kesalahan kuadrat rata-rata harus diminimalkan. Kembali ke atas halaman. Regresi ke mean Adalah fakta hidup yang tak terelakkan Anak-anak Anda dapat diharapkan kurang luar biasa untuk mendapatkan yang lebih baik atau lebih buruk daripada nilai Anda pada ujian akhir dalam kursus dapat diharapkan kurang baik atau buruk daripada skor Anda pada ujian tengah semester, relatif terhadap Sisa kelas Rata-rata pemain bisbol s batting di paruh kedua musim ini dapat diharapkan lebih mendekati rata-rata untuk semua pemain daripada rata-rata pukulannya di paruh pertama musim ini. Jadi kata kunci di sini Diharapkan Ini tidak berarti yakin bahwa regresi terhadap mean akan terjadi, tapi begitulah cara untuk bertaruh. Kita telah melihat saran dari regresi-to-the-mean pada beberapa model peramalan deret waktu yang telah kita pelajari. Plot prakiraan cenderung lebih halus - mereka menunjukkan variabilitasnya kurang - dari pada plot data asli Ini tidak berlaku untuk model jalan acak, namun umumnya model moving-average dan model lainnya yang mendasari perkiraan mereka pada Lebih dari satu observasi masa lalu. Penjelasan intuitif untuk efek regresi adalah hal sederhana yang sedang kita coba prediksi biasanya terdiri dari sinyal komponen yang dapat diprediksi dan komponen yang tidak dapat diprediksi secara statistik yang tidak dapat diprediksi. Yang terbaik yang dapat kita harapkan adalah meramalkan hanya bagian dari Variabilitas yang disebabkan oleh sinyal Oleh karena itu prakiraan kita akan cenderung menunjukkan variabilitas kurang dari nilai sebenarnya, yang menyiratkan regresi ke mean. Cara lain untuk memikirkan efek regresi adalah dalam istilah S dari bias pemilihan Secara umum, kinerja pemain selama periode waktu tertentu dapat dikaitkan dengan kombinasi keterampilan dan keberuntungan. Misalkan kita memilih sampel atlet profesional yang kinerjanya jauh lebih baik daripada rata-rata atau siswa yang nilainya jauh lebih baik daripada Rata-rata di paruh pertama tahun Fakta bahwa mereka melakukannya dengan baik di paruh pertama tahun ini membuat kemungkinan bahwa kedua keterampilan dan keberuntungan mereka lebih baik daripada rata-rata selama periode tersebut. Pada paruh kedua tahun ini, kami dapat mengharapkannya Untuk menjadi sama-sama terampil, tapi kita seharusnya tidak mengharapkan mereka untuk menjadi sama beruntung Jadi kita harus memprediksi bahwa di babak kedua kinerjanya akan mendekati rata-rata Sementara itu, pemain yang kinerjanya hanya rata-rata di babak pertama mungkin memiliki keterampilan dan keberuntungan bekerja. Dalam arah yang berlawanan untuk mereka Oleh karena itu, kita harus mengharapkan kinerjanya di babak kedua untuk menjauh dari mean dalam satu arah atau yang lain, saat kita mendapatkan tes independen lainnya. Keterampilan mereka Kami tidak tahu ke arah mana mereka akan pindah, meskipun demikian, bagi saya, kami harus memperkirakan bahwa kinerja babak kedua mereka akan mendekati mean daripada kinerja babak pertama mereka Namun, kinerja sebenarnya dari para pemain harus diharapkan Varians sama besar di paruh kedua tahun ini seperti di babak pertama, karena hanya hasil dari redistribusi keberuntungan acak secara independen di antara pemain dengan distribusi keahlian yang sama seperti sebelumnya. Diskusi bagus tentang regresi dengan mean di media yang lebih luas Konteks penelitian ilmu sosial dapat ditemukan di sini Kembali ke atas halaman. Justifikasi untuk asumsi regresi. Mengapa kita harus mengasumsikan bahwa hubungan antara variabel bersifat linier. Karena hubungan linier adalah hubungan non-sepele yang paling sederhana yang dapat dibayangkan maka yang paling mudah untuk bekerja Dengan, dan. Karena hubungan sebenarnya antara variabel kita seringkali paling tidak kurang linier dibandingkan rentang nilai yang menarik Bagi kita, dan. Bahkan jika mereka tidak melakukannya, kita sering dapat mengubah variabel sedemikian rupa sehingga bisa memarisbawahi hubungan. Ini adalah asumsi yang kuat, dan langkah pertama dalam pemodelan regresi harus melihat scatterplots dari variabel dan Dalam kasus data deret waktu, plot dari variabel vs waktu, untuk memastikannya masuk akal secara apriori Dan setelah memasang model, plot kesalahan harus dipelajari untuk melihat apakah ada pola nonlinier yang tidak dapat dijelaskan Hal ini sangat penting saat Tujuannya adalah membuat prediksi untuk skenario di luar rentang data historis, di mana keberangkatan dari linieritas sempurna cenderung memiliki efek terbesar. Jika Anda melihat bukti hubungan nonlinear, mungkin saja meski tidak menjamin bahwa transformasi variabel akan meluruskannya di Cara yang akan menghasilkan kesimpulan dan prediksi yang berguna melalui regresi linier Kembali ke atas halaman. Dan mengapa kita harus mengasumsikan bahwa efek dari variabel independen yang berbeda pada expec Nilai ted dari variabel dependen adalah aditif Ini adalah asumsi yang sangat kuat, lebih kuat daripada yang disadari kebanyakan orang. Hal ini menyiratkan bahwa efek marjinal dari satu variabel independen yaitu koefisien kemiringannya tidak bergantung pada nilai variabel independen lainnya. Tetapi mengapa tidak melakukannya Dapat dibayangkan bahwa satu variabel bebas dapat memperkuat efek yang lain, atau pengaruhnya dapat bervariasi secara sistematis dari waktu ke waktu Dalam model regresi berganda, koefisien estimasi dari variabel independen yang diberikan seharusnya mengukur pengaruhnya sambil mengendalikan kehadiran yang lain. , Cara pengontrolan dilakukan adalah kelipatan yang sangat sederhana dari variabel lain hanya ditambahkan atau dikurangkan. Banyak pengguna hanya membuang banyak variabel independen ke dalam model tanpa memikirkan dengan seksama masalah ini, seolah perangkat lunak mereka akan secara otomatis mengetahui secara tepat bagaimana Mereka terkait. Metode pemilihan model otomatis misalnya regre stepwise Ssion mengharuskan Anda untuk memiliki pemahaman yang baik tentang data Anda sendiri dan menggunakan panduan dalam analisis Mereka bekerja hanya dengan variabel yang mereka berikan, dalam bentuk yang mereka berikan, dan kemudian mereka hanya melihat pola linier dan aditif antara Mereka dalam konteks satu sama lain Model regresi tidak hanya menganggap bahwa Y adalah beberapa fungsi dari X s Ini mengasumsikan bahwa ini adalah fungsi fungsi X yang sangat khusus. Praktik yang umum adalah memasukkan variabel independen yang efek prediktifnya secara logis. Tidak dapat aditif, katakanlah, beberapa di antaranya adalah jumlah dan jumlah yang lain, tingkat atau persentase Kadang-kadang hal ini dapat dirasionalisasi oleh argumen pendekatan pesanan pertama, dan kadang kala Anda dapat mengumpulkan data yang relevan, memahami apa yang diukurnya, Bersihkan jika perlu, lakukan analisis deskriptif untuk mencari pola sebelum memasang model apa pun, dan pelajari tes diagnostik asumsi model sesudahnya, terutama statistik dan plot kesalahan Anda juga harus Cobalah untuk menerapkan penalaran ekonomi atau fisik yang tepat untuk menentukan apakah persamaan prediksi aditif masuk akal Di sini juga, adalah mungkin namun tidak menjamin bahwa transformasi variabel atau dimasukkannya istilah interaksi dapat memisahkan pengaruhnya ke dalam bentuk aditif, jika tidak Memiliki bentuk seperti itu untuk memulai, tapi ini memerlukan pemikiran dan usaha dari Anda Kembali ke atas halaman. Dan mengapa kita harus menganggap kesalahan model linier secara independen dan identik terdistribusi normal.1 Asumsi ini sering dibenarkan oleh banding Teorema Batas Pusat statistik, yang menyatakan bahwa jumlah atau rata-rata jumlah variabel acak independen yang cukup banyak - apapun distribusi masing-masing - mendekati distribusi normal Banyak data dalam bisnis dan ekonomi dan teknik dan ilmu alam diperoleh oleh Menambahkan atau merata pengukuran numerik yang dilakukan pada banyak orang atau produk atau lokasi atau waktu yang berbeda Jika sejauh aktivitas yang menghasilkan pengukuran dapat terjadi agak acak dan agak independen, kita bisa memperkirakan variasi dalam total atau rata-rata akan terdistribusi secara normal.2 Sekali lagi ini sesuai secara matematis, ini menyiratkan bahwa perkiraan koefisien optimal untuk model linier Adalah yang meminimalkan kesalahan kuadrat rata-rata yang mudah dihitung, dan ini membenarkan penggunaan sejumlah uji statistik berdasarkan keluarga biasa distribusi Keluarga ini mencakup distribusi t, distribusi F, dan distribusi kuadrat-Chi.3 Bahkan jika proses kesalahan sebenarnya tidak normal dalam hal unit data asli, mungkin saja untuk mengubah data sehingga prediksi prediksi model Anda kira-kira normal. Tapi di sini terlalu hati-hati harus dilakukan Bahkan jika variasi yang tidak dapat dijelaskan Pada variabel dependen kira-kira terdistribusi normal, tidak dijamin bahwa mereka juga akan identik secara normal distribu Ted untuk semua nilai variabel independen Mungkin variasi yang tidak dapat dijelaskan lebih besar dalam beberapa kondisi daripada kondisi lainnya, suatu kondisi yang dikenal sebagai heteroskedastisitas Misalnya, jika variabel dependen terdiri dari penjualan total harian atau bulanan, mungkin ada pola hari ke hari yang signifikan. Atau pola musiman Dalam kasus seperti itu varians dari total akan lebih besar pada hari atau musim dengan aktivitas bisnis yang lebih besar - konsekuensi lain dari teorema limit pusat Transformasi variabel seperti penebangan dan atau penyesuaian musiman sering digunakan untuk mengatasi masalah ini. Juga tidak dijamin bahwa variasi acak akan independen secara statistik Ini adalah pertanyaan yang sangat penting ketika data terdiri dari deret waktu jika model tidak ditentukan secara tepat, ada kemungkinan kesalahan atau kesalahan berturutan yang dipisahkan oleh beberapa periode lain akan memiliki Kecenderungan sistematis untuk memiliki tanda yang sama atau kecenderungan sistematis untuk memiliki tanda yang berlawanan, sebuah fenom Tidak dikenal sebagai autokorelasi atau korelasi serial. Kasus khusus yang sangat penting adalah data harga saham dimana persentase perubahan daripada perubahan absolut cenderung terdistribusi normal. Hal ini menyiratkan bahwa pada skala waktu menengah hingga besar, pergerakan harga saham didistribusikan secara logat Dari biasanya terdistribusi Transformasi log biasanya diterapkan pada data harga saham historis saat mempelajari pertumbuhan dan volatilitas Perhatian meskipun model regresi sederhana sering disesuaikan dengan return saham historis untuk memperkirakan beta, yang merupakan indikator risiko relatif dalam konteks portofolio terdiversifikasi, I Jangan menganjurkan agar Anda menggunakan regresi untuk mencoba memprediksi keuntungan saham di masa mendatang. Lihat halaman berjalan acak geometrik. Anda mungkin masih berpikir bahwa variasi nilai portofolio saham cenderung terdistribusi normal, berdasarkan teorema limit sentral, Tapi teorema limit sentral sebenarnya agak lambat untuk digigit pada gangguan lognormal Ibution karena sangat asimetris ekor panjang Sejumlah 10 atau 20 variabel independen dan identik lognormal didistribusikan memiliki distribusi yang masih cukup dekat dengan lognormal Jika Anda tidak mempercayainya, cobalah mengujinya dengan simulasi Monte Carlo Anda akan terkejut dengan saya. Karena asumsi linear regresi linier, hubungan aditif dengan kesalahan terdistribusi normal iid sangat kuat, sangat penting untuk menguji validitasnya saat model pas, topik yang dibahas lebih rinci pada halaman asumsi pengujian-model dan waspada. Kemungkinan Anda memerlukan data yang lebih banyak atau lebih baik untuk mencapai tujuan Anda Anda tidak bisa mendapatkan sesuatu dari nol. Terlalu sering, pengguna analisis regresi melihatnya sebagai kotak hitam yang dapat memprediksi secara otomatis setiap variabel yang diberikan dari variabel lain yang Diberi makan ke dalamnya, padahal sebenarnya model regresi adalah jenis prediksi yang sangat khusus dan sangat transparan Outputnya tidak mengandung informasi lebih banyak daripada Yang disediakan oleh inputnya, dan mekanisme dalamnya perlu dibandingkan dengan kenyataan di setiap situasi di mana ia diterapkan Kembali ke atas halaman. Korelasi dan formula regresi sederhana. Variabel adalah, menurut definisi, suatu kuantitas yang mungkin berbeda dari satu pengukuran ke Lain dalam situasi di mana sampel yang berbeda diambil dari populasi atau pengamatan dilakukan pada titik waktu yang berbeda Dalam model statistik pas di mana beberapa variabel digunakan untuk memprediksi orang lain, apa yang dapat kita temukan adalah bahwa variabel yang berbeda tidak berbeda secara independen dalam Statistik, tapi cenderung bervariasi. Khususnya, bila menggunakan model linier, kami berharap dapat menemukan satu variabel mengatakan, Y bervariasi karena fungsi garis lurus dari variabel lain mengatakan, X Dengan kata lain, jika semua yang lain Variabel yang mungkin relevan dapat dipertahankan, kami berharap dapat menemukan grafik Y versus X untuk menjadi garis lurus terpisah dari kesalahan acak atau noise yang tak terelakkan. Ukuran jumlah absolut varia Bility dalam variabel secara alami variansnya yang didefinisikan sebagai penyimpangan kuadrat rata-rata dari meannya sendiri Secara ekivalen, kita dapat mengukur variabilitas dalam hal deviasi standar yang didefinisikan sebagai akar kuadrat dari varians Standar deviasi memiliki keuntungan bahwa itu Diukur dalam satuan yang sama dengan variabel aslinya, bukan unit kuadrat. Tugas kita dalam memprediksi Y dapat digambarkan sebagai penjelasan beberapa atau semua variansnya - yaitu mengapa atau dalam kondisi apa, apakah itu menyimpang dari meanalnya? Apakah tidak konstan? Artinya, kita ingin dapat memperbaiki model prediktif naif t CONSTANT, di mana nilai terbaik untuk konstanta mungkin adalah mean historis Y Lebih tepatnya, kita berharap dapat menemukan model yang kesalahan prediksinya. Lebih kecil, dalam arti rata-rata persegi, daripada penyimpangan variabel asli dari mean-nya. Dalam menggunakan model linier untuk prediksi, ternyata sangat mudah bahwa statistik hanya minat sekurang-kurangnya f Atau tujuan untuk memperkirakan koefisien untuk meminimalkan kesalahan kuadrat adalah mean dan varians dari masing-masing variabel dan koefisien korelasi antara masing-masing pasangan variabel. Koefisien korelasi antara X dan Y biasanya dilambangkan dengan r XY dan mengukur kekuatan hubungan linier antara Mereka pada skala kesatuan tanpa satuan -1 sampai 1 Artinya, ia mengukur sejauh mana model linier dapat digunakan untuk memprediksi penyimpangan satu variabel dari pengetahuan yang diberikan rata-rata dari deviasi lain dari meannya pada saat yang sama. Point in time. Koefisien korelasi paling mudah dihitung jika kita pertama kali menstandardisasi variabel, yang berarti mengkonversikannya ke satuan standar-deviasi-dari-mean, menggunakan deviasi standar populasi daripada deviasi standar sampel, yaitu menggunakan Statistik yang rumusnya n bukan n-1 di denominator, di mana n adalah ukuran sampel Versi standar X akan dilambangkan disini oleh X dan nilainya pada periode t Didefinisikan dalam notasi Excel as. where STDEV P adalah fungsi Excel untuk deviasi standar populasi Di sini dan di tempat lain saya akan menggunakan fungsi Excel daripada simbol matematika konvensional di beberapa formula untuk menggambarkan bagaimana penghitungannya dilakukan pada spreadsheet Sebagai contoh, anggaplah AVERAGE X 20 dan STDEV PX 5 Jika X t 25, maka X t 1, jika X t 10 maka X t -2, dan seterusnya Y akan menunjukkan nilai standar Y. Now yang sama, koefisien korelasi Sama dengan produk rata-rata dari nilai standar dari dua variabel dalam sampel n pengamatan yang diberikan. Jadi, misalnya, jika X dan Y disimpan dalam kolom pada spreadsheet, Anda dapat menggunakan fungsi RATA-RATA dan STDEV P untuk menghitung their averages and population standard deviations, then you can create two new columns in which the values of X and Y in each row are computed according to the formula above Then create a third new column in which X is multiplied by Y in every row The average of the values in the last column is the correlation between X and Y Of course, in Excel, you can just use the formula CORREL X, Y to calculate a correlation coefficient, where X and Y denote the cell ranges of the data for the variables Note in some situations it might be of interest to standardize the data relative to the sample standard deviation, which is STDEV S in Excel, but the population statistic is the correct one to use in the formula above Return to top of page. If the two variables tend to vary on the same sides of their respective means at the same time, then the average product of their deviations and hence the correlation between them will be positive since the product of two numbers with the same sign is positive Conversely, if they tend to vary on opposite sides of their respective means at the same time, their correlation will be negative If they vary independently with respect to their means--that is, if one is equally likely to be above or below its mean regardless of what t he other is doing--then the correlation will be zero And if Y is an exact linear function of X, then either Y t X t for all t or else Y t - X t for all t in which case the formula for the correlation reduces to 1 or -1.The correlation coefficient can be said to measure the strength of the linear relationship between Y and X for the following reason The linear equation for predicting Y from X that minimizes mean squared error is simply. Thus, if X is observed to be 1 standard deviation above its own mean, then we should predict that Y will be r XY standard deviations above its own mean if X is 2 standard deviations below its own mean, then we should be predict that Y will be 2 r XY standard deviations below its own mean, and so on. In graphical terms, this means that, on a scatterplot of Y versus X the line for predicting Y from X so as to minimize mean squared error is the line that passes through the origin and has slope r XY This fact is not supposed to be obvious, but it is easily prov ed by elementary differential calculus. Here is an example on a scatterplot of Y versus X the visual axis of symmetry is a line that passes through the origin and whose slope is equal to 1 i e a 45-degree line , which is the gray dashed line on the plot below It passes through the origin because the means of both standardized variables are zero, and its slope is equal to 1 because their standard deviations are both equal to 1 The latter fact means that the points are equally spread out horizontally and vertically in terms of mean squared deviations from zero, which forces their pattern to appear roughly symmetric around the 45-degree line if the relationship between the variables really is linear However, the gray dashed line is the not the best line to use for predicting the value of Y for a given value of X The best line for predicting Y from X has a slope of less than 1 it regresses toward the X axis The regression line is shown in red, and its slope is the correlation between X and Y which is 0 46 in this case Why is this true Because, that s the way to bet if you want to minimize the mean squared error measured in the Y direction If instead you wanted to predict X from Y so as to minimize mean squared error measured in the X direction, the line would regress in the other direction relative to the 45-degree line, and by exactly the same amount. If we want to obtain the linear regression equation for predicting Y from X in unstandardized terms we just need to substitute the formulas for the standardized values in the preceding equation, which then becomes. By rearranging this equation and collecting constant terms, we obtain. is the estimated slope of the regression line, and. is the estimated Y - intercept of the line. Notice that, as we claimed earlier, the coefficients in the linear equation for predicting Y from X depend only on the means and standard deviations of X and Y and on their coefficient of correlation. The additional formulas that are needed to compute sta ndard errors t-statistics and P-values statistics that measure the precision and significance of the estimated coefficients are given in the notes on mathematics of simple regression and also illustrated in this spreadsheet file. Perfect positive correlation r XY 1 or perfect negative correlation r XY -1 is only obtained if one variable is an exact linear function of the other, without error, in which case they aren t really different variables at all. In general we find less-than-perfect correlation, which is to say, we find that r XY is less than 1 in absolute value Therefore our prediction for Y is typically smaller in absolute value than our observed value for X That is, the prediction for Y is always closer to its own mean, in units of its own standard deviation, than X was observed to be, which is Galton s phenomenon of regression to the mean. So, the technical explanation of the regression-to-the-mean effect hinges on two mathematical facts i the correlation coefficient, calculated in the manner described above, happens to be the coefficient that minimizes the squared error in predicting Y from X and ii the correlation coefficient is never larger than 1 in absolute value, and it is only equal to 1 when Y is an exact noiseless linear function of X. The term regression has stuck and has even mutated from an intransitive verb into a transitive one since Galton s time We don t merely say that the predictions for Y regress to the mean --we now say that we are regressing Y on X when we estimate a linear equation for predicting Y from X and we refer to X as a regressor in this case. When we have fitted a linear regression model, we can compute the variance of its errors and compare this to the variance of the dependent variable the latter being the error variance of an intercept-only model The relative amount by which the regression model s error variance is less than the variance of the dependent variable is referred to as the fraction of the variance that was explained by the independent variable s For example, if the error variance is 20 less than the original variance, we say we have explained 20 of the variance. It turns out that in a simple regression model, the fraction of variance explained is precisely the square of the correlation coefficient --i e the square of r Hence, the fraction-of-variance-explained has come to be known as R-squared The interpretation and use of R-squared are discussed in more detail here. In a multiple regression model one with two or more X variables , there are many correlation coefficients that must be computed, in addition to all the means and variances For example, we must consider the correlation between each X variable and the Y variable, and also the correlation between each pair of X variables In this case, it still turns out that the model coefficients and the fraction-of-variance-explained statistic can be computed entirely from knowledge of the means, standard deviations, and correlation coefficients among t he variables--but the computations are no longer easy We will leave those details to the computer Return to top of page. Go on to a nearby topic.

Comments