Verilerin Kümelenmesi – Extremes (Uç-Aşırı Değerler) İstatistikleri – Aşırılık İstatistikleri – Aşırılık İstatistiği Nedir? – İstatistik Fiyatları – Ücretli İstatistik
Verilerin Kümelenmesi
Sınırlayıcı bileşik Poisson sürecini tahmin etmek için verileri sınırlandırmamız gerektiğini hatırlayın. Literatürde, üçü uç indeks için bloklar, hareketler ve aralık tahmin edicileriyle ilgili olan birkaç şema önerilmiştir.
Blokların ayrılması (Leadbetter ve diğerleri, 1989), bölüm 10.3.1’de verilen küme tanımının doğal bir uygulamasıdır. Veriler r uzunluklu bloklara bölünür ve bir u eşiği aşımlarının, aynı blok içine düşmeleri halinde aynı kümeye ait olduğu varsayılır. Bu şekilde tanımlanan küme sayısı, en az bir aşımı olan blok sayısıdır.
Şekil 10.4’teki örnek, blok uzunluğunu r = 6 kullanarak iki kümeyi tanımlar. Küme sayısı, tam olarak uç indeks için blok tahmin edicisinin payında (10.25) görünen miktardır, bu nedenle küme sayısının oranıdır. toplam aşım sayısı, yani blokların ayrılmasıyla bulunan ortalama küme boyutunun tersidir.
Ekstrem indeks için çalıştırma tahmincisi (10.26), küme sayısının aşım sayısına oranı olarak da yorumlanabilir, ancak kümelerin küme sayısının azaltılmasıyla tanımlandığı yerlerde (Smith 1989). Bu şema ile, r aşmama sayısından daha azıyla ayrılan aşımların aynı kümeye ait olduğu varsayılır; r = 0 ise, her aşım ayrı bir küme oluşturur. Şekil 10.4’te, çalışma uzunluğu r = 3 ise üç küme tanımlanır, ancak r = 4 ise yalnızca iki küme tanımlanır.
Ekstrem indeks için karşılık gelen tahmin edicilerde olduğu gibi, bloklar ve çalıştırmalar için sorun yaratan sorun, yardımcı parametre r’nin seçimidir. R’yi seçmek için teşhis araçları Ledford ve Tawn (2003) tarafından önerilmişken, aşağıdaki şema aralıklı küme giderme (Ferro ve Segers 2003) alternatif bir çözüm sağlar.
Normalize edilmiş aşma sürelerinin θ oranının sınırda (10.27) sıfırdan farklı olduğunu ve bunların kümeler arasındaki süreleri temsil ettiğini hatırlayın. Eğer θ ̄ uç endeksin bir tahminiyse, o zaman bu kümeler arası olarak Ti, 1 ≤ i ≤ N – 1 arası aşım sürelerinin en büyük nc – 1 = ⌊ (N – 1) θ ̄⌋’sini almak doğaldır.
k-means kümeleme analizi
k-means kümeleme algoritması
Kümeleme algoritmaları
Hiyerarşik Kümeleme
Kümeleme algoritmaları karşılaştırma
Veri madenciliği kümeleme Nedir
Kümeleme nedir
Kümeleme yöntemleri
Bu, kalan ara aşma sürelerinin küme içi zaman kümelerine bölünmesini tanımlar. Ayrıca, aşma sürelerinin nokta süreci bileşik Poisson olduğundan, küme arası sürelerin birbirinden bağımsız olduğunu ve küme içi zaman kümelerinin hem birbirlerinden hem de kümeler arası sürelerden bağımsız olduğunu unutmayın.
Kesin olarak, eğer T (nc) nc’inci en büyük aşma süresiyse ve Tij, T’yi (nc) aşan jnci aşma süresiyse, {Ti} nc −1 yaklaşık j j = 1 bağımsız kümeler arası zaman kümesidir. Bağlar durumunda, T (nc − 1) T (nc) ‘den kesin olarak büyük olana kadar nc’yi azaltın. Ayrıca Tj = {Tij − 1 + 1,. . . , Tij −1}, burada i0 = 0, inc = N ve Tj = ∅ eğer ij = ij −1 + 1. O zaman {Tj} nc, yaklaşık olarak bağımsız j = 1’in bir koleksiyonudur.
Dahası, her bir Tj kümesi, bir eşik değer farkı Xj = {Xi: i∈Sj} kümesi ile ilişkilendirilmiştir, burada Sj = {Sij − 1 + 1, …, Sij} aşma zamanlarının istheseti. Aralık tahmin edicisi (10.29) ile θ değerini tahmin edersek, bu yaklaşım veriyi yardımcı parametrenin keyfi bir şekilde seçilmesini gerektirmeden nc kümelerine dönüştürür. Aslında, şema declustering çalıştırmaya eşdeğerdir, ancak çalışma uzunluğu r = T (nc) verilerden tahmin edilir ve sınırlayıcı teori tarafından doğrulanır.
Bileşik Poisson Sürecinin Tahmin Edilmesi
J = 1 için Xj = {xi: i ∈ Sj} kümelerini belirledikten sonra, u yüksek bir eşik üzerinde nc, küme istatistiklerini hesaplayabiliriz yj ∗ = c {(xi – u) i∈Sj} sınırlayıcı bileşik Poisson sürecinin işaretlerine karşılık gelir. Eğer teori parametrik bir model sağlamazsa, = nc iken π küme istatistiklerinin ampirik dağılım işlevi ile tahmin edilebilir. Pik fazlalığı durumunda, π, GP dağılımıdır (Teorem 10.17) ve maksimum olasılıkla tahmin edilebilir.
Bu, POT modelleme olarak bilinir. Modelin mevsimselliği ve diğer regresörleri ele almak için tahmin yöntemleri, teşhisleri ve uzantıları Davison ve Smith (1990) tarafından açıklanmıştır; ayrıca Bölüm 7’ye bakın. Alternatif bir POT yaklaşımı, yalnızca küme maksimumlarının değil, GP dağıtımının tüm fazlalıklara uydurulmasıdır.
Fikir, sınırda, maksimum küme fazlasının dağılımının keyfi bir aşımınki ile aynı olduğu gerçeğiyle (10.21) gerekçelendirilir, ancak yazışma genellikle sonlu eşiklerde zayıftır. Tüm aşırılıklara uyarak, aşımları iptal etmek zorunda kalmayız; öte yandan, aşırılıklar artık bağımsızmış gibi ele alınamaz, bu da tahmin prosedürünün değiştirilmesini gerektirir.
Yaklaşımlardan biri, aşırılıklar bağımsız olduğunda uygun tahmin yöntemlerini benimsemek ve aksi takdirde küçümsenecek olan standart hataları ayarlamaktır. Bu durumda standart hataları elde etmek için birkaç yöntem önerilmiştir: bkz. Smith (1990a), Buishand (1993) ve Drees (2000).
Herhangi bir küme istatistiği için, bileşik Poisson sürecinin bağımsızlık yapısından yararlanan bir önyükleme şeması (Ferro ve Segers 2003), mean, estim ve türetilmiş miktarlar estim tahminleri üzerinde, π’nin ortalaması gibi, güven sınırlarını elde etmek için kullanılabilir.
(i) {Ti} nc − 1’den nc – 1 küme arası kez değiştirilerek yeniden örnekleyin. j j = 1
(ii) Bazıları boş olabilen, küme içi zamanların yer değiştiren nc kümeleriyle ve {(Tj, Xj)} nc’den itibaren ilişkili aşımlarla yeniden örnekleyin.
j = 1
(iii) Sürecin bir önyükleme kopyasını oluşturmak için bu karşılıklı aşma sürelerini ve kümelerini birbiriyle ilişkilendirin.
(iv) Önyükleme süreci için N’yi hesaplayın,’yi tahmin edin ve buna göre sınırlama yapın.
(v) Declustered bootstrap örneği için υ, π ve ζ’yi tahmin edin.
B’yi oluşturmak, bu tür önyükleme örnekleri, orijinal nokta tahminlerinin dağılımlarına yaklaşmak için kullanılabilecek tahmin koleksiyonları verir. Özellikle, her koleksiyonun ampirik α- ve (1 – α) -kantilleri (1 – 2α) – güven aralıklarını tanımlar.
Aralıklı küme azaltma ile uygulandığında, bu şemanın, (iv) adımında her bir dizi için yeniden tahmin edildiği için, verilerin saydamlığını azaltmak için kullanılan çalışma uzunluğundaki belirsizliği hesaba kattığına dikkat edin.
Aşırı indeks için alternatif güven sınırları (Leadbetter ve diğerleri, 1989), tahmin edilebilen blok tahmin edicisinin asimptotik normalliğine ve varyansına dayanır.