NORMSTrading Platform
← คลังความรู้บท 11/15สารบัญ

📖 คัมภีร์ Quant บท 11 — สถิติและความน่าจะเป็นที่เทรดเดอร์ต้องมี: เกราะกันถูกหลอก (โดยคนอื่น และโดยตัวเอง)

ระดับ: สูง · บทนี้คือ "ระบบภูมิคุ้มกัน" ของทุกบทอื่น — ไม่มีบทนี้ บทอื่นจะถูกใช้แบบอันตราย ไม่ต้องเก่งเลข — ทุกสูตรในบทมีเวอร์ชันภาษาคน และตารางสำเร็จรูปให้เปิดใช้ แผนทั้งชุด · ← บท 2 ศัพท์ · บท 5 backtest →


1. ทำไมต้องมีบทนี้ — สมองมนุษย์คือเครื่องจับแพทเทิร์นที่ "ไวเกินสเปค"

วิวัฒนาการสร้างสมองเรามาจับแพทเทิร์นเร็วๆ ("พุ่มไม้ไหว = อาจมีเสือ = วิ่งก่อน") — ต้นทุนของการ "เห็นแพทเทิร์นที่ไม่มีจริง" ในป่าคือเหนื่อยฟรี แต่ต้นทุนของการ "พลาดแพทเทิร์นที่มีจริง" คือตาย → สมองจึงถูกจูนให้ เห็นแพทเทิร์นเกินจริงเสมอ (false positive ดีกว่า false negative)

ในตลาด สมการกลับด้าน: การเห็นแพทเทิร์นปลอมแล้วเทรดตามมัน = เสียเงินจริง — และตลาดคือเครื่องผลิตแพทเทิร์นปลอมที่ใหญ่ที่สุดในโลก (ข้อมูลสุ่มจำนวนมหาศาล ใครจ้องนานพอจะเห็น "ระบบ" เสมอ) · สถิติคือแว่นแก้สายตาที่วิวัฒนาการไม่ได้ให้มา — และคือความแตกต่างเชิงวิธีคิดที่แท้จริงระหว่าง quant กับเทรดเดอร์ทั่วไป ไม่ใช่โค้ดหรือคณิตศาสตร์ขั้นสูง


2. Streaks — แพ้ติดกันกี่ไม้คือ "ปกติ" (ตัวเลขที่ช่วยชีวิตจิตใจ)

คำถามที่ทำลายเทรดเดอร์มากที่สุดข้อหนึ่ง: "แพ้ 7 ไม้ติด — ระบบพังแล้วใช่ไหม?" — สถิติมีคำตอบเป็นตัวเลข:

ความน่าจะเป็นที่จะเจอ "แพ้ติดกันอย่างน้อย N ไม้" สักครั้ง ภายใน 100 ไม้ (คำนวณ exact ด้วย dynamic programming — ตรวจซ้ำแล้ว):

win rate ระบบ แพ้ติด ≥5 แพ้ติด ≥7 แพ้ติด ≥10
60% (แพ้ 40%) ~46% ~9% ~0.6%
50% ~81% ~32% ~4.4%
40% (ระบบ trend ทั่วไป — แพ้ 60%) ~98% ~69% ~21%

อ่านตาราง: ระบบ trend ที่ชนะ 40% — แพ้ติดกัน 7 ไม้ใน 100 ไม้ มีโอกาสเกิด ~69% = เหตุการณ์ปกติที่ควรคาดหวังไว้เลย · แพ้ติด 10 ไม้ = ~21% = ราว 1 ใน 5 — ไม่ใช่เรื่องประหลาดพอจะสรุปว่าระบบพัง · เทรดเดอร์ที่ไม่รู้ตัวเลขนี้จะเลิกใช้ระบบตอนแพ้ติด 7-8 — ซึ่งเชิงสถิติคือการ "เลิกใช้ร่มเพราะฝนตก"

การใช้งานจริง 2 ทาง: 1. ก่อนใช้ระบบ: คำนวณ (หรือ Monte Carlo) ว่า streak แย่สุดที่ "ปกติ" ของระบบนี้คือเท่าไร แล้วถามใจล่วงหน้า: เจอจริงทนไหวไหม — ถ้าไม่ไหว ลด size ก่อนเริ่ม ไม่ใช่ไปเจอเอาหน้างาน 2. เส้นแบ่ง "ปกติ vs ผิดปกติ" ที่เป็นวิทยาศาสตร์: ระบบควรมีไฟเตือนที่ตั้งจากสถิติของตัวเอง เช่น "แพ้ติดเกิน percentile 99 ของ Monte Carlo = หยุด ตรวจสอบ" — ไม่ใช่หยุดเพราะ "รู้สึกแย่" (ความรู้สึกแย่มาเร็วกว่าหลักฐานเสมอ)

🔬 Gambler's fallacy โผล่ในเทรดยังไง: "แพ้มา 6 ไม้แล้ว ไม้หน้าต้องชนะแน่ ใส่หนักเลย" — เหรียญไม่มีความจำ ไม้ที่ 7 มีโอกาสเท่าไม้แรกเป๊ะ · เวอร์ชันร้ายสุดของ fallacy นี้คือ martingale (เบิ้ลไม้หลังแพ้) — คณิตศาสตร์พิสูจน์ได้ว่าสำหรับทุกระบบที่ expectancy ติดลบหรือศูนย์ martingale ไม่เปลี่ยน expectancy เลย มันแค่ ย้ายความเจ็บไปกองรวมกันที่หาง: ชนะเล็กถี่ขึ้น แลกกับวันที่เจ๊งทั้งพอร์ตหนึ่งวัน (mtrader = บทพิสูจน์มีชีวิตจากบทแรกของเรา)


3. Fat Tails — โลกจริงอ้วนกว่าโค้งระฆัง และนี่คือเรื่องเป็นเรื่องตายของ risk

สถิติเบื้องต้นสอนโค้งระฆัง (normal distribution): เหตุการณ์ ±3SD เกิด ~0.3% · ±5SD แทบเป็นไปไม่ได้ (1 ใน 3.5 ล้าน) — ตลาดจริงไม่เคารพโค้งนี้เลย:


4. Sample Size — ต้องกี่ไม้ถึงเชื่อตัวเลขได้ (ตารางที่ควรแปะข้างจอ)

ทุกตัวเลขจากข้อมูล (win rate, expectancy, Sharpe) คือ "ค่าประมาณ" ที่มีแถบความไม่แน่นอน — แถบนี้แคบลงตามรากที่สองของจำนวนตัวอย่าง (อยากแม่นขึ้น 2 เท่า ต้องใช้ข้อมูล 4 เท่า):

แถบความเชื่อมั่น ~95% ของ win rate ที่วัดได้ (สูตรหยาบ: ±1/√n — ใช้ได้กับ win rate เท่านั้น แถบจริงของ expectancy หรือ Sharpe ratio กว้างกว่านี้มาก เพราะขึ้นกับการกระจายของขนาดกำไร/ขาดทุนด้วย):

จำนวนไม้ วัด win rate ได้ 50% — ค่าจริงอยู่ราวๆ ความหมาย
25 30-70% แทบไม่รู้อะไรเลย — อย่าตัดสินใจอะไรจากเลขนี้
100 40-60% เริ่มเห็นเงา — ยังแยก "ระบบดี" จาก "เหรียญ" ไม่ได้
400 45-55% ใช้งานได้ — มาตรฐานขั้นต่ำที่ควรเรียกร้องจาก backtest
1,000+ 47-53% ระดับที่วงการเริ่มเรียกว่าหลักฐาน

การใช้จริง: - backtest ที่มี 30 ไม้แล้วสรุปว่า "ระบบชนะ 70%!" = ยังไม่รู้อะไรเลย (แถบจริงคือ 50-90%) - ยิ่ง timeframe ใหญ่ ไม้ยิ่งน้อย → นี่คือ trade-off ที่แท้จริงของการเทรด timeframe ใหญ่ (ต้นทุนถูก/noise ต่ำ แลกกับหลักฐานสะสมช้า) — ทางแก้ของวงการ: ทดสอบกฎตระกูลเดียวกันข้ามหลายตลาดหลายช่วงเวลา ให้จำนวนรวมถึงเกณฑ์ (กฎที่ work 8 จาก 10 ตลาด น่าเชื่อกว่ากฎที่ work เทพในตลาดเดียว — เหตุผลเดียวกับที่ R2/R3 ของเราทดสอบหลายตลาดพร้อมกัน) - เพจ/กูรูที่โชว์สถิติจาก "ไม้ล่าสุด 20 ไม้" — ตอนนี้หลิวมีเครื่องมือหักล้างแบบสุภาพ: ±1/√20 = ±22% — ตัวเลขที่แกว่งได้ขนาดนั้นไม่ใช่หลักฐาน เป็นเรื่องเล่า


5. p-hacking / Multiple Testing — กับดักที่ฆ่า quant มือใหม่มากกว่าทุกข้อรวมกัน ⭐

แก่นปัญหาในหนึ่งย่อหน้า: ถ้าโยนเหรียญ 100 อัน อันละ 10 ครั้ง — โดยเฉลี่ยจะมีเหรียญ ~5 อันออกหัว 8+ ครั้ง "อย่างน่าทึ่ง" ทั้งที่ทุกอันคือเหรียญธรรมดา · การ "ลองกฎเทรดหลายๆ แบบกับข้อมูลเดียวกัน แล้วเลือกตัวที่ผลดีสุด" คือการโยนเหรียญร้อยอันแล้วเอาอันที่ออกหัวบ่อยไปลงเงินจริง — ความดีที่เห็นคือความบังเอิญที่ถูกคัดเลือก ไม่ใช่ edge

นี่คือบาปต้นกำเนิดของวงการขายระบบทั้งหมด และเป็นกับดักที่เราจะเหยียบเองทุกวันถ้าไม่มีวินัย เพราะเครื่องมือยุคนี้ (รวมถึงนอม!) ทำให้ "ลองอีกแบบ" ใช้เวลาแค่วินาที — ยิ่งลองง่าย ยิ่งหลอกตัวเองง่าย:

กฎป้องกัน 5 ข้อ (มาตรฐานที่ระบบเราใช้): 1. นับทุกครั้งที่ลอง — จดว่าทดสอบไปกี่ variation แล้ว ยิ่งลองมาก เกณฑ์ "ผ่าน" ต้องยิ่งโหดขึ้นตามสัดส่วน (Bonferroni correction: ลอง 20 แบบ → เกณฑ์ p-value ที่จะเชื่อได้ต้องหารด้วย 20 — ไม่ใช่ว่า effect ต้องใหญ่ขึ้น 20 เท่า แต่ว่า significance threshold เข้มขึ้น 20 เท่า ผลที่เคยดูน่าเชื่อที่ p=0.05 จะต้องดี p=0.0025 จึงจะเชื่อได้) — งานวิจัย R3 ของเราเมื่อคืนใช้หลักนี้เป๊ะ: เจอ 1 config ผ่านจาก 20 = เท่าที่โชคให้พอดี → ไม่ประกาศชัยชนะ 2. ตั้งสมมติฐานก่อนเห็นข้อมูล — เขียนกฎ+เหตุผลเศรษฐศาสตร์ลงกระดาษก่อนรัน backtest ครั้งแรก (เหตุผลที่มาก่อนผล = วิทยาศาสตร์ · เหตุผลที่ตามหลังผล = การแต่งนิทานให้ความบังเอิญ) 3. Out-of-sample ศักดิ์สิทธิ์ — ข้อมูลที่กันไว้ เปิดดูครั้งเดียว ใช้ตัดสินครั้งเดียว เปิดแล้วแก้กฎ = ข้อมูลนั้น "เสีย" ถาวร (กลายเป็น in-sample โดยพฤตินัย) 4. กฎต้องมีเหตุผลว่า "ใครจ่าย" (บท 3) — กฎที่อธิบายไม่ได้ว่ากำไรมาจากท่อไหน มีโอกาสเป็นความบังเอิญสูงกว่ามาก 5. เนินกว้าง > ยอดแหลม — กฎจริงต้อง work ในย่านพารามิเตอร์กว้าง (เลข 15-25 ดีหมด) ไม่ใช่เฉพาะเลขเดียว (20 เทพ 19 กับ 21 เจ๊ง = ยอดแหลมของความบังเอิญ) — สังเกตว่าแชทโรงงานของเราก็เจอหลักนี้เองเมื่อคืน ("เนินกว้าง ดีกว่าต้นแบบ 3 เท่า")

🔬 เจาะลึก — Deflated Sharpe (ของจริงจากหิ้ง top 5%): López de Prado (อดีตหัวหน้า ML กองทุนระดับโลก) ตีพิมพ์สูตร "หัก Sharpe ตามจำนวนครั้งที่ลอง": ยิ่ง backtest หลายรอบ Sharpe ที่รายงานต้องโดน deflate ลงเท่านั้น ก่อนเทียบเกณฑ์ — ใจความที่ควรจำแม้ไม่ใช้สูตร: "Sharpe 2 จากการลองครั้งเดียว มีค่ามากกว่า Sharpe 3 จากการลองพันครั้ง" และกองทุนจริงจังถามผู้สมัครเสมอว่า "ลองไปกี่ครั้งกว่าจะได้ผลนี้" — คำถามเดียวกันที่หลิวควรถามทุกคนที่เอาระบบมาเสนอ


6. Bayes สำหรับเทรดเดอร์ — เครื่องคิดเลขความเชื่อ

ไม่ต้องจำสูตร เอาแก่นไป 2 เรื่อง:

เรื่อง 1 — Base rate ต้องมาก่อนหลักฐานเสมอ: เครื่องตรวจ "ระบบเทพ" ที่แม่น 90% ฟังดูน่าเชื่อ — แต่ถ้าในโลกมีระบบเทพจริงแค่ 1 ใน 1,000 ระบบที่อวดขาย: ตรวจ 1,000 ระบบ → เจอของจริง ~0.9 ตัว + ของปลอมที่หลอกเครื่องผ่าน ~100 ตัว → ของที่ "ผ่านการตรวจ" มีโอกาสเป็นของจริงแค่ ~1% ทั้งที่เครื่องแม่น 90% · นี่คือเหตุผลเชิงคณิตศาสตร์ที่ต้อง default เป็น "ไม่เชื่อ" เมื่อเจอ track record สวยๆ — ไม่ใช่เพราะใจร้าย แต่เพราะ base rate ของระบบเทพจริงในโลกต่ำมาก และ base rate ของเรื่องแต่งสูงมาก - มุมกลับที่อ่อนโยนกับตัวเอง: ใช้กับผลของเราเองด้วย — ผล backtest แรกที่สวยหรู ควรถูก discount ด้วย base rate ("กฎ v1 ของมือใหม่ work จริงกี่ %") ก่อนดีใจ

เรื่อง 2 — อัปเดตความเชื่อทีละหลักฐาน ไม่พลิกทีละก้อน: ระบบแพ้ 5 ไม้ติด — มือใหม่พลิกจาก "เชื่อ 100%" เป็น "ทิ้งเลย" · เบย์เซียนถามว่า "หลักฐานชิ้นนี้ น้ำหนักจริงเท่าไร" (จากหัวข้อ 2: แพ้ 5 ติดของระบบ win rate 40% = น้ำหนักแทบศูนย์ — เหตุการณ์ปกติ) แล้วขยับความเชื่อตามน้ำหนักจริง ไม่ใช่ตามความเจ็บ · ทักษะเดียวที่ทำให้คนอยู่กับระบบได้ครบวงจรชีวิตของมัน


7. Regression to the Mean — แรงโน้มถ่วงของผลงาน

ผลงานสุดขั้ว (ดีหรือแย่) ส่วนใหญ่ = ฝีมือจริง + โชคสุดขั้ว → ครั้งถัดไปโชคถอยกลับค่ากลาง ผลงานจึง "ถอยลง" ทั้งที่ฝีมือเท่าเดิม: - กองทุน/เซียนที่ปีนี้กำไรอันดับ 1 — สถิติย้อนหลังทั้งวงการบอกตรงกัน: อันดับปีถัดไปมัก "ธรรมดาลง" อย่างมีนัย — ไม่ใช่เพราะหมดมุข แต่เพราะปีแชมป์คือปีที่โชคเข้าข้างสุดๆ ด้วย (เหตุผลเดียวกับที่นักกีฬาขึ้นปกแล้ว "ฟอร์มตก" — the Sports Illustrated curse ไม่ใช่คำสาป มันคือ regression) - การใช้จริง: (1) อย่าซื้อคอร์ส/ตามเซียนจากผลงานปีเดียว — ดูความสม่ำเสมอหลายปี (2) อย่าเพิ่ม size หลังช่วง winning streak ของตัวเอง — นั่นแหละจังหวะที่ regression รอเก็บ (3) ช่วงที่ระบบเรา "ร้อนผิดปกติ" คือช่วงที่ควรระวังสุด ไม่ใช่ช่วงที่ควรห้าวสุด — ตั้งกฎไว้เลย: ห้ามแก้ size จากอารมณ์ของ 10 ไม้ล่าสุด


8. Survivorship + Selection ในชีวิตจริง — สุสานไม่มีไมค์

ย้ำจากบท 2 ด้วยมุมที่ลึกขึ้น เพราะมันโผล่ทุกที่: - ฟีดโซเชียล = เครื่องคัดผู้รอดที่สมบูรณ์แบบ: คนเจ๊ง ไม่โพสต์/เลิกเล่น/บัญชีหาย → ประชากร "เทรดเดอร์ที่เห็นบนฟีด" คือ top tail ของการกระจายเสมอ → ความรู้สึก "ใครๆ ก็กำไรกัน เราห่วยคนเดียว" คือภาพลวงทางสถิติ 100% (ความจริงจากบท 1: 62-82% ขาดทุน) - Prop firm marketing: โชว์คนผ่าน challenge รับเงินแสน — ไม่โชว์ 95%+ ที่จ่ายค่าสอบแล้วตก ซึ่งคือรายได้หลักของบริษัท - แม้แต่ index ก็ survivorship: ดัชนีหุ้น "ผลตอบแทนระยะยาว 8-10%" คือดัชนีที่ คัดตัวแพ้ออกอัตโนมัติทุกไตรมาส — ตลาดหุ้นบางประเทศที่เจ๊งทั้งตลาด (รัสเซีย 1917, จีน 1949) หายไปจากสถิติ "ระยะยาว" ของโลกด้วย - ทักษะที่ฝึก: ทุกครั้งที่เห็นความสำเร็จ ถามอัตโนมัติ: "ฉันกำลังดูผู้รอดกี่คน จากผู้เริ่มต้นกี่คน" — ถ้าไม่รู้ตัวส่วน (denominator) ก็ยังสรุปอะไรไม่ได้เลย — ประโยคนี้ใช้ได้ตั้งแต่เลือกระบบเทรดจนถึงตัดสินใจชีวิต


9. Monte Carlo — เครื่องดูอนาคตหลายเส้น (วิธีอ่านผลให้เป็น)

backtest ให้ "อดีต 1 เส้น" — Monte Carlo สับลำดับไม้/สุ่มตัวอย่างใหม่พันรอบ ให้ "อนาคตที่เป็นไปได้ 1,000 เส้น" — วิธีอ่านที่ถูก: - อย่าดูเส้นเฉลี่ย — ดู percentile แย่ๆ: เส้นที่ 5 (แย่กว่านี้มีแค่ 5%) คือ "วันนรกที่ต้องวางแผนเผื่อ" — ถ้า P5 มี MaxDD 35% แปลว่าต้องพร้อมเจอ 35% โดยที่ระบบไม่ได้พัง — ทนได้ไหม? ถ้าไม่ → ลด size ตั้งแต่วันนี้ - ใช้ตั้งไฟเตือน: เส้นตายเชิงสถิติ เช่น "DD ทะลุ P99 ของ Monte Carlo = เกินขอบเขตที่ระบบสุขภาพดีอธิบายได้ → หยุด ตรวจ" — นี่คือคำตอบที่เป็นวิทยาศาสตร์ของคำถามอมตะ "เมื่อไหร่ควรเลิกเชื่อระบบ" (เทียบกับคำตอบมาตรฐานของมือใหม่: "เมื่อเจ็บเกินทน" ซึ่งมาเร็วกว่าหลักฐานเสมอ) - ข้อจำกัดที่ต้องรู้: การสับลำดับทำลาย volatility clustering (บท 14 — วันโหดมาเป็นพวง) → Monte Carlo แบบสับมาตรฐานมัก underestimate DD จริงเล็กน้อย → อีกเหตุผลของกฎ "คูณ 1.5-2 จาก backtest"


10. เช็คลิสต์ภูมิคุ้มกัน — 10 คำถามยิงใส่ทุก "ระบบ/สถิติ/ผลงาน" ที่ผ่านเข้ามาในชีวิต

  1. กี่ไม้? (<100 = เรื่องเล่า · <400 = เงา · 400+ = เริ่มคุย)
  2. ลองมากี่แบบกว่าจะได้ผลนี้? (ไม่ตอบ/ตอบไม่ได้ = สงสัย p-hacking ไว้ก่อน)
  3. ตัวเลขนี้รวมต้นทุนหรือยัง? แล้วถ้าต้นทุน×2 รอดไหม?
  4. out-of-sample หรือ in-sample? ใครเป็นคนกันข้อมูลไว้ และกันไว้ก่อนหรือหลังออกแบบกฎ?
  5. วันแย่ที่สุดหน้าตาเป็นไง? (ถาม skew/หาง — ไม่ใช่ถามค่าเฉลี่ย)
  6. กำไรมาจากท่อไหน ใครจ่าย ทำไมยังจ่ายต่อ? (บท 1+3)
  7. ฉันเห็นผู้รอดกี่คนจากผู้เริ่มกี่คน? (denominator!)
  8. ผลเทพนี้เป็นปีโชคเข้าข้างหรือฝีมือ — มีหลายปี/หลายตลาดยืนยันไหม? (regression to the mean)
  9. แพ้ติดกันสูงสุดเท่าไรคือ "ปกติ" ของระบบนี้ — และฉันทนได้จริงไหมที่ size นี้?
  10. ถ้าฉันอยากให้มันจริงมากๆ — ฉันเข้มกับมันน้อยกว่าปกติหรือเปล่า? (ข้อสุดท้ายโหดสุด: bias ที่แพงที่สุดคือของตัวเอง)

ประโยคขึ้นเพจจากบทนี้: - "ระบบที่ชนะ 40% จะแพ้ 7 ไม้ติดใน 100 ไม้ ด้วยโอกาสเกือบ 70% — คนเลิกใช้ระบบตอนแพ้ติด 7 คือคนทิ้งร่มเพราะฝนตก" - "เหตุการณ์ที่โค้งระฆังบอกว่าไม่เกิดในล้านปี ตลาดจัดให้ทุกสิบปี — วางแผนจากหางอ้วน ไม่ใช่จากค่าเฉลี่ย" - "ลองกฎ 100 แบบ เจอ 5 แบบที่เทพ — นั่นไม่ใช่การค้นพบ นั่นคือการโยนเหรียญ 100 อันแล้วบูชาอันที่ออกหัวบ่อย" - "Sharpe 2 จากการลองครั้งเดียว มีค่ากว่า Sharpe 3 จากการลองพันครั้ง — คำถามแรกที่ควรถามทุกระบบ: ลองมากี่ครั้ง" - "ก่อนเชื่อ track record ใคร ถามว่าดูผู้รอดกี่คนจากผู้เริ่มกี่คน — สุสานไม่มีไมค์" - "Stop loss ไม่ใช่สัญญาว่าจะได้ออกราคานั้น — มันคือสัญญาว่าจะเริ่มพยายามออก ณ ราคานั้น"


ถัดไป → บท 4: Data ทุกเรื่อง — วัตถุดิบของทุกการพิสูจน์ และกับดักของมัน

← บทก่อน📖 คัมภีร์ Quant บท 10 — เทรดสายที่ไม่ใช่ tบทถัดไป →📖 คัมภีร์ Quant บท 12 — บทเรียนจากตำนานจริ