← สารบัญหนังสือ
3.6 — สถิติเอาตัวรอด
Streak · Sample Size · P-hacking
ภาค 3 · คณิต-สถิติ · อ่าน ~7 นาที · เกราะภูมิคุ้มกันก่อนออกสนามจริง
เทรดเดอร์ส่วนใหญ่ไม่ได้แพ้เพราะระบบแย่ — แพ้เพราะ อ่านสัญญาณของระบบตัวเองไม่ออก
แพ้ 7 ไม้ติดแล้วทิ้งระบบ ทั้งที่ระบบปกติดี · เชื่อ backtest 30 ไม้ว่า "ชนะ 70%!" ทั้งที่มันบอกอะไรไม่ได้เลย · จูนจนสัญญาณสวย แล้วเอาไปลงเงินจริง — สามเรื่องนี้ทำลายคนเทรดมาแล้วนับล้าน
บทนี้ให้เครื่องมือกันสามข้อนั้น ก่อนที่จะเกิดกับเราเอง
1. Streak — แพ้ติดกันยาวคือ "ปกติ" ทางสถิติ
คำถามที่ทำลายจิตใจเทรดเดอร์มากที่สุด: "แพ้ 7 ไม้ติด — ระบบพังแล้วใช่ไหม?"
สถิติมีคำตอบเป็นตัวเลข ไม่ต้องเดา:
| Win Rate ระบบ | แพ้ติด ≥5 ไม้ (ใน 100 ไม้) | แพ้ติด ≥7 ไม้ (ใน 100 ไม้) | แพ้ติด ≥10 ไม้ (ใน 100 ไม้) |
| 60% (ระบบดี) | ~46% | ~9% | ~0.6% |
| 50% | ~81% | ~32% | ~4.4% |
| 40% (trend ทั่วไป) | ~98% | ~69% | ~21% |
อ่านตารางแถว WR 50%: แพ้ติด 5 ไม้ใน 100 ไม้ มีโอกาสเกิด 81% — แทบจะ "ต้องเกิด" มากกว่า "บังเอิญเกิด" · แพ้ติด 7 ไม้ โอกาส 32% = ราวๆ 1 ใน 3 ของ 100 ไม้แรก — ปกติมาก
สำหรับระบบ trend ที่ชนะ 40%: แพ้ติด 7 ไม้มีโอกาส 69% = เหตุการณ์ที่ควรคาดหวังไว้เลย ก่อนเริ่มใช้ระบบ ไม่ใช่รอให้เกิดแล้วค่อยตกใจ
💡 วิธีใช้จริง: ก่อนใช้ระบบใดๆ ถามตัวเองก่อน: "แพ้ติดกี่ไม้ที่ฉันทนได้จริงๆ โดยไม่เลิก?" — แล้วเทียบกับตาราง ถ้าระบบ WR 50% แต่เราทนได้แค่ 4 ไม้ติด = ต้องลด size หรือเปลี่ยนระบบ เพราะ 4 ไม้ติดใน 100 ไม้จะเกิดบ่อยมากจนทนไม่ไหว
Gambler's Fallacy — กับดักที่มาคู่กัน: "แพ้มา 6 ไม้แล้ว ไม้ 7 ต้องชนะแน่เลย — ใส่หนักเลย" · ผิด 100% · ระบบที่ WR 50% = ทุกไม้มีโอกาสชนะ 50% เท่ากันหมด ไม่ว่าก่อนหน้าจะเป็นอะไร · ไม้ที่ 7 มีโอกาสชนะเท่าไม้แรกเป๊ะ — เหรียญไม่มีความจำ ตลาดก็ไม่มี
2. Sample Size — ต้องกี่ไม้ถึงเชื่อตัวเลขได้
backtest ได้มา WR 70% จาก 30 ไม้ — ตัวเลขนี้น่าเชื่อแค่ไหน?
มีสูตรหยาบที่จำได้ง่าย: แถบความไม่แน่นอน ≈ ±1/√n
30 ไม้: ±1/√30 = ±18% → WR "70%" จริงๆ อาจอยู่ที่ 52-88% — แทบไม่รู้อะไรเลย
100 ไม้: ±1/√100 = ±10% → WR "70%" จริงๆ อาจอยู่ที่ 60-80% — เริ่มเห็นเงา
400 ไม้: ±1/√400 = ±5% → WR "70%" จริงๆ อาจอยู่ที่ 65-75% — ใช้งานได้ (ขั้นต่ำ)
1000 ไม้: ±1/√1000 = ±3% → WR "70%" จริงๆ อยู่ที่ 67-73% — ระดับที่เรียกว่าหลักฐาน
| จำนวนไม้ | วัด WR ได้ 50% ค่าจริงอยู่ราวๆ | ความหมาย |
| 25 ไม้ | 30–70% | แทบไม่รู้อะไรเลย อย่าตัดสินใจอะไรจากเลขนี้ |
| 100 ไม้ | 40–60% | เริ่มเห็นเงา ยังแยก "ระบบดี" จาก "เหรียญ" ไม่ได้ |
| 400 ไม้ | 45–55% | มาตรฐานขั้นต่ำที่ควรเรียกร้องจาก backtest |
| 1,000+ ไม้ | 47–53% | ระดับที่วงการเริ่มเรียกว่าหลักฐาน |
เพจ/กูรูที่โชว์สถิติจาก "20 ไม้ล่าสุด" — ตอนนี้หลิวมีเครื่องตอบ: ±1/√20 = ±22% · ตัวเลขที่แกว่งได้ขนาดนั้น ไม่ใช่หลักฐาน มันเป็นเรื่องเล่า
Trade-off ที่ต้องรู้ของ Timeframe ใหญ่:
เทรด Daily: ปีหนึ่งได้ไม่เกิน ~250 แท่ง = ต้องรอหลายปีกว่าจะได้ 1,000 ไม้ที่เชื่อได้
เทรด 15 นาที: วันเดียวได้ ~26 แท่ง = 1,000 ไม้ใช้เวลาราว 40 วัน
Timeframe ใหญ่ไม่ได้ "ดีกว่า" หรือ "แย่กว่า" — แต่ หลักฐานสะสมช้ากว่ามาก และต้องอดทนนานกว่าจะรู้ว่าระบบทำงานได้จริง
3. P-hacking — กับดักที่ฆ่า quant มือใหม่มากที่สุด
สมมติโยนเหรียญ 100 อัน อันละ 10 ครั้ง · โดยเฉลี่ยจะมีเหรียญ ~5 อัน ที่ออกหัว 8+ ครั้ง "อย่างน่าทึ่ง" — ทั้งที่ทุกอันคือเหรียญธรรมดาเหมือนกัน
การ "ลองกฎเทรดหลายๆ แบบกับข้อมูลเดียวกัน แล้วเลือกตัวที่ดีสุด" = โยนเหรียญ 100 อันแล้วเอาอันที่ออกหัวบ่อยไปลงเงินจริง · ความดีที่เห็นคือความบังเอิญที่ถูกคัดเลือก
ตัวอย่าง: ลองปรับ parameter ของ RSI
RSI(8) → WR 54% ผ่าน
RSI(9) → WR 49% ไม่ผ่าน
RSI(10) → WR 51% ไม่ผ่าน
RSI(11) → WR 48% ไม่ผ่าน
RSI(12) → WR 55% ผ่าน! ← เลือกตัวนี้
RSI(13) → WR 50% ไม่ผ่าน
RSI(14) → WR 46% ไม่ผ่าน
ลอง 7 แบบ เจอ 2 แบบผ่าน = คาดว่าเจอ 1-2 แบบจากความบังเอิญล้วนๆ · RSI(12) อาจไม่มีอะไรพิเศษเลย
นี่คือบาปต้นกำเนิดของวงการขายระบบทั้งหมด — และเป็นกับดักที่เราจะเหยียบเองทุกวันถ้าไม่มีวินัย เพราะ tools ยุคนี้ทำให้ "ลองอีกแบบ" ใช้เวลาแค่วินาที
4. Regression to the Mean — แรงโน้มถ่วงของผลงาน
ผลงานสุดขีด (ดีหรือแย่มาก) ส่วนใหญ่ = ฝีมือจริง + โชคสุดขีด — ครั้งถัดไปโชคถอยกลับค่ากลาง ผลงานจึง "ถอยลง" แม้ฝีมือเท่าเดิม:
กองทุนที่กำไรอันดับ 1 ปีนี้ → สถิติย้อนหลังทั้งวงการบอก: อันดับปีถัดไปมักธรรมดาลงอย่างมีนัย — ไม่ใช่เพราะหมดมุข แต่เพราะปีแชมป์คือปีที่โชคเข้าข้างสุดๆ ด้วย
นักกีฬาขึ้นปกนิตยสารแล้ว "ฟอร์มตก" — ไม่ใช่คำสาป มันคือ regression คณิตศาสตร์
ใช้ในชีวิตจริง 3 ข้อ:
1. อย่าซื้อคอร์สหรือตามเซียนจากผลงานปีเดียว — ดูความสม่ำเสมอหลายปี
2. อย่าเพิ่ม size หลังช่วง winning streak ของตัวเอง — นั่นแหละจังหวะที่ regression รอเก็บ
3. ช่วงที่ระบบ "ร้อนผิดปกติ" = ช่วงที่ควรระวังสุด ไม่ใช่ช่วงที่ควรห้าวสุด — ตั้งกฎไว้เลย: ห้ามแก้ size จากอารมณ์ของ 10 ไม้ล่าสุด
5. เช็คลิสต์ภูมิคุ้มกัน — 10 คำถามยิงใส่ทุกสถิติที่เข้ามา
ไม่ว่าจะเป็นสถิติของระบบตัวเอง backtest ที่ใครเอามาโชว์ หรือ track record ของกูรู — ยิง 10 คำถามนี้ก่อนเชื่อ:
1. กี่ไม้? (<100 = เรื่องเล่า · <400 = เงา · 400+ = เริ่มคุย)
2. ลองมากี่แบบกว่าจะได้ผลนี้? (ไม่ตอบ/ตอบไม่ได้ = สงสัย p-hacking ไว้ก่อน)
3. ตัวเลขนี้รวมต้นทุน (spread/commission/slippage) หรือยัง?
4. Out-of-sample หรือ in-sample? ใครกันข้อมูลไว้ และกันก่อนหรือหลังออกแบบกฎ?
5. วันแย่สุดหน้าตาเป็นยังไง? (ถาม max drawdown / worst streak — ไม่ใช่ถามค่าเฉลี่ย)
6. กำไรมาจากท่อไหน — ใครจ่าย ทำไมยังจ่ายต่อ?
7. ฉันกำลังดูผู้รอดกี่คนจากผู้เริ่มกี่คน? (denominator สำคัญสุด!)
8. ผลเทพนี้เป็นปีโชคเข้าข้างหรือฝีมือ — มีหลายปี/หลายตลาดยืนยันไหม?
9. แพ้ติดกันสูงสุดเท่าไรคือ "ปกติ" — และทนได้จริงไหมที่ size นี้?
10. ถ้าฉัน อยากให้ มันจริงมากๆ — ฉันเข้มกับมันน้อยกว่าปกติหรือเปล่า? (bias ที่แพงที่สุดคือของตัวเอง)
6. กฎป้องกัน P-hacking 5 ข้อ (ใช้ได้ทันที)
1. นับทุกครั้งที่ลอง — จดว่าทดสอบไปกี่ version แล้ว ยิ่งลองมาก เกณฑ์ "ผ่าน" ต้องยิ่งโหดขึ้น (ลอง 20 แบบ → ผลที่เชื่อได้ต้องโดด up ชัดกว่าผลของ 1 แบบมาก)
2. ตั้งสมมติฐานก่อนเห็นข้อมูล — เขียนกฎ + เหตุผลลงกระดาษก่อน backtest ครั้งแรก · เหตุผลที่มาก่อนผล = วิทยาศาสตร์ · เหตุผลที่ตามหลังผล = นิทาน
3. Out-of-sample ศักดิ์สิทธิ์ — ข้อมูลที่กันไว้ เปิดดูครั้งเดียว ใช้ตัดสินครั้งเดียว · เปิดแล้วแก้กฎ = ข้อมูลนั้น "เสีย" ถาวร กลายเป็น in-sample โดยพฤตินัย
4. กฎต้องมีเหตุผลว่า "ใครจ่าย" — กฎที่อธิบายไม่ได้ว่ากำไรมาจากท่อไหน มีโอกาสสูงว่าเป็นความบังเอิญ
5. เนินกว้าง ดีกว่ายอดแหลม — กฎดีต้อง work ในย่าน parameter กว้าง (เลข 15-25 ดีหมด) ไม่ใช่เฉพาะเลขเดียว (20 เทพ · 19 กับ 21 เจ๊ง = ยอดแหลมของความบังเอิญ)
7. ประโยคที่ควรจำ (ใช้ได้ตลอดชีวิต)
"ระบบที่ชนะ 40% จะแพ้ 7 ไม้ติดใน 100 ไม้ ด้วยโอกาสเกือบ 70%
คนเลิกใช้ระบบตอนแพ้ติด 7 คือคนทิ้งร่มเพราะฝนตก"
"ลอง 100 แบบ เจอ 5 แบบที่เทพ — นั่นไม่ใช่การค้นพบ
นั่นคือการโยนเหรียญ 100 อันแล้วบูชาอันที่ออกหัวบ่อย"
"Sharpe 2 จากการลองครั้งเดียว มีค่ากว่า Sharpe 3 จากการลองพันครั้ง
คำถามแรกที่ควรถามทุกระบบ: ลองมากี่ครั้ง"
"ก่อนเชื่อ track record ใคร ถามว่าดูผู้รอดกี่คนจากผู้เริ่มกี่คน
สุสานไม่มีไมค์"
📌 บทนี้สั้นๆ ในสามบรรทัด:
แพ้ติดยาว = ปกติทางสถิติ ไม่ใช่สัญญาณระบบพัง (คำนวณได้ก่อนเริ่ม)
Sample น้อยกว่า 400 ไม้ = ไม่มีหลักฐาน ไม่ต้องเชื่ออะไรทั้งนั้น
ลองหลายแบบแล้วเลือกอันดีสุด = p-hacking ไม่ใช่การค้นพบ — เขียนกฎก่อน ทดสอบทีหลัง