3.6 — สถิติเอาตัวรอด
Streak · Sample Size · P-hacking

ภาค 3 · คณิต-สถิติ · อ่าน ~7 นาที · เกราะภูมิคุ้มกันก่อนออกสนามจริง

เทรดเดอร์ส่วนใหญ่ไม่ได้แพ้เพราะระบบแย่ — แพ้เพราะ อ่านสัญญาณของระบบตัวเองไม่ออก
แพ้ 7 ไม้ติดแล้วทิ้งระบบ ทั้งที่ระบบปกติดี · เชื่อ backtest 30 ไม้ว่า "ชนะ 70%!" ทั้งที่มันบอกอะไรไม่ได้เลย · จูนจนสัญญาณสวย แล้วเอาไปลงเงินจริง — สามเรื่องนี้ทำลายคนเทรดมาแล้วนับล้าน
บทนี้ให้เครื่องมือกันสามข้อนั้น ก่อนที่จะเกิดกับเราเอง

1. Streak — แพ้ติดกันยาวคือ "ปกติ" ทางสถิติ

คำถามที่ทำลายจิตใจเทรดเดอร์มากที่สุด: "แพ้ 7 ไม้ติด — ระบบพังแล้วใช่ไหม?"

สถิติมีคำตอบเป็นตัวเลข ไม่ต้องเดา:

Win Rate ระบบ	แพ้ติด ≥5 ไม้ (ใน 100 ไม้)	แพ้ติด ≥7 ไม้ (ใน 100 ไม้)	แพ้ติด ≥10 ไม้ (ใน 100 ไม้)
60% (ระบบดี)	~46%	~9%	~0.6%
50%	~81%	~32%	~4.4%
40% (trend ทั่วไป)	~98%	~69%	~21%

อ่านตารางแถว WR 50%: แพ้ติด 5 ไม้ใน 100 ไม้ มีโอกาสเกิด 81% — แทบจะ "ต้องเกิด" มากกว่า "บังเอิญเกิด" · แพ้ติด 7 ไม้ โอกาส 32% = ราวๆ 1 ใน 3 ของ 100 ไม้แรก — ปกติมาก

สำหรับระบบ trend ที่ชนะ 40%: แพ้ติด 7 ไม้มีโอกาส 69% = เหตุการณ์ที่ควรคาดหวังไว้เลย ก่อนเริ่มใช้ระบบ ไม่ใช่รอให้เกิดแล้วค่อยตกใจ

💡 วิธีใช้จริง: ก่อนใช้ระบบใดๆ ถามตัวเองก่อน: "แพ้ติดกี่ไม้ที่ฉันทนได้จริงๆ โดยไม่เลิก?" — แล้วเทียบกับตาราง ถ้าระบบ WR 50% แต่เราทนได้แค่ 4 ไม้ติด = ต้องลด size หรือเปลี่ยนระบบ เพราะ 4 ไม้ติดใน 100 ไม้จะเกิดบ่อยมากจนทนไม่ไหว

Gambler's Fallacy — กับดักที่มาคู่กัน: "แพ้มา 6 ไม้แล้ว ไม้ 7 ต้องชนะแน่เลย — ใส่หนักเลย" · ผิด 100% · ระบบที่ WR 50% = ทุกไม้มีโอกาสชนะ 50% เท่ากันหมด ไม่ว่าก่อนหน้าจะเป็นอะไร · ไม้ที่ 7 มีโอกาสชนะเท่าไม้แรกเป๊ะ — เหรียญไม่มีความจำ ตลาดก็ไม่มี

2. Sample Size — ต้องกี่ไม้ถึงเชื่อตัวเลขได้

backtest ได้มา WR 70% จาก 30 ไม้ — ตัวเลขนี้น่าเชื่อแค่ไหน?

มีสูตรหยาบที่จำได้ง่าย: แถบความไม่แน่นอน ≈ ±1/√n

30 ไม้: ±1/√30 = ±18% → WR "70%" จริงๆ อาจอยู่ที่ 52-88% — แทบไม่รู้อะไรเลย
100 ไม้: ±1/√100 = ±10% → WR "70%" จริงๆ อาจอยู่ที่ 60-80% — เริ่มเห็นเงา
400 ไม้: ±1/√400 = ±5% → WR "70%" จริงๆ อาจอยู่ที่ 65-75% — ใช้งานได้ (ขั้นต่ำ)
1000 ไม้: ±1/√1000 = ±3% → WR "70%" จริงๆ อยู่ที่ 67-73% — ระดับที่เรียกว่าหลักฐาน

จำนวนไม้	วัด WR ได้ 50% ค่าจริงอยู่ราวๆ	ความหมาย
25 ไม้	30–70%	แทบไม่รู้อะไรเลย อย่าตัดสินใจอะไรจากเลขนี้
100 ไม้	40–60%	เริ่มเห็นเงา ยังแยก "ระบบดี" จาก "เหรียญ" ไม่ได้
400 ไม้	45–55%	มาตรฐานขั้นต่ำที่ควรเรียกร้องจาก backtest
1,000+ ไม้	47–53%	ระดับที่วงการเริ่มเรียกว่าหลักฐาน

เพจ/กูรูที่โชว์สถิติจาก "20 ไม้ล่าสุด" — ตอนนี้หลิวมีเครื่องตอบ: ±1/√20 = ±22% · ตัวเลขที่แกว่งได้ขนาดนั้น ไม่ใช่หลักฐาน มันเป็นเรื่องเล่า

Trade-off ที่ต้องรู้ของ Timeframe ใหญ่:

เทรด Daily: ปีหนึ่งได้ไม่เกิน ~250 แท่ง = ต้องรอหลายปีกว่าจะได้ 1,000 ไม้ที่เชื่อได้
เทรด 15 นาที: วันเดียวได้ ~26 แท่ง = 1,000 ไม้ใช้เวลาราว 40 วัน

Timeframe ใหญ่ไม่ได้ "ดีกว่า" หรือ "แย่กว่า" — แต่ หลักฐานสะสมช้ากว่ามาก และต้องอดทนนานกว่าจะรู้ว่าระบบทำงานได้จริง

3. P-hacking — กับดักที่ฆ่า quant มือใหม่มากที่สุด

สมมติโยนเหรียญ 100 อัน อันละ 10 ครั้ง · โดยเฉลี่ยจะมีเหรียญ ~5 อัน ที่ออกหัว 8+ ครั้ง "อย่างน่าทึ่ง" — ทั้งที่ทุกอันคือเหรียญธรรมดาเหมือนกัน

การ "ลองกฎเทรดหลายๆ แบบกับข้อมูลเดียวกัน แล้วเลือกตัวที่ดีสุด" = โยนเหรียญ 100 อันแล้วเอาอันที่ออกหัวบ่อยไปลงเงินจริง · ความดีที่เห็นคือความบังเอิญที่ถูกคัดเลือก

ตัวอย่าง: ลองปรับ parameter ของ RSI

RSI(8) → WR 54% ผ่าน
RSI(9) → WR 49% ไม่ผ่าน
RSI(10) → WR 51% ไม่ผ่าน
RSI(11) → WR 48% ไม่ผ่าน
RSI(12) → WR 55% ผ่าน! ← เลือกตัวนี้
RSI(13) → WR 50% ไม่ผ่าน
RSI(14) → WR 46% ไม่ผ่าน

ลอง 7 แบบ เจอ 2 แบบผ่าน = คาดว่าเจอ 1-2 แบบจากความบังเอิญล้วนๆ · RSI(12) อาจไม่มีอะไรพิเศษเลย

นี่คือบาปต้นกำเนิดของวงการขายระบบทั้งหมด — และเป็นกับดักที่เราจะเหยียบเองทุกวันถ้าไม่มีวินัย เพราะ tools ยุคนี้ทำให้ "ลองอีกแบบ" ใช้เวลาแค่วินาที

4. Regression to the Mean — แรงโน้มถ่วงของผลงาน

ผลงานสุดขีด (ดีหรือแย่มาก) ส่วนใหญ่ = ฝีมือจริง + โชคสุดขีด — ครั้งถัดไปโชคถอยกลับค่ากลาง ผลงานจึง "ถอยลง" แม้ฝีมือเท่าเดิม:

กองทุนที่กำไรอันดับ 1 ปีนี้ → สถิติย้อนหลังทั้งวงการบอก: อันดับปีถัดไปมักธรรมดาลงอย่างมีนัย — ไม่ใช่เพราะหมดมุข แต่เพราะปีแชมป์คือปีที่โชคเข้าข้างสุดๆ ด้วย

นักกีฬาขึ้นปกนิตยสารแล้ว "ฟอร์มตก" — ไม่ใช่คำสาป มันคือ regression คณิตศาสตร์

ใช้ในชีวิตจริง 3 ข้อ:

1. อย่าซื้อคอร์สหรือตามเซียนจากผลงานปีเดียว — ดูความสม่ำเสมอหลายปี

2. อย่าเพิ่ม size หลังช่วง winning streak ของตัวเอง — นั่นแหละจังหวะที่ regression รอเก็บ

3. ช่วงที่ระบบ "ร้อนผิดปกติ" = ช่วงที่ควรระวังสุด ไม่ใช่ช่วงที่ควรห้าวสุด — ตั้งกฎไว้เลย: ห้ามแก้ size จากอารมณ์ของ 10 ไม้ล่าสุด

5. เช็คลิสต์ภูมิคุ้มกัน — 10 คำถามยิงใส่ทุกสถิติที่เข้ามา

ไม่ว่าจะเป็นสถิติของระบบตัวเอง backtest ที่ใครเอามาโชว์ หรือ track record ของกูรู — ยิง 10 คำถามนี้ก่อนเชื่อ:

1. กี่ไม้? (<100 = เรื่องเล่า · <400 = เงา · 400+ = เริ่มคุย)

2. ลองมากี่แบบกว่าจะได้ผลนี้? (ไม่ตอบ/ตอบไม่ได้ = สงสัย p-hacking ไว้ก่อน)

3. ตัวเลขนี้รวมต้นทุน (spread/commission/slippage) หรือยัง?

4. Out-of-sample หรือ in-sample? ใครกันข้อมูลไว้ และกันก่อนหรือหลังออกแบบกฎ?

5. วันแย่สุดหน้าตาเป็นยังไง? (ถาม max drawdown / worst streak — ไม่ใช่ถามค่าเฉลี่ย)

6. กำไรมาจากท่อไหน — ใครจ่าย ทำไมยังจ่ายต่อ?

7. ฉันกำลังดูผู้รอดกี่คนจากผู้เริ่มกี่คน? (denominator สำคัญสุด!)

8. ผลเทพนี้เป็นปีโชคเข้าข้างหรือฝีมือ — มีหลายปี/หลายตลาดยืนยันไหม?

9. แพ้ติดกันสูงสุดเท่าไรคือ "ปกติ" — และทนได้จริงไหมที่ size นี้?

10. ถ้าฉัน อยากให้ มันจริงมากๆ — ฉันเข้มกับมันน้อยกว่าปกติหรือเปล่า? (bias ที่แพงที่สุดคือของตัวเอง)

6. กฎป้องกัน P-hacking 5 ข้อ (ใช้ได้ทันที)

1. นับทุกครั้งที่ลอง — จดว่าทดสอบไปกี่ version แล้ว ยิ่งลองมาก เกณฑ์ "ผ่าน" ต้องยิ่งโหดขึ้น (ลอง 20 แบบ → ผลที่เชื่อได้ต้องโดด up ชัดกว่าผลของ 1 แบบมาก)

2. ตั้งสมมติฐานก่อนเห็นข้อมูล — เขียนกฎ + เหตุผลลงกระดาษก่อน backtest ครั้งแรก · เหตุผลที่มาก่อนผล = วิทยาศาสตร์ · เหตุผลที่ตามหลังผล = นิทาน

3. Out-of-sample ศักดิ์สิทธิ์ — ข้อมูลที่กันไว้ เปิดดูครั้งเดียว ใช้ตัดสินครั้งเดียว · เปิดแล้วแก้กฎ = ข้อมูลนั้น "เสีย" ถาวร กลายเป็น in-sample โดยพฤตินัย

4. กฎต้องมีเหตุผลว่า "ใครจ่าย" — กฎที่อธิบายไม่ได้ว่ากำไรมาจากท่อไหน มีโอกาสสูงว่าเป็นความบังเอิญ

5. เนินกว้าง ดีกว่ายอดแหลม — กฎดีต้อง work ในย่าน parameter กว้าง (เลข 15-25 ดีหมด) ไม่ใช่เฉพาะเลขเดียว (20 เทพ · 19 กับ 21 เจ๊ง = ยอดแหลมของความบังเอิญ)

7. ประโยคที่ควรจำ (ใช้ได้ตลอดชีวิต)

"ระบบที่ชนะ 40% จะแพ้ 7 ไม้ติดใน 100 ไม้ ด้วยโอกาสเกือบ 70%
คนเลิกใช้ระบบตอนแพ้ติด 7 คือคนทิ้งร่มเพราะฝนตก"

"ลอง 100 แบบ เจอ 5 แบบที่เทพ — นั่นไม่ใช่การค้นพบ
นั่นคือการโยนเหรียญ 100 อันแล้วบูชาอันที่ออกหัวบ่อย"

"Sharpe 2 จากการลองครั้งเดียว มีค่ากว่า Sharpe 3 จากการลองพันครั้ง
คำถามแรกที่ควรถามทุกระบบ: ลองมากี่ครั้ง"

"ก่อนเชื่อ track record ใคร ถามว่าดูผู้รอดกี่คนจากผู้เริ่มกี่คน
สุสานไม่มีไมค์"

📌 บทนี้สั้นๆ ในสามบรรทัด:
แพ้ติดยาว = ปกติทางสถิติ ไม่ใช่สัญญาณระบบพัง (คำนวณได้ก่อนเริ่ม)
Sample น้อยกว่า 400 ไม้ = ไม่มีหลักฐาน ไม่ต้องเชื่ออะไรทั้งนั้น
ลองหลายแบบแล้วเลือกอันดีสุด = p-hacking ไม่ใช่การค้นพบ — เขียนกฎก่อน ทดสอบทีหลัง

บทถัดไป → ภาค 4 · R & Expectancy — หน่วยวัดการเทรดที่แท้จริง
บทก่อนหน้า → 3.5 · คณิตเบื้องหลัง ML
← สารบัญหนังสือ

3.6 — สถิติเอาตัวรอดStreak · Sample Size · P-hacking