3.2 — สถิติอนุมาน
ฟลุ้กหรือจริง (p-value, hypothesis test)

ภาค 3 · คณิต-สถิติ · อ่าน ~6 นาที · คำถามที่ทุก backtest ต้องตอบ ก่อนเอาเงินจริงลง

หลิว backtest ระบบได้ win rate 60% จาก 50 ไม้ — น่าดีใจไหม?
คำตอบที่ถูกต้องคือ: "ยังไม่รู้เลย" — เพราะ 50 ไม้นั้นอาจเป็นโชคล้วนๆ ที่ไม่มีวันซ้ำ · บทนี้จะสอนวิธีแยก "ฟลุ้กจริงๆ" ออกจาก "ระบบที่ดีจริง"

1. คำถามหลักที่สถิติอนุมานตอบ

"สถิติอนุมาน" ฟังดูน่ากลัว แต่ใจความมีข้อเดียว: ผลที่เราเห็นจากข้อมูลกลุ่มเล็กๆ — บอกอะไรเราได้บ้างเกี่ยวกับความจริงที่ใหญ่กว่า?

ตัวอย่างที่จับต้องได้: โยนเหรียญ 10 ครั้ง ออกหัว 7 ครั้ง — เหรียญนี้ "ไม่ยุติธรรม" จริงไหม? หรือแค่โชค? · ถ้าโยน 1,000 ครั้ง ออกหัว 700 ครั้ง — คำตอบเปลี่ยนไหม?

ในเทรด คำถามเดียวกันคือ: ระบบ backtest ชนะ 60% จาก 50 ไม้ — นี่คือ "edge จริง" หรือ "เหรียญโชคดี 50 ครั้ง"?

2. p-value แบบบ้านๆ — ไม่ต้องจำสูตร จำแค่ความหมาย

p-value คือ: "ถ้าระบบของเราไม่ได้ดีกว่าการสุ่มเลย — โอกาสที่โชคล้วนๆ จะให้ผลดีกว่านี้ มีเท่าไหร่?"

ตัวอย่างรูปธรรม:
สมมติระบบ "ถ้าเหรียญยุติธรรม" ควรชนะ 50% — เราชนะได้ 60% จาก 50 ไม้

p-value = โอกาสที่เหรียญธรรมดา (ยุติธรรม) จะโยน 50 ครั้งแล้วออกหัว ≥30 ครั้ง โดยบังเอิญ

คำนวณออกมา = ~13% (ไม่ต้องคำนวณเอง — จำตัวเลขนี้)
แปลว่า: มีโอกาสถึง 13% ที่ผลนี้เกิดจากโชคล้วนๆ
→ ยังไม่ควรเชื่อ

กติกาทั่วไปของวงการ:

p-value > 0.10 → ผลนี้อาจเป็นโชคได้ง่ายมาก — ไม่ควรสรุป
p-value ≤ 0.05 → ผลนี้เกิดจากโชคล้วนๆ โอกาสต่ำกว่า 5% — เริ่มน่าสนใจ
p-value ≤ 0.01 → <1% — หลักฐานแข็ง

ระวัง: p ≤ 0.05 ≠ "ถูกต้อง 95%"
มันแค่บอกว่า "โชคน้อยกว่า 5% จะได้ผลนี้" — ยังต้องตรวจสอบอีกหลายด้าน

p-value ไม่ได้บอกว่า "ระบบดีแค่ไหน" — มันบอกแค่ว่า "ผลที่เห็นโชคหรือไม่" · ของจริงต้องมีทั้ง p-value ต่ำ และเหตุผลทางเศรษฐศาสตร์ว่า "ทำไมถึงได้เปรียบ"

3. Hypothesis Test — วิธีคิดที่ถูก ก่อนดู backtest

วิธีที่ถูกในการทดสอบระบบ ต้องเริ่มจากการตั้ง "สมมติฐานก่อน" — ไม่ใช่ดูผลก่อนแล้วค่อยอธิบาย:

ขั้นตอนที่ถูกต้อง:

1. ตั้งสมมติฐานล่วงหน้า: "ฉันเชื่อว่าระบบนี้จะชนะมากกว่า 50% — เพราะ [เหตุผลเศรษฐศาสตร์ที่อธิบายได้ก่อนเห็นผล]"

2. รัน backtest ครั้งเดียว: ดูผลจริง เปรียบกับ "ถ้าระบบไม่ได้ดีกว่าสุ่ม ผลควรเป็นยังไง"

3. คำนวณโอกาสที่โชคจะให้ผลนี้ (p-value): ต่ำพอไหม?

4. ถ้าผ่าน — ทดสอบ out-of-sample ก่อนใช้เงินจริง

ขั้นตอนที่ผิด (แต่คนทำกันมาก): ลองระบบ 50 แบบ เลือกแบบที่ผล backtest ดีที่สุด แล้วค่อยสร้างเหตุผลอธิบาย — นั่นคือการ "หาคำอธิบายให้โชค" ไม่ใช่การหา edge จริง (เรื่องนี้ลึกขึ้นในบท backtest ภาค 7)

4. Sample Size — ต้องกี่ไม้ถึงเชื่อได้

สิ่งที่ p-value ไม่ได้บอกตรงๆ คือ: "กี่ไม้ถึงพอ?" — ตอบด้วยความจริงข้อหนึ่ง: ยิ่งไม้น้อย ความไม่แน่นอนยิ่งสูง

สูตรหยาบที่จำได้: แถบความไม่แน่นอนของ win rate ≈ ±1/√n (n = จำนวนไม้)

จำนวนไม้ (n)	วัด win rate ได้ 60% ค่าจริงอยู่แถวๆ	ควรทำอะไร
25 ไม้	40–80%	ยังไม่รู้อะไรเลย อย่าตัดสินใจ
100 ไม้	50–70%	เห็นทิศทาง แต่ยังแกว่งมาก
400 ไม้	55–65%	ขั้นต่ำที่ควรเรียกว่า "หลักฐาน"
1,000+ ไม้	57–63%	วงการเริ่มเรียกว่าแข็งแรง

กับดักของเทรดเดอร์ที่พบบ่อยสุด:
backtest ที่มี 30 ไม้แล้วสรุป "ระบบชนะ 70%!" = แถบจริงคือ 52–88% = แทบไม่รู้อะไรเลย

เพจ/กูรูที่โชว์ผล "20 ไม้ล่าสุดชนะ 85%!" → ±1/√20 = ±22% → ค่าจริงอาจอยู่ที่ 63–100% หรือ 63% ก็ยังเรียกว่าดี แต่มันอาจเป็น 43% ก็ได้ — ตัวเลขที่แกว่งได้ขนาดนั้นไม่ใช่หลักฐาน เป็นเรื่องเล่า

ทำไมต้อง ≥100 ไม้ก่อนเชื่อ? เพราะที่ 100 ไม้ แถบความไม่แน่นอนยังถึง ±10% — ระบบที่ "วัด" ได้ 60% อาจจริงแค่ 50% คือไม่มี edge เลย · แค่ ≥400 ไม้ ถึงจะเริ่มแยกแยะได้ชัดขึ้น

5. Significance กับ Confidence — อ่านแบบนักปฏิบัติ

สองคำนี้โผล่บ่อยเวลาดู backtest report หรืองานวิจัย — ความหมายบ้านๆ:

Statistical Significance — ผลที่เห็น "ไม่น่าจะเป็นโชค" · วัดด้วย p-value
→ "ผลที่เห็นนี้บังเอิญหรือเปล่า?"

Confidence Interval (ช่วงความเชื่อมั่น) — ค่าจริงน่าจะอยู่ในช่วงไหน · วัดด้วย ±1/√n หรือสูตรที่ซับซ้อนกว่า
→ "ถ้า win rate วัดได้ 60% จาก 400 ไม้ — ค่าจริงน่าจะอยู่ใน 55–65% ด้วยความเชื่อมั่น 95%"

ใช้ทั้งคู่ประกอบกัน — significant แต่ช่วงกว้างมากก็ยังไม่พอ · significant และช่วงแคบ = เริ่มน่าเชื่อถือ

6. ผลใช้งาน — ถามสิ่งเหล่านี้ก่อนเชื่อระบบใดๆ

💡 เช็คลิสต์ก่อนเชื่อ backtest ทุกชิ้น:

1. กี่ไม้? → <100 = เรื่องเล่า · <400 = เงา · 400+ = เริ่มฟัง · 1,000+ = หลักฐาน

2. ลองมากี่แบบ? → ลอง 100 แบบเจอ 5 แบบดี = นั่นคือโชค ไม่ใช่ edge (ลองหลายแบบ p-value ที่จะเชื่อต้องต่ำกว่ามาก)

3. มีเหตุผลก่อนเห็นผลไหม? → กฎที่อธิบายล่วงหน้าได้ว่า "ทำไมถึงได้เปรียบ ใครจ่าย" — น่าเชื่อกว่ากฎที่หาคำอธิบายหลังเห็นผล

4. ผ่าน out-of-sample ไหม? → ถ้าดีแต่ใน in-sample ที่ใช้สร้างกฎ = อาจแค่จำข้อมูลได้ ไม่ใช่เข้าใจตลาด

7. เหตุผลว่าทำไมต้อง ≥100 ไม้ก่อนเชื่อ — เป็นตัวเลขไม่ใช่ขนบ

ตัวเลข 100 ไม้ไม่ใช่กฎที่ "ใครๆ เขาว่ากัน" แต่มาจากตรรกะของ p-value โดยตรง:

ระบบ win rate จริง = 55% (มี edge เล็กน้อย) · เทียบ "เหรียญ" ที่ 50%

ที่ 50 ไม้: p-value ≈ 0.24 → โชค 24% → ไม่ชัดเจนพอ (ไม่ผ่าน)
ที่ 100 ไม้: p-value ≈ 0.13 → ยังคลุมเครือ
ที่ 200 ไม้: p-value ≈ 0.06 → เริ่มมีน้ำหนัก
ที่ 400 ไม้: p-value ≈ 0.02 → ผ่านมาตรฐาน · เริ่มเชื่อได้

edge เล็กๆ แค่ 5% (จาก 50% เป็น 55%) ต้องใช้ไม้หลายร้อยกว่าจะ "มองเห็น" ผ่านสัญญาณรบกวน · นั่นคือเหตุผลที่ระบบที่ดี "สร้างยาก แต่ควรค่าต่อการสร้าง" — เพราะคู่แข่งส่วนใหญ่ไม่มีความอดทนพอจะรอ

📌 โยงกับชีวิตเทรดจริงของหลิว:
ก่อนปรับกฎในระบบใดๆ — ถามก่อนว่า "ข้อมูลที่เห็นมาจากกี่ไม้?" · ระบบแพ้ 5 ไม้ติดที่ 100 ไม้รวม = ยังไม่ใช่หลักฐานว่าพัง (ดูตารางบท 3.1 + คำนวณ p-value ว่ามันแค่โชคแย่ปกติ) · แต่แพ้หนักผิดปกติในช่วงที่ตลาดเปลี่ยน regime = นั่นต่างหากที่ควรหยุดดู

บทถัดไป → 3.3 · Regression + Correlation ≠ Causation
← สารบัญหนังสือ

3.2 — สถิติอนุมานฟลุ้กหรือจริง (p-value, hypothesis test)