الدليل الشامل التفاعلي

كيف تفكر
الآلة؟

اكتشف السحر الرياضي خلف ChatGPT و Gemini.
رحلة بصرية من الكلمات إلى المتجهات، ومن الاحتمالات إلى الذكاء.

ابدأ الرحلة

في السنوات الأخيرة، أصبح الذكاء الاصطناعي التوليدي (Generative AI) جزءاً من حياتنا اليومية. لكن بالنسبة للكثيرين، لا يزال الأمر يبدو كالسحر. كيف يمكن لبرنامج كمبيوتر أن يكتب شعراً، يحل معادلات، أو يكتب أكواداً برمجية؟

الحقيقة هي أن النماذج اللغوية الكبيرة (LLMs) ليست "ذكية" بالطريقة التي نفهمها كبشر. هي لا تملك وعياً، ولا مشاعر، ولا ذكريات حقيقية. هي في جوهرها آلات إحصائية عملاقة للتنبؤ بالكلمة التالية.

ما ستتعلمه هنا

في هذا المقال، لن نقرأ فقط عن كيفية عملها. بل سنقوم بتجربة كل جزء من أجزاء "الدماغ الرقمي" بأنفسنا. سنبدأ من النص الخام، وننتهي بتوليد الإجابة.

أسئلة شائعة وتفاصيل تقنية عميقة

سهل النموذج "يفهم" حقاً ما يقوله؟

الإجابة القصيرة هي لا. النموذج لا يملك "نموذجاً للعالم" في عقله كما يملك البشر. هو لا يعرف ما هي "التفاحة" في الواقع (طعمها، ملمسها). هو يعرف فقط أن كلمة "تفاحة" تظهر غالباً بجوار كلمات مثل "أكل"، "أحمر"، "فاكهة". البعض يطلق على هذه النماذج اسم "Stochastic Parrots" (ببغاوات عشوائية) لأنها تردد ما تعلمته بناءً على الاحتمالات دون فهم المعنى الحقيقي.

1. اللغة كأرقام: التقطيع (Tokenization)

تخيل أنك تريد تعليم شخص لا يعرف العربية قراءة كتاب. أول خطوة هي تعليمه الحروف أو الكلمات. بالنسبة للكمبيوتر، اللغة هي مجرد بيانات ثنائية (0 و 1). لكي يعالجها، يجب تحويل النصوص إلى قائمة من الأرقام الصحيحة.

هذه العملية تسمى Tokenization. لا يتم تقسيم النص دائماً إلى كلمات كاملة. لزيادة الكفاءة، يتم تقسيم الكلمات الشائعة ككلمة واحدة، والكلمات النادرة إلى مقاطع.

1. التقطيع والترميز (Tokenization)

قبل أن يرى النموذج المتجهات، يجب تقطيع النص إلى وحدات صغيرة تسمى "Tokens". كل كلمة (أو جزء من كلمة) تتحول إلى رقم صحيح فريد.

النص المدخل

وحدات الرموز (Tokens)

الذكاء

ID: 9510

الاصطناعي

ID: 4318

يغير

ID: 6399

العالم

ID: 9556

input_ids = [9510, 4318, 6399, 9556]

في نموذج مثل GPT-4، كلمة مثل "الذكاء" قد تنقسم إلى عدة رموز حسب التشكيل والجذر. النماذج الكبيرة تتدرب على مليارات من هذه الرموز.

تعتمد كفاءة النموذج بشكل كبير على حجم "المفردات" (Vocabulary Size). في GPT-4، يبلغ حجم القاموس حوالي 100,000 رمز. إذا كان القاموس صغيراً جداً، ستطول النصوص بشكل مبالغ فيه (حرف حرف). وإذا كان كبيراً جداً، ستصبح مصفوفة التضمين (Embedding Matrix) ضخمة وتستهلك الذاكرة.

لماذا ليس الحروف فقط؟

قد تتساءل: لماذا لا نستخدم الحروف فقط (أ، ب، ت...)؟
السبب هو السياق. حرف "ع" لا يحمل معنى بمفرده. لكن كلمة "عين" تحمل معنى. من ناحية أخرى، استخدام كلمات كاملة فقط سيجعل القاموس ضخماً جداً (ملايين الكلمات). لذلك، التقطيع الفرعي (Sub-word Tokenization) مثل BPE هو الحل الوسط المثالي.

أسئلة شائعة وتفاصيل تقنية عميقة

سماذا يحدث إذا أدخلت كلمة لم يرها النموذج من قبل؟

بفضل تقنية BPE، النموذج نادراً ما يواجه كلمة 'مجهولة' تماماً. إذا واجه كلمة جديدة، سيقوم بتكسيرها إلى حروف أو مقاطع صغيرة يعرفها مسبقاً. على سبيل المثال، اسم 'ChatGPT' قد يقسم إلى 'Chat' و 'G' و 'PT'. هذا يسمح للنموذج بفهم واشتقاق معاني الكلمات الجديدة بناءً على جذورها.

سكيف يتعامل النموذج مع الرموز التعبيرية (Emojis)؟

بالنسبة للنموذج، الإيموجي مثل 😂 هو مجرد 'Token' آخر له رقم معرف (ID) ومتجه خاص به. النموذج يتعلم أن 😂 يظهر عادة في سياق الجمل المضحكة، تماماً كما يتعلم كلمة 'مضحك'.

2. فضاء المعنى: التضمين (Embeddings)

الآن لدينا أرقام (Tokens)، لكن الرقم 5043 لا يعني "قطة" للكمبيوتر، هو مجرد رقم. كيف نعلم الكمبيوتر معنى القطة؟

الحل هو المتجهات (Vectors). نقوم بتحويل كل رمز إلى قائمة من الإحداثيات في فضاء متعدد الأبعاد. تخيل خريطة ضخمة. الكلمات المتشابهة في المعنى تقع في مدن متجاورة على هذه الخريطة.

مستكشف الفضاء الدلالي (3D)

تفاعلي

قم بتمرير المؤشر فوق نقطة في الفضاء ثلاثي الأبعاد

حرك الفضاء 3D باستخدام الماوس. لاحظ كيف تتجمع الكلمات المتشابهة تلقائياً. كلمات "الملكية" في زاوية، و"الطعام" في زاوية أخرى.

في هذا النموذج البسيط، نستخدم 3 أبعاد فقط. لكن في نموذج مثل GPT-4، يمتلك كل متجه حوالي 12,000 بُعد! هذا العدد الهائل من الأبعاد يسمح للنموذج بالتقاط فروق دقيقة جداً في المعنى (مثل الفرق بين "غاضب" و "مستاء" و "ساخط").

أسئلة شائعة وتفاصيل تقنية عميقة

سمن أين تأتي هذه الأرقام (الإحداثيات)؟

لا يقوم مهندس بكتابة هذه الأرقام يدوياً. يتم تعلمها أثناء مرحلة التدريب. في البداية، تكون الأرقام عشوائية تماماً. ثم يقرأ النموذج مليارات الجمل، وفي كل مرة يرى كلمتين معاً (مثل 'خبز' و 'زبدة')، يقوم بتعديل أرقام المتجهات الخاصة بهما لتصبح أقرب لبعضها البعض رياضياً.

سما الفرق بين One-Hot Encoding و Embeddings؟

في القديم، كنا نستخدم One-Hot Encoding (متجه أصفار مع 1 واحد). هذا كان ينتج متجهات ضخمة ومفرغة (Sparse) ولا تحمل أي معنى. التضمين (Embeddings) ينتج متجهات كثيفة (Dense) وصغيرة نسبياً، تحمل المعنى في قيمها المتدرجة.

سماذا تعني الأبعاد الـ 12,000؟

لا نستطيع تسمية كل بُعد بدقة (مثل الطول أو العرض). هي أبعاد مجردة (Latent Dimensions). لكن يمكن تخيل أن أحد الأبعاد قد يمثل 'الرسمية' (Formal vs Informal)، وآخر يمثل 'الزمن' (الماضي vs المستقبل)، وهكذا. تداخل هذه الأبعاد هو ما يصنع المعنى.

3. آلية الانتباه (Transformers)

هنا يحدث السحر الحقيقي. قبل عام 2017، كانت النماذج تقرأ الجملة كلمة كلمة وتنسى البداية عندما تصل للنهاية. ثم جاءت ورقة بحثية بعنوان "Attention is All You Need" غيرت كل شيء.

تقنية الانتباه الذاتي (Self-Attention) تسمح للنموذج بالنظر إلى الجملة بأكملها في وقت واحد. عندما يحاول النموذج فهم كلمة "it" في جملة "The animal didn't cross the street because it was too tired"، تقوم آلية الانتباه بربط "it" بكلمة "animal" بقوة، وبكلمة "street" بضعف.

3. آلية الانتباه (Attention Mechanism)

الكلمات لا تعمل بمفردها. لكي يفهم النموذج جملة، يجب أن يسمح لكل كلمة بـ "التواصل" مع الكلمات الأخرى.
مرر المؤشر فوق الكلمات لترى خريطة الانتباه الخاصة بها.

وصل

أحمد

إلى

المطار

متأخراً

ففاته

الطائرة

استكشف العلاقات بين الكلمات...

في بنية "Transformers"، تقوم كل كلمة بحساب هذا الانتباه مع كل كلمة أخرى في النص، وبشكل متوازي (Parallel). هذا ما جعل نماذج مثل GPT أسرع وأذكى بكثير من سابقاتها (RNNs) التي كانت تقرأ الكلمات واحدة تلو الأخرى.

تعدد الرؤوس (Multi-Head Attention)

النموذج لا يستخدم "انتباهاً" واحداً فقط. بل يستخدم عدة "رؤوس" (Heads). في GPT-3، يوجد 96 رأساً للانتباه في كل طبقة.
تخيل أن رأساً يركز على "القواعد النحوية"، ورأساً يركز على "الضمائر"، ورأساً يركز على "المشاعر". هذا يسمح للنموذج بفهم الجملة من زوايا متعددة في آن واحد.

الترميز الموضعي (Positional Encoding)

بما أن المحولات (Transformers) تعالج الكلمات كلها دفعة واحدة (توازي)، فهي لا تعرف ترتيب الكلمات تلقائياً!
كلمة "أكل" تأتي قبل "التفاحة". لحل هذا، نضيف "متجه الموضع" إلى متجه الكلمة. هذا يعطي "ختماً زمنياً" لكل كلمة، ليعرف النموذج أن "محمد ضرب علياً" تختلف عن "علي ضرب محمداً".

نافذة السياق (Context Window)

هل لاحظت أن ChatGPT ينسى ما قلته في بداية المحادثة الطويلة؟ ذلك لأن لديه "نافذة سياق" محدودة. نافذة السياق هي عدد الرموز التي يمكن لآلية الانتباه معالجتها في وقت واحد.
GPT-4 Turbo لديه نافذة 128k رمز (حوالي 300 صفحة كتاب)، بينما النماذج القديمة كانت 4k فقط.

أسئلة شائعة وتفاصيل تقنية عميقة

سلماذا لا نجعل نافذة السياق لا نهائية؟

المشكلة هي التكلفة الحسابية. آلية الانتباه تزداد تعقيداً بشكل تربيعي O(N²). إذا ضاعفت طول النص مرتين، فإن الجهد المطلوب للمعالجة يتضاعف 4 مرات. هذا يجعل معالجة كتب كاملة أمراً مكلفاً جداً ويتطلب ذاكرة ضخمة في كروت الشاشة (GPUs).

سما الفرق بين Encoder و Decoder؟

المحولات نوعان: Encoder (مثل BERT) يقرأ الجملة ليفهمها ويصنفها، و Decoder (مثل GPT) يقرأ ليولد النص. نماذج الترجمة (مثل Google Translate) تستخدم الاثنين معاً (Encoder-Decoder).

4. الشبكة العصبية (Neural Network)

بعد أن تفهم الكلمات سياق بعضها البعض عبر طبقة الانتباه، تمر المعلومات عبر "الشبكة العصبية المغذية للأمام" (Feed-Forward Network). هنا يتم تخزين "المعرفة" والحقائق التي تعلمها النموذج أثناء التدريب.

الأمر ليس مجرد ضرب أرقام خطي. بين كل طبقة وطبقة، توجد دالة تنشيط (Activation Function) مثل GELU أو ReLU. هذه الدوال هي ما يعطي الشبكة القدرة على فهم العلاقات "غير الخطية" المعقدة. بدونها، مهما تعددت الطبقات، ستظل الشبكة مجرد آلة حاسبة خطية بسيطة.

يتم ضرب الأرقام في مصفوفات من الأوزان (Weights). هذه الأوزان هي ما يتم تعديله أثناء عملية التدريب.

2. المعاملات (Parameters): العقل الرياضي

عندما تسمع أن نموذجاً لديه "7 مليار معامل" (7B Parameters)، فهذا يعني عدد الأرقام في المصفوفات (المربعات أدناه). تقوم هذه المصفوفات بضرب متجه المدخلات لتغيير معناه وتوجيهه نحو الإجابة الصحيحة.

Input (x)

0.8

0.2

-0.5

Weights (W)

0.5

-0.2

0.1

0.8

0.1

-0.5

-0.1

0.9

0.3

Output (y)

0.31

0.91

-0.05

المعادلة بسيطة: Output = Weights × Input. ولكن النماذج الحقيقية تكرر هذه العملية عبر مئات الطبقات (Layers) وملايين الخلايا العصبية لتكوين "تفكير".

مثال عملي: كيف تؤثر المعاملات في القرار؟

تخيل خلية عصبية واحدة مهمتها تقييم مطعم. المدخلات ثابتة (جودة الأكل والخدمة)، ولكن "المعاملات" (أهمية كل عامل) هي التي تحدد القرار النهائي.

المدخلات (ثابتة)

مطعم شعبي

طعام ممتاز (8/10)

خدمة سيئة (2/10)

→

القرار (الناتج)

7.4 / 10

👍 مطعم جيد

وزن الطعام (Parameter 1)0.9

وزن الخدمة (Parameter 2)0.1

في هذا المثال، "التدريب" هو عملية ضبط أشرطة التمرير هذه للوصول للتقييم الصحيح. إذا كان المستخدم يحب الأكل الجيد ولا يهتم بالخدمة، يجب أن تكون المعاملات (0.9, 0.1).

هام جداً: الفرق بين المعاملات (Parameters) والرموز (Tokens)

كثيرًا ما يتم الخلط بين المصطلحين في عالم الذكاء الاصطناعي، لكنهما مختلفان تماماً:

المعاملات (Parameters):هي "ذاكرة" النموذج وحجم عقله. هي الأوزان الثابتة بعد التدريب (مثل 7B, 70B). تحدد ذكاء النموذج وقدرته على الفهم.لا تستهلك أثناء الاستخدام.
الرموز (Tokens):هي "الكلمات" التي ترسلها وتستقبلها في المحادثة.هي ما تدفع مقابله (Quota). كلما زادت، زادت التكلفة واستهلاك نافذة السياق.

مثال تقريبي: تخيل النموذج كسيارة أجرة.
المعاملات هي قوة المحرك (حصان) - ثابتة ولا تقل مع الوقت.
الرموز هي المسافة التي تقطعها (كيلومتر) - وهي التي يظهر سعرها في العداد.

كيف يتعلم النموذج؟ (Training)

تخيل طفلاً يحاول إكمال الجمل. نقول له "ذهبت إلى..."، فيقول "القمر". نقول له "خطأ، المدرسة". في المرة القادمة يضبط احتمالاته قليلاً.

النماذج الكبيرة تفعل هذا مع تريليونات الكلمات من الإنترنت. تقوم بخوارزمية الانتشار العكسي (Backpropagation) لتعديل الأوزان قليلاً في كل مرة تخطئ فيها، حتى تصبح دقيقة للغاية.

أسئلة شائعة وتفاصيل تقنية عميقة

سأين يتم تخزين المعلومات (مثل عاصمة فرنسا)؟

على عكس قواعد البيانات التقليدية، لا يوجد 'ملف' يحتوي على قائمة العواصم. المعلومات تكون 'موزعة' عبر أوزان الشبكة العصبية. معرفة أن باريس عاصمة فرنسا هي نتيجة تفاعل آلاف المعاملات معاً، تماماً كما تتوزع الذكريات في خلايا الدماغ البشري.

سكم يكلف تدريب نموذج مثل GPT-4؟

التكلفة هائلة. تتطلب العملية آلاف المعالجات الرسومية (GPUs) تعمل لعدة أشهر متواصلة. التكلفة التقديرية للكهرباء والأجهزة تصل إلى عشرات الملايين من الدولارات لتدريب النموذج مرة واحدة فقط.

تطبيق عملي: البحث الدلالي

الآن بعد أن فهمنا المتجهات، يمكننا فهم كيف تعمل محركات البحث الحديثة. نحن لا نبحث عن الكلمات المطابقة، بل نبحث عن المتجهات القريبة (زاوية صغيرة بينها).

قم بسحب النقاط لتغيير الزوايا

المتجهات الحالية

A: [0.57, 0.29]

B: [0.29, -0.57]

الحسابات الرياضية

تشابه جيب التمام (Cosine)0.000

يقيس الزاوية بين المتجهين. 1.0 تعني نفس الاتجاه، -1.0 تعني اتجاه معاكس.

المسافة الإقليدية (Euclidean)0.904

يقيس المسافة المستقيمة بين النقطتين.

قواعد بيانات المتجهات (Vector Databases)

في التطبيقات الواقعية، لا يمكننا حساب التشابه بين تريليون مستند يدوياً. لذلك نستخدم تقنيات مثل HNSW وقواعد بيانات متخصصة (مثل Pinecone, Weaviate) للبحث في مليارات المتجهات في أجزاء من الثانية. هذا هو ما يجعل "محادثة مع ملفات PDF" أمراً ممكناً.

5. النهاية: التنبؤ (Prediction)

في نهاية المطاف، كل هذه التعقيدات تؤدي إلى وظيفة واحدة بسيطة: إخراج قائمة احتمالات للكلمة القادمة. النموذج لا "يقرر" التحدث، هو فقط يتدحرج على منحدر الاحتمالات.

3. التنبؤ (Prediction): الاحتمالات

النموذج اللغوي (LLM) هو في النهاية آلة للتنبؤ بالكلمة التالية. بناءً على سياق الجملة السابقة (Context Window)، يقوم بحساب احتمالية لكل كلمة في قاموسه.

"شرب الرجل كوباً من الـ...؟"

نافذة السياق (Context Window)

ماء75.0%

قهوة15.0%

بنزين1.0%

سحاب0.1%

يتم تطبيق دالة "Softmax" في النهاية لتحويل قيم المتجهات إلى نسب مئوية.

استراتيجيات اختيار الكلمة (Decoding Strategies)

Greedy Search: اختيار الكلمة الأعلى احتمالاً دائماً (قد يؤدي لتكرار ممل).
Beam Search: النظر في عدة مسارات مستقبلية واختيار المسار الأفضل ككل.
Top-K Sampling: الاختيار عشوائياً من بين أفضل K كلمات فقط (مثلاً أفضل 50 كلمة).
Top-P (Nucleus) Sampling: الاختيار من أصغر مجموعة كلمات مجموع احتمالاتها يتجاوز P (مثلاً 90%). هذا هو الأكثر استخداماً حالياً لأنه يوازن بذكاء بين الدقة والتنوع.

أسئلة شائعة وتفاصيل تقنية عميقة

سلماذا يهلوِس (Hallucinate) الذكاء الاصطناعي؟

لأن النموذج آلة إكمال وليست آلة حقائق. هدفه هو توليد جملة تبدو صحيحة لغوياً وسياقياً. إذا سألته عن عالم وهمي، سيكمل القصة بمعلومات مخترعة تبدو مقنعة لأن هذا ما يفعله إحصائياً (إكمال النمط)، هو لا يملك طريقة للتحقق من صحة المعلومات في العالم الحقيقي إلا إذا تم ربطه بأدوات خارجية.

سلماذا يعطي إجابات مختلفة لنفس السؤال؟

بسبب عملية تسمى 'Stochastic Sampling'. حتى لو كانت كلمة 'باريس' لها الاحتمال الأعلى (90%)، فإن النموذج أحياناً يختار الكلمة صاحبة الاحتمال الثاني أو الثالث (بناءً على إعداد درجة الحرارة)، وذلك لإعطاء إجابات أكثر تنوعاً وإبداعاً.

مرحلة ما بعد التدريب (RLHF)

النموذج الخام (Base Model) هو مجرد مكمل للنصوص. إذا قلت له "ما هي عاصمة فرنسا؟" قد يكملها بـ "وما هي عاصمة ألمانيا؟" لأنه رأى قائمة أسئلة في تدريبه.

لجعله مساعداً مفيداً (Assistant)، نستخدم تقنية التعلم المعزز من ردود الفعل البشرية (RLHF). يقوم البشر بتقييم إجابات النموذج، ويتم تدريبه ليفضل الإجابات المفيدة والآمنة.

درجة الحرارة (Temperature)

أثناء التوليد، يمكننا التحكم في "عشوائية" النموذج.
Temp = 0: يختار دائماً الكلمة الأعلى احتمالاً (دقيق وروبوتي).
Temp = 1: يختار أحياناً كلمات أقل احتمالاً (مبدع وغير متوقع).