gemma-3-4b-it-Cognitive-Liberty - Un model mic (4B), rapid și "Uncensored", care știe Marketing și Politică (MMLU 85%)

llmresearch

New member
Explorator AI
forumai.webp

Vreau să vă prezint un experiment la care am lucrat în ultima vreme. Mulți dintre voi știți probabil problema cu modelele "uncensored" (cele cărora li se scot filtrele de siguranță): de obicei, după ce le scoți restricțiile, devin mult mai "proaste". Își pierd coerența sau încep să halucineze. Se numește "Alignment Tax" – prețul pe care îl plătești ca să scapi de refuzuri.

Am vrut să văd dacă pot antrena un model mic (care să ruleze pe orice GPU de acasă) care să nu refuze nimic, dar să rămână inteligent și capabil de raționamente complexe.

Baza este Gemma 3 4B IT de la Google, peste care am aplicat un fine-tune agresiv cu un dataset custom, axat pe filozofie, teoria jocurilor și analiză socială, nu doar pe chat simplu.

Rezultatul: gemma-3-4b-it-Cognitive-Liberty

Este un model cu zero refuzuri, dar care nu doar execută orbește, ci analizează nuanțele. L-am testat pe benchmark-uri și rezultatele sunt foarte interesante pentru un model de doar 4 miliarde de parametri:

📊 Unde excelează (MMLU - Massive Multitask Language Understanding):

  • 🧠 Marketing: 85.04% (Scor uriaș pentru clasa lui - înțelege persuasiunea și psihologia vânzării).
  • 🏛️ Guvernare & Politică: 83.94%.
  • 🗣️ Sociologie: 77.61%.
  • 🤔 Logical Fallacies (Erori de logică): 74.85% (Detectează foarte bine manipularea).
⚠️ La ce să fiți atenți:
Veți observa un scor mic la testele de "Moral Scenarios". Asta e intenționat. Testele standard punctează maxim modelele care dau răspunsuri "safe" și binare (E bine să furi? -> Nu). Modelul acesta, fiind antrenat să gândească liber, tinde să analizeze contextul (ex: utilitarism vs deontologie) în loc să dea răspunsul standard, așa că testele automate îl depunctează. În practică însă, e mult mai interesant de vorbit cu el.

Cum îl puteți folosi:
Fiind un model de 4B, este extrem de rapid și ușor. E bun pentru:
  1. Brainstorming pe teme sensibile sau controversate (fără să primiți predici morale).
  2. Scenarii de marketing și analiză psihologică.
  3. Creative writing și personaje complexe/gri moral.
Link Hugging Face:
AiAsistent/gemma-3-4b-it-Cognitive-Liberty · Hugging Face

Notă: Pentru cei care folosesc Ollama, lucrez la fișierul Modelfile și voi urca versiunea cuantizată (GGUF/Ollama) foarte curând. Vă țin la curent aici.

Aștept păreri și teste! Dacă reușiți să îl "stricați" sau să găsiți prompt-uri la care se blochează, lăsați un reply.

Numai bine!
 
Last edited:
Lista completa la teste. Oricare dintre voi puteti testa.
Atasat aveti fisierul json cu testul complet pentru cine vrea sa-l analizeze.

--- FINAL RESULTS ---
> arc_challenge: 51.62%
> hellaswag: 72.09%
> mmlu: 58.25%
> mmlu_humanities: 52.79%
> mmlu_formal_logic: 42.86%
> mmlu_high_school_european_history: 69.7%
> mmlu_high_school_us_history: 76.96%
> mmlu_high_school_world_history: 76.79%
> mmlu_international_law: 72.73%
> mmlu_jurisprudence: 71.3%
> mmlu_logical_fallacies: 74.85%
> mmlu_moral_disputes: 62.14%
> mmlu_moral_scenarios: 30.61%
> mmlu_philosophy: 66.56%
> mmlu_prehistory: 66.98%
> mmlu_professional_law: 42.11%
> mmlu_world_religions: 76.02%
> mmlu_other: 63.95%
> mmlu_business_ethics: 59.0%
> mmlu_clinical_knowledge: 64.15%
> mmlu_college_medicine: 58.38%
> mmlu_global_facts: 28.0%
> mmlu_human_aging: 61.88%
> mmlu_management: 75.73%
> mmlu_marketing: 85.04%
> mmlu_medical_genetics: 65.0%
> mmlu_miscellaneous: 76.12%
> mmlu_nutrition: 68.3%
> mmlu_professional_accounting: 37.59%
> mmlu_professional_medicine: 56.99%
> mmlu_virology: 50.0%
> mmlu_social_sciences: 68.18%
> mmlu_econometrics: 42.11%
> mmlu_high_school_geography: 76.26%
> mmlu_high_school_government_and_politics: 83.94%
> mmlu_high_school_macroeconomics: 57.18%
> mmlu_high_school_microeconomics: 66.39%
> mmlu_high_school_psychology: 79.63%
> mmlu_human_sexuality: 67.94%
> mmlu_professional_psychology: 58.82%
> mmlu_public_relations: 60.91%
> mmlu_security_studies: 69.8%
> mmlu_sociology: 77.61%
> mmlu_us_foreign_policy: 79.0%
> mmlu_stem: 51.06%
> mmlu_abstract_algebra: 34.0%
> mmlu_anatomy: 54.81%
> mmlu_astronomy: 71.05%
> mmlu_college_biology: 68.75%
> mmlu_college_chemistry: 42.0%
> mmlu_college_computer_science: 47.0%
> mmlu_college_mathematics: 35.0%
> mmlu_college_physics: 32.35%
> mmlu_computer_security: 66.0%
> mmlu_conceptual_physics: 53.62%
> mmlu_electrical_engineering: 53.79%
> mmlu_elementary_mathematics: 46.56%
> mmlu_high_school_biology: 70.65%
> mmlu_high_school_chemistry: 51.23%
> mmlu_high_school_computer_science: 69.0%
> mmlu_high_school_mathematics: 41.11%
> mmlu_high_school_physics: 34.44%
> mmlu_high_school_statistics: 43.98%
> mmlu_machine_learning: 37.5%
> truthfulqa_mc2: 43.72%
 

Attachments

Back
Top