Loading Now

AI Generatif Lintas Bahasa: Analisis Strategi Adaptasi Global, Kesenjangan Data Low-Resource, dan Paradigma Keadilan Kultural

Model Bahasa Besar (LLM) merupakan teknologi inti dalam Kecerdasan Buatan (AI) Generatif yang telah mengubah paradigma industri secara drastis, dari pengembangan asisten virtual yang cerdas hingga sistem otomatisasi yang adaptif. Kemampuan LLM untuk memahami dan menghasilkan teks dengan tingkat kedalaman yang belum pernah ada sebelumnya telah membawa dampak positif yang signifikan di berbagai sektor, termasuk pemasaran, keuangan, dan teknologi informasi, membuka peluang baru untuk inovasi dan efisiensi. Misalnya, di sektor keuangan, LLM dapat membantu analisis risiko dan prediksi pasar dengan lebih akurat.

Namun, kinerja global LLM saat ini ditandai oleh asimetri yang signifikan. Arsitektur dan pelatihan model dasar didominasi oleh data dan narasi berbahasa Inggris, menciptakan kondisi di mana Model Bahasa Besar secara inheren menunjukkan disparitas kinerja yang menguntungkan bahasa high-resource sambil meminggirkan bahasa yang kurang terwakili. Kondisi ini menetapkan tantangan mendasar untuk mencapai kinerja yang andal dan representasi yang adil di pasar non-Barat, seperti Asia Tenggara, Tiongkok, atau Amerika Latin.

Tujuan dan Struktur Analisis

Laporan ini bertujuan untuk menganalisis adaptasi LLM Generatif terhadap keragaman linguistik dunia, berfokus pada strategi yang digunakan oleh perusahaan teknologi internasional dan respons kedaulatan AI dari negara-negara non-Barat. Analisis ini diorganisasikan seputar tiga pilar utama kegagalan adaptasi LLM di konteks multibahasa: Kesenjangan Data, Risiko Bias Kultural, dan Metodologi Adaptasi Teknis.

Kesenjangan Linguistik sebagai Risiko Strategis

Kesenjangan kinerja antara bahasa resource-rich dan low-resource bukan sekadar masalah teknis yang dapat diselesaikan dengan penambahan data mentah. Fenomena ini menciptakan risiko strategis yang menghambat adopsi pasar dan membatasi manfaat ekonomi LLM di negara-negara dengan keragaman bahasa tinggi. Bahasa seperti Bahasa Indonesia, meskipun digunakan oleh jutaan penutur, masih diklasifikasikan sebagai low-resource dalam NLP karena kurangnya sumber daya terstruktur dan berlabel.

Ketiadaan data yang memadai ini memicu kebutuhan mendesak akan strategi transfer learning dari bahasa lain. Apabila strategi transfer ini tidak didukung oleh kerangka kerja yang efektif atau data yang terkurasi dengan baik, model cenderung menghasilkan keluaran yang tidak akurat, tidak alami, atau bahkan diskriminatif di pasar lokal. Oleh karena itu, investasi dalam LLM multibahasa yang adil adalah prasyarat untuk pertumbuhan pasar AI global yang merata, bukan sekadar pelengkap teknis.

Tantangan Fondasional: Keterbatasan Data dan Kesenjangan Sumber Daya (The Low-Resource Crisis)

Klasifikasi Bahasa dan Tantangan Data Low-Resource

Model Bahasa Besar bergantung pada kuantitas dan kualitas data dalam skala besar. Untuk bahasa-bahasa Asia seperti Bahasa Indonesia, yang kaya akan variasi regional dan idiom, tantangan utamanya adalah kurangnya korpus yang terstruktur, terannotasi, dan berskala besar untuk pelatihan model dasar. Meskipun ada data dalam jumlah besar di internet, data ini sering kali tidak berkualitas tinggi, tidak konsisten, atau mencerminkan bias yang inheren.

Literatur mencatat bahwa kurangnya sumber daya terannotasi yang berkualitas untuk bahasa low-resource memaksa pengembang mengandalkan strategi transfer pengetahuan dari bahasa resource-rich. Kualitas data yang sangat penting dalam proses fine-tuning atau penyesuaian model. Set data yang digunakan harus relevan, beragam, cukup besar, akurat, dan yang terpenting, bebas dari kesalahan atau bias. Misalnya, data berlabel yang tidak akurat dapat menghambat kemampuan model untuk belajar secara efektif, terlepas dari teknik pelatihan yang canggih.

Skala vs. Kedalaman Kultural

Krisis data low-resource ini bukan hanya masalah jumlah gigabyte data; ini adalah tentang ketiadaan data yang mencerminkan kedalaman dan keragaman konteks regional dan linguistik. Kesenjangan ini mencakup kegagalan dalam menangkap dialek, idiom lokal, dan nuansa kultural yang membentuk komunikasi otentik.

Ketika data terannotasi berkualitas kurang , risiko bias meningkat karena model harus mencoba mengisi kekosongan pengetahuan tersebut dengan menggeneralisasi dari data bahasa dominan. Hasilnya adalah performa yang tidak memadai dalam konteks spesifik. Hal ini menuntut bahwa inisiatif data tidak hanya berfokus pada penambahan volume data, tetapi juga pada kurasi data yang mendalam secara kultural.

Solusi Korpus Lokal dan Inisiatif Data (Studi Kasus Indonesia)

Dalam upaya merespons kesenjangan ini dan mencapai relevansi linguistik, inisiatif lokal mulai bermunculan. Di Indonesia, untuk mengatasi keterbatasan sumber daya data, akademisi dan peneliti telah memperkenalkan Bhinneka Korpus. Ini merupakan korpus paralel multibahasa yang penting, yang secara spesifik menampilkan lima bahasa lokal Indonesia.

Inisiatif seperti Bhinneka Korpus adalah langkah krusial. Perusahaan teknologi global yang ingin sukses di pasar low-resource harus berinvestasi dalam kemitraan lokal untuk mengkurasi data yang mendalam secara kultural, bukan hanya mengandalkan metode transfer pengetahuan universal. Adaptasi LLM yang efektif, seperti yang dilakukan oleh Google Terjemahan melalui fine-tuning untuk pasangan bahasa dan domain tertentu , menunjukkan bahwa penyesuaian yang sangat terlokalisasi adalah kunci untuk meningkatkan kualitas keluaran.

Strategi Adaptasi Perusahaan Teknologi Global dan Inovasi Teknis

Raksasa teknologi global menyadari kesenjangan kinerja di pasar non-Barat dan telah merespons dengan mengembangkan strategi teknis tingkat lanjut untuk menjembatani jurang tersebut. Strategi-strategi ini berputar di sekitar pelatihan berkelanjutan, generasi data sintetik, dan teknik fine-tuning yang efisien.

Strategi Pelatihan Lanjutan (Continual Pretraining – CPT)

Continual Pretraining (CPT) telah muncul sebagai pendekatan yang menjanjikan untuk mengatasi ketidakseimbangan kinerja bahasa dengan memperbarui model yang sudah ada menggunakan korpus data baru. Penelitian sistematis mengevaluasi berbagai konfigurasi CPT yang melibatkan model dasar multibahasa dan lebih dari 30 bahasa, yang diklasifikasikan berdasarkan tingkat sumber daya. Analisis ini mengungkapkan trade-off kritis.

Analisis Trade-Off Utama dalam CPT

Upaya untuk menyerap pengetahuan bahasa low-resource melalui data mixing dapat mengorbankan kualitas keluaran yang fasih.

CPT Bilingual: Konfigurasi ini terbukti meningkatkan klasifikasi multibahasa secara umum, tetapi sayangnya, sering menyebabkan isu language mixing (pencampuran bahasa) saat generasi teks. Ini berarti model mungkin memahami tugas tetapi menghasilkan kalimat yang tidak alami atau bercampur bahasa ketika berinteraksi dengan pengguna.

CPT dengan Augmentasi Kode: Secara menarik, menyertakan data kode pemrograman selama CPT secara konsisten meningkatkan akurasi klasifikasi multibahasa, dengan manfaat signifikan bagi bahasa low-resource. Namun, hal ini membawa trade-off dengan sedikit menurunkan kualitas generasi teks secara keseluruhan.

Temuan ini menggarisbawahi kompleksitas pembelajaran representasi multibahasa. Model global seperti Gemini atau Llama mungkin unggul dalam pemahaman multibahasa (misalnya, klasifikasi atau penerjemahan), tetapi masih menghadapi tantangan serius dalam generasi konten yang alami dan bernuansa kultural bagi pengguna lokal. Hal ini menyiratkan bahwa strategi “satu model untuk semua” tidak akan memberikan hasil generasi yang memuaskan di pasar non-Barat tanpa adaptasi tambahan.

Strategi Continual Pretraining (CPT) Multilingual

Strategi CPT Manfaat Utama Kelemahan/Trade-Off Relevansi untuk Bahasa Low-Resource
Monolingual CPT Meningkatkan performa spesifik dalam satu bahasa. Risiko catastrophic forgetting pengetahuan lintas bahasa. Baik jika data monolingual lokal tersedia dalam jumlah signifikan.
Bilingual CPT Meningkatkan akurasi klasifikasi multibahasa secara umum. Sering menyebabkan isu language mixing saat generasi teks. Memerlukan pasangan bahasa yang tepat; sensitif terhadap konfigurasi.
Code-Augmented CPT Konsisten meningkatkan akurasi klasifikasi (terutama low-resource). Menurunkan kualitas generasi teks (trade-off). Solusi biaya-efektif untuk meningkatkan representasi linguistik dasar.

Inovasi Data Sintetik untuk Skalabilitas

Mengakui bahwa pengadaan data berlabel manusia yang mahal dan memakan waktu adalah kendala utama bagi bahasa low-resource, perusahaan global kini beralih ke generasi data sintetik yang efisien.

Google Research, misalnya, telah mengembangkan SWIM-IR, sebuah dataset pelatihan retrieval sintetik yang mencakup 33 bahasa, mulai dari high- hingga very-low resource. Untuk membangunnya, mereka mengusulkan strategi SAP (Summarize-then-Ask Prompting). Metode SAP ini melibatkan LLM menghasilkan ringkasan tekstual sebelum menghasilkan query yang relevan, yang membantu LLM membuat query informatif dalam bahasa target. SWIM-IR menunjukkan bahwa data sintetik dapat secara murah menggantikan data pelatihan retrieval berlabel manusia yang mahal, menawarkan solusi skalabel dan hemat biaya untuk mengatasi kesenjangan data di pasar non-Barat.

Teknik Penyesuaian Lokal yang Efisien (LoFiT)

Mengingat ukuran masif model dasar LLM dan dilema kualitas generasi yang dihasilkan oleh CPT global, strategi harus bergeser ke adaptasi tugas-spesifik pasca-pelatihan dasar, menggunakan teknik efisien untuk menambal lubang pengetahuan.

LoFiT (Localized Fine-tuning on LLM Representations) adalah metode fine-tuning yang efisien dalam parameter (Parameter Efficient Fine-Tuning – PEFT) yang relevan untuk lokalisasi. LoFiT adalah metode dua langkah yang memilih subset dari attention heads (bagian yang paling penting untuk tugas tertentu) dan kemudian melatih offset vectors khusus tugas untuk ditambahkan ke representasi tersembunyi yang ditargetkan. LoFiT telah menunjukkan kinerja yang kuat pada tugas-tugas seperti penalaran dan kejujuran, menandingi metode PEFT lain seperti LoRA, namun dengan jumlah parameter yang dipelajari jauh lebih sedikit. Efisiensi ini sangat penting untuk adaptasi yang terlokalisasi atau tugas yang sangat spesifik dalam bahasa non-Barat, di mana sumber daya komputasi atau data pelabelan mungkin terbatas.

Mengatasi Risiko Bias Kultural dan Linguistik (Cultural Bias)

Tantangan LLM multibahasa tidak hanya terbatas pada masalah teknis ketersediaan data, tetapi juga diperburuk oleh bias sistemik dan kultural yang melekat dalam data pelatihan.

Definisi dan Taksonomi Bias Sistemik

Bias dalam LLM bersifat sistemik dan multidimensional, muncul dari proses pelatihan dengan dataset yang sangat besar, yang seringkali merefleksikan stereotip dan ketidakadilan sosial yang ada dalam data sumber. Dominasi korpus bahasa Inggris memperkuat bias terhadap budaya tertentu, karena data seringkali berpihak pada nilai, perspektif, dan norma Barat.

Literatur telah mengklasifikasikan bias ini, termasuk:

Representational Bias: Model mereproduksi stereotip yang terlihat, misalnya, dalam mengaitkan profesi bernilai tinggi dengan laki-laki dan pekerjaan domestik dengan perempuan.

Bias Sosial, Kultural, dan Politis: LLM secara aktif mereproduksi ketimpangan melalui representasi yang bias terhadap gender, ras, agama, dan kelompok rentan lainnya yang tertanam dalam struktur pengembangannya.

Hubungan sebab-akibat (Causal Link) bias kultural adalah jelas: ia timbul dari Skewed Data. Data yang miring dan tidak memadai merepresentasikan populasi target atau domain di luar sumber dominan menyebabkan AI merefleksikan bias yang melekat pada sumber tersebut.

Kritik terhadap Kerangka Evaluasi Bias Universalistik

Kerangka evaluasi bias yang ada, yang sebagian besar dikembangkan di lingkungan Barat (Global North), dikritisi karena tidak mencerminkan keragaman konteks budaya dan bahasa yang kaya di luar dunia Barat. Hal ini menciptakan kondisi di mana alat evaluasi saat ini gagal mengidentifikasi atau memitigasi bias yang spesifik untuk konteks lokal.

Oleh karena itu, di luar keadilan representasional tradisional (gender, ras), konsep Keadilan Linguistik (Linguistic Justice) dan Representasi Sosial Minoritas Lokal harus menjadi metrik etika yang dominan di pasar non-Barat. Kegagalan model memahami idiom lokal adalah kegagalan etika dan akuntabilitas, bukan semata-mata kesalahan teknis. Untuk memastikan mitigasi bias tidak menjadi aktivitas simbolik, diperlukan pendekatan interdisipliner yang memadukan perspektif etika dengan hukum, antropologi, dan studi hak asasi manusia.

Metodologi Mitigasi Bias dan Kerangka Kontekstual

Mitigasi Teknis Lanjut:

Mitigasi bias memerlukan pendekatan sistematis pada setiap tahap siklus hidup LLM. Pada tahap kurasi, pengembang dapat memfilter data pelatihan untuk menyeimbangkan perspektif yang kurang terwakili—misalnya, menambahkan contoh yang menyoroti perempuan dalam profesi STEM. Pada tahap pelatihan, teknik adversarial debiasing melatih model untuk meminimalkan korelasi antara prediksi dan atribut yang dilindungi. Selain itu, Reinforcement Learning with Human Feedback (RLHF) kini diadaptasi secara multibahasa, di mana peninjau manusia menilai keluaran untuk bias, memungkinkan model menyesuaikan diri untuk menghasilkan respons yang lebih netral, seperti yang dilakukan oleh OpenAI untuk mengurangi respons toksik di ChatGPT.

Solusi Augmentasi Budaya (CultureLLM):

Salah satu tantangan terbesar adalah mahalnya pengadaan data multibahasa yang mencakup perbedaan budaya. Untuk mengatasi ini, penelitian telah mengusulkan CultureLLM, solusi biaya-efektif yang mengintegrasikan perbedaan budaya. CultureLLM menggunakan World Value Survey (WVS) sebagai data benih (seed data) dan menghasilkan data pelatihan yang setara secara semantik melalui semantic data augmentation. Dengan hanya 50 sampel benih, metode ini telah terbukti dapat menyempurnakan model spesifik budaya (CultureLLM-One) untuk 9 budaya, melampaui GPT-3.5 dan Gemini Pro dalam dataset terkait budaya.

Kerangka Evaluasi Etika Kontekstual Non-Barat

Untuk memastikan evaluasi etika LLM tidak bersifat universalistik dan bias terhadap nilai-nilai Barat, diperlukan kerangka kerja yang fleksibel dan spesifik, yang mempertimbangkan keunikan sosial, budaya, dan linguistik lokal. Kerangka ini menuntut audit yang melibatkan masyarakat lokal (Audit Partisipatif) dan ketersediaan dokumentasi dalam bahasa lokal (Transparansi).

Tabel di bawah menguraikan dimensi evaluasi yang penting untuk konteks non-Barat:

Dimensi Evaluasi Etika Kontekstual untuk LLM Non-Barat

Dimensi Evaluasi Konteks Non-Barat Indikator Kritis Metode Pendekatan
Representasi Sosial Minoritas lokal, kelompok adat Kehadiran kelompok dalam data pelatihan & output model Analisis corpus + FGD lokal
Keadilan Linguistik Bahasa daerah & idiom lokal Penggunaan idiom & variasi bahasa yang inklusif Evaluasi linguistik tematik
Partisipasi Publik Keterlibatan komunitas & masyarakat Keterlibatan dalam desain, pelatihan, dan pengawasan model Audit partisipatif & survei
Transparansi Akses informasi di luar teknokratik Ketersediaan dokumentasi dalam bahasa lokal & akses terbuka Pelaporan publik & lokalisasi

Respons Non-Barat: Inovasi Lokal dan Kedaulatan AI

Negara-negara non-Barat kini semakin termotivasi untuk mengembangkan Model Bahasa Besar nasional. Motivasi ini didorong oleh keinginan untuk menciptakan LLM yang tidak hanya relevan secara kultural tetapi juga menawarkan kedaulatan data, mengurangi risiko ketergantungan geopolitik, dan memitigasi bias sistemik yang diwarisi dari model yang didominasi Barat.

Studi Kasus Tiongkok: Keunggulan Kompetitif dan Efisiensi

Tiongkok telah menunjukkan kemajuan substansial dalam pengembangan LLM yang kompetitif secara global. Perusahaan seperti Alibaba telah merilis model unggulan (Qwen 2.5 Max) yang diklaim secara komprehensif mengungguli kompetitor domestik seperti DeepSeek, dan bahkan model Barat seperti OpenAI GPT-4o, dalam beberapa tes benchmark.

Lebih lanjut, munculnya DeepSeek (diluncurkan 2023) menjadi titik balik. Model open-source ini menarik perhatian global karena kemampuannya yang setara dengan ChatGPT, tetapi dengan biaya pengembangan yang diklaim hanya sebagian kecil dari yang dihabiskan oleh pesaing Barat. Sifat open-source ini memungkinkan pihak lain untuk mempelajari dan menggunakan kodenya, menjadikannya arsitektur yang sangat efisien untuk mencapai kedaulatan AI tanpa harus menanggung biaya pra-pelatihan triliunan token yang dilakukan oleh raksasa teknologi AS.

Studi Kasus Indonesia: Menuju LLM Nasional (Danantara)

Indonesia mengadopsi pendekatan kedaulatan AI yang berbasis pada efisiensi biaya yang diperlihatkan oleh DeepSeek. Sebagai bagian dari dorongan digitalisasi nasional, Indonesia berencana membangun LLM-nya sendiri, meniru model China’s DeepSeek.

Inisiatif LLM nasional Indonesia ini, yang diharapkan diberi nama Danantara (bersamaan dengan peluncuran sovereign wealth fund baru), dirancang untuk mendukung Bahasa Indonesia dan Inggris, memastikan relevansi lokal yang mendalam. Yang krusial, model ini akan dibangun oleh pengembang lokal yang muda dan akan menjadi cost-effective karena didasarkan pada prinsip open-source. Pilihan untuk meniru DeepSeek menunjukkan strategi yang cerdas: memanfaatkan arsitektur open-source yang terbukti kompetitif dan efisien secara biaya, menjadikannya model bagi negara-negara berkembang lainnya untuk mencapai kedaulatan AI tanpa reinvensi teknologi dari nol.

Evaluasi Kinerja dan Metrik Multibahasa

Standardisasi Benchmarking Global

Untuk menilai kemampuan generalisasi lintas bahasa, komunitas riset mengandalkan benchmark standar. XTREME (Cross-lingual TRansfer Evaluation of Multilingual Encoders) adalah benchmark multi-tugas yang penting, mencakup 40 bahasa dan 9 tugas, untuk mengevaluasi kemampuan transfer learning model multibahasa. XTREME menunjukkan bahwa sementara model yang diuji di Inggris mencapai kinerja yang mendekati manusia, masih ada kesenjangan yang signifikan dalam kinerja model yang ditransfer lintas bahasa ke bahasa low-resource. Benchmark lain, seperti FLORES, hanya digunakan untuk menilai kualitas terjemahan, bukan kinerja pada tugas-tugas generatif umum LLM.

Benchmarking ini memberikan wawasan tentang kemampuan transfer learning model. Perbandingan lintas bahasa menyoroti batas kemampuan model untuk kasus penggunaan multibahasa.

Kesenjangan dalam Pengukuran Kualitas Kultural

Meskipun XTREME penting untuk mengukur Cross-lingual Generalization (generalisasi teknis), benchmark yang ada memiliki batasan serius. XTREME adalah kumpulan dataset yang luas, yang membuatnya sulit diinterpretasikan untuk perbandingan lintas bahasa yang mendalam, terutama dalam menilai nuansa kultural atau Cultural Fidelity.

Kinerja yang tinggi pada XTREME tidak menjamin penerimaan atau keadilan kultural di pasar non-Barat. Kesenjangan performa teknis yang disorot oleh XTREME diperburuk oleh bias kultural. Benchmarking saat ini sering gagal mengukur dimensi penting seperti Keadilan Linguistik atau Representasi Sosial minoritas lokal, yang sangat disoroti oleh kerangka evaluasi etika kontekstual. Oleh karena itu, kinerja LLM harus diukur berdasarkan dua dimensi: Cross-lingual Generalization dan Cultural Fidelity.

Kesimpulan

Analisis LLM Generatif Lintas Bahasa mengungkapkan bahwa tantangan utama terbagi dalam tiga bidang: (1) Krisis Data Low-Resource, di mana meskipun inisiatif korpus lokal (Bhinneka Korpus ) dan data sintetik (SAP Prompting ) menawarkan solusi skalabilitas, kedalaman kultural tetap menjadi masalah; (2) Dilema Adaptasi Global, di mana Continual Pretraining (CPT) menghasilkan trade-off performa, meningkatkan pemahaman multibahasa tetapi mengurangi kualitas generasi teks alami karena language mixing ; dan (3) Bias Sistemik Kultural, yang memerlukan kerangka etika kontekstual spesifik non-Barat dan solusi augmentasi budaya yang canggih (CultureLLM ).

Secara geopolitik, terjadi pergeseran signifikan. Munculnya inisiatif AI Generatif lokal di Tiongkok (Qwen, DeepSeek) dan Indonesia (Danantara) menunjukkan model kedaulatan AI yang kompetitif, hemat biaya, dan open-source. Strategi ini memungkinkan pasar non-Barat untuk menyesuaikan teknologi dasar secara lokal dan menerapkan kerangka etika kontekstual yang diperlukan.

Berdasarkan analisis teknis dan etika, disajikan rekomendasi berikut untuk memandu pengembangan LLM yang lebih adil dan efektif di seluruh dunia:

Prioritas pada Kurasi Data Lokal yang Mendalam (Kedalaman Kultural): Perusahaan LLM global dan mitra lokal harus berinvestasi dalam kemitraan akademik-industri untuk menghasilkan dataset berkualitas tinggi dan korpus paralel yang berfokus pada kedalaman kultural, dialek, dan idiom, bukan hanya kuantitas data mentah. Pemanfaatan inisiatif seperti Bhinneka Korpus harus ditingkatkan.

Mengadopsi Arsitektur Hibrida untuk Adaptasi Efisien: Perusahaan global harus menggunakan arsitektur LLM yang secara eksplisit mendukung adaptasi biaya-efektif seperti LoFiT dan PEFT lainnya. Ini adalah kunci untuk mengatasi trade-off kualitas generasi yang dihasilkan oleh strategi data mixing global , memungkinkan model dasar global untuk di-fine-tune secara tepat untuk nuansa lokal tanpa merusak pengetahuan umum.

Investasi dalam Data Sintetik yang Terlokalisasi dan Beretika: Menerapkan teknik generasi data sintetik yang dipandu secara kontekstual (seperti SAP Prompting atau Semantic Augmentation ) adalah cara cepat dan murah untuk mengisi kesenjangan pengetahuan di bahasa low-resource, sambil tetap memastikan data yang dihasilkan setara secara semantik dan bebas bias.

Rekomendasi Etika dan Tata Kelola

Wajibkan Kerangka Evaluasi Kontekstual: Regulator dan pengembang di wilayah non-Barat harus mengadopsi atau mewajibkan kerangka evaluasi etika yang secara eksplisit mempertimbangkan Keadilan Linguistik dan Representasi Sosial minoritas lokal. Hal ini menuntut audit partisipatif yang melibatkan komunitas lokal dalam desain dan pengawasan model.

Mendorong Kedaulatan AI Terbuka: Pemerintah harus mendukung pengembangan dan adopsi LLM lokal, open-source, dan hemat biaya (mengikuti model DeepSeek ). Ini adalah strategi paling efektif untuk menjaga kedaulatan narasi budaya dan mengurangi risiko bias sistemik yang diwarisi dari model yang didominasi bahasa dan budaya Barat.