马来西亚机器:这家人工智能初创公司正在将当地风味融入大型语言模型

发布号 13 2025-09-26 14:31:54

OpenAI的GPT模型(包括著名的ChatGPT)以及meta的LLaMa和谷歌的PaLM等知名公司都在大型语言模型(LLM)领域取得了自己的成就,但这并不能完全描述马来西亚的人工智能(AI)领域。

自去年人工智能蓬勃发展以来,世界似乎陷入了一场军备竞赛,以开发越来越复杂的模型,马来西亚也不例外。

例如,Mesolitica是一家当地创业公司,专门从事狭义人工智能(专注于单一特定任务的机器学习)的创建和法学硕士的培训,已经将其中一些作为开源项目发布。

这家初创公司的联合创始人兼首席技术官侯赛因·佐克普利(Husein Zolkepli)表示,他们的目标是打造一个能够完全用马来语进行互动的模型。

“我们想要一个人工智能模型来捕捉马来西亚人的背景;许多现有的模型没有抓取足够的本地上下文数据。

“当涉及到当前事件或其他他们没有受过训练的话题时,ChatGPT Plus和必应聊天依赖于索引搜索引擎结果,他们会在提供回应之前重新措辞。

他说:“这些默认情况下不会嵌入到模型中。”他补充说,Mesolitica的人工智能模型专注于包括上下文细节,包括来自当地论坛、新闻门户和社交媒体帖子的数据,这些数据在培训过程中使用过。

根据Mesolitica Github页面,截至11月21日,该数据库已累计240GB的文本。

Khalil (left) and Husein formed Mesolitica to create generative AI capable of interacting entirely in local languages. — YAP CHEE HONG/The Star

目前发布的这个模型能够理解当地的细微差别,比如俚语、蒙古语和英语,以及普通话和泰米尔语。

“另一个问题是隐私。当你向ChatGPT或必应聊天发出请求时,所有内容都会传到他们的服务器上。

“但有了像我们这样的开源模式,任何用户都可以在本地机器上托管自己的软件,拥有自己的一套预期目标、想法、规则和实践。

Husein说:“这一切都是为了保持事物的分散化,而不是依赖于像OpenAI这样的特定公司来保持事物的运行。”

Mesolitica的首席执行官兼联合创始人哈利勒?努(Khalil Nooh)注意到,当地商业领域对这类法学硕士的需求正在上升。

“从商业角度来看,公司会说他们想要自己的人工智能,他们想要用自己的私人数据集跟上潮流,训练自己的法学硕士。

他说:“通常情况下,这将适用于像ChatGPT这样的客服聊天机器人,它可以根据公司的数据回答用户的问题。”

展望未来,他们可能会探索法学硕士的其他可能性,这些法学硕士涉及可以构建在基本模型之上的基于文本的任务。

“我们已经对我们的模特进行了几轮培训,以融入马来西亚的环境。所有的东西都是开源的。就我而言,我可以自信地说,我们有一个100%的替代GPT。

“这很有价值,因为向OpenAI等外部公司提供数据可能存在合规或隐私问题。他们可能想要特定的功能或想要执行的想法。

他说:“任何人都可以下载存储库,用自己的数据和自己的团队在此基础上进行构建,这使得规模较小的公司可以负担得起,但如果他们需要我们的专业知识,他们可以直接找我们。”

有限公司nflicting担忧

大多数法学硕士都从论坛、社交媒体以及当地新闻平台上搜集当地的培训评论。

这些数据可能与当地政治和投资(如加密货币和股票市场)有关。

根据商业和技术律师Edwin Lee的说法,这种做法目前在某种程度上处于法律的灰色地带。Lee是Lee & Poh Partnership的创始人之一,并担任副管理合伙人。

Lee says that when it comes to AI, a balance needs to be struck between regulation and accessibility. — Edwin Lee

“使用抓取内容进行人工智能培训的合法性,特别是在马来西亚,取决于现有版权法的适用,这些版权法最初可能不是为了解决数字内容和人工智能带来的独特挑战而设计的。

“没有任何专门针对人工智能的判例法,因为这还没有在法庭上进行过测试。

“从我作为技术律师的角度来看,我只能说,在我们看到法庭上的诉讼,看看法官和立法者如何回应之前,这是一个灰色地带,”他补充道。

李还指出,科学技术创新部正在考虑对国内的人工智能应用进行监管。这包括在征求技术专家、法律专业人士、利益相关者和公众意见的基础上制定法案。

“马来西亚目前的法律环境还没有完全准备好应对人工智能培训带来的具体挑战。

“缺乏具体监管可能导致知识产权和隐私方面的模糊性和潜在冲突。

“因此,迫切需要制定专门针对人工智能培训的法规。

他说:“目标应该是建立一个法律框架,不仅保护个人和组织的权利,而且为负责任和道德的人工智能开发提供明确的指导方针。”

然而,那些积极参与人工智能培训的人,如侯赛因,希望监管很少或没有,因为他们担心任何形式的控制都可能阻碍他们进一步发展这项技术的能力。

“像我这样的技术人员希望尽可能地推动事情的发展。我只是希望技术能够实现。

他表示:“我只是希望它保持目前的开放状态,尽管存在担忧,但监管最少。”他认为,利用网上可用的内容培训法学硕士,类似于谷歌(Google)的搜索机器人如何在互联网上爬行,为搜索结果编制索引。

另一方面,Khalil提出了OpenAI在培训法学硕士时所做的同样事情的比较,他的公司现在正在效仿。

“一旦法律框架得到更新,我们就必须适应,但现在,我们正在突破界限。否则,我们将无法创造出适合马来西亚环境的东西。

“我们所做的一切都是模仿和自动化人类的浏览体验,所以除非有一个明确的人工智能指导方针,告诉我们什么能做,什么不能做,否则我们不会改变我们做事的方式。技术正在快速发展,法律方面也在迎头赶上,”哈利勒说。

另一个潜在的问题是,大型科技公司为他们托管的人工智能模型设定了规则,即所谓的人工智能对齐,但运行开源模型的用户可以选择不设置任何条件。

哈利勒承认,拥有这样的自由可能是一把双刃剑,他说:“制造假新闻很容易;你所需要做的就是提示它输入你想要的特定类型的文本,人工智能模型就会生成它。

“另一个方面是提高网络钓鱼诈骗的水平。你可以很容易地拨打自动语音电话,用可用的工具克隆亲戚的声音。

他说:“这是关于我们如何权衡保持开源的利弊,而不是把一切都交给大型科技公司,让一切都受到监管。”

OpenAI has said that it would fund the legal fees of its users who get sued over copyright infringement. Other tech companies have made similar announcements. — AFP Relaxnews

尽管这项技术带来了潜在的兔子洞,但哈利勒认为,在开放的环境中进一步发展是一条路。

“就我个人而言,我很担心,但回到我们的动机,那就是继续走在前沿。

“开源的理念是让更多的好人来对抗坏人,”Khalil说。

平衡

法律方面的问题一直是人们关注的焦点,OpenAI表示,它将资助因侵犯版权而被起诉的用户的法律费用。其他科技公司也发表了类似的声明。

版权所有者也在抵制这种做法,CNN、路透社(Reuters)、BBC和《纽约时报》(New York Times)等新闻行业的出版物开始阻止对其内容的抓取。

小说家和非小说类作家团体已经开始与OpenAI就未经授权使用其知识产权进行人工智能培训展开法律斗争。

李开元表示,此举凸显了人工智能培训和内容使用方面存在的法律不确定性。

“通过限制访问,这些媒体本质上是在呼吁对人工智能中的内容使用采取更结构化的法律方法,即尊重版权并补偿内容创作者。

“虽然这可能会限制人工智能培训可用数据的范围,但它也强调了人工智能技术需要在符合法律和道德的框架内发展,”李说。

This illustration picture shows icons of Google's AI (Artificial Intelligence) app BardAI (or ChatBot) (centre left), OpenAI's app ChatGPT (centre right) and other AI apps on a smartphone screen. — AFP

相反,美联社(Associated Press)则与OpenAI就其新闻报道档案达成了许可协议。

李开复说,新闻媒体和人工智能公司之间的合作协议为在人工智能培训中合法和互利地使用内容提供了一个模式。

“这些合作伙伴关系尊重内容创作者的知识产权,同时允许人工智能公司访问高质量、多样化的数据集。

“这些协议可以作为未来合作的模板,展示人工智能开发如何以合法且尊重版权的方式进行。

他表示:“这些合作伙伴关系还为内容创作者提供了一种机制,使他们能够控制自己的内容如何被使用,并有可能从人工智能的进步中受益。”

然而,像哈利勒和侯赛因这样利用法学硕士学位的人有不同的看法。

“这是一个在美国一直在进行的争论——他们的想法是,他们想强迫人工智能开发者获得内容许可。

“问题是,这将阻止像我们这样的初创公司,开源爱好者,甚至只是为了好玩而玩AI的业余爱好者进入这个领域。

“它将控制权从开源社区手中夺走,并将其交给能够负担得起此类许可的大公司,这可能确实会扼杀该领域的创新。

Khalil说道:“并不是所有的初创公司都拥有足够的资金去授权某些内容,这与主流玩家不同,更不用说那些被高价排挤的普通爱好者了。”

他补充说,开源社区允许用户在彼此的工作基础上进行构建,如果没有它,在没有大量资金支持的情况下,创新将面临重大障碍。

哈利勒分享说,他和侯赛因训练了一个人工智能语音模型,并将其开源发布,后来发现它集成到了其他用户发布的另一个单独的模型中。

“看到我们的研究成果被用于推动技术领域的发展,我感到很满意。如果开源受到影响,那么人们可以从社区中获取和构建的许多东西也将受到影响。

“但我们确实认识到,一旦监管介入,我们将不得不进行调整,”他表示。

李开复认为,为了对人工智能的现状达成一个令人满意的解决方案,需要在监管和可访问性之间取得平衡。

虽然监管对于确保人工智能的法律和道德合规至关重要,但人们有理由担心,过于严格的规则可能会阻碍创新。

“从内容所有者的角度来看,阻止人工智能公司使用其内容的决定是一种保护其知识产权的防御性法律策略。

In an open letter, the US Authors Guild writes that 'Millions of copyrighted books, articles, essays, and poetry provide the 'food' for AI systems, endless meals for which there has been no bill'. — dpa

“另一方面,人工智能公司渴望数据,因为他们需要数据来培训法学硕士,所以从这个角度来看,人工智能公司会说这是不公平的。

“关键是制定法规,为人工智能开发人员提供明确的指导方针和法律确定性,同时保持足够的灵活性,以适应快速的技术进步。

“这就是法律需要介入的地方——在中间,但挑战在于创造一个既不会扼杀创新,又能维护道德和法律标准的监管环境。

“这涉及监管机构和科技界之间的持续对话,以确保监管保持相关性和有效性,”李说。

上一篇:议会更新:暴风雨的冬季会议上的纸牌,人民党可能提出麻花伦理小组问题
下一篇:阿富汗地震后,人道主义援助面临问题
相关文章

 发表评论

暂时没有评论,来抢沙发吧~