荀子系列大語言模型

隨著科技的快速發展，人工智慧已深入各個領域。為響應古籍活化利用號召，推動大語言模型與古籍處理深度融合，以古籍智能化的研究為目的，推出了一系列古籍處理領域大語言模型：荀子古籍大語言模型。荀子不僅是先秦時期偉大的樸素唯物主義的思想家，也是一位散文大家。他在語言學理論的闡述上又是一位開拓者、奠基者。荀子系列專為古籍智能處理而設計，這一系列模型的推出將推動古籍研究與保育工作的新發展，並提高中華傳統文化傳承的效率與品質。

本次荀子系列模型開源包含兩個部分：基座模型與對話模型，模型的呼叫方式與阿里雲的Qwen系列大模型一致。

荀子系列模型亮點：

古籍智慧標引，荀子模型具備強大的古籍文獻標引能力，能夠對古籍中的內容進行高品質主題標引，幫助研究人員快速了解文章主題。
古籍資訊抽取，荀子模型能夠自動從古籍中抽取關鍵訊息，如人物、事件、地點等，大大節省了研究人員的資訊整理時間。
詩歌生成：荀子模型也具備詩歌生成的能力，能夠根據給定的主題或關鍵字，自動產生符合文法規則和韻律要求的古詩，為詩詞愛好者提供創作靈感。
古籍高品質翻譯：對於那些難以理解的古籍文獻，荀子模型能夠提供高品質的翻譯服務，幫助研究人員更好地理解原文意義。
閱讀理解：荀子模型能夠對所給的古文文本進行分析解釋，實現古籍文本的自動閱讀。
詞法分析：荀子模型可以完成古籍文本的自動分詞和詞性標註，能夠有效提升語言學工作者的研究效率。
自動標點：荀子大模型可以快速完成古籍文本的斷句和標點，提升研究者以及業餘愛好者對古籍文本的閱讀體驗。

由於我們同時發布了基座模型，使用者也可以根據自己的需求，使用本地的訓練語料微調荀子基座模型，使得其能夠在古籍下游處理任務上取得更佳的處理性能。

宣告：

大語言模型龐大的參數量也帶來了更多的隨機性，雖然我們在訓練資料選取時已經盡可能保證了資料的合規性，但由於資料和模型的複雜性，仍有可能存在一些無法避免的問題。因此，如果由於使用本開源模型而導致的各種問題，包括但不限於資料安全問題、公共輿論風險，或模型被誤導、濫用、傳播或不當利用所帶來的任何風險和問題，我們將不承擔任何責任。

在訓練、使用本模型以及其他生成式模型，請依據相關法律法規，為建立和諧、健康、可持續的生成式人工智慧社群共同努力。因此，如果由於使用本開源模型而導致的任何問題，包括但不限於資料安全問題、公共輿論風險，或模型被誤導、濫用、傳播或不當利用所帶來的任何風險和問題，我們將不承擔任何責任。