互联网时代的文学复兴:中文诗词大数据分析 | 开源日报 No.170

本文主要是介绍互联网时代的文学复兴:中文诗词大数据分析 | 开源日报 No.170,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

picture

chinese-poetry/chinese-poetry

Stars: 45.4k License: MIT

picture

最全的中文诗歌古典文集数据库,包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。数据来源于互联网。该开源项目旨在通过 JSON 格式分发,方便用户开始自己的项目,并借助技术生成格式化 (JSON) 数据来构建诗词类应用程序。案例展示了一些基于该仓库创建的相关应用。

  • 数据集丰富
  • 古代中国各种经典作品齐全
  • 提供高频次分析图等功能
  • 开放给用户参与贡献

citra-emu/citra

Stars: 8.8k License: GPL-2.0

Citra 是世界上最受欢迎的开源任天堂 3DS 模拟器。该项目使用 C++ 编写,注重可移植性,并积极维护适用于 Windows、Linux、Android 和 macOS 的版本。

以下是 Citra 项目的关键特性和核心优势:

  • 兼容性:该模拟器能够以全速运行大多数商业游戏,前提是您满足必要的硬件需求。
  • 多平台支持:Citra 提供了针对不同操作系统 (Windows、Linux、Android 和 macOS) 的构建版本,方便用户在各种设备上体验游戏。
  • 持续更新与发展:团队定期发布新功能和进度报告,在 GitHub 上进行活跃地开发讨论,并通过 Discord 群组为贡献者们提供交流机会。
  • 易于安装和使用:可以从官网下载并安装 Nightly 或 Canary 版本;此外还有 Android 版本可在 Google Play 商店中获取。同时也提供 Flatpak 构建来简化部署过程。

e2b-dev/E2B

Stars: 5.6k License: Apache-2.0

这个项目是一个为 AI 应用程序和代理人提供的安全沙盒云环境,允许它们长时间运行。E2B Sandbox 可以连接到任何 LLM 和任何 AI 代理或应用程序,并且具有以下主要功能:

  • 可以使用与人类相同的工具
  • 具有云浏览器、GitHub 存储库和命令行界面等功能
  • 支持编码工具如代码检查、自动补全、“跳转至定义”
  • 能够运行由 LLM 生成的代码

该项目包含 Python SDK、JS SDK、CLI 以及文档等内容。

hemansnation/God-Level-Data-Science-ML-Full-Stack

Stars: 3.4k License: NOASSERTION

这个项目是一个数据科学和机器学习全栈的集合,包括了科学方法、流程、算法和系统来构建故事与模型。主要功能包括 Python 编程逻辑搭建、数据结构与算法以及 Git & GitHub 等内容。该项目的核心优势和特点有:

  • 包含 16 章节的路线图,涵盖从新手到经验专业人士转向数据科学与 AI 所需的知识;
  • 提供丰富资源库,并使用多种技术栈如 Python,NumPy,Pandas,Matplotlib 等工具进行实践;
  • 重点介绍了各阶段需要掌握的关键概念和技能,例如统计分析、机器学习算法应用以及自然语言处理等。

ricklamers/gpt-code-ui

Stars: 3.3k License: MIT

picture

这个项目是 OpenAI 的 ChatGPT 代码解释器的开源实现。用户可以简单地向 OpenAI 模型提出要求,它将为您生成并执行代码。该项目具有以下主要功能和核心优势:

  • 文件上传
  • 文件下载
  • 上下文感知 (可以参考先前的消息)
  • 生成代码
  • 运行代码 (Python 内核)
  • 模型切换 (GPT-3.5 和 GPT -4)

这篇关于互联网时代的文学复兴:中文诗词大数据分析 | 开源日报 No.170的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/713736

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

安全管理体系化的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作,就可以实现全视频的接入及布控。摄像头管理模块用于多种终端设备、智能设备的接入及管理。平台支持包括摄像头等终端感知设备接入,为整个平台提

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

vscode中文乱码问题,注释,终端,调试乱码一劳永逸版

忘记咋回事突然出现了乱码问题,很多方法都试了,注释乱码解决了,终端又乱码,调试窗口也乱码,最后经过本人不懈努力,终于全部解决了,现在分享给大家我的方法。 乱码的原因是各个地方用的编码格式不统一,所以把他们设成统一的utf8. 1.电脑的编码格式 开始-设置-时间和语言-语言和区域 管理语言设置-更改系统区域设置-勾选Bata版:使用utf8-确定-然后按指示重启 2.vscode

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

HomeBank:开源免费的个人财务管理软件

在个人财务管理领域,找到一个既免费又开源的解决方案并非易事。HomeBank 正是这样一个项目,它不仅提供了强大的功能,还拥有一个活跃的社区,不断推动其发展和完善。 开源免费:HomeBank 是一个完全开源的项目,用户可以自由地使用、修改和分发。用户友好的界面:提供直观的图形用户界面,使得非技术用户也能轻松上手。数据导入支持:支持从 Quicken、Microsoft Money

开源分布式数据库中间件

转自:https://www.csdn.net/article/2015-07-16/2825228 MyCat:开源分布式数据库中间件 为什么需要MyCat? 虽然云计算时代,传统数据库存在着先天性的弊端,但是NoSQL数据库又无法将其替代。如果传统数据易于扩展,可切分,就可以避免单机(单库)的性能缺陷。 MyCat的目标就是:低成本地将现有的单机数据库和应用平滑迁移到“云”端

内卷时代无人机培训机构如何做大做强

在当今社会,随着科技的飞速发展,“内卷”一词频繁被提及,反映了各行业竞争日益激烈的现象。对于无人机培训行业而言,如何在这样的时代背景下脱颖而出,实现做大做强的目标,成为每个培训机构必须深思的问题。以下是从八个关键方面提出的策略,旨在帮助无人机培训机构在内卷时代中稳步前行。 1. 精准定位市场需求 深入研究市场:通过市场调研,了解无人机行业的最新趋势、政策导向及未来发展方向。 明确目标