[oeasy]python0115_西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列

本文主要是介绍[oeasy]python0115_西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

各语言字符编码

回忆上次内容

  • 上次回顾了 非ascii的拉丁字符编码的进化过程
    • 0-127 是 ascii 的领域
  • 西欧、北欧语言 大多使用 拉丁字符
    • 由iso组织 制定iso-8859-1

图片描述

  • 北欧原来
    • 不是有自己的卢恩符文系统(Runes)吗?

卢恩文字

  • 曾在下述地区 被真实使用
    • 日德兰半岛
    • 斯堪的纳维亚半岛
    • 不列颠群岛
  • 论文符文 出现在
    • 耶灵石
    • 武器铭文
    • 护身符

图片描述

  • 蓝牙王
    • 统一 挪威、瑞典和丹麦
  • 八字胡王
    • 政府不列颠
  • 克努特大帝
    • 更曾统一北海
  • 为什么 武功赫赫的维京人曾用的 卢恩符文系统
    • 没被留下来 呢?

由来

  • 拉丁字符的基础
    • 罗马帝国的强大
    • 基督教的传播
      • 不列颠和北欧 逐渐都 皈依了基督教

图片描述

  • 圣经
    • 原文翻译成 拉丁文 并得到广泛传播
    • 使用的是 拉丁字符
  • 君士坦丁大帝 对教会很友善
    • 天主教教宗 根在 西罗马帝国梵蒂冈
  • 欧洲 最先搞活字 印圣经的谷腾堡
    • 字体是 日耳曼地区的BlackLetter
      • 被 阿尔卑斯山以南 佛罗伦萨等地居民
      • 嘲笑为哥特风格
        • Goth 今天 也有野蛮的意思

拉丁语

  • 意大利 自有 罗马传统字体

    • Roman正字
    • Italy斜体
  • 虽然 拉丁字符 人人都用

    • 而且 都是 很常用的字体
  • 但是 今天的拉丁语

    • 得加上一个古字
  • 世界上 使用拉丁语的国家 只有梵蒂冈

    • 位于 罗马西北方 高地之上
  • 拉丁语嫡系

    • 意大利语
  • 拉丁语旁系

    • 西班牙语
    • 葡萄牙语
    • 法语

图片描述

  • 西欧、北欧
    • 最后都用 拉丁字符
    • 但 一个字节 也填满了
  • 南欧、东欧
    • 使用 什么字符 呢?

斯拉夫语族

  • 东斯拉夫语支
    • 俄语
    • 乌克兰语
    • 白俄罗斯语
  • 西斯拉夫语支
    • 波兰语
    • 捷克语
    • 斯洛伐克语
    • 索布语
  • 南斯拉夫语支
    • 保加利亚语
    • 斯洛文尼亚语
    • 克罗地亚语
    • 马其顿语
    • 塞尔维亚语
    • 黑山语

图片描述

  • 面积很广
  • 斯拉夫语用什么字符呢?

西里尔字符

  • 斯拉夫语族 西斯拉夫语支
    • 索布语
    • 波兰语
    • 捷克语和斯洛伐克语
    • 以拉丁字母书写

图片描述

  • 斯拉夫语族 东斯拉夫语支
    • 俄罗斯语
    • 乌克兰语
    • 卢森尼亚语
    • 白俄罗斯语
    • 保加利亚语
    • 塞尔维亚语
    • 马其顿语等
  • 当地人平常就说这些话
    • 但是想要写下来
      • 就得用书写系统了
    • 使用西里尔字符
  • 什么是西里尔字符呢?

修典

  • 君士坦丁大帝 迁都君士坦丁堡 后
    • 政治中心和宗教中心 分离
    • 最终 东西罗马帝国 分家

图片描述

  • 东罗马

    • 向 斯拉夫语区传教
      • 派出传教士
  • 当地人

    • 愿意接受宗教文化影响
    • 但担心政治上的影响
    • 需要找到 拉丁字符之外的字符
    • 保持相对独立性

西里尔兄弟

  • 康斯坦丁(后称为西里尔)和美多德兄弟
    • 出生于希腊
    • 接收 东罗马帝国皇帝的指派
      • 在 斯拉夫语地区传教

图片描述

  • 在保加利亚 创建了西里尔字母cyrilice
    • 结合 当地的习惯
    • 撰写了 大摩拉维亚的法典
  • 后来 布道录《基辅文献》 和《布拉格片段》
    • 使用西里尔字符
    • 在 斯拉夫语地区 广泛传播
      • 为 当地民族文学 及 民间的宗教创作
        • 营造了前提
  • 拉丁字符 和 西里尔字符 越走越远
    • 东正教 最终与基督教 分道扬镳

三种字符比较

  • 古希腊的雕塑、哲学、医学等文化
    • 进入了罗马文明
  • 马其顿王国 被罗马帝国征服后
    • 希腊半岛的军事力量
      • 臣服于 意大利半岛

图片描述

  • 西里尔文字 收到 希腊文字影响
    • 文化 也受到 罗马、希腊文化影响

汉语拼音

  • 当时 前苏联 是我国老大哥
    • 就连 外语学的 都是俄语
    • 也曾计划 用西里尔字母 作为汉语拼音字母

图片描述

  • 后来 中苏关系紧张
    • 西里尔拼音方案 搁浅
    • 最后 将拉丁字符 定为 汉语拼音 字符
  • 这 西里尔字符
    • 应该如何编码呢?

总结

  • 罗马帝国 分成了东西罗马
    • 核心的位置 是 Christ 标志
      • xp
      • 后来发展成为了十字架

图片描述

  • 这个 西里尔字符

    • 应该 如何编码呢?🤔
  • 我们下次再说!👋

  • 蓝桥->https://www.lanqiao.cn/courses/3584

  • github->https://github.com/overmind1980/oeasy-python-tutorial

  • gitee->https://gitee.com/overmind1980/oeasypython

这篇关于[oeasy]python0115_西里尔字符集_Cyrillic_俄文字符编码_KOI_8859系列的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/222790

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

C++ | Leetcode C++题解之第393题UTF-8编码验证

题目: 题解: class Solution {public:static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num &

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

form表单提交编码的问题

浏览器在form提交后,会生成一个HTTP的头部信息"content-type",标准规定其形式为Content-type: application/x-www-form-urlencoded; charset=UTF-8        那么我们如果需要修改编码,不使用默认的,那么可以如下这样操作修改编码,来满足需求: hmtl代码:   <meta http-equiv="Conte

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

Java基础回顾系列-第七天-高级编程之IO

Java基础回顾系列-第七天-高级编程之IO 文件操作字节流与字符流OutputStream字节输出流FileOutputStream InputStream字节输入流FileInputStream Writer字符输出流FileWriter Reader字符输入流字节流与字符流的区别转换流InputStreamReaderOutputStreamWriter 文件复制 字符编码内存操作流(

Java基础回顾系列-第五天-高级编程之API类库

Java基础回顾系列-第五天-高级编程之API类库 Java基础类库StringBufferStringBuilderStringCharSequence接口AutoCloseable接口RuntimeSystemCleaner对象克隆 数字操作类Math数学计算类Random随机数生成类BigInteger/BigDecimal大数字操作类 日期操作类DateSimpleDateForma