设为首页收藏本站

安徽论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 63746|回复: 0

音视频技术开发周刊 83期

[复制链接]

90

主题

533

回帖

1078

积分

金牌会员

Rank: 6Rank: 6

积分
1078
发表于 2022-3-26 10:25:39 | 显示全部楼层 |阅读模式
网站内容均来自网络,本站只提供信息平台,如有侵权请联系删除,谢谢!



   『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第83期内容,祝您阅读愉快。
  




架构


   基于视频流传输 — 在线教育白板技术
  在线教育不同于线下教育, 内容需要经过电子白板展现给用户,如何做出优秀的在线教育白板成为研究的重点。本文来自学而思网校客户端架构负责人赵文杰在LiveVideoStackCon 2018大会上的分享,并由LiveVideoStack整理而成。
  
  基于WebRTC的互动直播实践
  互动直播已经逐渐成为直播的主要形式。映客直播资深音视频工程师叶峰峰在LiveVideoStackCon 2018大会的演讲中详细介绍了INKE自研连麦整体设计思路、如何基于WebRTC搭建互动直播SDK以及针对用户体验进行优化。本文由LiveVideoStack整理而成。
  
  熊谢刚:AI和5G让容联·云通讯弯道超车
  经过5年多的发展,容联·云通讯已经从通讯PaaS服务,演变成为融合通信运营商与互联网音视频能力的通讯云平台。未来,容联·云通讯还要在5G、AI和物联网方面突破。日前,LiveVideoStack对容联·云通讯CPO熊谢刚进行了专访,畅谈了多媒体云服务的未来。
  
  LinkedIn:用数据提高视频性能
  LinkedIn通过在视频播放过程中收集的大量数据,对多种视频指标进行实验以提高视频性能,改善用户体验。本文来自LinkedIn工程博客,LiveVideoStack对文章进行了翻译。
  
  QUIC的那些事 | 帧类型及格式
  QUIC的帧包是基于帧的。帧有1个字节的帧类型字段,类型字段后是与类型相关的帧头信息。所有的帧都被包含在单个的QUIC包中,没有帧可以跨越QUIC包的边界。
  
  移动端IM/推送系统的协议选型:UDP还是TCP?
  从PC时代的IM开始,IM开发者就在为数据传输协议的选型争论不休(比如:《为什么QQ用的是UDP协议而不是TCP协议?》这样的问题,隔一段时间就能在社区里看到)。到了移动互联网时代,鉴于移动网络的不可靠性等特点,再加上手机的省电策略、流量压缩等,为这个问题的回答增了更多的不确定因素。
  

音频/视频技术


   安卓音视频播放-总体架构
  安卓上我们经常会使用MediaPlayer这个类去播放音频和视频,这篇笔记便从MediaPlayer着手,一层层分析安卓的音视频播放框架。
  
  Stanford CS224n 第十二讲:语音处理的端对端模型
  本文是对端到端的语音处理方法的概述,主要内容包括 1.传统的语音识别系统;2. 使用端到端(end-to-end)系统的原因;3. Connectionist Temporal Classification(CTC);4. Listen Attend and Spell(LAS);5. LAS的一些改进方法...
  
  自适应流媒体传输(五)——正确认识码率切换
  在这篇文章中,我们来探讨几个问题:什么时候需要进行码率切换,码率切换的幅度应该怎么设计,以及码率切换会对观众的感知有什么影响。相信大家看完之后会对码率切换有一个更加正确的认识。
  
  利用MediaMuxer从视频中提取视频音频文件和合并视频,音频文件
  前面利用MediaExtractor提取的AAC和H264文件不经过处理没办法播放,这次利用MediaExtractor和MediaMuxer配合提取合并生成可以播放的文件,PS:AAC文件和.H264需要首先利用MediaMuxer生成MP4文件,才能进行合并。
  

编解码


   Android音视频学习: MediaCodec 硬编解码
  MediaCodec 是做硬件(GPU,充分利用GPU 的并行处理能力)编解码的。(通常结合 MediaExtractor、MediaSync、MediaMuxer、MediaCrypto、MediaDrm、Image、Surface、AudioTrack 使用)

  

  FFmpeg视频解码,保存原始YUV数据(使用最新FFmpeg4.1)
  本文基于FFmpeg4.1,FFmpeg视频解码,保存原始YUV数据,没有使用任何弃用的API。
  
  自适应流媒体传输(四)——深入理解MPD
  在这篇文章中,我们从更细节的角度,深入来看一下DASH系统中的MPD结构。
  

AI智能

   6D目标姿态估计,李飞飞夫妇等提出DenseFusion
  根据 RGB-D 图像进行 6D 目标姿态估计的一个主要技术挑战是如何充分利用两个互补数据源——颜色和深度。为此,李飞飞夫妇等研究者提出了 DenseFusion——一种可单独处理两个数据源的异质架构。
  

  Mars 算法实践——人脸识别
  Mars 是一个基于矩阵的统一分布式计算框架,在之前的文章中已经介绍了 Mars 是什么, 以及 Mars 分布式执行 ,而且 Mars 已经在 GitHub 中开源。当你看完 Mars 的介绍可能会问它能做什么,这几乎取决于你想做什么,因为 Mars 作为底层运算库,实现了 numpy 70% 的常用接口。这篇文章将会介绍如何使用 Mars 完成你想做的事情。
  

  一文带你读懂 WaveNet:谷歌助手的声音合成器
  机器合成拟人化语音(文语转换)的想法已经存在很长时间了。在深度学习出现之前,存在两种主流的建立语音合成系统的方式,即波音拼接合成和参数合成。
  

  FaceBoxes—官方开源CPU实时高精度人脸检测器
  FaceBoxes是中科院自动化所在IJCB2017上提出的面向CPU实时的高精度人脸检测算法,论文中指出其比大家所熟知的MTCNN在速度和精度上都更优秀。
  

图像


   旷视等提出GIF2Video:首个深度学习GIF质量提升方法
  本文提出了 GIF2Video,首个基于深度学习提升自然场景下 GIF 成像质量的方法,其主要任务有两个:颜色反量化和帧插值。针对第一个任务,本文给出一个组合性网络架构 CCDNet,并通过综合损失函数训练它,颜色反量化被嵌入于 CCDNet 以指导网络学习和推理。对于第二个任务,本文采用 SuperSlomo 进行变长多帧插值以提升输入 GIF 的时序分辨率。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
免责声明
1. 本论坛所提供的信息均来自网络,本网站只提供平台服务,所有账号发表的言论与本网站无关。
2. 其他单位或个人在使用、转载或引用本文时,必须事先获得该帖子作者和本人的同意。
3. 本帖部分内容转载自其他媒体,但并不代表本人赞同其观点和对其真实性负责。
4. 如有侵权,请立即联系,本网站将及时删除相关内容。
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表