对OpenTelemetry
的概念有初步了解后,我们接着以Jaeger
为例来演示如何在程序中使用实现链路追踪。
Jaeger
Jaeger\ˈyā-gər\ 是Uber开源的分布式追踪系统,是支持OpenTelemetry
的系统之一,也是CNCF
项目。本篇将使用Jaeger
来演示如何在系统中引入分布式追踪。以下是Opentracing+Jaeger
的架构图,针对于使用OpenTelemetry
也是如此。
准备工作
Jaeger
提供了all-in-one
镜像,方便我们快速开始测试:
docker run -d --name jaeger \
-e COLLECTOR_ZIPKIN_HTTP_PORT=9411 \
-p 5775:5775/udp \
-p 6831:6831/udp \
-p 6832:6832/udp \
-p 5778:5778 \
-p 16686:16686 \
-p 14268:14268 \
-p 9411:9411 \
jaegertracing/all-in-one:1.14
如果docker
镜像拉取太慢,您可以尝试修改docker
拉取站点的镜像地址,例如:http://mirrors.ustc.edu.cn/help/dockerhub.html?highlight=docker
镜像启动后,通过 http://localhost:16686 可以打开Jaeger UI
。
下载客户端library
,便于后续代码开发:
go get github.com/jaegertracing/jaeger-client-go
示例仓库地址
我们的示例代码托管到了github
上,地址为:https://github.com/gogf/gf-tracing
下载到本地:
git clone https://github.com/gogf/gf-tracing
我们随后的示例介绍都将以此仓库代码为准。
单进程链路跟踪
单进程的链路跟踪即进程内方法之间的调用链关系。这种场景的跟踪没有涉及到分布式跟踪,比较简单,以该示例作为我们入门的一个例子吧。示例代码地址:https://github.com/gogf/gf-tracing/tree/master/examples/inprocess
TracerProvider
初始化Jaeger tracer
:
package tracing
import (
"go.opentelemetry.io/otel/exporters/trace/jaeger"
"go.opentelemetry.io/otel/sdk/trace"
"strings"
)
// InitJaeger initializes and registers jaeger to global TracerProvider.
//
// The output parameter `flush` is used for waiting exported trace spans to be uploaded,
// which is useful if your program is ending and you do not want to lose recent spans.
func InitJaeger(serviceName, endpoint string) (flush func(), err error) {
var endpointOption jaeger.EndpointOption
if strings.HasPrefix(endpoint, "http") {
// HTTP.
endpointOption = jaeger.WithCollectorEndpoint(endpoint)
} else {
// UDP.
endpointOption = jaeger.WithAgentEndpoint(endpoint)
}
return jaeger.InstallNewPipeline(
endpointOption,
jaeger.WithProcess(jaeger.Process{
ServiceName: serviceName,
}),
jaeger.WithSDK(&trace.Config{
DefaultSampler: trace.AlwaysSample(),
}),
)
}
Root Span
root span
即链路中第一个span
对象。在这里的单进程场景中,往往需要手动创建一个。随后在方法内部创建的span
都会作为它的子级span
。
在分布式架构的服务间通信场景中,往往不需要开发者手动创建root span
,而是由客户端/服务端请求的拦截器来自动创建。
创建tracer
,生成root span
:
func main() {
flush, err := tracing.InitJaeger(ServiceName, JaegerUdpEndpoint)
if err != nil {
g.Log().Fatal(err)
}
defer flush()
ctx, span := gtrace.NewSpan(context.Background(), "main")
defer span.End()
user1 := GetUser(ctx, 1)
g.Dump(user1)
user100 := GetUser(ctx, 100)
g.Dump(user100)
}
上述代码创建了一个root span
,并将该span
通过context
传递给GetUser
方法,以便在GetUser
方法中将追踪链继续延续下去。
方法间Span创建
// GetUser retrieves and returns hard coded user data for demonstration.
func GetUser(ctx context.Context, id int) g.Map {
ctx, span := gtrace.NewSpan(ctx, "GetUser")
defer span.End()
m := g.Map{}
gutil.MapMerge(
m,
GetInfo(ctx, id),
GetDetail(ctx, id),
GetScores(ctx, id),
)
return m
}
// GetInfo retrieves and returns hard coded user info for demonstration.
func GetInfo(ctx context.Context, id int) g.Map {
ctx, span := gtrace.NewSpan(ctx, "GetInfo")
defer span.End()
if id == 100 {
return g.Map{
"id": 100,
"name": "john",
"gender": 1,
}
}
return nil
}
// GetDetail retrieves and returns hard coded user detail for demonstration.
func GetDetail(ctx context.Context, id int) g.Map {
ctx, span := gtrace.NewSpan(ctx, "GetDetail")
defer span.End()
if id == 100 {
return g.Map{
"site": "https://goframe.org",
"email": "john@goframe.org",
}
}
return nil
}
// GetScores retrieves and returns hard coded user scores for demonstration.
func GetScores(ctx context.Context, id int) g.Map {
ctx, span := gtrace.NewSpan(ctx, "GetScores")
defer span.End()
if id == 100 {
return g.Map{
"math": 100,
"english": 60,
"chinese": 50,
}
}
return nil
}
该示例代码展示了多层级方法间的链路信息传递,即是把ctx
上下文变量作为第一个方法参数传递即可。在方法内部,我们通过的固定语法来创建/开始一个Span
:
ctx, span := gtrace.NewSpan(ctx, "xxx")
defer span.End()
并通过defer
的方式调用span.End
来结束一个Span
,这样可以很好地记录Span
生命周期(开始和结束)信息,这些信息都将会展示到链路跟踪系统中。其中gtrace.NewSpan
方法的第二个参数spanName
我们直接给定方法的名称即可,这样在链路展示中比较有识别性。
效果查看
执行完上面的程序后,终端输出:
打开Jaeger UI
: http://localhost:16686/search,可以看到链路追踪的结果:
点击详情可以查看具体信息,包括span
的调用顺序、调用关系,执行时间轴,以及记录一些Attributes和Events
信息,极大的方便我们定位系统中的异常和发现性能瓶颈。:
其中的tracing-inprocess
是我们tracer
的名称,该名称往往是服务名称,由于我们这里只有一个进程和一个tracer
,因此这里只看得到一个服务名称。其中的main
为我们创建的root span
名称,其他的span
为基于该root span
创建的子级span
。由于我们在程序中调用了两次GetUser
方法,因此这里也展示了两次GetUser
方法的调用。每一次GetUser
调用的内部又分别去调用了GetIndo、GetDetail、GetScores
三个方法,方法间的调用层级关系展示得非常清晰明了,并且每个方法的调用时长都可以看得到。
关于其中每个span
记录的Tags
和Process
信息其实对应了OpenTelemetry
中的Attributes
和Events
信息,这些信息我们放到后续章节去详细介绍。
Content Menu